CN112417447B - 一种恶意代码分类结果的精确度验证方法及装置 - Google Patents

一种恶意代码分类结果的精确度验证方法及装置 Download PDF

Info

Publication number
CN112417447B
CN112417447B CN202011256849.7A CN202011256849A CN112417447B CN 112417447 B CN112417447 B CN 112417447B CN 202011256849 A CN202011256849 A CN 202011256849A CN 112417447 B CN112417447 B CN 112417447B
Authority
CN
China
Prior art keywords
codes
deep learning
binary
malicious
learning network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011256849.7A
Other languages
English (en)
Other versions
CN112417447A (zh
Inventor
侯健
陈浩
张依漪
王佳佳
王凤敏
王立霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jinghang Computing Communication Research Institute
Original Assignee
Beijing Jinghang Computing Communication Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jinghang Computing Communication Research Institute filed Critical Beijing Jinghang Computing Communication Research Institute
Priority to CN202011256849.7A priority Critical patent/CN112417447B/zh
Publication of CN112417447A publication Critical patent/CN112417447A/zh
Application granted granted Critical
Publication of CN112417447B publication Critical patent/CN112417447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Virology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种恶意代码分类结果的精确度验证方法及装置,属于信息安全技术领域,解决了现有的恶意代码分类方法耗费时间和资源且效率较低的问题。方法包括:获取包含恶意代码的原始文件,并基于原始文件建立样本数据集;构建深度学习网络模型,并基于样本数据集对深度学习网络模型进行训练,得到深度学习网络模型的最优网络结构;基于深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类,得到恶意代码的分类结果,并验证恶意代码分类结果的精确度,实现了恶意代码的分类和对分类结果的精确度验证,提高了恶意代码的分类效率及可靠性。

Description

一种恶意代码分类结果的精确度验证方法及装置
技术领域
本发明涉及信息安全技术领域,尤其涉及一种恶意代码分类结果的精确度验证方法及装置。
背景技术
随着互联网的快速发展,计算机软件的安全问题已经提高到国家安全的战略角度。建立安全可信的计算机软件系统成为维护计算机信息安全的一种有效手段,对于恶意代码的检测成为软件可信性分析的一个核心研究方向。
目前,针对恶意代码的分类,传统机器学习模型在特征提取阶段往往需要人工设计和参与,这需要完备的先验知识,并且不能从数据本质出发提取恶意代码区分度较大的特征,在一定程度上影响了恶意代码的分类精确率;另外,该方法需要较为复杂、耗费时间且浪费资源。因此,在当下海量恶意代码背景下,传统的恶意代码分类方法已经不能满足恶意代码分类高效性要求了。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种恶意代码分类结果的精确度验证方法及装置,用以解决现有的恶意代码分类方法耗费时间和资源且效率较低的问题。
一方面,本发明实施例提供了一种恶意代码分类结果的精确度验证方法,包括下述步骤:
获取包含恶意代码的原始文件,并基于所述原始文件建立样本数据集;
构建深度学习网络模型,并基于所述样本数据集对深度学习网络模型进行训练,得到深度学习网络模型的最优网络结构;
基于所述深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类,得到恶意代码的分类结果,并验证所述恶意代码分类结果的精确度。
进一步,获取包含恶意代码的原始文件,并基于所述原始文件建立样本数据集,包括下述步骤:
基于所述包含恶意代码的原始文件,得到指定序列长度的二进制代码;
对所述指定序列长度的二进制代码进行预处理,得到二进制文件列表;
为所述二进制文件列表中的每个恶意代码添加标签,得到样本数据集。
进一步,所述恶意代码的标签包括Ramnit、Lollipop、Kelihos_ver3、Vundo、Simda、Tracur、Kelihos_ver1、Obfuscator.ACY和Gatak。
进一步,所述深度学习网络模型包括卷积神经网络和长短期记忆网络,其中,所述卷积神经网络包括依次连接的卷积层、池化层、全连接层、归一化层和第一输出层;
所述长短期记忆网络包括正向LSTM层、反向LSTM层和第二输出层,其中,所述第二输出层用于将所述正向LSTM层的输出特征与反向LSTM层的输出特征进行拼接并输出。
进一步,基于所述样本数据集对深度学习网络模型进行训练,得到深度学习网络模型的最优网络结构,包括下述步骤:
将所述样本数据集划分为训练数据集和验证数据集;
将所述训练数据集输入深度学习网络模型进行训练,得到训练好的深度学习网络;
基于所述验证数据集对训练好的深度学习网络进行验证,得到深度学习网络模型的最优网络结构。
进一步,基于所述深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类,得到恶意代码的分类结果,并验证所述恶意代码分类结果的精确度,包括下述步骤:
将所述包含恶意代码的待预测原始文件输入深度学习网络模型的最优网络结构,得到恶意代码的分类结果和预测结果;
基于所述预测结果计算精确率和召回率;
基于所述精确率和召回率得到分类结果对应的F1分数,其中,所述F1分数越大,则恶意代码分类结果的精确度越高。
另一方面,本发明实施例提供了一种恶意代码分类结果的精确度验证装置,包括:
样本数据集构建模块,用于获取包含恶意代码的原始文件,并基于所述原始文件建立样本数据集;
模型训练模块,用于构建深度学习网络模型,并基于所述样本数据集对深度学习网络模型进行训练,得到深度学习网络模型的最优网络结构;
分类结果的精确度验证模块,用于根据所述深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类,得到恶意代码的分类结果,并验证所述恶意代码分类结果的精确度。
进一步,所述样本数据集构建模块用于:
基于所述包含恶意代码的原始文件,得到指定序列长度的二进制代码;
对所述指定序列长度的二进制代码进行预处理,得到二进制代码文件列表;
为所述二进制代码文件列表中的每个恶意代码添加标签,得到样本数据集。
进一步,所述恶意代码的标签包括Ramnit、Lollipop、Kelihos_ver3、Vundo、Simda、Tracur、Kelihos_ver1、Obfuscator.ACY和Gatak。
进一步,所述深度学习网络模型包括卷积神经网络和长短期记忆网络,其中,所述卷积神经网络包括依次连接的卷积层、池化层、全连接层、归一化层和第一输出层;
所述长短期记忆网络包括正向LSTM层、反向LSTM层和第二输出层,其中,所述第二输出层用于将所述正向LSTM层的输出特征与反向LSTM层的输出特征进行拼接并输出。
与现有技术相比,本发明至少可实现如下有益效果之一:
1、一种恶意代码分类结果的精确度验证方法,通过建立样本数据集,并利用样本数据集对深度学习网络模型进行训练,得到深度学习网络模型的最优网络结构,最后将包含恶意代码的待预测原始文件输入最优网络结构进行分类,得到恶意代码的分类结果,并通过计算F1分数验证恶意代码分类结果的精确度,简单易行、易于实施,提高了恶意代码的分类效率和可靠性,具有较高的实用价值。
2、采用类别均衡采样法对指定序列长度的二进制代码进行预处理,得到二进制文件列表,并为二进制文件列表中的每个恶意代码添加标签,恶意代码与其对应的标签构成了样本数据集,为后期深度学习网络模型的训练提供了数据支撑和依据。
3、通过构建深度学习网络模型,并利用训练数据集对深度学习网络模型进行训练,得到训练好的深度学习网络,并利用验证数据集对训练好的深度学习网络进行训练,得到深度学习网络模型的最优网络结构,为后期对待预测原始文件中的恶意代码分类提供了基础,且能够提高恶意代码分类的精度。
4、基于深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类,同时得到恶意代码的分类结果和预测结果,并基于预测结果计算精确率和召回率,最终得到F1分数,基于F1分数验证恶意代码分类结果的精确度,具有较高的实用性。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为一个实施例中恶意代码分类结果的精确度验证方法流程图;
图2为一个实施例中深度学习网络模型结构示意图;
图3为另一个实施例中恶意代码分类结果的精确度验证装置结构图;
附图标记:
100-样本数据集构建模块,200-模型训练模块,300-分类结果的精确度验证模块。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
目前,针对恶意代码的分类,传统机器学习模型在特征提取阶段往往需要人工设计和参与,这需要完备的先验知识,并且不能从数据本质出发提取恶意代码区分度较大的特征,在一定程度上影响了恶意代码的分类精确率;另外,该方法需要较为复杂、耗费时间且浪费资源。因此,在当下海量恶意代码背景下,传统的恶意代码分类方法已经不能满足恶意代码分类高效性要求了。为此,本申请提出了一种恶意代码分类结果的精确度验证方法及装置,通过建立样本数据集,并利用样本数据集对深度学习网络模型进行训练,得到深度学习网络模型的最优网络结构,最后将包含恶意代码的待预测原始文件输入最优网络结构进行分类,得到恶意代码的分类结果,并通过计算F1分数验证恶意代码分类结果的精确度,简单易行、易于实施,提高了恶意代码的分类效率,具有较高的实用价值。
本发明的一个具体实施例,公开了一种恶意代码分类结果的精确度验证方法,如图1所示,包括下述步骤S1~S3。
步骤S1、获取包含恶意代码的原始文件,并基于原始文件建立样本数据集,包括下述步骤S101~S103。
步骤S101、基于包含恶意代码的原始文件,得到指定序列长度的二进制代码。其中,采用OpenCV计算机视觉库对包含恶意代码的原始文件进行压缩,得到指定序列长度为sequence_length的二进制代码。
步骤S102、对指定序列长度的二进制代码进行预处理,得到二进制文件列表。具体来说,采用类别均衡采样法对得到的指定序列长度的二进制代码进行预处理的步骤包括:首先按照恶意代码的类别顺序对指定序列长度的二进制代码进行排序,统计每个类别的二进制代码数目并记录二进制代码的最大值;根据该最大值对每类二进制代码产生一个随机排列的列表,然后用此列表中的随机数对各自类别的二进制代码取余,得到对应的索引值。根据索引从该类的二进制代码中随机提取相应数值的二进制代码,生成该类二进制代码的随机列表。最后将所有类别二进制代码的随机列表连在一起并随机打乱次序,即可得到最终的二进制文件列表,可以发现最终的二进制文件列表中每类二进制代码数目均等。
步骤S103、为二进制文件列表中的每个恶意代码添加标签,得到样本数据集。其中,恶意代码的标签包括Ramnit、Lollipop、Kelihos_ver3、Vundo、Simda、Tracur、Kelihos_ver1、Obfuscator.ACY和Gatak。
采用类别均衡采样法对指定序列长度的二进制代码进行预处理,得到二进制文件列表,并为二进制文件列表中的每个恶意代码添加标签,恶意代码与其对应的标签构成了样本数据集,为后期深度学习网络模型的训练提供了数据支撑和依据。
步骤S2、构建深度学习网络模型,并基于样本数据集对深度学习网络模型进行训练,得到深度学习网络模型的最优网络结构。如图2所示,深度学习网络模型包括卷积神经网络和长短期记忆网络,其中,卷积神经网络包括依次连接的卷积层、池化层、全连接层、归一化层和第一输出层;长短期记忆网络包括正向LSTM层、反向LSTM层和第二输出层。其中,卷积神经网络中第一输出层的输出特征同时作为正向LSTM层和反向LSTM层的输入,第二输出层用于将正向LSTM层的输出特征与反向LSTM层的输出特征进行拼接并输出。
构建得到深度学习网络模型后,可利用样本数据集对深度学习网络模型进行训练,得到深度学习网络模型的最优网络结构,包括下述步骤:
将样本数据集划分为训练数据集和验证数据集。示例性的,本申请中可将样本数据集按照9:1的比例划分为训练数据集和验证数据集,其中,训练数据集用于对深度学习网络模型进行训练,以得到训练好的深度学习网络;验证数据集用于对训练好的深度学习网络进行验证,以得到深度学习网络的最优网络结构。
将训练数据集输入深度学习网络模型进行训练,得到训练好的深度学习网络,具体包括下述步骤:
首先对参数初始化:令vdW=0,SdW=0,vdb=0,Sdb=0,且设置迭代次数epochs为100,其中,W为权重;b为偏移量;dW和db为W和b的微分,vdW为dW的平均数,sdW为dW的指数加权平均数;vdb为db的平均数,sdb为db的指数加权平均数。
在第t次迭代中,利用梯度下降法计算得到dW和db。同时设dW的指数加权平均数β1为0.9,计算vdW和vdb
vdW=β1vdW+(1-β1)dW
vdb=β1vdb+(1-β1)db
设超参数β2为0.999,用RMSprop更新sdW和sdb
SdW=β2SdW+(1-β2)(dW)2
Sdb=β2Sdb+(1-β2)(db)2
计算vdW、vdb、sdW和sdb分别对应的修正误差
Figure BDA0002773386370000081
Figure BDA0002773386370000082
Figure BDA0002773386370000083
Figure BDA0002773386370000091
Figure BDA0002773386370000092
Figure BDA0002773386370000093
设阈值门槛ε为10-8,学习率α为0.001,对深度学习模型卷积层的权重进行修正,令训练收敛到更好的性能,修正后的权重W′和修正后的偏移量b′分别为:
Figure BDA0002773386370000094
Figure BDA0002773386370000095
基于修正后的权重和偏移量计算得到网络对应的损失函数,当损失函数小于预设损失函数门槛时,得到对应的训练好的深度学习网络;若损失函数不小于预设损失函数门槛,继续调整参数,直至满足条件,得到对应的训练好的深度学习网络。同时,可利用验证数据集对训练好的深度学习网络进行验证,得到深度学习网络模型的最优网络结构。
通过构建深度学习网络模型,并利用训练数据集对深度学习网络模型进行训练,得到训练好的深度学习网络,并利用验证数据集对训练好的深度学习网络进行训练,得到深度学习网络模型的最优网络结构,为后期对待预测原始文件中的恶意代码分类提供了基础,且能够提高恶意代码分类的精度。
步骤S3、基于深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类,得到恶意代码的分类结果,并验证恶意代码分类结果的精确度,包括下述步骤S301~S303:
步骤S301、将包含恶意代码的待预测原始文件输入深度学习网络模型的最优网络结构,得到恶意代码的分类结果和预测结果。详细地,将包含恶意代码的待预测原始文件输入深度学习网络模型的最优网络结构后,同时得到的恶意代码的分类结果和预测结果。其中,预测结果包括TP(将正确的判断正确)、FP(将正确的判断错误)、FN(将错误的判断错误)和TN(将错误的判断正确)四种,可统计得到这四种预测结果的数量。
步骤S302、基于预测结果计算精确率Precision和召回率Recall:
Figure BDA0002773386370000101
Figure BDA0002773386370000102
步骤S303、基于精确率和召回率得到分类结果对应的F1分数,F1分数为精确率和召回率的调和平均值,其中,F1分数越大,则恶意代码分类结果的精确度越高,F1分数的计算公式为:
Figure BDA0002773386370000103
基于深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类,同时得到了恶意代码的分类结果和预测结果,并基于预测结果计算精确率和召回率,最终得到F1分数,利用F1分数验证恶意代码分类结果的精确度,具有较高的实用性。
与现有技术相比,本实施例提供的一种恶意代码分类结果的精确度验证方法,通过建立样本数据集,并利用样本数据集对深度学习网络模型进行训练,得到深度学习网络模型的最优网络结构,最后将包含恶意代码的待预测原始文件输入最优网络结构进行分类,得到恶意代码的分类结果,并通过计算F1分数验证恶意代码分类结果的精确度,简单易行、易于实施,提高了恶意代码的分类效率。
本发明的另一个具体实施例,公开了一种恶意代码分类结果的精确度验证装置,如图3所示,包括样本数据集构建模块100,用于获取包含恶意代码的原始文件,并基于原始文件建立样本数据集;模型训练模块200,用于构建深度学习网络模型,并基于样本数据集对深度学习网络模型进行训练,得到深度学习网络模型的最优网络结构;分类结果的精确度验证模块300,用于根据深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类,得到恶意代码的分类结果,并验证恶意代码分类结果的精确度。
由于恶意代码分类结果的精确度验证装置与前述恶意代码分类结果的精确度验证的实现原理相同,故这里不再赘述。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种恶意代码分类结果的精确度验证方法,其特征在于,包括下述步骤:
获取包含恶意代码的原始文件,并基于所述原始文件建立样本数据集,包括下述步骤:
基于所述包含恶意代码的原始文件,得到指定序列长度的二进制代码;
对所述指定序列长度的二进制代码进行预处理,得到二进制文件列表;
为所述二进制文件列表中的每个恶意代码添加标签,得到样本数据集;
构建深度学习网络模型,并基于所述样本数据集对深度学习网络模型进行训练,得到深度学习网络模型的最优网络结构;
基于所述深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类,得到恶意代码的分类结果,并验证所述恶意代码分类结果的精确度;
对所述指定序列长度的二进制代码进行预处理,得到二进制文件列表包括:按照恶意代码的类别顺序对指定序列长度的二进制代码进行排序,统计每个类别的二进制代码数目并记录二进制代码的最大值;根据所述最大值对每类二进制代码产生一个随机排列的列表,根据所述随机排列的列表中的随机数对每类二进制代码取余得到索引值;根据所述索引值从该类二进制代码中随机提取相应数值的二进制代码,生成该类二进制代码的随机列表;将所有类别的二进制代码的随机列表连在一起并随机打乱次序,得到所述二进制文件列表。
2.根据权利要求1所述的恶意代码分类结果的精确度验证方法,其特征在于,所述恶意代码的标签包括Ramnit、Lollipop、Kelihos_ver3、Vundo、Simda、Tracur、Kelihos_ver1、Obfuscator.ACY和Gatak。
3.根据权利要求1所述的恶意代码分类结果的精确度验证方法,其特征在于,所述深度学习网络模型包括卷积神经网络和长短期记忆网络,其中,所述卷积神经网络包括依次连接的卷积层、池化层、全连接层、归一化层和第一输出层;
所述长短期记忆网络包括正向LSTM层、反向LSTM层和第二输出层,其中,所述第二输出层用于将所述正向LSTM层的输出特征与反向LSTM层的输出特征进行拼接并输出。
4.根据权利要求2所述的恶意代码分类结果的精确度验证方法,其特征在于,基于所述样本数据集对深度学习网络模型进行训练,得到深度学习网络模型的最优网络结构,包括下述步骤:
将所述样本数据集划分为训练数据集和验证数据集;
将所述训练数据集输入深度学习网络模型进行训练,得到训练好的深度学习网络;
基于所述验证数据集对训练好的深度学习网络进行验证,得到深度学习网络模型的最优网络结构。
5.根据权利要求4所述的恶意代码分类结果的精确度验证方法,其特征在于,基于所述深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类,得到恶意代码的分类结果,并验证所述恶意代码分类结果的精确度,包括下述步骤:
将所述包含恶意代码的待预测原始文件输入深度学习网络模型的最优网络结构,得到恶意代码的分类结果和预测结果;
基于所述预测结果计算精确率和召回率;
基于所述精确率和召回率得到分类结果对应的F1分数,其中,所述F1分数越大,则恶意代码分类结果的精确度越高。
6.一种恶意代码分类结果的精确度验证装置,其特征在于,包括:
样本数据集构建模块,用于获取包含恶意代码的原始文件,并基于所述原始文件建立样本数据集;所述样本数据集构建模块用于:
基于所述包含恶意代码的原始文件,得到指定序列长度的二进制代码;
对所述指定序列长度的二进制代码进行预处理,得到二进制代码文件列表;
为所述二进制代码文件列表中的每个恶意代码添加标签,得到样本数据集;
模型训练模块,用于构建深度学习网络模型,并基于所述样本数据集对深度学习网络模型进行训练,得到深度学习网络模型的最优网络结构;
分类结果的精确度验证模块,用于根据所述深度学习网络模型的最优网络结构对待预测原始文件中的恶意代码进行分类,得到恶意代码的分类结果,并验证所述恶意代码分类结果的精确度;
对所述指定序列长度的二进制代码进行预处理,得到二进制文件列表包括:按照恶意代码的类别顺序对指定序列长度的二进制代码进行排序,统计每个类别的二进制代码数目并记录二进制代码的最大值;根据该最大值对每类二进制代码产生一个随机排列的列表,根据所述列表中的随机数对每类二进制代码取余,得到索引值;根据所述索引值从该类的二进制代码中随机提取相应数值的二进制代码,生成该类二进制代码的随机列表;将所有类别的二进制代码的随机列表连在一起并随机打乱次序,得到所述二进制文件列表。
7.根据权利要求6所述的恶意代码分类结果的精确度验证装置,其特征在于,所述恶意代码的标签包括Ramnit、Lollipop、Kelihos_ver3、Vundo、Simda、Tracur、Kelihos_ver1、Obfuscator.ACY和Gatak。
8.根据权利要求7所述的恶意代码分类结果的精确度验证装置,其特征在于,所述深度学习网络模型包括卷积神经网络和长短期记忆网络,其中,所述卷积神经网络包括依次连接的卷积层、池化层、全连接层、归一化层和第一输出层;
所述长短期记忆网络包括正向LSTM层、反向LSTM层和第二输出层,其中,所述第二输出层用于将所述正向LSTM层的输出特征与反向LSTM层的输出特征进行拼接并输出。
CN202011256849.7A 2020-11-11 2020-11-11 一种恶意代码分类结果的精确度验证方法及装置 Active CN112417447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011256849.7A CN112417447B (zh) 2020-11-11 2020-11-11 一种恶意代码分类结果的精确度验证方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011256849.7A CN112417447B (zh) 2020-11-11 2020-11-11 一种恶意代码分类结果的精确度验证方法及装置

Publications (2)

Publication Number Publication Date
CN112417447A CN112417447A (zh) 2021-02-26
CN112417447B true CN112417447B (zh) 2021-07-20

Family

ID=74781670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011256849.7A Active CN112417447B (zh) 2020-11-11 2020-11-11 一种恶意代码分类结果的精确度验证方法及装置

Country Status (1)

Country Link
CN (1) CN112417447B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106365A (zh) * 2013-01-25 2013-05-15 北京工业大学 一种移动终端上的恶意应用软件的检测方法
WO2018013277A1 (en) * 2016-07-14 2018-01-18 Qualcomm Incorporated Devices and methods for classifying an execution session
CN110704842A (zh) * 2019-09-27 2020-01-17 山东理工大学 一种恶意代码家族分类检测方法
CN110826060A (zh) * 2019-09-19 2020-02-21 中国科学院信息工程研究所 物联网恶意软件的可视化分类方法、装置与电子设备
CN111178435A (zh) * 2019-12-30 2020-05-19 山东英信计算机技术有限公司 一种分类模型训练方法、系统、电子设备及存储介质
CN111881289A (zh) * 2020-06-10 2020-11-03 北京启明星辰信息安全技术有限公司 分类模型的训练方法、数据风险类别的检测方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10282546B1 (en) * 2016-06-21 2019-05-07 Symatec Corporation Systems and methods for detecting malware based on event dependencies
CN108376220A (zh) * 2018-02-01 2018-08-07 东巽科技(北京)有限公司 一种基于深度学习的恶意样本程序分类方法及系统
CN108985060A (zh) * 2018-07-04 2018-12-11 中共中央办公厅电子科技学院 一种大规模安卓恶意软件自动化检测系统及方法
CN110263538B (zh) * 2019-05-13 2021-07-09 重庆大学 一种基于系统行为序列的恶意代码检测方法
CN110457896A (zh) * 2019-07-02 2019-11-15 北京人人云图信息技术有限公司 在线访问的检测方法及检测装置
CN110348214B (zh) * 2019-07-16 2021-06-08 电子科技大学 对恶意代码检测的方法及系统
CN110489968B (zh) * 2019-08-15 2021-02-05 东北大学秦皇岛分校 基于RNN和CNN的Android恶意软件检测方法及系统
CN111651762A (zh) * 2020-04-21 2020-09-11 浙江大学 一种基于卷积神经网络的pe恶意软件检测方法
CN111475820B (zh) * 2020-04-28 2023-08-01 张皓天 基于可执行程序的二进制漏洞检测方法、系统及存储介质
CN111723368B (zh) * 2020-05-28 2023-12-15 中国人民解放军战略支援部队信息工程大学 基于Bi-LSTM和自注意力的恶意代码检测方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106365A (zh) * 2013-01-25 2013-05-15 北京工业大学 一种移动终端上的恶意应用软件的检测方法
WO2018013277A1 (en) * 2016-07-14 2018-01-18 Qualcomm Incorporated Devices and methods for classifying an execution session
CN110826060A (zh) * 2019-09-19 2020-02-21 中国科学院信息工程研究所 物联网恶意软件的可视化分类方法、装置与电子设备
CN110704842A (zh) * 2019-09-27 2020-01-17 山东理工大学 一种恶意代码家族分类检测方法
CN111178435A (zh) * 2019-12-30 2020-05-19 山东英信计算机技术有限公司 一种分类模型训练方法、系统、电子设备及存储介质
CN111881289A (zh) * 2020-06-10 2020-11-03 北京启明星辰信息安全技术有限公司 分类模型的训练方法、数据风险类别的检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Automatic malware classification and new malware detection using machine learning;Liu LIU 等;《Frontiers of Information Technology & Electronic Engineering》;20171231;第18卷(第9期);1336-1347页 *
深度学习的恶意代码分析与检测技术研究;罗世奇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181215(第12期);I138-122页 *

Also Published As

Publication number Publication date
CN112417447A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112508085B (zh) 基于感知神经网络的社交网络链路预测方法
CN109711426B (zh) 一种基于gan和迁移学习的病理图片分类装置及方法
CN109947931B (zh) 基于无监督学习的文本自动摘要方法、系统、设备及介质
CN109857871B (zh) 一种基于社交网络海量情景数据的用户关系发现方法
Massey et al. Learning Spam: Simple Techniques For Freely-Available Software.
CN108596199A (zh) 基于EasyEnsemble算法和SMOTE算法的不均衡数据分类方法
CN112039687A (zh) 一种面向小样本特征的基于改进生成对抗网络的故障诊断方法
CN112861945B (zh) 一种多模态融合谎言检测方法
Singh et al. Steganalysis of digital images using deep fractal network
CN111062036A (zh) 恶意软件识别模型构建、识别方法及介质和设备
CN110084609B (zh) 一种基于表征学习的交易欺诈行为深度检测方法
Shen et al. A direct formulation for totally-corrective multi-class boosting
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN114048729A (zh) 医学文献评价方法、电子设备、存储介质和程序产品
CN115422518A (zh) 基于无数据知识蒸馏的文本验证码识别方法
CN111130942A (zh) 一种基于消息大小分析的应用流量识别方法
CN112364198A (zh) 一种跨模态哈希检索方法、终端设备及存储介质
CN112417447B (zh) 一种恶意代码分类结果的精确度验证方法及装置
CN114844682B (zh) 一种dga域名检测方法及系统
CN116743555A (zh) 一种鲁棒多模态网络运维故障检测方法、系统及产品
CN116467141A (zh) 日志识别模型训练、日志聚类方法和相关系统、设备
CN115758218A (zh) 一种基于长短时特征和决策融合的三模态情感分析方法
CN115063374A (zh) 模型训练、人脸图像质量评分方法、电子设备及存储介质
CN115577111A (zh) 基于自注意力机制的文本分类方法
CN115329821A (zh) 一种基于配对编码网络和对比学习的舰船噪声识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant