CN111639344B

CN111639344B - 一种基于神经网络的漏洞检测方法及装置

Info

Publication number: CN111639344B
Application number: CN202010756148.3A
Authority: CN
Inventors: 于璐; 陆余良; 潘祖烈; 沈毅; 杨国正; 黄晖; 朱凯龙; 李明磊; 戚兰兰
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-20
Anticipated expiration: 2040-07-31
Also published as: CN111639344A

Abstract

本发明提供一种基于神经网络的漏洞检测方法及装置，所述方法包括：利用已知漏洞的二进制文件作为训练样本，利用提取二进制文件的函数对应的特征向量方法，提取与二进制文件的函数对应的特征向量，训练神经网络模型；得到训练好的神经网络模型；向所述训练好的神经网络模型输入目标二进制文件的函数对应的特征向量，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的函数对应的特征向量；进行函数级别相似性比较，根据相似性比较结果，检测目标二进制文件的漏洞。根据本发明的方案，充分考虑了代码的语义信息，能够准确检测到跨体系的二进制文件的漏洞。

Description

一种基于神经网络的漏洞检测方法及装置

技术领域

本发明涉及计算机信息安全领域，尤其涉及一种基于神经网络的漏洞检测方法及装置。

背景技术

随着计算机信息技术的飞速发展，网络空间安全日益重要，因为软件漏洞导致的网络事件呈高发趋势，对网络空间安全造成了很大的威胁。漏洞分析技术成为网络安全领域的研究热点。

漏洞检测是漏洞分析技术的一个重要分支，多是从已有漏洞出发，查找与其存在同源关系的相似漏洞甚至根据漏洞代码特征发现未公开的漏洞。在源码级别进行漏洞检测的技术已经较为成熟，有许多专业工具可以使用自动化的漏洞检测方法，对程序源码进行检测并提供安全性建议。但这些工具不能检测源码未知的二进制文件。例如当前许多广泛使用的软件的源码是未知的，如商业软件MS Office和免费闭源软件Adobe Reader、Flash，并且由于在开发过程中存在代码重用，并使用第三方组件，因此，即使这些软件的源码是未知的，但第三方组件中的漏洞也会扩散到这些二进制应用软件中。二进制应用软件中的组件漏洞可以跨软件对不同类型的软件造成安全隐患。因此，迫切需要对二进制软件进行漏洞检测。

同时，越来越多的软件针对不同的CPU架构进行交叉编译，由于不同架构的二进制文件在指令集、函数偏移量和函数调用约定方面存在差异，会导致某个在特定体系结构（如intel x86）下受到广泛关注的漏洞得到了修复，但与其源码相同但应用于另一个体系结构（如ARM）的文件中的漏洞并未得到发现及关注，仍存在相当大的安全隐患。如果交叉编译的软件中包含了广泛使用的但是存在漏洞的第三方组件，会导致漏洞不仅在传统PC机上传播到可执行文件，还会传播于硬件攻击厂商使用该代码库在不同CPU架构上运行不同设备编译的固件，所述不同设备可以是家用路由器、摄像头、VoIP电话。在实际应用中，固件厂商经常在发布的固件中包含很多第三方组件，并且部分代码发布年代较为久远，且这些组件代码在出现漏洞后，固件厂商并不会及时更新其固件中的相应代码，例如，在OpenSSL中发现了HeartBleed漏洞之后，在各种体系结构，如x86、MIPS、ARM、PowerPC等体系结构上运行的受影响的闭源代码软件越来越多。

由源码编译为二进制文件过程中，编译器会对代码进行优化，出现函数内联、指令重排序、指令转换、冗余消除等，这样，即使使用相同的编译器编译源代码，也可能会生成改变的二进制文件。而同一源码可以针对不同CPU架构进行交叉编译，导致的指令、函数调用方面存在的差异导致跨架构的二进制文件漏洞检测更为困难。

现有的检测二进制文件漏洞的方法有，Pewny等人提出的使用漏洞签名来搜索二进制代码中不同体系结构的已知漏洞，该方案对于大型代码库效率较低，无法进行有效扩展。Eschweiler等人解决的是在不同编译器、不同编译选项、不同操作系统和不同CPU架构条件下的大规模二进制漏洞搜索问题。

Genius和Gemini是关于跨体系结构漏洞搜索的两个最具代表性的工具。它们分别利用传统的机器学习和深度学习，将函数的CFG转化为向量进行相似性比较。2016年Feng等人引入一种解决方案Genius，给定一个固件二进制函数，Genius首先以属性化控制流图ACFG(attributed control flow graph)的形式提取原始特征，采用一种基于代码本（codebook-based）的方法来嵌入ACFG。但该方案中，代码本生成是一个非常昂贵的过程，因此，生成代码本的质量受到训练数据集的规模的限制。Xu等人在Gemini中使用了嵌入，首先使用原始特征提取的方法提取函数内部的代码特征，定义带属性的控制流图（ACFG,attributed control flow graph）记录除了函数内部节点之间的控制依赖关系外，还记录基本块节点内的数字化统计属性以及节点之间的结构化特征，包括了函数内部字符常量的个数、数字常量的个数、转移指令数、调用指令数、算术指令数、总指令数以及节点的后代数目、介数。得到带有属性的控制流图后，使用图嵌入神经网络进行代码属性的嵌入，得到能够表征代码特征的向量，使用神经网络对已经标记并提取到特征向量的数据进行训练，得到有效的训练模型。再使用同样的特征提取方法对固件和漏洞相关代码的代码特征进行提取，生成特征向量，将向量值作为代码的特征存储于数据库中，使用训练好的神经网络模型对固件中的可疑代码与漏洞代码进行相似性打分，从而筛选出可能存在漏洞代码的固件程序。但该方式依赖于数据统计特征，对代码的语义信息考虑过少，存在漏报率高的问题。

Gao等人基于语义学习对跨平台二进制漏洞进行搜索，将数据流图和控制流图融合为语义流图，使用DNN模型进行向整个二进制函数的向量嵌入，但这种方法的准确度低。Zuo等人借鉴自然语言处理的方法进行二进制代码分析。Baldoni等人使用深度神经网络进行图嵌入，并使用Siamese结构进行参数学习。David等人将二进制代码转换为中间表示，函数被分为若干段独立的代码，生成一个作为散列链集合的签名。但该方案将签名转换成实数向量并不能直接输入到其他机器学习算法中。

发明内容

为解决上述技术问题，本发明提出了一种基于神经网络的漏洞检测方法及装置，所述方法及装置，用以解决现有技术中进行漏洞检测时，对二进制文件的漏洞检测效率低、对代码的语义信息考虑过少，漏报率高，不能准确检测到跨体系的二进制文件的漏洞的技术问题。

根据本发明的第一方面，提供一种基于神经网络的漏洞检测方法，所述方法包括以下步骤：

步骤S201：利用同源但不同架构和不同优化级别得到的二进制文件作为训练样本，利用提取二进制文件的函数对应的特征向量方法，提取与二进制文件的函数对应的特征向量，训练神经网络模型；得到训练好的神经网络模型；

步骤S202：输入目标二进制文件，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件；利用提取二进制文件的函数对应的特征向量方法，获取目标二进制文件的函数对应的特征向量，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的函数对应的特征向量；

步骤S203：向所述训练好的神经网络模型输入目标二进制文件的函数对应的特征向量，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的函数对应的特征向量；进行函数级别相似性比较，根据相似性比较结果，检测目标二进制文件的漏洞；

所述提取二进制文件的函数对应的特征向量方法，包括：

步骤S204：对二进制文件的基本块基于skip-thoughts提取基本块代码语义特征；

步骤S205：提取二进制文件的函数级别代码结构化语义特征，生成与二进制文件的函数对应的特征向量。

进一步地，所述步骤S204：对二进制文件的基本块基于skip-thoughts提取基本块代码语义特征，包括：

步骤S2041：对二进制文件进行指令代码预处理；

步骤S2042：对基本块基于skip-thoughts提取语义特征，利用skip-thoughts中的编码器结构，对提取的所述基本块代码语义特征进行特征嵌入，生成向量，得到基本块代码语义特征。

进一步地，所述步骤S205：提取二进制文件的函数级别代码结构化语义特征，生成与二进制文件的函数对应的特征向量，包括：

步骤S2051：将函数中的基本块作为图结构的节点，获取图结构的节点语义特征及与结构相关的数字化特征，所述数字化特征包括基本块嵌入过程中的语义向量，也包括函数与其内部基本块属性中与结构相关的数字化特征，以二进制文件的控制流图为基础，将从基本块提取的语义特征与该数字化特征进行融合，得到函数图结构的信息，作为结构化语义嵌入的基础；所述基本块属性中与结构相关的数字化特征包括入度、出度、介数、函数参数个数；

步骤S2052：使用structure2vec神经网络将融合语义图转化为可以作为机器学习模型输入的图嵌入向量，即生成最终图嵌入向量；通过图嵌入网络找到的评价函数可以整合函数中距离某一个节点2步甚至3步以外的所有邻居的信息，并将信息压缩成一个有限维的非线性向量；使用基于深度神经网络（DNN）模型的包含语义的方法来处理函数结构化语义表达，得到二进制文件的函数对应的特征向量。

进一步地，所述步骤S203：向所述训练好的神经网络模型分别输入目标二进制文件的函数对应的特征向量，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的函数对应的特征向量；进行函数级别相似性比较，根据相似性比较结果，检测目标二进制文件的漏洞，具体地：

向训练好的Siamese神经网络模型输入目标二进制文件的函数对应的特征向量，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的函数对应的特征向量，分别得到目标二进制文件以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的函数对应的融合语义图，得到分别对应于这两个二进制代码文件函数的图嵌入向量μ₁和μ₂，对μ₁和μ₂进行向量的相似性比较，cosine距离计算两个图嵌入向量μ₁和μ₂的相似性，根据相似性检测二进制文件的漏洞；所述目标二进制文件为待检测漏洞的二进制文件。

根据本发明第二方面，提供一种基于神经网络的漏洞检测装置，所述装置包括：

训练模块：利用同源但不同架构和不同优化级别得到的二进制文件作为训练样本，利用特征向量生成模块，提取与二进制文件的函数对应的特征向量，训练神经网络模型；得到训练好的神经网络模型；

特征获取模块：输入目标二进制文件，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件；利用提取二进制文件的函数对应的特征向量方法，获取目标二进制文件的函数对应的特征向量，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的函数对应的特征向量；

比较模块：向所述训练好的神经网络模型输入目标二进制文件的函数对应的特征向量，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的函数对应的特征向量；进行函数级别相似性比较，根据相似性比较结果，检测目标二进制文件的漏洞；

所述特征向量生成模块，包括：

基本块特征提取子模块：对二进制文件的基本块基于skip-thoughts提取基本块代码语义特征；

函数特征提取子模块：提取二进制文件的函数级别代码结构化语义特征，生成与二进制文件的函数对应的特征向量。进一步地，所述基本块特征提取子模块，包括：

预处理子模块：对二进制文件进行指令代码预处理；

向量生成子模块：对基本块基于skip-thoughts提取语义特征，利用skip-thoughts中的编码器结构，对提取的所述基本块代码语义特征进行特征嵌入，生成向量，得到基本块代码语义特征。

进一步地，所述函数特征提取子模块，包括：

函数图生成子模块：将函数中的基本块作为图结构的节点，获取图结构的节点语义特征及与结构相关的数字化特征，所述数字化特征包括基本块嵌入过程中的语义向量，也包括函数与其内部基本块属性中与结构相关的数字化特征，以二进制文件的控制流图为基础，将从基本块提取的语义特征与该数字化特征进行融合，得到函数图结构的信息，作为结构化语义嵌入的基础；所述基本块属性中与结构相关的数字化特征包括入度、出度、介数、函数参数个数；

最终图嵌入向量生成子模块：使用structure2vec神经网络将融合语义图转化为可以作为机器学习模型输入的图嵌入向量，即生成最终图嵌入向量；通过图嵌入网络找到的评价函数可以整合函数中距离某一个节点2步甚至3步以外的所有邻居的信息，并将信息压缩成一个有限维的非线性向量；使用基于深度神经网络（DNN）模型的包含语义的方法来处理函数结构化语义表达，得到二进制文件的函数对应的特征向量。

进一步地，所述比较模块，包括：

第一比较子模块：向训练好的Siamese神经网络模型输入目标二进制文件的函数对应的特征向量，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的函数对应的特征向量，分别得到目标二进制文件以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的函数对应的融合语义图，得到分别对应于这两个二进制代码文件函数的图嵌入向量μ₁和μ₂，对μ₁和μ₂进行向量的相似性比较，cosine距离计算两个图嵌入向量μ₁和μ₂的相似性，根据相似性检测二进制文件的漏洞；所述目标二进制文件为待检测漏洞的二进制文件。

根据本发明第三方面，提供一种基于神经网络的漏洞检测系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如前所述的基于神经网络的漏洞检测方法。

根据本发明第四方面，提供一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如前所述的基于神经网络的漏洞检测方法。

根据本发明的上述方案，使用神经网络模型skip-thoughts记录基本块中的代码上下文信息，结合结构化数字特征，得到基本块的语义和结构特征，获取函数级别的语义特征，并使用神经网络进行训练，实现向量相似性的比较以检测漏洞。还可以对已公布的漏洞代码特征进行提取和学习，实现跨架构的二进制相似漏洞代码搜索和特征学习，获得以下效果：1）对第三方组件漏洞搜索，可以找到使用同一组件在不同编译条件下的对应二进制漏洞；2）基于常用架构（Intel X86）下的已有漏洞进行跨架构搜索，可以找到已经修复，而在工控系统以及物联网中的固件中依然存在的漏洞；3）对已有漏洞进行有效特征提取，可以辅助与其机理相同的未知漏洞发现；4）实现的代码搜索技术可以应用于二进制文件代码剽窃检测，恶意代码检测等领域中。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明提供如下附图进行说明。在附图中：

图1为本发明一个实施方式的基于神经网络的漏洞检测方法流程图；

图2为本发明一个实施方式的基本块语义特征提取方法示意图；

图3为本发明一个实施方式的基于skip-thoughts的编码-解码器结构示意图；

图4为本发明一个实施方式的图嵌入过程示意图；

图5为本发明一个实施方式的相似性比较示意图；

图6为比较三个工具的ROC曲线示意图；

图7为检测CVE-2015-1791漏洞流程图；

图8为本发明一个实施方式的基于神经网络的漏洞检测装置结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

定义：

漏洞：漏洞是在硬件、软件、协议的具体实现或系统安全策略上存在的缺陷，从而可以使攻击者能够在未授权的情况下访问或破坏系统。

神经网络：人工神经网络（Artificial Neural Networks，简写为ANNs）也简称为神经网络（NNs）或称作连接模型（Connection Model），它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的

Siamese网络：Siamese网络是一种相似性度量方法，当类别数多，但每个类别的样本数量少的情况下可用于类别的识别、分类等。

自然语言处理NLP：自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。

CFG 控制流图：Control Flow Graph，是一个过程或程序的抽象表现，是用在编译器中的一个抽象数据结构，由编译器在内部维护，代表了一个程序执行过程中会遍历到的所有路径。它用图的形式表示一个过程内所有基本块执行的可能流向，也能反映一个过程的实时执行过程。

DFG 数据流图：Data Flow Graph，以图形方式来表达系统的逻辑功能、数据在系统内部的逻辑流向和逻辑变换过程。

Structure2vec: 是一个强大的异构网络深度学习和推理平台，能够同时整合节点特征，边特征，异构网络结构以及网络动态演化特征的深度学习和推理的嵌入技术，它不仅可以对网络中的节点和边进行推理，还可以对节点，边，甚至子图进行向量化。

基本块：是指程序顺序执行的语句序列，其中只有一个入口和一个出口，入口就是其中的第一个语句，出口就是其中的最后一个语句。对一个基本块来说，执行时只从其入口进入，从其出口退出。

首先结合图1说明为本发明一个实施方式的基于神经网络的漏洞检测方法流程图。如图1所示，所述方法包括以下步骤：

所述提取二进制文件的函数对应的特征向量方法，包括：

以下说明本发明的总体架构。首先对二进制文件的基本块的代码进行预处理，之后对基本块提取语义特征和嵌入，构建相应的代码特征数据库，利用由神经网络训练好的训练模型对不同体系的同源二进制文件进行函数级别相似性比较，实现对跨平台软件的疑似漏洞的检测。

所述步骤S204：对二进制文件的基本块基于skip-thoughts提取基本块代码语义特征，以下结合图2说明提取语义特征的方法，所述步骤S204包括：

步骤S2041：对二进制文件进行指令代码预处理；

预处理是处理指令中的操作数，基于现有的方法，丰富后续提取的特征内容，并在一定程度上能够缓解自然语言处理的OOV(out of vocabulary)问题。指令代码预处理时，将操作数中的内存基址全部替换为MEM，将数值超过预设阈值的立即数全部替换为IMME。

以下结合图3说明本发明一个实施方式的基于skip-thoughts的编码-解码器结构，所述步骤S2042包括：

二进制文件的指令按照其结构可以进行分层，分别为指令级别、基本块级别和函数级别。对基本块基于skip-thoughts提取语义特征时，将二进制文件中的单独指令看成是自然语言处理中的“单词”，将基本块看成“句子”，函数看成“段落”。利用skip-thoughts中的编码-解码器结构，输入基本块所包含的指令序列，编码-解码器结构中的编码结构，可以将输入的指令序列输出为可以作为图嵌入网络输入的向量，并最大程度的表征该基本块的语义特征。即编码-解码器结构中的编码结构，可以将分层的指令生成对应的特征向量。

具体地，通过提取函数级别代码结构化语义特征，将函数内部节点和结构相关的属性信息进行收集，使用神经网络模型对得到的基本块级别的特征向量进行选择，以生成二进制文件的函数级别的向量。

本实施例中，基于Structure2vec构建图嵌入神经网络模型，完成函数级别的特征选择和向量嵌入。这里定义融合语义图ISSFG（integrated semantic structural flowgraph）来表征二进制文件中的函数f的特征。每一个函数可以使用融合语义图表示g=(V,E)，其中图中的每一个节点vϵV 表征函数f的基本块，边eϵE表征函数中基本块之间的控制依赖关系。节点v不仅包含了skip-thoughts生成的基本块语义特征向量，还包括了节点在函数控制流图中的结构化数字特征，如介数和后代数。在进行向量嵌入时，嵌入的向量是结构图向量，所述结构图向量是将融合语义图输入神经网络，由神经网络经过计算输出表征函数语义的、用于嵌入的嵌入向量。

进一步地，得到二进制文件的函数对应的特征向量包括：

步骤S2051：将函数中的基本块作为图结构的节点，获取图结构的节点语义特征及与结构相关的数字化特征，所述数字化特征包括基本块嵌入过程中的语义向量，也包括函数与其内部基本块属性中与结构相关的数字化特征，以二进制文件的控制流图为基础，将从基本块提取的语义特征与该数字化特征进行融合，得到函数图结构的信息，作为结构化语义嵌入的基础；所述基本块属性中与结构相关的数字化特征包括入度、出度、介数、函数参数个数。

图4示出了图嵌入过程示意图，输入为函数中的基本块节点特征和函数内部的结构化特征，使用structure2vec神经网络进行整合，输出为最终图嵌入向量。

所述步骤S201：利用同源但不同架构和不同优化级别得到的二进制文件作为训练样本，利用提取二进制文件的函数对应的特征向量方法，提取与二进制文件的函数对应的特征向量，训练神经网络模型；得到训练好的神经网络模型，具体地：

所述神经网络模型为基于Siamese网络构建的神经网络模型，并使用已知漏洞的二进制文件得到的、已经进行了标签处理的特征向量作为样本，对该神经网络模型进行训练，得到训练好的Siamese神经网络模型；

本实施例中，可以使用随机梯度下降对Siamese网络进行优化，梯度的参数根据样本对应的图的拓扑结构进行迭代计算。

所述步骤S203：向所述训练好的神经网络模型分别输入目标二进制文件的函数对应的特征向量，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的函数对应的特征向量；进行函数级别相似性比较，根据相似性比较结果，检测目标二进制文件的漏洞，具体地：

结合图4，图4中上部分虚线框图中为structure2vec网络，为一个DNN模型，中间包含多个隐藏层，将图4下半部分的融合语义图作为输入，输出融合语义图的向量。

比较过程如图5所示，图5为本发明一个实施方式的相似性比较示意图。

以下实施例说明基于本发明实施例的基于神经网络的漏洞检测方法的实施效果。

在训练神经网络模型时，比较了本实施例方案ESFinder与Gemini和Vulseeker的性能。

训练的数据库主要包括Openssl(v1.0.1f and v1.0.1u)和BusyBox(v1.27.2)，分别在X86, X64,MIPS32,MIPS64,ARM32 和ARM64平台进行编译，数据库中包含了196,854个函数，对其进行标签化处理并存储。

使用该数据库进行训练，比较三个工具的ROC（receiver operatingcharacteristic）曲线，如图6所示。

本实施例还可以检测CVE-2015-1791漏洞，OpenSSL是一种开放源码的SSL实现，用来实现网络通信的高强度加密，现在被广泛地用于各种网络应用程序中。OpenSSL0.9.8zg、1.0.0s、1.0.1n、1.0.2b之前版本，ssl/s3_clnt.c内的函数ssl3_get_new_session_ticket存在竞争条件，用于多线程客户端时，远程攻击者通过提供新NewSessionTicket令牌，利用此漏洞可造成拒绝服务(双重释放及应用崩溃)。具体检测过程如图7所示。

将存在漏洞的openssl版本中的关键函数ssl3_get_new_session_ticket进行特征提取，并提取目标程序的特征，使用本实施例中训练得到的神经网络模型进行相似性比较。目标程序选择的是AirCam下的libssl库，使用不同架构（arm32,arm64, mips32,mips64, X86,X64）以及不同优化级别（O0-O3），由于AirCam中对应的ssl3_get_new_session_tickets函数名并未进行优化，因此可以直接验证该函数与漏洞函数的打分值在所有函数中的排名，其中在arm和mips架构下的排序值如表1所示。

表1

可以看出，在arm下的排序值要好于mips,且其中有5项打分为1，可以看出在进行相似性排序时本实施例使用的模型的精确性较高。同时通过手工分析发现该二进制库实际为arm架构，也说明该模型对于架构选择的优势。

本发明实施例进一步给出一种基于神经网络的漏洞检测装置，如图8所示，所述装置包括：

所述特征向量生成模块，包括：

函数特征提取子模块：提取二进制文件的函数级别代码结构化语义特征，生成与二进制文件的函数对应的特征向量。

本发明实施例进一步给出一种基于神经网络的漏洞检测系统，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

本发明实施例进一步给出一种计算机可读存储介质，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如前所述的基于神经网络的漏洞检测方法。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，实体机服务器，或者网络云服务器等，需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于神经网络的漏洞检测方法，其特征在于，包括以下步骤：

步骤S201：利用同源但不同架构和不同优化级别得到的二进制文件作为训练样本，利用提取二进制文件的关键函数对应的特征向量方法，提取与二进制文件的关键函数对应的特征向量，训练神经网络模型；得到训练好的神经网络模型；

步骤S202：输入目标二进制文件，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件；利用提取二进制文件的关键函数对应的特征向量方法，获取目标二进制文件的关键函数对应的特征向量，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的关键函数对应的特征向量；

步骤S203：向所述训练好的神经网络模型输入目标二进制文件的关键函数对应的特征向量，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的关键函数对应的特征向量；

进行关键函数级别相似性比较，根据相似性比较结果，检测目标二进制文件的漏洞；

其中，所述提取二进制文件的关键函数对应的特征向量方法具体包括：

步骤S205：提取二进制文件的关键函数级别代码结构化语义特征，生成与二进制文件的关键函数对应的特征向量，通过提取函数级别代码结构化语义特征，将函数内部节点和结构相关的属性信息进行收集，使用神经网络模型对得到的基本块级别的特征向量进行选择，以生成二进制文件的函数级别的向量；

基于Structure2vec构建图嵌入神经网络模型，完成函数级别的特征选择和向量嵌入，通过融合语义图ISSFG来表征二进制文件中的函数f的特征，每一个函数使用融合语义图表示g＝(V,E)，其中V表示节点集合，E表示边的集合，图中的每一个节点v∈V表征函数f的基本块，边e∈E表征函数中基本块之间的控制依赖关系，节点v不仅包含了skip-thoughts生成的基本块语义特征向量，还包括了节点在函数控制流图中的结构化数字特征，在进行向量嵌入时，嵌入的向量是结构图向量，所述结构图向量是将融合语义图输入神经网络，由神经网络经过计算输出表征函数语义的、用于嵌入的嵌入向量；

所述步骤S201中的所述神经网络模型为基于Siamese网络构建的神经网络模型，通过使用已知漏洞的二进制文件得到的、已经进行了标签处理的特征向量作为样本，对该神经网络模型进行训练，得到训练好的Siamese神经网络模型；

所述步骤S203：向所述训练好的神经网络模型分别输入目标二进制文件的关键函数对应的特征向量，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的关键函数对应的特征向量；进行关键函数级别相似性比较，根据相似性比较结果，检测目标二进制文件的漏洞，具体包括：

向训练好的Siamese神经网络模型输入目标二进制文件的关键函数对应的特征向量，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的关键函数对应的特征向量，分别得到目标二进制文件以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的关键函数对应的融合语义图，得到分别对应于这两个二进制代码文件关键函数的图嵌入向量μ₁和μ₂，对μ₁和μ₂进行向量的相似性比较，cosine距离计算两个图嵌入向量μ₁和μ₂的相似性，根据相似性检测二进制文件的漏洞；所述目标二进制文件为待检测漏洞的二进制文件；

所述步骤S204：对二进制文件的基本块基于skip-thoughts提取基本块代码语义特征，包括：

步骤S2041：对二进制文件进行指令代码预处理；

步骤S2042：对基本块基于skip-thoughts提取语义特征，利用skip-thoughts中的编码-解码器结构，对提取的所述基本块代码语义特征进行特征嵌入，生成向量，得到基本块代码语义特征，具体包括：

二进制文件的指令按照其结构可以进行分层，包括指令级别、基本块级别和关键函数级别，对基本块基于skip-thoughts提取语义特征时，将二进制文件中的单独指令看成是自然语言处理中的“单词”，将基本块看成“句子”，关键函数看成“段落”，利用skip-thoughts中的编码-解码器结构，输入基本块所包含的指令序列；通过所述编码-解码器结构中的编码结构，将输入的指令序列输出为可以作为图嵌入网络输入的向量，并最大程度表征该基本块的语义特征，即编码-解码器结构中的编码结构，可以将分层的指令生成对应的特征向量；

所述步骤S205：提取二进制文件的关键函数级别代码结构化语义特征，生成与二进制文件的关键函数对应的特征向量，包括：

步骤S2051：将关键函数中的基本块作为图结构的节点，获取图结构的节点语义特征及与结构相关的数字化特征，所述数字化特征包括基本块嵌入过程中的语义向量，也包括关键函数与其内部基本块属性中与结构相关的数字化特征，以二进制文件的控制流图为基础，将从基本块提取的语义特征与该数字化特征进行融合，得到关键函数图结构的信息，作为结构化语义嵌入的基础；所述基本块属性中与结构相关的数字化特征包括入度、出度、介数、关键函数参数个数；

步骤S2052：使用structure2vec神经网络将融合语义图转化为可以作为机器学习模型输入的图嵌入向量，即生成最终图嵌入向量；通过图嵌入网络找到的评价关键函数可以整合关键函数中距离某一个节点2步甚至3步以外的所有邻居的信息，并将信息压缩成一个有限维的非线性向量；使用基于深度神经网络模型的包含语义的方法来处理关键函数结构化语义表达，得到二进制文件的关键函数对应的特征向量。

2.一种基于神经网络的漏洞检测装置，其特征在于，所述装置包括：

训练模块：利用同源但不同架构和不同优化级别得到的二进制文件作为训练样本，利用特征向量生成模块，提取与二进制文件的关键函数对应的特征向量，训练神经网络模型；得到训练好的神经网络模型；

特征获取模块：输入目标二进制文件，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件；利用提取二进制文件的关键函数对应的特征向量方法，获取目标二进制文件的关键函数对应的特征向量，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的关键函数对应的特征向量；

比较模块：向所述训练好的神经网络模型输入目标二进制文件的关键函数对应的特征向量，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的关键函数对应的特征向量；进行关键函数级别相似性比较，根据相似性比较结果，检测目标二进制文件的漏洞；

所述特征向量生成模块，包括：

基本块特征提取子模块：对二进制文件的基本块基于skip-thoughts提取基本块代码语义特征；关键函数特征提取子模块：提取二进制文件的关键函数级别代码结构化语义特征，生成与二进制文件的关键函数对应的特征向量，通过提取函数级别代码结构化语义特征，将函数内部节点和结构相关的属性信息进行收集，使用神经网络模型对得到的基本块级别的特征向量进行选择，以生成二进制文件的函数级别的向量；

所述比较模块，包括：

第一比较子模块：向训练好的Siamese神经网络模型输入目标二进制文件的关键函数对应的特征向量，以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的关键函数对应的特征向量，分别得到目标二进制文件以及与该目标二进制文件同源的、并且已知漏洞的二进制文件的关键函数对应的融合语义图，得到分别对应于这两个二进制代码文件关键函数的图嵌入向量μ₁和μ₂，对μ₁和μ₂进行向量的相似性比较，cosine距离计算两个图嵌入向量μ₁和μ₂的相似性，根据相似性检测二进制文件的漏洞；所述目标二进制文件为待检测漏洞的二进制文件；

所述基本块特征提取子模块，包括：

预处理子模块：对二进制文件进行指令代码预处理；

向量生成子模块：对基本块基于skip-thoughts提取语义特征，利用skip-thoughts中的编码-解码器结构，对提取的所述基本块代码语义特征进行特征嵌入，生成向量，得到基本块代码语义特征；其中，所述二进制文件的指令按照其结构可以进行分层，包括指令级别、基本块级别和关键函数级别，对基本块基于skip-thoughts提取语义特征时，将二进制文件中的单独指令看成是自然语言处理中的“单词”，将基本块看成“句子”，关键函数看成“段落”，利用skip-thoughts中的编码-解码器结构，输入基本块所包含的指令序列；通过所述编码-解码器结构中的编码结构，将输入的指令序列输出为可以作为图嵌入网络输入的向量，并最大程度表征该基本块的语义特征，即编码-解码器结构中的编码结构，可以将分层的指令生成对应的特征向量；

所述关键函数特征提取子模块，包括：

关键函数图生成子模块：将关键函数中的基本块作为图结构的节点，获取图结构的节点语义特征及与结构相关的数字化特征，所述数字化特征包括基本块嵌入过程中的语义向量，也包括关键函数与其内部基本块属性中与结构相关的数字化特征，以二进制文件的控制流图为基础，将从基本块提取的语义特征与该数字化特征进行融合，得到关键函数图结构的信息，作为结构化语义嵌入的基础；所述基本块属性中与结构相关的数字化特征包括入度、出度、介数、关键函数参数个数；

最终图嵌入向量生成子模块：使用structure2vec神经网络将融合语义图转化为可以作为机器学习模型输入的图嵌入向量，即生成最终图嵌入向量；通过图嵌入网络找到的评价关键函数可以整合关键函数中距离某一个节点2步甚至3步以外的所有邻居的信息，并将信息压缩成一个有限维的非线性向量；使用基于深度神经网络模型的包含语义的方法来处理关键函数结构化语义表达，得到二进制文件的关键函数对应的特征向量；

所述神经网络模型为基于Siamese网络构建的神经网络模型，通过使用已知漏洞的二进制文件得到的、已经进行了标签处理的特征向量作为样本，对该神经网络模型进行训练，得到训练好的Siamese神经网络模型。

3.一种基于神经网络的漏洞检测系统，其特征在于，包括：

处理器，用于执行多条指令；

存储器，用于存储多条指令；

其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如权利要求1所述的基于神经网络的漏洞检测方法。

4.一种计算机可读存储介质，其特征在于，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如权利要求1所述的基于神经网络的漏洞检测方法。