CN111176623A

CN111176623A - 一种基于图卷积神经网络的c++抽象信息恢复方法

Info

Publication number: CN111176623A
Application number: CN201911403402.5A
Authority: CN
Inventors: 金舒原; 王剑儒
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-19
Anticipated expiration: 2039-12-31
Also published as: CN111176623B

Abstract

本发明公开了一种基于图卷积神经网络的C++抽象信息恢复方法，所述方法包括：首先使用二进制分析工具提取出基本事实，推理使用；对于确定性的规则，直接推理得出结论；对于步骤B不能确定的结论，使用图卷积网络处理得出结论；对于用图卷积网络处理得出的结论，再额外设置一致性检查规则，若不能通过检查，则需要再从步骤C中取出第二个结论再进行尝试，直到可以通过推理得出一致性检查为止。本发明有益效果在于，图卷积神经网络(GCN)可应用于图的顶点的属性预测，把假设推理的规则抽象成图的顶点和边，就可以使用图卷积神经网络的属性预测代替Prolog的假设推理，从而达到更高的速度和准确率。

Description

一种基于图卷积神经网络的C++抽象信息恢复方法

技术领域

本发明涉及网络安全技术领域，特别涉及二进制可执行文件的逆向工程技术，具体的说，一种基于图卷积神经网络的C++抽象信息恢复方法。

背景技术

软件逆向工程是研究闭源软件行为的重要方式。通过逆向工程，我们可以恢复出闭源软件中的一些算法、协议和应用程序接口，进而了解一个软件内部是否包含恶意代码或者是否存在漏洞。

C++是目前主流的面向对象编程语言之一，同时具有能与C语言媲美的运行效率和面向对象编程语言的高开发效率，许多注重性能的软件都使用C++作为主要开发语言。C++继承自C，因此也存在类似C语言的一些内存安全问题，比如常见的缓冲区出，空指针解引用和Use-After-Free等。要分析由C++编译成的二进制可执行文件中Use-After-Free漏洞，则要先知道C++对象是如何被构造的；要分析由C++编译成的二进制可执行文件是否包含恶意代码，也要先通过C++抽象信息(即C++的类、对象、类的方法、成员变量、类之间的继承关系等)来分析程序逻辑。因此，恢复出C++的抽象信息在二进制可执行文件的逆向工程中具有十分重要的意义。

然而，在二进制可执行文件的逆向工程中，由C++编译成的二进制可执行文件的分析难度比由C编译成的二进制可执行文件大得多，因为由C++编译成的二进制可执行文件在运行过程中并不需要知道C++的抽象信息，所以这些信息在编译的过程中大部分都被丢弃了。如何准确地恢复出这些C++的抽象信息，成为二进制可执行文件的逆向工程中的一个热点问题。

软件逆向工程是研究闭源软件行为的重要方式。通过逆向工程，我们可以恢复出闭源软件中的一些算法、协议和应用程序接口(API)，进而可以了解一个软件内部是否包含恶意代码，或者漏洞(比如常见的栈溢出、堆溢出和Use-After-Free等)。在法律允许的情况下，我们还可以通过逆向工程恢复出闭源软件中的一些算法、协议和应用程序接口(API)。增加一句话或者2句话说明对于C++编写的软件恢复的重要意义。

C++是目前主流的面向对象编程语言之一，许多注重性能的软件都使用C++作为主要开发语言。在二进制可执行文件的逆向工程中，由C++编译成的二进制文件的分析难度通常比由C编译成的二进制文件大得多，这是因为C++引入了类与对象等面向对象(OO)编程的概念，而这些信息在编译的过程中大部分都丢失了。要正确地理解由C++编译成的二进制文件的行为，就要先从二进制文件中恢复出C++的类、对象等面向对象编程相关的属性信息//题目是C++对象恢复,这里说的是属性恢复，需要保持一致，你需要确认到底想做什么，再修改题目和这里，令它们保持一致。

对XXX的恢复技术中，目前现有的技术的方法主要包括XXXX。这些方法主要是通过分析C++虚函数表和程序的控制流来实现(来实现什么需补充)。但是这些技术都要通过分析C++虚函数表得到一些基本信息，所以对于没有虚函数的类，分析起来比较困难。较新的方法使用了符号分析的方法得到一些二进制代码内的一些C++基本事实，再基于Prolog规则进行推理分析，最终从而恢复出对象的具体属性。符号分析可以较准确地得到C++中对象的创建、修改、维护等操作，但是在Prolog推理分析中，对于含义比较模糊的属性，Prolog会先作出一个假设推理，再对结论进行验证。这个过程需要大量的计算，并且准确率不高。//这段主要是将已有的技术分成几类，开头先概括，最后说明你想做的方法主要是在哪个方面，跟专利的题目相一致。目前已有的方法主要包括：分析C++的运行时类型识别(RTTI)信息、分析C++虚函数表和程序的控制流等。

1、分析C++的RTTI信息

C++的对象具有多态性，其基类的指针就可以指向任何派生类的对象。为了确定基类的指针到底指向了哪个派生类的对象，需要使用运行时类型识别(RTTI)功能。C++的RTTI功能主要服务于两个关键字：typeid和dynamic_cast。为了使用RTTI，编译器会在二进制代码中加入特定的数据结构，里面包含了C++类名及其继承关系，因此，直接分析二进制代码中的RTTI结构体就可以恢复出。但是，C++的RTTI功能经常被错误地使用，并且需要使用typeid和dynamic_cast这两个关键字的场合也不多，所以现代应用程序基本上默认不使用RTTI，基于RTTI的分析方法不能很好发挥作用。

2、分析C++虚函数表和程序的控制流

此方法通过分析虚函数表跟踪对象指针、分析程序控制流、C++异常处理函数来得到C++抽象信息。但是这个方法是基于分析C++虚函数表的，而非多态类(即没有虚函数的类)没有虚函数表，因此无法分析非多态类的继承关系。

3、基于Prolog规则进行推理分析

基于Prolog规则进行推理分析综合了以上两种方法的优点，并使用了简单的静态符号执行来分析，得到二进制代码内的一些C++基本事实，再基于Prolog规则进行推理分析，最终恢复出C++抽象信息。静态符号执行分析可以较准确地得到C++中对象的创建、修改、维护等操作，同时Prolog推理的方法更具有全局性，可以通过跟踪程序数据流来推理得到非多态类的信息。

在Prolog推理分析中，对于含义比较模糊的抽象信息，则先作出一个假设推理，再对结论进行验证。如果验证不通过，则要进行回溯。回溯的原理是添加更多的规则以排除不合理的解，这个过程的计算复杂度非常高，对内存消耗也非常大，并且准确率不高。

发明内容

本发明的目的在于解决C++抽象信息恢复过程中含义比较模糊的抽象信息恢复的速度、准确率上的问题。图卷积神经网络(GCN)可应用于图的顶点的属性预测，把假设推理的规则抽象成图的顶点和边，就可以使用图卷积神经网络的属性预测代替Prolog的假设推理，从而达到更高的速度和准确率。

为了实现上述目的，本发明采用如下技术方案：

一种基于图卷积神经网络的C++抽象信息恢复方法，所述方法包括：

A首先使用二进制分析工具提取出基本事实，推理使用；

B对于确定性的规则，直接推理得出结论；

C对于步骤B不能确定的结论，使用图卷积网络处理得出结论；

D对于用图卷积网络处理得出的结论，再额外设置一致性检查规则，若不能通过检查，则需要再从步骤C中取出第二个结论再进行尝试，直到可以通过推理得出一致性检查为止。

优选地，所述二进制分析工具为pharos。

优选地，所述推理的工具为Prolog。

优选地，所述步骤C中还包括：

C1首先使用编译工具编译用于训练的二进制代码，得到程序数据库文件；

C2解析步骤C1获得的程序数据库文件，得到程序中包含的所有C++类，包括类的成员变量，成员函数，和/或类的虚函数表的偏移量；

C3以步骤C2得到的C++类型信息作为标签，对图卷积网络进行训练。

优选地，所述编译工具为Microsoft C++Compiler。

相较于基于prolog的分析方法，本发明提出的技术方案，具有以下优势：

第一，使用图卷积网络进行预测意味着不需要太多的专业领域知识，因为图卷积网络在训练过程中可以自动学习规则；

第二，相对于Prolog的假设推理算法，图卷积网络的计算复杂度更低，且图卷积网络的实现可以充分利用现代计算机硬件的并行计算特性，达到更快的速度；

第三，Prolog的假设推理算法每次都进行随机猜测，而图卷积网络可以根据训练数据的规律进行预测，准确性更高。

附图说明

图1为本发明的抽象信息恢复的流程示意图；

图2为本发明步骤C2中待处理的源代码示意图；

图3为本发明获得的汇编代码示意图；

图4为本发明读取PDB文件得到的结果示意图；

图5为通过本发明恢复后的图卷积网络由结点和有向边组成的结果示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，以下实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

如图1所示，本发明为一种基于图卷积神经网络的C++抽象信息恢复方法，所述方法包括：

A首先使用二进制分析工具提取出基本事实，推理使用；

B对于确定性的规则，直接推理得出结论；

优选地，所述二进制分析工具为pharos。

优选地，所述推理的工具为Prolog。

优选地，所述步骤C中还包括：

优选地，所述编译工具为Microsoft C++Compiler。

实施例

步骤A，首先使用二进制分析工具(pharos)分析提取出基本事实，供Prolog推理使用。

基本事实具有以下类型。

基本事实示例：

步骤B)，对于确定性的规则，直接使用Prolog推理分析得出结论。

步骤C)，对于步骤B不能确定的结论(例如，有时候会出现一个method运用步骤B中的规则并不能确定它是一个类的构造函数，也不能确定它不是类的构造函数)，则运用图卷积网络进行预测。

步骤C1，首先使用编译工具(Microsoft C++Compiler)编译用于训练的二进制代码，得到程序数据库(Program Data Base，PDB)文件。

步骤C2，解析程序数据库(PDB)文件，得到二进制文件中OO类型信息，包括C++类和它的成员变量，成员函数，和/或类的虚函数表的偏移量(如果存在的话)等。

PDB文件格式并未公开，但可以使用微软提供的cvdump工具来读取其中的信息。图2为待处理的源代码。

编译源代码得到二进制可执行文件，再使用反汇编工具分析，得到的汇编代码(CMFCApplication1Dlg::OnBnClickedOk()部分)如图3所示。

使用命令“cvdump-s”读取PDB文件得到的结果，如图4所示。

步骤C3，以步骤C2得到的C++类型信息作为标签，对图卷积网络进行训练。其中，标签类别如下表所示：

图卷积网络由结点和有向边组成。如下图5所示，结点共有两类，圆形表示基本事实的类型(比如类的方法、类的对象、偏移量等)，矩形表示的是基本事实。基本事实在Prolog语言的表示形式为Fact(a,b,c)，若类型与基本事实存在关系，则用一条有向边将它们连接起来。考虑到Fact(a,b,c)中a，b，c的顺序，需要给每条有向边加上权值，第n个参数的权值为n。

给类型贴上标签，训练好图卷积网络后，就可以用于预测了。

步骤D，因为图卷积网络处理得出的结论并不完全准确，所以还需要再额外设置一致性检查规则进行检查。若不能通过检查，则回到传统的Prolog假设推理得出结论，并再次进行一致性检查，直到通过检查为止。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种基于图卷积神经网络的C++抽象信息恢复方法，其特征在于，所述方法包括：

A首先使用二进制分析工具提取出基本事实，推理使用；

B对于确定性的规则，直接推理得出结论；

2.根据权利要求1所述的基于图卷积神经网络的C++抽象信息恢复方法，其特征在于，所述二进制分析工具为pharos。

3.根据权利要求1所述的基于图卷积神经网络的C++抽象信息恢复方法，其特征在于，所述推理的工具为Prolog。

4.根据权利要求1所述的基于图卷积神经网络的C++抽象信息恢复方法，其特征在于，所述步骤C中还包括：

5.根据权利要求4所述的基于图卷积神经网络的C++抽象信息恢复方法，其特征在于，所述编译工具为Microsoft C++Compiler。