CN113946830B

CN113946830B - 基于多模态检测的Android APP漏洞细粒度检测方法

Info

Publication number: CN113946830B
Application number: CN202111175586.1A
Authority: CN
Inventors: 李星政; 冯丙文; 黄晓昆; 徐天昊
Original assignee: Jinan University; China Electronic Product Reliability and Environmental Testing Research Institute
Current assignee: Jinan University; China Electronic Product Reliability and Environmental Testing Research Institute
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2024-05-07
Anticipated expiration: 2041-10-09
Also published as: CN113946830A

Abstract

本发明公开了基于多模态检测的Android APP漏洞细粒度检测方法，包括以下步骤：S1、选择需要进行检测的APP；S2、对APP的Java源代码编译形成smali代码；S3、对Java源代码进行分析提取细粒度的代码片段java code slice；S4、从smali代码中匹配java code slice形成代码片段smali code slice；S5、将code slice进行转换为向量形式；S6、对向量形式的java code slice和smali codeslice进行多模态早期融合，对两个数据的简单相加后去除冗余数据，得到融合的向量数据；S7、将三种独立的数据通过三个独立的BLSTM深度学习模型得到三个独立的检测结果；S8、将三个检测结果通过多模态晚期融合，综合三个检测结果做出检测结论。本发明方法能够更高准确率、更快速率以及细粒度的完成漏洞检测工作。

Description

基于多模态检测的Android APP漏洞细粒度检测方法

技术领域

本发明属于代码漏洞检测技术领域，具体涉及基于多模态检测的Android APP漏洞细粒度检测方法。

背景技术

静态漏洞检测技术广泛应用于软件开发及测试当中。它通过扫描软件源代码分析其词法、语法、控制流、数据流等信息来挖掘隐藏在软件中的漏洞。传统的静态漏洞检测技术往往需要大量的人工交互，以及先验知识，这些知识依赖于经验和专业知识，因此造成昂贵的人工成本。随着深度学习的快速发展，人们将静态漏洞检测与深度学习结合，减少漏洞检测过程中的人工介入。但是这些基于深度学习的漏洞检测方案往往有着各种的局限性，例如检测准确率低、检测粒度粗、检测范围小等问题。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提出一种基于多模态检测的Android APP漏洞细粒度检测方法，方法能够更高准确率，更快速率以及细粒度的完成漏洞检测工作。

为了达到上述目的，本发明采用以下技术方案：

基于多模态检测的Android APP漏洞细粒度检测方法，包括以下步骤：

S1、选择需要进行漏洞检测的Android APP；

S2、对Android APP的Java源代码进行编译形成smali代码；

S3、对Java源代码进行分析提取细粒度的代码片段java code slice；

S4、从smali代码中匹配java code slice形成代码片段smali code slice；

S5、通过预训练完成Word2vec模型将code slice转换为向量形式；

S6、对向量形式的java code slice和smali code slice进行多模态早期融合，对两个code slice叠加后去除两者之间的冗余数据，最后得到一个融合过的向量数据fusioncode slice；

S7、将提取到的java code slice、smali code slice以及fusion code slice作为三个不同的数据集，输入三个独立的BLSTM深度学习模型，三种不同的code slice通过BLSTM深度学习模型最后得到三个独立的检测结果，检测结果以0和1作为展示，其中0代表该片段存在漏洞，1代表该片段不存在漏洞；

S8、对三个判断该code slice是否存在漏洞的检测结果进行投票，以多数为主从而得到该code slice是否存在漏洞的综合判断结果，实现多模态晚期融合。

进一步的，步骤S2具体包括以下步骤：

S21、将java源代码文件通过javac编译为.class文件；

S22、将.class文件通过Android SDK提供的工具编译成dex文件；

S23、使用smali.jar将dex文件转为smali文件。

进一步的，步骤S3具体包括以下步骤：

S31、使用代码分析工具解析java源代码，提取代码的控制流程和代码的程序依赖图；

S32、通过控制流图和程序依赖图，从java源代码中提取相互影响的语句，将相互影响的语句按照执行顺序进行排序合并为一个代码片段java code slice。

进一步的，步骤S4具体包括以下步骤：

S41、使用反编译工具，通过smali文件中的代码行数和变量别名信息，还原为原始的java代码；

S42、通过对比java code slice和还原的java代码的语句类型和执行顺序，选择匹配度最高的一系列语句，提取该系列语句对应的smali语句，按照java code slice中语句顺序进行排序，最后组成与java code slice相对应的smali code slice。

进一步的，Word2vec是一个将所有词转换为向量的工具，通过Word2vec转换后的词与词之间可以定量去度量他们的关系，挖掘词之间的联系；将提取到的java code slice和smali code slice通过分词形成语料库，利用该语料库对Word2vec模型进行训练，训练完成的Word2vec模型更好地体现每个不同词之间的关系。

进一步的，BLSTM深度学习模型包括输入层、双向LSTM层、Dense层、Softmax层以及输出层。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明提出了一个细粒度检测漏洞的方案。它对软件代码进行分析，通过代码的控制流图(CFG)以及程序依赖图(PDG)从代码中一个个小型的代码片段，运用神经网络对这些片段进行检测，从而缩小漏洞可能存在的范围，可以更好更快的定位漏洞位置。

2、本发明提出结合使用Android APP的Java代码和对应的smali代码，对比使用单一代码的漏洞检测方案，这种方案可以同时检测到两种数据所能检测到漏洞类型，大大增加了漏洞发现的类型。

3、本发明提出将多模态机器学习与漏洞检测相结合，通过结合考虑不同模态带来的特征信息从而做出漏洞检测决策，这样大大提高了漏洞检测的准确率。

附图说明

图1是本发明方法的流程图；

图2是本发明实施例smali code slice提取流程图；

图3是本发明实施例多模态混合融合示意图；

图4是本发明实施例BLSTTM深度学习模型结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本发明，基于多模态检测的Android APP漏洞细粒度检测方法，包括以下步骤：

S1、选择需要进行漏洞检测的Android APP；

S2、对Android APP的Java源代码进行变异形成smali代码；在本实施例中，步骤S2具体包括以下子步骤：

S21、对Java源代码文件通过javac编译为.class文件；

S22、对.class文件通过android SDK提供的工具编译成dex文件；

S23、使用smali.jar将dex文件转为smali文件。

S3、对java源代码进行分析提取细粒度的代码片段java code slice；在本实施例中，具体包括以下子步骤：

S32、通过控制流图和程序依赖图，从Java源代码中提取相互影响的语句，将相互影响的语句按照执行顺序进行排序合并为一个代码片段java code slice；

S4、从smali代码中匹配java code slice形成代码片段smali code slice；在本实施例中，具体包括以下子步骤：

S41、使用反编译工具，通过smali文件中的代码行数和变量别名等信息，最大程度还原为原始的java代码；

S42、通过对比java code slice和还原的java代码的语句类型、执行顺序等信息，选择匹配度最高的一系列语句，提取该系列语句对应的smali语句，按照java code slice中语句顺序进行排序，最后组成与java code slice相对应的smali code slice；

如图2所示，为smali code slice提取流程图。

S5、通过预训练完成Word2vec模型对code slice进行转换为向量形式；

其中，Word2vec是一个将所有词转换为向量的工具，通过Word2vec转换后的词与词之间可以定量去度量他们的关系，挖掘词之间的联系；将提取到的java code slice和smali code slice通过分词形成语料库，利用该语料库对Word2vec模型进行训练，训练完成的Word2vec模型更好地体现每个不同词之间的关系。

S7、将提取到的java code slice、smali code slice以及fusion code slice作为三个不同的数据集，输入三个独立的BLSTM深度学习模型，三种不同的code slice通过BLSTM深度学习模型最后得到三个独立的检测结果；检测结果以0和1作为展示，其中0代表该片段存在漏洞，1代表该片段不存在漏洞；BLSTM深度学习模型包括输入层、双向LSTM层、Dense层、Softmax层以及输出层，其结构如图4所示。

S8、对三个判断该code slice是否存在漏洞的检测结果进行投票，以多数为主从而得到该code slice是否存在漏洞的综合判断结果，实现多模态晚期融合。即实现多模态混合融合。

其中，多模态晚期融合与多模态早期融合的数据层面和特征层面的融合不同，晚期融合是对不同模型的输出结果进行结合考虑，通常采用投票决策，最大值结合，贝叶斯规则结合等结合策略来完成晚期融合。多模态混合融合是结合多模态早期融合和多模态晚期融合后的多模态融合方法，该方法首先通过在数据层面的融合，生成一个新的模态数据，从而完成早期融合。之后在结合考虑多个模态的输出结果后，对多个输出结果进行晚期融合，从而得到最终的输出结果。

如图3所示，为本实施例多模态混合融合示意图。

本发明提出了一个更广泛、高精度、细粒度的Android APP的漏洞检测方法。该方法由三个模块组成：数据采集模块，数据转换模块，漏洞检测模块。在数据采集模块，首先对Android APP的Java源代码进行编译形成smali代码，接着对Java源代码进行分析提取细粒度的代码片段，最后从smali代码中匹配Java代码片段。在数据转换模块，通过训练好的Word2vec模型将数据采集模块生成的代码片段转换为可以被深度学习模型识别的向量形式。在漏洞检测模块，首先将两个不同模态的数据通过多模态早期融合形成新的模态数据，接着将三个不同的模态数据通过三个独立的深度学习模型得出各自的决策。最后将三个结果通过多模态晚期融合做出检测结果。

还需要说明的是，在本说明书中，诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于多模态检测的Android APP漏洞细粒度检测方法，其特征在于，包括以下步骤：

S1、选择需要进行漏洞检测的Android APP；

S2、对Android APP的Java源代码进行编译形成smali代码；

S5、通过预训练完成Word2vec模型将code slice转换为向量形式；

2.根据权利要求1所述的基于多模态检测的Android APP漏洞细粒度检测方法，其特征在于，步骤S2具体包括以下步骤：

S21、将java源代码文件通过javac编译为.class文件；

S22、将.class文件通过Android SDK提供的工具编译成dex文件；

S23、使用smali.jar将dex文件转为smali文件。

3.根据权利要求1所述的基于多模态检测的Android APP漏洞细粒度检测方法，其特征在于，步骤S3具体包括以下步骤：

4.根据权利要求1所述的基于多模态检测的Android APP漏洞细粒度检测方法，其特征在于，步骤S4具体包括以下步骤：

5.根据权利要求1所述的基于多模态检测的Android APP漏洞细粒度检测方法，其特征在于，Word2vec是一个将所有词转换为向量的工具，通过Word2vec转换后的词与词之间可以定量去度量他们的关系，挖掘词之间的联系；将提取到的java code slice和smali codeslice通过分词形成语料库，利用该语料库对Word2vec模型进行训练，训练完成的Word2vec模型更好地体现每个不同词之间的关系。

6.根据权利要求1所述的基于多模态检测的Android APP漏洞细粒度检测方法，其特征在于，BLSTM深度学习模型包括输入层、双向LSTM层、Dense层、Softmax层以及输出层。