CN116910770A

CN116910770A - 一种基于密度的固件基址识别系统及方法

Info

Publication number: CN116910770A
Application number: CN202311174442.3A
Authority: CN
Inventors: 曲海鹏; 刘珂; 屈超; 张义康
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-10-20
Anticipated expiration: 2043-09-13
Also published as: CN116910770B

Abstract

本发明涉及软件安全中物联网安全领域，公开了一种基于密度的固件基址识别系统及方法，其特征在于，包括预处理模块、提取模块、地址过滤模块和优化输出模块；预处理模块用于判断固件的架构，并识别存储方式；提取模块用于提取固件中字符串的相对地址和绝对地址，得到相对地址列表和绝对地址列表；地址过滤模块用于对提取的相对地址列表和绝对地址列表中的地址分别进行排序，并在排序完成后对绝对地址列表中的地址进行过滤；优化输出模块用于对相对地址列表和绝对地址列表进行基于密度的聚类，找到输入列表中连续数值密度最高的子列表。本发明所公开的系统及方法可以使固件基址的识别更加智能化，加快基址识别的速度，降低对硬件的依赖。

Description

一种基于密度的固件基址识别系统及方法

技术领域

本发明涉及软件安全中物联网安全领域，特别涉及一种基于密度的固件基址识别系统及方法。

背景技术

随着计算机技术的快速发展和人们生活便利的需求，物联网已经成为互联网企业生产和科学研究领域的热门方向。物联网将各种物理设备连接到互联网，实现设备之间的信息交流和智能化控制，为人们的生活工作带来巨大的便利和效益。嵌入式设备在物联网中扮演着关键的角色，它们被广泛应用于各个领域，如家居自动化、智能电网、工业自动化、医疗设备等。嵌入式设备通常包含了固件，即嵌入在设备中的软件，用于控制设备的功能和行为。

固件逆向分析是物联网安全研究者在研究中的一个重要环节，逆向分析固件可以帮助理解设备的工作原理、发现潜在的漏洞和安全风险，并进行优化和改进。为了进行有效的固件逆向分析，需要准确识别固件的基地址。固件基址识别是指确定固件在内存中的起始位置，以便正确地解析和分析固件的二进制代码。然而，由于嵌入式设备的多样性和复杂性，固件基址识别一直是一个具有挑战性的问题。

传统的固件基址识别方法包括人工方法和自动化方法。人工方法通过反汇编程序对程序进行人工逆向分析，进而来确定固件的基址。人工方法需要花费较多的时间并且对研究人员的技术要求较高。自动化方法通过分析二进制文件得到一些有用的地址信息，比如函数地址、字符串地址等，然后通过绝对地址与相对地址做差，从而得到固件的基址。自动化方法需要人工介入的地方比动态方法要少，对技术门槛的要求也更低。自动化方法在如何选取合适的绝对地址和相对地址做差这个问题上一直缺少合适的方法。一般方法是通过暴力方法将每一个绝对地址分别减去每一个相对地址，然后利用概率统计的方法得到一个合理的固件基址。由于处理的数据量过大，导致识别速度过慢，对硬件的要求较高。

发明内容

为解决上述技术问题，本发明提供了一种基于密度的固件基址识别系统及方法，以达到使固件基址的识别更加智能化，加快基址识别的速度，降低对硬件的依赖的目的。

为达到上述目的，本发明的技术方案如下：

一种基于密度的固件基址识别系统，包括预处理模块、提取模块、地址过滤模块和优化输出模块；

所述预处理模块用于判断固件的架构，并识别存储方式；

所述提取模块用于提取固件中字符串的相对地址和绝对地址，得到相对地址列表和绝对地址列表；

所述地址过滤模块用于对提取的相对地址列表和绝对地址列表中的地址分别进行排序，并在排序完成后对绝对地址列表中的地址进行过滤；

所述优化输出模块用于对相对地址列表和绝对地址列表进行基于密度的聚类，找到输入列表中连续数值密度最高的子列表。

上述方案中，所述预处理模块包括架构识别单元和存储方式识别单元，所述架构识别单元用于判断固件的架构，所述存储方式识别单元用于识别存储方式是大端存储还是小端存储。

上述方案中，所述提取模块包括字符串识别提取单元、加载指令识别单元和绝对地址提取单元，所述字符串识别提取单元用于识别固件中的字符串，并记录其在固件中的相对地址；所述加载指令识别单元用于识别固件中对字符串进行加载的指令，识别到的加载指令被送到绝对地址提取单元；所述绝对地址提取单元用于对加载指令中包含的绝对地址信息进行提取。

上述方案中，所述优化输出模块包括密度聚类单元和基址识别单元；所述密度聚类单元用于对相对地址列表和绝对地址列表进行基于密度的聚类，所述基址识别单元用于根据聚类的结果进行基址的识别。

一种基于密度的固件基址识别方法，采用如上所述的一种基于密度的固件基址识别系统，包括如下步骤：

步骤一，预处理模块通过架构识别单元来判断固件的架构，通过存储方式识别单元来识别存储方式是大端存储还是小端存储；

步骤二，提取模块负责首先通过字符串识别提取单元识别固件中的字符串，并记录其在固件中的相对地址；然后通过加载指令识别单元识别固件中对字符串进行加载的指令，每当加载指令识别单元识别到一个加载指令，就会将其送到绝对地址提取单元，对这个加载指令中包含的绝对地址信息进行提取；最后绝对地址提取单元对加载指令中包含的绝对地址信息进行提取，最终得到相对地址列表和绝对地址列表；

步骤三，地址过滤模块首先将相对地址列表和绝对地址列表的地址分别进行从小到大的排序，然后在排序完成后，对绝对地址列表中的地址进行过滤，过滤的规则是地址的大小不能大于基址加上文件的大小；

步骤四，经过地址过滤模块之后，优化输出模块中的密度聚类单元负责对相对地址列表和绝对地址列表开始进行基于密度的聚类，找到输入列表中连续数值密度最高的子列表；然后，基址识别单元在范围内对基地址进行搜索，进行固件基址的识别。

上述方案中，步骤一中，架构识别单元通过在二进制固件中搜索不同架构函数调用的机器码，统计二进制固件中每个架构函数调用机器码匹配的数量，将匹配数量多的作为该固件架构；对于大小端的判断，存储方式识别单元通过统计二进制固件中匹配大端指令的数量和小端指令的数量来做出判断。

上述方案中，步骤二中，字符串识别提取单元通过设置一个阈值，将超过阈值长度的连续ASCII码认为是字符串，将识别到的字符串在二进制固件中的相对位置记录存储下来，作为相对地址。

上述方案中，步骤三中，地址过滤模块的过滤方法包括如下步骤：

（1）获取地址列表的长度，存储在length 中；

（2）初始化变量max_count 和 max_index，用于记录满足条件的地址数量的最大值和对应的索引；

（3）使用循环遍历地址列表中的每个元素，索引从0到length-1；

（4）在循环中，创建一个临时数组temp_arr，其中包含从当前索引到列表末尾的元素；

（5）使用条件筛选，判断temp_arr 中的元素是否在当前元素的值与文件大小之间；

（6）获取满足条件的元素数量，并将其存储在 count 中；

（7）如果count 大于 max_count，则更新 max_count 为 count，同时更新 max_index 为当前的索引i；

（8）在循环结束后，根据找到的max_index，创建一个新的临时数组 temp_arr，其中包含从 max_index 到列表末尾的元素；

（9）将满足条件的元素存储在新的绝对地址列表中。

上述方案中，步骤四中，基于密度的聚类方法如下：密度聚类单元通过设置一个窗口值，然后遍历地址列表，如果当前元素小于等于前一个元素加上窗口值，则说明当前元素与前一个元素在连续数值密度范围内，则将其聚为一类。

上述方案中，步骤四中，基址识别单元的识别方法如下：假设某一个字符串在文件中的偏移量为offset _i，加载到内存中位置为addr _j，假设装载基址为base，则addr _j =base- offset _i；设绝对地址列表中的最小值减去相对地址列表中的最小值为x，然后设置基址的范围为[x-0x100000，x+0x100000]，在这个范围内遍历可能的基址，用暂定基址与相对地址中每个元素分别相加，再与绝对地址列表求交集；统计满足公式addr _j =base-offset _i的元素数，数量最多的组所对应的暂定基址判定为该固件的基址。

通过上述技术方案，本发明提供的一种基于密度的固件基址识别系统及方法具有如下有益效果：

1）本发明在静态识别固件基址技术的基础上，提出了一种基于密度的固件基址识别方法，缩小了候选基址的范围，从而加快固件基址的识别速度，减小了对硬件的依赖。

2）本发明改进了静态方法中的判断二进制固件中字符串的方法，能更准确的识别出二进制固件中的字符串。

3）与其他固件识别技术相比较，本发明开销小，且保证程序执行的稳定性和高实用性。

4）本发明执行效率高，对二进制固件进行信息分析和提取更准确，可以在较短时间内判断出固件基址。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所公开的一种基于密度的固件基址识别系统示意图；

图2为本发明实施例所公开的一种基于密度的固件基址识别方法流程示意图；

图3为本发明中识别字符加载指令的识别流程图；

图4为本明中绝对地址密度图；

图5为本明中相对地址密度图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了一种基于密度的固件基址识别系统，如图1所示，包括预处理模块、提取模块、地址过滤模块和优化输出模块。

预处理模块用于判断固件的架构，并识别存储方式；预处理模块包括架构识别单元和存储方式识别单元，架构识别单元用于判断固件的架构，存储方式识别单元用于识别存储方式是大端存储还是小端存储。

提取模块用于提取固件中字符串的相对地址和绝对地址，得到相对地址列表和绝对地址列表；提取模块包括字符串识别提取单元、加载指令识别单元和绝对地址提取单元，字符串识别提取单元用于识别固件中的字符串，并记录其在固件中的相对地址；加载指令识别单元用于识别固件中对字符串进行加载的指令，识别到的加载指令被送到绝对地址提取单元；绝对地址提取单元用于对加载指令中包含的绝对地址信息进行提取。

地址过滤模块用于对提取的相对地址列表和绝对地址列表中的地址分别进行排序，并在排序完成后对绝对地址列表中的地址进行过滤；

优化输出模块用于对相对地址列表和绝对地址列表进行基于密度的聚类，找到输入列表中连续数值密度最高的子列表；优化输出模块包括密度聚类单元和基址识别单元；密度聚类单元用于对相对地址列表和绝对地址列表进行基于密度的聚类，基址识别单元用于根据聚类的结果进行基址的识别。

本发明公开了一种基于密度的固件基址识别方法，如图2所示，采用如上的一种基于密度的固件基址识别系统，本发明对ARM、MIPS和Thumb指令集下的基址识别进行阐述，具体包括如下步骤：

步骤一，预处理模块通过架构识别单元来判断固件的架构，通过存储方式识别单元来识别存储方式是大端存储还是小端存储。

不同架构对函数调用的方式和指令也不同，我们把这个作为区分不同架构的标准，来判断固件的架构。比如Thumb 指令集为 PUSH 指令，1个字节是0xb5；在 ARM 指令集下为 STMFD 指令，STMFD机器码的前2个字节是0xe9和0x2d。具体的，架构识别单元通过在二进制固件中搜索不同架构函数调用的机器码，统计二进制固件中每个架构函数调用机器码匹配的数量，将匹配数量多的作为该固件架构；对于大小端的判断，存储方式识别单元通过统计二进制固件中匹配大端指令的数量和小端指令的数量来做出判断。

固件架构不同，其指令和指令编码也不同，为了后续能准确识别加载指令，首先需要对固件的架构进行确认。架构识别单元通过不同架构对函数序言和指令有不同特征来判断固件的架构。在 ARM 架构下，函数序言中保存寄存器的指令为 STMFD 指令，STMFD机器码的前2个字节是0xE9和0x2d。MIPS架构的函数序言为 ADDIU, $SP, X，其中X为一个负数，对应的机器码为0x27，0xBD。Thumb架构的指令都是16位bit的，Thumb 指令集的函数序言一般是通过PUSH 指令保存一些重要的寄存器的值，然后会根据需要调整栈指针（SP寄存器）的位置。PUSH指令的10-16位为10110101，其十六进制是0xB5 。架构识别单元的实现方法是通过在二进制固件中搜索固件中函数序言的特征，统计二进制固件中每个架构函数序言机器码匹配的数量，认为匹配哪种情况的函数序言数量多，该情况就为该固件的架构。该方法首先对ARM和MIPS的情况进行判断，因为Thumb的指令是16位bit组成的，很容易导致误报，而ARM和MIPS的指令是32位bit组成的，拥有更多信息来让我们进行判断。因此架构识别单元在排除另外两种情况后再对Thumb情况进行判断。

存储方式有两种：大端存储、小端存储。以Thumb指令集为例，在大端存储情况下PUSH指令的第一个字节为0xB5，第二字节为寄存器信息，而在小端存储下PUSH指令的第二字节为0xB5，第一字节为寄存器信息。存储方式识别单元负责对固件指令和数据的存储方式进行识别。在架构识别单元识别架构的同时，存储方式识别单元会统计二进制固件中匹配大端存储情况下的函数序言的数量和匹配小端存储情况下函数序言的数量，数量多者为该固件的存储形式。

步骤二，提取模块负责首先通过字符串识别提取单元识别固件中的字符串，并记录其在固件中的相对地址；然后通过加载指令识别单元识别固件中对字符串进行加载的指令，每当加载指令识别单元识别到一个加载指令，就会将其送到绝对地址提取单元，对这个加载指令中包含的绝对地址信息进行提取；最后绝对地址提取单元对加载指令中包含的绝对地址信息进行提取，最终得到相对地址列表和绝对地址列表。

具体的，字符串识别提取单元通过设置一个阈值，将超过阈值长度的连续ASCII码认为是字符串，将识别到的字符串在二进制固件中的相对位置记录存储下来，作为相对地址。

大部分软件由于要与用户进行交互或者输出一些信息提示，其内必然存储有字符串。字符一般是以ASCII码的形式存储在固件中，一个字符占据1字节的大小。本发明认为0x09至0x0D和0x20至0x7E为字符，前者为格式控制字符，后者为常见的数字、字母、标点符号和可打印的特殊字符。字符串识别提取单元首先遍历整个二进制固件，将连续5个为ASCII码的字节认为是候选字符串。候选字符串中可能存在被误识别的字符串，字符串识别模块使用正则表达式对候选字符串进行拆分操作，将字符串拆分成一个个子串。具体的拆分规则是基于候选字符串中的空格、回车等格式控制字符进行切分。如果被切分的字串中存在超过3个连续的数字、字母，就认为该候选字符串为有意义的字符串，将其在二进制固件中的相对位置记录到相对地址列表中。通过筛选过程能减少字符串的误识别，同时减少后续计算基址时的计算量。

固件中的字符串存储在内存中，被使用时需要使用加载指令。加载指令加载字符串的绝对地址，然后字符串才能被使用。本发明列举了ARM、MIPS和Thumb三种情况下的加载指令判断流程，如图3所示。ARM指令集下的字符串一般通过LDR指令进行加载，LDR指令可以用用于从内存中读取数据到寄存器，在LDR指令中包含了数据的在内存中的绝对地址；MIPS指令集下通过LUI指令来实现字符串的加载；Thumb指令集下也是通过LDR指令来加载字符串，与ARM指令集不同的是，Thumb中的LDR是16位的指令而ARM中是32位的指令。加载指令识别模块通过这些指令的机器码在对应的固件中去搜索这些指。在ARM中，LDR指令是32位bit构成的，其第一个字节是一个固定的值为0xE5，通过这个特征去搜索二进制固件中的LDR指令。在MIPS中，LUI指令也是由32位bit构成，第一个字节为固定的0x3C。在Thumb中，LDR指令由16位bit组成。根据Thumb指令的特性，加载常量池的指令的第一字节的前5位为01001，本发明的搜索算法是，取一个字节的数据，然后右移3位后值等于0x09则判断其为LDR指令。由于Thumb指令集的编码较短，仅通过前5位bit进行判断，所以准确度可能受到一定影响。

在识别到二进制固件中的加载指令后，绝对地址提取单元通过分析该指令的后续bit位来获得加载字符串的绝对地址，并将其存入绝对地址列表。在ARM中LDR指令的第一字节是固定的0xE5，最后的12位bit存储的是一个offset偏移量。根据ARM指令的规定LDR指令寻址地址为PC&0xFFFFFFFC+ offset，PC为当前指令运行到的地址，本发明据此公式得到字符串的绝对地址。在MIPS中，LUI指令的前11位bit固定为00111100000，后16位bit为地址的高16位。找到LUI指令后，继续在的4个指令范围内寻找ADDIU指令，该指令的后16位为地址的低16位，将两者拼接起来得到一个32位的绝对地址。在Thumb中，LDR指令的前5位bit固定为01001，后8位bit是一个偏移量。与ARM类似，Thumb规定LDR指令寻址地址为PC&0xFFFFFFFC+ offset * 4，PC为当前指令运行到的地址，据此公式得到字符串的绝对地址。

步骤三，固件经过预处理模块和提取模块后，现在已经掌握了固件的架构、存储方式、相对地址列表和绝对地址列表。接下来，地址过滤模块首先将相对地址列表和绝对地址列表的地址分别进行从小到大的排序，然后在排序完成后，对绝对地址列表中的地址进行过滤，过滤的规则是地址的大小不能大于基址加上文件的大小。具体包括如下步骤：

（1）获取地址列表的长度，存储在length 中；

（6）获取满足条件的元素数量，并将其存储在 count 中；

（9）将满足条件的元素存储在新的绝对地址列表中。

如图4和图5所示的绝对地址和相对地址的密度分布，很明显可以发现绝大部分地址很密集的分布在一个小区间范围。根绝这个特点，本发明提出了将地址基于密度聚类。基于密度的聚类方法如下：密度聚类单元通过设置一个窗口值，然后遍历地址列表，如果当前元素小于等于前一个元素加上窗口值，则说明当前元素与前一个元素在连续数值密度范围内，则将其聚为一类。该算法的伪代码实如下：

Algorithm 1 get_highest_density

1: function GET_HIGHEST_DENSITY(input_lst,wnd=0x1000)

2: lst_len← length of input_lst

3: i←1

4: count ← 0

5: start ←0

6: max_start ←0

7: max_end ←length of input_lst-1

8: max_count ← 0

9: while i<lst_len do

10: if input_lst[i-1] + wnd ≥ input_lst[i]then

11: count ← count+1

12： else

13: if count>max_count then

14: max_count ← count

15: max_start ←start

16: max_end ← i

17: end if

18: count ← 0

19: start ← i

20: end if

21: i ← i+1

22: end while

23: return input_lst[max_start: max_end]

24: end function

获取输入地址列表的长度，存储在 lst_len 中。初始化变量 i、count、start、max_start、max_end 和 max_count。其中，i 用于遍历列表元素的索引，count 用于记录当前聚类的地址数量，start 记录当前聚类的起始索引，max_start 和 max_end 记录具有最高密度的聚类的起始和结束索引，max_count 记录最高密度的聚类的地址数量。在 while循环中，从索引 1 开始遍历列表元素，直到遍历完所有元素。在循环中，检查当前元素与前一个元素的差值是否小于等于窗口大小 wnd。如果满足条件，则表示当前元素可以与前一个元素聚类。如果满足聚类条件，将count 加一。如果不满足聚类条件，表示当前聚类结束。在这种情况下，检查当前聚类的地址数量是否大于max_count，如果是，则更新 max_count、max_start 和 max_end。重置 count 为零，并将 start 更新为当前元素的索引，以开始新的聚类。增加 i 的值，以继续遍历下一个元素。循环结束后，返回具有最高密度的聚类的地址子列表，即 input_lst[max_start: max_end]。经过密度聚类后的地址列表去除了很多无意义或无用的地址，可以更快的确定基址。

基址识别单元的识别方法如下：假设某一个字符串在文件中的偏移量为offset _i，加载到内存中位置为addr _j，假设装载基址为base，则addr _j =base-offset _i；设绝对地址列表中的最小值减去相对地址列表中的最小值为x，然后设置基址的范围为[x-0x100000，x+0x100000]，在这个范围内遍历可能的基址，用暂定基址与相对地址中每个元素分别相加，再与绝对地址列表求交集；统计满足公式addr _j =base-offset _i的元素数，数量最多的组所对应的暂定基址判定为该固件的基址。

本发明的基于密度的固件基址识别方法，其依据是程序的字符串引用段总是集中在一起。该方法可以大大提高固件逆向分析过程中基址识别的速度，并且更为智能化。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于密度的固件基址识别系统，其特征在于，包括预处理模块、提取模块、地址过滤模块和优化输出模块；

所述预处理模块用于判断固件的架构，并识别存储方式；

2.根据权利要求1所述的一种基于密度的固件基址识别系统，其特征在于，所述预处理模块包括架构识别单元和存储方式识别单元，所述架构识别单元用于判断固件的架构，所述存储方式识别单元用于识别存储方式是大端存储还是小端存储。

3.根据权利要求1所述的一种基于密度的固件基址识别系统，其特征在于，所述提取模块包括字符串识别提取单元、加载指令识别单元和绝对地址提取单元，所述字符串识别提取单元用于识别固件中的字符串，并记录其在固件中的相对地址；所述加载指令识别单元用于识别固件中对字符串进行加载的指令，识别到的加载指令被送到绝对地址提取单元；所述绝对地址提取单元用于对加载指令中包含的绝对地址信息进行提取。

4.根据权利要求1所述的一种基于密度的固件基址识别系统，其特征在于，所述优化输出模块包括密度聚类单元和基址识别单元；所述密度聚类单元用于对相对地址列表和绝对地址列表进行基于密度的聚类，所述基址识别单元用于根据聚类的结果进行基址的识别。

5.一种基于密度的固件基址识别方法，采用如权利要求1-4任一所述的一种基于密度的固件基址识别系统，其特征在于，包括如下步骤：

6.根据权利要求5所述的一种基于密度的固件基址识别方法，其特征在于，步骤一中，架构识别单元通过在二进制固件中搜索不同架构函数调用的机器码，统计二进制固件中每个架构函数调用机器码匹配的数量，将匹配数量多的作为该固件架构；对于大小端的判断，存储方式识别单元通过统计二进制固件中匹配大端指令的数量和小端指令的数量来做出判断。

7.根据权利要求5所述的一种基于密度的固件基址识别方法，其特征在于，步骤二中，字符串识别提取单元通过设置一个阈值，将超过阈值长度的连续ASCII码认为是字符串，将识别到的字符串在二进制固件中的相对位置记录存储下来，作为相对地址。

8.根据权利要求5所述的一种基于密度的固件基址识别方法，其特征在于，步骤三中，地址过滤模块的过滤方法包括如下步骤：

（1）获取地址列表的长度，存储在length 中；

（6）获取满足条件的元素数量，并将其存储在 count 中；

（7）如果count 大于 max_count，则更新 max_count 为 count，同时更新 max_index为当前的索引i；

（9）将满足条件的元素存储在新的绝对地址列表中。

9.根据权利要求5所述的一种基于密度的固件基址识别方法，其特征在于，步骤四中，基于密度的聚类方法如下：密度聚类单元通过设置一个窗口值，然后遍历地址列表，如果当前元素小于等于前一个元素加上窗口值，则说明当前元素与前一个元素在连续数值密度范围内，则将其聚为一类。

10.根据权利要求5所述的一种基于密度的固件基址识别方法，其特征在于，步骤四中，基址识别单元的识别方法如下：假设某一个字符串在文件中的偏移量为offset _i，加载到内存中位置为addr _j，假设装载基址为base，则addr _j =base-offset _i；设绝对地址列表中的最小值减去相对地址列表中的最小值为x，然后设置基址的范围为[x-0x100000，x+0x100000]，在这个范围内遍历可能的基址，用暂定基址与相对地址中每个元素分别相加，再与绝对地址列表求交集；统计满足公式addr _j =base-offset _i的元素数，数量最多的组所对应的暂定基址判定为该固件的基址。