CN113918948A

CN113918948A - 一种基于语义分析的无害化处理识别方法

Info

Publication number: CN113918948A
Application number: CN202111513722.3A
Authority: CN
Inventors: 陈夏润; 杨洲; 永志; 方莹; 刘宇航
Original assignee: Beijing Yanling Wangwei Intelligent Technology Co ltd
Current assignee: Beijing Yanling Wangwei Intelligent Technology Co ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-01-11
Anticipated expiration: 2041-12-13
Also published as: CN113918948B

Abstract

本发明公开了一种基于语义分析的无害化处理识别方法，通过静态分析提取目标系统源码的自然语义与程序语义，并利用构建的程序语义特征模型识别无害化处理，能够有效识别无害化处理，提高了准确性。另外，这一方法可用于污点分析方法中进一步使用，对提高污点分析效率有显著效果，也能极大地降低基于污点分析的漏洞挖掘方法的误报率。

Description

一种基于语义分析的无害化处理识别方法

技术领域

本发明涉及计算机安全技术领域，尤其涉及一种基于语义分析的无害化处理识别方法。

背景技术

输入型的漏洞是Web应用程序中最为普遍且威胁最大的漏洞类型之一，这一类漏洞通常是指由恶意的外部输入所引起的安全问题，比如SQL注入漏洞和XSS漏洞等。近几年，为检测这类漏洞，研究者提出很多方法对Web应用进行分析，其中，静态代码分析以其高效率的优点被广泛研究。这一方法能够在不运行程序的情况下，获取程序内部的结构和特性，进而分析程序中潜在的安全问题。在众多静态分析方法中，基于污点数据流分析的方法是一个研究热点。它对程序中的数据流动进行跟踪，根据数据的源头与使用是否到达敏感函数，判断是否存在安全风险。这一方法对于数据的源头与使用进行建模，和人工审计代码寻找漏洞时的方法相似，具备一定的准确性。然而，静态污点分析方法同样存在误报率较高的问题。

在目前的污点分析方法中，方法重点更偏向解决别名传播的分析问题，以提升污点分析的效果。无害化处理识别是污点分析的重要组成部分，也是污点分析结果是否有效的重要影响因素。在现有的无害化处理识别方法中，常使用的方法为库函数字典或关键字匹配。但实际上，由于Web应用的开发环境复杂，代码量大，难以确定一个有效的关键字集合对无害化处理进行有效识别。也就是说，现有的识别方法可能存在较多的漏报与误报，而这也会进一步影响到污点分析结果的准确性。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于语义分析的无害化处理识别方法，能够准确识别源码中的无害化处理，构建一个较为精准的无害化处理集合，使污点分析结果与漏洞检测准确、高效。

本发明提供的技术方案是：一种基于语义分析的无害化处理识别方法，整个识别方法分为自然语义分析与程序语义分析两个部分：

自然语义分析：在这一步中，基于自然语义分析对数据变换、异常处理函数和返回错误代码进行初步识别。我们对收集的基础函数集中的函数名进行分词，并根据负向词分词得到新的可疑关键词集合，从而实现智能化的可疑关键词集合构建，针对分析目标构建更加完整的函数与语句集合。

程序语义分析：构建无害化处理程序语义模型，对通过自然语义分析得出的数据变换函数进一步过滤。使用程序语义分析对前一步骤中得到的结果进一步校验，过滤掉不符合条件的结果。之后，我们结合分析得到的数据变换函数、异常处理函数与返回错误代码集合，利用程序语义分析识别程序中的安全检查。

其中，自然语义分析部分执行如下步骤：

步骤1，收集数据变换函数、异常处理函数和返回错误代码初始集合，即初始无害化处理集合，并进行分词得到关键词集合；

步骤2，使用关键词集合对目标Web应用程序源码进行分析，并进行新一轮的分词，构建新的可疑关键词集合；

步骤3，根据步骤2中得到的可疑关键词集合对目标Web应用程序源码进行第二轮分析，构建可疑的数据变换函数、异常处理函数和返回错误代码集合，即可疑无害化处理集合。

程序语义分析部分包含回溯过滤、安全检查识别两个阶段。

步骤4，回溯过滤：对于可疑的数据变换函数，使用数据流分析获取其数据流图，判断是否满足无害化处理条件，若满足则保留，不满足则将其剔除；对于可疑的异常处理函数和返回错误代码，首先使用控制流分析获取程序的控制流图，进而对集合中的每一个可疑元素进行分析，判断是否符合类安全检查的语义模型，是则保留，否则删除该元素。

针对步骤3得到的可疑的数据变换函数集合，符合无害化处理的数据变换函数应满足如下条件：

(1)函数输入值经过函数内语句传播后，必须能够到达函数输出口，即返回值；

(2)函数内语句的操作对象，应和输入值直接或间接相关，函数内不应出现与输入值毫无关联的数据传播链。

而对于可疑的异常处理函数和返回错误代码集合，需在回溯过滤阶段根据是否符合类安全检查的语义模型进行进一步校验，对集合中的每一个元素进行分析。其中，所述类安全检查的语义模型具体如下：

假设分支语句整体为N，使用N(R_j)表示其中特定的一条分支语句，用

表示这一条分支中使用的函数与指令，上述可疑的异常处理函数与错误代码返回集合为D，D_i为该集合中的某一元素，ND_i表示D_i外的任意元素。如果D_i满足类安全检查的语义模型，则：

and

即在一个分支语句中，如果部分分支包含D_i，部分分支不包含D_i，则D_i服从类安全检查的语义模型。若一个可疑函数不满足类安全检查的语义模型，则一定不是异常处理函数。

步骤5，使用安全检查识别进一步识别无害化处理集合，在这一步骤中，需要对步骤4回溯过滤后得到的数据变换函数、异常处理函数和返回错误代码集合所处的代码片段进行分析，判断是否符合安全检查的语义模型。其中，安全检查的语义模型为：

假设分支语句整体为M，使用M(C_i) 表示其中特定的一条分支，则分支语句可能的情况为：

进而，如果分支语句M为一个无害化处理，则：

也就是说，如果一个条件语句的分支中有至少一个安全处理语句分支和正常程序分支，则这一个条件语句即为无害化处理。

本发明的有益效果是：

本发明提供一种基于语义分析的无害化处理识别方法，通过静态分析，提取目标系统源码的自然语义与程序语义，并利用构建的程序语义特征模型识别无害化处理，能够有效识别无害化处理，提高了准确性。另外，这一方法可用于污点分析方法中进一步使用，对提高污点分析效率有显著效果，也能极大地降低基于污点分析的漏洞挖掘方法的误报率。

附图说明

图1为本发明基于语义分析的无害化处理识别方法的流程框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

图1展现了本发明提出方法的工作流程，整个分析流程分为自然语义分析与程序语义分析两个部分：

自然语义分析：在这一步中，我们对数据变换函数、异常处理函数和返回错误代码进行初步识别。编程语言自带的函数可以很容易地从官方文档中找到。而处于编程规范的考虑，自定义的函数往往会使用一些相同的字符串，如“filter”、“safe”等。因此，我们提出基于自然语义分析进行自动化识别。我们对收集的基础函数集中的函数名进行分词，并根据负向词分词得到新的可疑关键词集合，从而实现智能化的可疑关键词集合构建，针对分析目标构建更加完整的函数与语句集合。

程序语义分析：我们通过构建语义模型，对通过自然语义分析得出的数据变换函数进一步过滤。使用程序语义分析对前一步骤中得到的结果进一步校验，过滤掉不符合条件的结果。之后，我们结合分析得到的数据变换函数、异常处理函数与返回错误代码集合，利用程序语义分析识别程序中的安全检查。

阶段一、自然语义分析

由于可疑关键词集合很难人为定义，因此仅通过关键词来识别可疑函数容易出现大量误报和漏报。此外，现有的方法无法针对特定应用开发人员的规范要求自动化构建关键词集合。

为了解决这个问题，我们将能确定的函数与语句进行分词，根据字符片段在确定集合中出现的的频率选取特征字段，进而实现可疑关键词集合的自动生成。

关键词集合构建的一大挑战在于，某些频率较高的函数名片段可能并无意义，比如开发者常使用的“to”、“get”等通用单词。为解决这一问题，我们对无害化处理的语义进行分析，发现无害化处理往往带有一些负向语义的片段（如“error”、“fail”等）。因此，在我们的方法中，我们会选择带有负向语义的高频词汇作为关键词集合。自然语义分析检测流程分为以下几个步骤：

①通过收集编程语言库函数集合，得到初始无害化处理集合即数据变换函数、异常处理函数和返回错误代码初始集合，并进行分词，将带有负向语义的高频词汇作为关键词集合；

②使用关键词集合对目标Web应用程序源码进行分析，得到具备这一Web应用开发人员规范特性的无害化处理集合，并进行新一轮的分词，构建可疑关键词集合；

③根据可疑关键词集合对目标Web应用程序源码进行第二轮分析，构建可疑无害化处理集合。

阶段二、程序语义分析

基于自然语义分析的识别结果中，往往存在一些误报，自然语义分析也无法对安全检查进行识别。因此，我们需要结合程序语义分析对结果进一步过滤，并对安全检查进行识别，添加到最终的无害化处理集合中。

步骤一、回溯过滤

正如前文的分析，无害化处理的各种类型都具备一些特定的语义特征，因此，我们可以根据语义特征对自然语义分析识别出的结果进行过滤。

（1）数据变换函数

我们发现，用于无害化处理的数据变换函数，往往具备相似的语义模式。这些函数除了对数据的变换操作外，其他多余的语句较少，并且输入值与输出值强相关。因此，符合无害化处理的数据变换函数应满足如下条件：

①函数输入值经过函数内语句传播后，必须能够到达函数输出口，即返回值；

②函数内语句的操作对象，应和输入值直接或间接相关，函数内不应出现与输入值毫无关联的数据传播链。

根据上述无害化处理语义模型，我们对数据变换操作进行过滤，主要使用数据流分析获取可疑函数的数据流图（DFG），从而判断函数是否满足以上两个条件，不满足则将其剔除。

（2）异常处理函数与返回错误代码：

这两者主要出现在安全检查中，且将用于后续的安全检查识别。而通过对安全检查的语义模型，我们可以反向推论得：在程序中，使用于安全检查的异常处理函数和返回错误代码，位于条件语句的某一分支中。因此我们可以通过识别它们所处的代码语义来判断，是否满足安全检查的语义模型。

在这一步中，因为此时我们并未获得最终的安全检查集合，所以我们定义了一种类安全检查的语义模型：

我们假设分支语句整体为N，使用 N(R_j) 表示其中特定的一条分支语句，用

示这一条分支中使用的函数或指令；可疑的异常处理函数与返回错误代码集合为 D，D_i为可疑集合中的某一元素，ND_i表示D_i外的任意元素。如果D_i满足类安全检查的语义模型，则：

and

即在一个分支语句中，如果部分分支包含D_i，部分分支不包含D_i，则N满足类安全检查的语义模型。若一个可疑函数不满足类安全检查的语义模型，则一定不是异常处理函数与返回错误代码。需要注意的是，这一条定义无法用来确定一个可疑函数是异常处理函数，但是可以确定一个可疑函数不是异常处理函数。因此，通过使用这一定义，我们可以筛掉可疑集合中的误报。

在具体实现时，我们需要获取程序中可疑元素的调用环境，因此首先需要分析获取程序的控制流图（CFG），进而对集合中每一个可疑元素进行分析，具体分析流程如下：

①构建程序控制流图，并对控制流图进行遍历；

②如果发现在某个程序中调用了可疑集合中的元素，则回溯找到父指令；

③判断父指令是否为IF或SWITCH等条件语句，如是则对分支进行检查；

④对条件语句每一个分支进行检查，判断是否符合类安全检查的语义模型，若满足，则保留该可疑元素；否则，删除该元素；

⑤继续分析下一个可疑元素调用情况。

步骤二、安全检查识别

在识别数据变换函数、异常处理函数和返回错误代码后，我们可以进一步识别程序中的安全检查语句。这一步的识别与上述回溯过滤方法类似，只是将可疑元素集改成了由回溯过滤后得到的集合。另外，在这一步骤的分析中，我们所使用的模型为安全检查的语义模型。所述安全检查的语义模型为：

进而，如果分支语句M为一个无害化处理，则：

也就是说，如果一个条件语句的分支中有至少一个安全处理语句分支和正常程序分支，则这一个条件语句即为无害化处理。具体步骤如下：

①构建程序控制流图，并对控制流图进行遍历；

②如果发现在某个程序中使用了数据变换函数、异常处理函数或返回错误代码，则回溯找到父指令；

④对条件语句每一个分支进行检查，判断是否符合安全检查的语义模型，若满足，则保留该可疑元素；否则，删除该元素；

⑤继续分析下一个元素。

Claims

1.一种基于语义分析的无害化处理识别方法，分为自然语义分析与程序语义分析两个部分，其中：

所述自然语义分析部分执行如下步骤1）至3）：

1) 收集数据变换函数、异常处理函数和返回错误代码初始集合，并进行分词得到关键词集合；

2) 使用关键词集合对目标Web应用程序源码进行分析，并进行新一轮的分词，构建新的可疑关键词集合；

3) 根据步骤2）得到的可疑关键词集合对目标Web应用程序源码进行第二轮分析，构建可疑的数据变换函数、异常处理函数和返回错误代码集合；

所述程序语义分析部分包含回溯过滤、安全检查识别两个阶段，执行如下步骤4）至5）：

4) 回溯过滤：对于可疑的数据变换函数，使用数据流分析获取其数据流图，判断是否满足无害化处理条件，若满足则保留，不满足则将其剔除；对于可疑的异常处理函数和返回错误代码，首先使用控制流分析获取程序的控制流图，进而对集合中的每一个可疑元素进行分析，判断是否符合类安全检查的语义模型，是则保留，否则删除该元素；

5) 安全检查识别：对于回溯过滤后的数据变换函数、异常处理函数和返回错误代码集合，进一步识别程序中的安全检查语句，判断其是否符合安全检查的语义模型，是则保留，否则删除，得到最终的无害化处理集合。

2.如权利要求1所述的无害化处理识别方法，其特征在于，步骤1）通过收集编程语言库函数集合，得到数据变换函数、异常处理函数和返回错误代码初始集合，分词时将带有负向语义的高频词汇作为关键词集合。

3.如权利要求1所述的无害化处理识别方法，其特征在于，在步骤4）中，符合无害化处理的数据变换函数应满足如下条件：

① 函数输入值经过函数内语句传播后，必须能够到达函数输出口，即返回值；

② 函数内语句的操作对象，应和输入值直接或间接相关，函数内不应出现与输入值毫无关联的数据传播链。

4.如权利要求1所述的无害化处理识别方法，其特征在于，在步骤4）中，定义所述类安全检查的语义模型如下：假设分支语句整体为N，使用N(R_j)表示其中特定的一条分支语句，用

表示这一条分支中使用的函数与指令；可疑的异常处理函数和错误代码返回集合为D，D_i为该集合中的某一元素，ND_i表示D_i外的任意元素；如果D_i满足类安全检查的语义模型，则：

and

即在一个分支语句中，如果部分分支包含D_i，部分分支不包含D_i，则D_i服从类安全检查的语义模型。

5.如权利要求4所述的无害化处理识别方法，其特征在于，在步骤4）中，对于可疑的异常处理函数和返回错误代码集合，根据下述流程进行回溯过滤：

① 构建程序控制流图，并对控制流图进行遍历；

② 如果发现在某个程序中调用了可疑集合中的元素，则回溯找到父指令；

③ 判断父指令是否为条件语句，如是则对分支进行检查；

④ 对条件语句每一个分支进行检查，判断是否符合类安全检查的语义模型，若满足，则保留该元素；否则，删除该元素；

⑤ 继续分析下一个元素调用情况。

6.如权利要求1所述的无害化处理识别方法，其特征在于，步骤5）中定义所述安全检查的语义模型如下：假设分支语句整体为M，使用M(C_i) 表示其中特定的一条分支，则分支语句可能的情况为：

如果分支语句M为一个无害化处理，则：

即如果一个条件语句的分支中有至少一个安全处理语句分支和正常程序分支，则这一个条件语句即为无害化处理。

7.如权利要求6所述的无害化处理识别方法，其特征在于，步骤5）的具体处理流程为：

① 构建程序控制流图，并对控制流图进行遍历；

② 如果发现在某个程序中使用了数据变换函数、异常处理函数或返回错误代码，则回溯找到父指令；

③ 判断父指令是否为条件语句，如是则对分支进行检查；

④ 对条件语句每一个分支进行检查，判断是否符合安全检查的语义模型，若满足，则保留该可疑元素；否则，删除该元素；

⑤ 继续分析下一个元素。