CN117077153A

CN117077153A - 基于大规模语言模型的静态应用安全检测误报判别方法

Info

Publication number: CN117077153A
Application number: CN202311350729.7A
Authority: CN
Inventors: 谢朝海; 齐大伟; 彭波; 雷德诚; 谢朝战
Original assignee: Shenzhen Secidea Network Security Technology Co ltd
Current assignee: Shenzhen Secidea Network Security Technology Co ltd
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2023-11-17
Anticipated expiration: 2043-10-18
Also published as: CN117077153B

Abstract

本发明公开了一种基于大规模语言模型的静态应用安全检测误报判别方法，涉及漏洞检测领域；包括执行静态应用安全检测以识别潜在安全漏洞，并为每个漏洞分配独特标号，然后提取其在代码片段、系统描述和漏洞原理三个方面的内容；利用聚类分析，对每个方面的内容进行分类并选取典型内容；将每个方面和典型内容及其对应标号结合映射表输入预先训练好的大规模语言模型，大规模语言模型分析内容并输出被判定为误报的潜在安全漏洞的标号，从而实现了结合大规模语言模型高效、自动地识别SAST工具的误报，提升了SAST的准确率并减轻人工审核的负担。

Description

基于大规模语言模型的静态应用安全检测误报判别方法

技术领域

本发明涉及漏洞检测领域，更具体地说，涉及一种基于大规模语言模型的静态应用安全检测误报判别方法。

背景技术

静态应用安全检测（SAST）通过分析应用程序的代码，构造程序的抽象语法树、数据流图、控制流图，进行污点追踪、符号执行等来检测应用中潜在的潜在安全漏洞。静态应用安全检测不需要运行程序，因此可以在应用生命周期的早期使用，及早发现问题。相较于运行态程序，静态应用安全检测具有高覆盖率的特点。与此同时，静态应用安全检测存在误报率偏高的问题。导致误报的原因包括a）程序分析过程中由于状态过多采取近似方法；b）分析过程中未考虑被检测应用的实际使用场景；c）未能识别被检测程序自定义的清洗/过滤函数等。在传统的SAST使用过程中，通常需要人工介入进行误报的判断。近年来以GPT为代表的大规模语言模型（LLM）表现出了强大的代码能力，包括代码补全，代码解释等。

但是，目前的大规模语言模型（LLM）一般都有输入长度的限制，在面临大量的潜在的潜在安全漏洞的时候，如果直接将所有的潜在安全漏洞输入其中，又会受到长度限制的影响，而如果一个个输入，则一方面效率低，另一方面，大规模语言模型无法从总体上把握所有潜在安全漏洞情况，从而无法从整体上把握漏洞的关联性从而作出更准确的判断。

发明内容

本发明提供一种基于大规模语言模型的静态应用安全检测误报判别方法，以利用大模型在代码方面的能力，对SAST工具的误报进行自动化的判断，从而从整体上提升SAST的准确率，降低人工结果审计的工作量。在SAST检测之后，对每一条检测出来的潜在风险传递给LLM来判断是否为误报。由于LLM的输入长度有限制，本发明还特别设计对应的解决方法。

为了达到上述目的，本发明采取以下技术方案：

一种基于大规模语言模型的静态应用安全检测误报判别方法，包括:

S1: 执行静态应用安全检测以识别潜在安全漏洞，并为每个检测到的潜在安全漏洞分配一个独特的标号；

S2: 提取每个潜在安全漏洞在三个方面的内容，包括：第一方面：漏洞路径上的代码片段，第二方面：被检测系统的相关描述，以及第三方面：对应漏洞的原理；

S3: 对所有潜在安全漏洞进行三种聚类分析，分别为针对第一方面、第二方面和第三方面的内容的聚类分析，为每个方面得到的每个类别分配一个独特的类别标号，并在每个方面的每个类别中选取一个或多个典型内容；

S4: 结合大规模语言模型的输入长度限制，构建输入内容，输入内容中包含每个方面的多个类别的典型内容及对应的类别标号；

S5: 根据每个潜在安全漏洞的标号，映射其所属的三个方面的类别标号，形成一个包含漏洞标号与其对应的三个方面类别标号的映射表，并加入至输入内容；

S6: 将输入内容输入给预先训练好的大规模语言模型，利用大规模语言模型对输入内容进行分析，并输出被判定为误报的潜在安全漏洞的标号。

上述步骤中，输入内容不得超出大规模语言模型的输入长度限制，因此，构建输入内容的时候，如果将所有类别的典型内容、对应的类别标号和映射表加起来不超过输入限制，则可以将其全部输入。如果超过了限制，则可以将输入的内容分成多组，一组中包含三个方面的几个类别而不是所有类别，对应的映射表中也只包含该组类别中涉及的潜在漏洞。

在一些实施例中，所述输入内容内还包括对于所述典型内容来源的潜在安全漏洞的标号标记。

在一些实施例中，所述方法还包括将S6中预测误报的潜在安全漏洞的三方面具体内容输入至大规模语言模型进行再次检测。其中，根据大规模语言模型的输入长度限制，可以逐个输入，也可以多个一起输入判断。这样的具体检测，可以提高准确率。

在一些实施例中，所述方法还包括对于误报的潜在安全漏洞的人工的进一步判断，在经过进一步判断后，对于与人工判断结果不同的预测结果作为训练数据，还可以将其重新返回至大规模语言模型用于增量训练。

在一些实施例中，聚类过程中，先使用TF-IDF算法，将代码或文本内容转换为向量，然后使用K-Means算法对TF-IDF得到的向量进行聚类。

在一些实施例中，对于第一方面的聚类，预提取关键代码内容，然后将关键代码内容使用TF-IDF算法转换为向量，最后使用K-Means算法对TF-IDF得到的向量进行聚类。

在一些实施例中，所述关键代码包括函数名、变量名和API调用。

在一些实施例中，对于第二方面和第三方面的聚类，预提取关键术语，然后将关键术语使用TF-IDF算法转换为向量，最后使用K-Means算法对TF-IDF得到的向量进行聚类。

在一些实施例中，所述大规模语言模型为商用的通用大规模语言模型。

在一些实施例中，所述大规模语言模型为在本地服务器训练的模型。

在一些实施例中，所述大规模语言模型的训练数据来源于CVE数据库、安全公告和白帽子的报告。

本发明相对于现有技术的优点在于，本发明将大规模语言模型（LLM）与静态应用安全检测（SAST）结合，实现对SAST检测结果的自动化误报判定。这一结合不仅显著提高了SAST的准确性，同时也大大减少了人工审计的工作量和时间。另外，通过对每个潜在安全漏洞的关键信息提取和分类，本发明提供了结构化的数据输入给LLM，当面对模型的输入长度限制时，本发明方法能够灵活地将内容划分成多个类别并挑选典型数据、映射表输入，从而一方面可以提高效率，另一方面，可以让大语言模型了解总体的潜在漏洞情况，从而能够从总体和上下文的角度上把握漏洞情况，这会使得大语言模型的输出更加准确一些。

附图说明

图1是本发明方法的流程示意图；

图2是本发明聚类过程的流程示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作描述。

如图1所示为本发明总体流程图。

本发明方法包括如下步骤：

为了便于理解，先考虑如下的一个简单的实施例，在这个实施例中，我们只考虑两个漏洞，其编号分别为001和002，以此类推，多漏洞的情况也可以非常容易地获得。这个例子考虑简单的Web应用开发过程。

漏洞标号：001，其中：

第一方面（漏洞路径上的代码片段）：

SQLCopy code

SELECT * FROM users WHERE username='" + userInput + "' AND password='" + passInput + "';"

该代码从users数据表中检索匹配给定用户名和密码的用户。其中，userInput和passInput是直接从前端表单获取的值。

第二方面（被检测系统的相关描述）：

模块名称为用户登录模块，模块描述为：用户登录模块允许注册用户通过输入他们的用户名和密码来访问他们的账户。在后端，系统将输入的值与存储在数据库中的值进行匹配。

第三方面（对应漏洞的原理）：

漏洞名称为SQL注入；漏洞描述为：由于代码没有正确处理来自用户的输入，攻击者可以在userInput和passInput中输入恶意SQL语句，从而导致数据库泄露或被篡改。

漏洞标号：002，其中：

第一方面（漏洞路径上的代码片段）：

HTMLCopy code

<div> Hello, ` + userName + `!</div>

该代码显示一个欢迎消息，并将userName直接插入到HTML元素中。这里的userName是从前端获取的用户输入。

第二方面（被检测系统的相关描述）：

模块名称为用户个人主页，模块描述为：用户个人主页显示用户的基本信息，如姓名、头像、帖子等。用户可以查看其个人信息并进行一些操作，如编辑个人资料。

第三方面（对应漏洞的原理）：

漏洞名称为跨站脚本攻击（XSS），漏洞描述为：由于代码直接插入了用户输入，如果攻击者输入恶意的JavaScript代码，该代码将在其他用户的浏览器中执行，从而可能盗取用户数据或执行其他恶意操作。

除此之外，可能还有很多其他的漏洞，这里不再一一描述，当然，以下步骤只有对于数量较多的漏洞有比较好的效果，这里为了简单，只采用两个漏洞进行简单描述，但其完全可以拓展至非常大量的漏洞描述的情况。

接下来进行聚类分析。

第一方面（代码片段）经过聚类后，可能包含如下类别，类别编号用字母表示：

A. 数据库查询语句 (包括001)；

B. 前端代码片段 (包括002)。

第二方面（系统描述）经过聚类后，可能包含如下类别，类别编号用字母表示：

X. 登录模块 (包括001)；

Y. 用户个人页面 (包括002)。

第三方面（漏洞原理），可能包含如下类别，用希腊字母表示：

α. 未经处理的用户输入导致的攻击 (包括001, 002)。

当漏洞数量很多时，会有更多的类别，在其中，每个类别下会包含多个漏洞，在每个类别可以选取其中一个或多个漏洞的内容作为该类别的典型内容，在之后，就可以将该典型内容作为该类别的代表，从而在输入至大语言模型的时候，只需要选取对应的典型内容作为该类别的表示，从而大大缩减需要输入至大语言模型的内容数量，从而一方面，可以提高效率，另外一方面，可以让大语言模型了解总体漏洞的情况，从而能够从总体上把握漏洞情况，这会使得大语言模型的输出更加准确一些。除此之外，我们当然要给大语言模型提供对应的映射表，比如上述例子中映射表如下：

漏洞标号	第一方面	第二方面	第三方面
				1	A	X	α
2	B	Y	α
				...	...	...	...

这样，当大规模语言模型分析数据包中的内容时，它可以从映射表中直接给出误报的漏洞编号，并且还可以对出现漏洞的情况进行总体和综合地分析。

以上方法中，为了具体设计聚类算法来适应此场景，在一些实施例中，可以使用TF-IDF (Term Frequency-Inverse Document Frequency) 和 K-Means 聚类的结合，如图2所示，具体步骤如下：

首先需要预处理。预处理时，对于第一方面的代码片段，可以考虑全文，也可以考虑提取关键代码词，例如函数名、变量名和API调用。而对于第二方面的被检测系统的相关描述和第三方面的漏洞原理描述，可以直接采用其文本内容，也可以提取其中的关键术语。

接下来，使用TF-IDF算法，将所有代码和文本内容转换为向量。TF-IDF可以帮助衡量一个词在文档中的重要性，对于此场景特别有用，因为某些关键词可能在描述漏洞或系统时更为关键。

接下来，使用K-Means算法对TF-IDF得到的向量进行聚类。具体步骤如下：

首先，确定K值。这可以通过肘部法则（Elbow Method）来估计最优的K值。但在此场景中，也可以考虑手动设定K值，比如预期有多少种类别的代码片段、系统描述或漏洞原理，然后使用K-Means进行聚，每个聚类代表了类似的文本内容。

对于每个类别，可以选择距离聚类中心最近的几个点作为该类别的典型内容。

进一步的，以第三方面为例：因为漏洞的原理通常具有固定模式和技术术语，而这些模式和术语是区分不同类别漏洞的关键。

首先，提取出描述漏洞原理的关键术语，例如“溢出”、“注入”、“欺骗”、“跨站脚本”等。然后使用TF-IDF对关键术语进行权重计算。但由于我们已经从原理描述中提取了关键术语，TF-IDF的计算将更加集中在这些关键术语上，提高了向量的区分度。

接下来进行K-Means 聚类。K值的确定可能更加直观，因为安全领域的漏洞原理类别是有限的。但仍可以通过肘部法则来确定最佳K值。使用K-Means进行聚类，确保相似的漏洞原理被归入同一类。

选取典型内容：与前两个方面相同，对于每个类别，选择距离聚类中心最近的几个点作为该类别的典型内容。这样处理，第三方面的内容将被有效地聚类，确保漏洞原理的相似性和差异性得到了恰当的反映。另外两个方面也是类似的。

对于大规模语言模型，目前已经有很多现成的语言模型，比如chatgpt，比如文心一言等可以直接利用，它们都具备较佳的代码解释能力和理解能力。当然，也可以在本地服务器针对本发明中对于潜在安全漏洞这一特殊领域进行特殊训练，从而获得更加适合本发明中技术方案的大规模语言模型。其中，用于训练的数据应该专注于安全漏洞数据，比如Github中的代码数据、CVE数据库、安全公告、白帽子的报告等。其训练过程遵从大规模语言模型的训练过程，由于这已经是公开的训练过程，这里不再赘述。

以上方法中：

在一些实施例中，输入内容内还包括对于典型内容来源的潜在安全漏洞的标号标记。

在一些实施例中，方法还包括将S6中预测误报的潜在安全漏洞的三方面具体内容输入至大规模语言模型进行再次检测。其中，根据大规模语言模型的输入长度限制，可以逐个输入，也可以多个一起输入判断。这样的具体检测，可以提高准确率。

在一些实施例中，方法还包括对于误报的潜在安全漏洞的人工的进一步判断，在经过进一步判断后，对于与人工判断结果不同的预测结果作为训练数据，还可以将其重新返回至大规模语言模型用于增量训练。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于大规模语言模型的静态应用安全检测误报判别方法，其特征在于，包括:

2.根据权利要求1所述基于大规模语言模型的静态应用安全检测误报判别方法，其特征在于，所述输入内容内还包括对于所述典型内容来源的潜在安全漏洞的标号标记。

3.根据权利要求1所述基于大规模语言模型的静态应用安全检测误报判别方法，其特征在于，所述方法还包括将S6中预测误报的潜在安全漏洞的三方面具体内容输入至大规模语言模型进行再次检测。

4.根据权利要求1或3所述基于大规模语言模型的静态应用安全检测误报判别方法，其特征在于，所述方法还包括对于预测为误报的潜在安全漏洞的人工进一步判断。

5.根据权利要求1所述基于大规模语言模型的静态应用安全检测误报判别方法，其特征在于，聚类过程中，先使用TF-IDF算法，将代码或文本内容转换为向量，然后使用K-Means算法对TF-IDF得到的向量进行聚类。

6.根据权利要求5所述基于大规模语言模型的静态应用安全检测误报判别方法，其特征在于，对于第一方面的聚类，预提取关键代码内容，然后将关键代码内容使用TF-IDF算法转换为向量，最后使用K-Means算法对TF-IDF得到的向量进行聚类。

7.根据权利要求6所述基于大规模语言模型的静态应用安全检测误报判别方法，其特征在于，所述关键代码包括函数名、变量名和API调用。

8.根据权利要求5所述基于大规模语言模型的静态应用安全检测误报判别方法，其特征在于，对于第二方面和第三方面的聚类，预提取关键术语，然后将关键术语使用TF-IDF算法转换为向量，最后使用K-Means算法对TF-IDF得到的向量进行聚类。

9.根据权利要求1所述基于大规模语言模型的静态应用安全检测误报判别方法，其特征在于，所述大规模语言模型为商用的通用大规模语言模型。

10.根据权利要求1所述基于大规模语言模型的静态应用安全检测误报判别方法，其特征在于，所述大规模语言模型为在本地服务器训练的模型，所述大规模语言模型的训练数据来源于CVE数据库、安全公告和白帽子的报告。