CN116628707A

CN116628707A - 一种可解释性的基于多任务的源代码漏洞检测的方法

Info

Publication number: CN116628707A
Application number: CN202310886074.9A
Authority: CN
Inventors: 韩晓晖; 刘蒙; 左文波; 崔慧; 罗雪姣
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-08-22

Abstract

一种可解释性的基于多任务的源代码漏洞检测的方法，涉及计算机程序分析及网络安全技术领域，构建了一个源代码及其语义描述的数据集，并对其进行了数据清洗以达到高质量数据集的标准。使用静态分析工具将高级编程语言源代码生成抽象语法树，运行卷积神经网络从源代码和抽象语法树中提取语法特征和语义特征。利用交叉注意力机制和长短记忆网络对语法特征和语义特征进行特征融合。模型对输入的高级编程语言代码进行自动漏洞检测，并输出相应的机理解释，以实现对源代码的可解释性分析。

Description

一种可解释性的基于多任务的源代码漏洞检测的方法

技术领域

本发明涉及计算机程序分析及网络安全技术领域，具体涉及一种可解释性的基于多任务的源代码漏洞检测的方法。

背景技术

在当今的网络环境中，软件漏洞已经成为各种网络攻击的主要诱因。随着软件的不断发展和功能的日益复杂化，软件中隐藏的漏洞数量也随之增加，这将导致系统被攻击者利用并造成严重的安全问题。尽管研究人员从不同的漏洞数据中构建了各种工具和方法来帮助检测和消除漏洞，但每年在Common Vulnerabilities and Exposures (CVE)中所披露的漏洞数量仍然在不断上升。

鉴于漏洞是不可避免的，尽早地发现它们是很重要的。作为软件的最基本组件，代码中存在的安全漏洞可能直接导致软件漏洞的产生。因此，对源代码特征进行深入分析对于发现软件漏洞具有至关重要的作用。传统的早期源代码审查技术依赖于审查人员对安全问题的理解和积累的长期经验来进行判别。显然，依靠手工检测源代码中的漏洞的方式过于主观，并且随着代码规模和复杂性不断增大，这种技术已经无法满足当前的需求。之后，在大数据的驱动下，基于机器学习的自动化漏洞检测方案逐渐成为学术界和产业界关注的焦点。基于机器学习的漏洞检测技术避免了依赖专家人工识别问题，但是仍需要由专家定义一个漏洞的特征集合，然后采用机器学习模型按相应标签自动对源代码进行自动分类。

随着近年来深度学习技术在各个领域的成功应用以及开源代码量的增加，基于深度学习模型和海量源代码构建的端到端代码分析方法成为了研究的新焦点。目前，已有多种深度学习模型应用于源代码漏洞预测，这极大提高了漏洞预测的精度和效率。深度学习通过迭代训练模型并不断调整权重，以学习漏洞代码中的关键特征。这种端到端的学习方法使得模型能够逐步优化，准确地捕捉漏洞代码中的关键模式和异常行为，从而提高漏洞检测的准确性和效果。然而，深度学习模型的一个挑战在于其黑盒特性，导致其输出结果通常缺乏可解释性。这种缺乏可解释性的问题在漏洞检测领域尤为显著。当深度学习模型用于漏洞检测时，虽然可以获得高度准确的预测结果，但很难理解模型是如何基于输入的源代码特征来进行决策的。因此，为了更好地检测和分析源代码漏洞，针对不同的编程语言开发统一的静态分析技术和工具是非常有必要的。

发明内容

本发明为了克服以上技术的不足，提供了一种不仅能对源代码中的漏洞进行检测，而且具有漏洞语义解释生成机制，生成代码语义描述使得检测结果具有可解释性的方法。

本发明克服其技术问题所采用的技术方案是：

一种可解释性的基于多任务的源代码漏洞检测的方法，包括如下步骤：

(a)获取个不同软件项目的源代码，构建基于函数级别的高级编程语言代码数据集/>，/>，其中/>为第/>个源代码，/>，/>为第/>个源代码的语义文本描述，/>为源代码的文本的标签，/>，/>为0时表示第/>个源代码/>为无漏洞代码，/>为1时表示第/>个源代码/>为真实漏洞代码，对第/>个源代码/>进行数据清洗；

(b)抽取数据清洗后的第个源代码/>的抽象语法树，将抽取得到的抽象语法树依次经过标准化和序列化操作后得到第一token序列；

(c)将数据清洗后的第个源代码/>转换得到第二token序列；

(d)构建由跨模态编码器、解码器、分类器构成的多任务学习模型IMVD，跨模态编码器由语义特征编码器、语法特征编码器、复合特征编码器构成；

(e)对第一token序列进行词嵌入，得到抽象语法树的初始向量表示，将抽象语法树的初始向量表示/>输入到语义特征编码器中，输出得到抽象语法树的特征数据/>；

(f)对第二token序列进行词嵌入，得到源代码的初始向量表示，将源代码的初始向量表示/>输入到语法特征编码器中，输出得到抽象语法树的特征数据/>；

(g)将抽象语法树的特征数据和抽象语法树的特征数据/>输入到复合特征编码器中进行特征融合，得到融合后的特征数据/>；

(h)多任务学习模型IMVD的分类器依次由全连接层、sigmoid函数构成，将融合后的特征数据输入到分类器中，输出结果为0时表示第/>个源代码为正常代码，输出结果为1时表示第/>个源代码为漏洞代码；

(i)多任务学习模型IMVD的解码器由N层transformer构成，将融合后的特征数据输入到多任务学习模型IMVD的解码器中，当第/>个源代码为正常代码时，解码器输出生成代码功能文本描述，当第/>个源代码为漏洞代码时，解码器输出生成漏洞产生原因的文本描述。

进一步的，步骤(a)包括如下步骤：

(a-1)从github中获取个不同软件项目的源代码；

(a-2)将第个源代码/>中的注释部分、多余空格、空行信息去除，完成数据清洗。

进一步的，步骤(b)包括如下步骤：

(b-1)中利用静态分析工具Joern抽取第个源代码/>的抽象语法树；

(b-2)将抽取的抽象语法树中定义的函数名替换为，将抽取的抽象语法树中向量替换成/>，抽取的抽象语法树中为循环结构的各个节点分别使用/>标记，抽取的抽象语法树中为条件语句的各个节点分别使用/>和/>标记，抽取的抽象语法树中为函数调用的各个节点分别使用/>标记，完成对抽取得到的抽象语法树的标准化处理；

(b-3)使用深度优先算法遍历标准化后的抽象语法树，进行序列化操作，保存得到由个token构成的第一token序列。

进一步的，步骤(c)中把清洗后的第个源代码/>输入到CodeBERT的tokenizer中根据编程语言的语法和语义将清洗后的第/>个源代码/>分解为/>个token，各个token构成代码标准化表示的第二token序列。

进一步的，步骤(e)包括如下步骤：

(e-1)使用word2vec将第一token序列进行词嵌入，得到抽象语法树的初始向量表示，/>，/>为第/>个源代码/>的第/>个token的向量表示，，/>为始向量/>的token的数量；

(e-2)语义特征编码器由第一卷积单元、第一最大池化层、第二卷积单元、第二最大池化层构成；

(e-3)语义特征编码器的第一卷积单元由卷积层、Layer Normalization层、Dropout层、Relu激活函数层构成，将抽象语法树的初始向量表示输入到第一卷积单元的卷积层中，输出得到特征数据/>，将抽象语法树的初始向量表示/>与特征数据/>进行残差连接后输入到第一卷积单元的Layer Normalization层中进行归一化处理，输出得到特征数据/>，将特征数据/>依次输入到第一卷积单元的Dropout层、Relu激活函数层中，输出得到特征数据/>；

(e-4)将特征数据输入到语义特征编码器的第一最大池化层中，输出得到特征数据/>；

(e-5)语义特征编码器的第二卷积单元由卷积层、Layer Normalization层、Dropout层、Relu激活函数层构成，将特征数据输入到第二卷积单元的卷积层中，输出得到特征数据/>，将特征数据/>与特征数据/>进行残差连接后输入到第二卷积单元的Layer Normalization层中进行归一化处理，输出得到特征数据/>，将特征数据/>依次输入到第二卷积单元的Dropout层、Relu激活函数层中，输出得到特征数据/>；

(e-6)将特征数据输入到语义特征编码器的第二最大池化层中，输出得到抽象语法树的特征数据/>。

进一步的，步骤(e-3)中第二卷积单元的卷积层的卷积核大小为3×3，步长为1，padding为0，步骤(e-5)中第一卷积单元的卷积层的卷积核大小为3×3，步长为1，padding为0。

进一步的，步骤(f)包括如下步骤：

(f-1)使用word2vec将第二token序列进行词嵌入，得到源代码的初始向量表示，，/>为第/>个源代码/>的第/>个token的向量表示，，/>为初始向量/>的token的数量；

(f-2)语法特征编码器由第一卷积单元、第一最大池化层、第二卷积单元、第二最大池化层构成；

(f-3)语法特征编码器的第一卷积单元由卷积层、Layer Normalization层、Dropout层、Relu激活函数层构成，将源代码的初始向量表示输入到第一卷积单元的卷积层中，输出得到特征数据/>，将源代码的初始向量表示/>与特征数据/>进行残差连接后输入到第一卷积单元的Layer Normalization层中进行归一化处理，输出得到特征数据/>，将特征数据/>依次输入到第一卷积单元的Dropout层、Relu激活函数层中，输出得到特征数据/>；

(f-4)将特征数据输入到语法特征编码器的第一最大池化层中，输出得到特征数据/>；

(f-5)语法特征编码器的第二卷积单元由卷积层、Layer Normalization层、Dropout层、Relu激活函数层构成，将特征数据输入到第二卷积单元的卷积层中，输出得到特征数据/>，将特征数据/>与特征数据/>进行残差连接后输入到第二卷积单元的Layer Normalization层中进行归一化处理，输出得到特征数据/>，将特征数据/>依次输入到第二卷积单元的Dropout层、Relu激活函数层中，输出得到特征数据/>；

(f-6)将特征数据输入到语法特征编码器的第二最大池化层中，输出得到抽象语法树的特征数据/>。

进一步的，步骤(g)包括如下步骤：

(g-1)复合特征编码器由改进的交叉注意力机制、BiLSTM网络构成；

(g-2)将抽象语法树的特征数据和抽象语法树的特征数据/>输入到改进的交叉注意力机制中，通过公式/>计算得到注意力权重/>，通过公式/>计算得到注意力权重/>，式中/>为交叉注意力机制的查询向量，/>，/>为可学习的权重，/>为交叉注意力机制的键向量，，/>为可学习的权重，/>为交叉注意力机制的值向量，，/>为可学习的权重，/>，/>为可学习的权重，/>为交叉注意力机制的键向量，/>，/>为可学习的权重，/>为交叉注意力机制的值向量，/>，/>为可学习的权重，/>为转置；

(g-3)使用python中的numpy库将注意力权重和注意力权重/>按位置匹配成数据对，得到新的注意力权重矩阵/>，通过python中的max函数对注意力权重矩阵/>进行取最大值操作处理，得到融合后的注意力权重/>；

(g-4)通过公式计算得到第/>个源代码/>特征增强后的代码向量表示/>，得到/>个源代码特征增强后的向量表示/>，/>；

(g-5)通过公式计算得到第/>个源代码/>抽象语法树特征增强后的向量表示/>，得到/>个抽象语法树特征增强后的向量表示/>，；

(g-6)将第个源代码/>特征增强后的代码向量表示/>和第/>个源代码/>抽象语法树特征增强后的向量表示/>通过concatenate函数进行拼接操作，得到拼接后的向量/>，将拼接后的向量/>输入到BiLSTM网络中进行复合特征提取，得到第/>个源代码/>的融合后的特征数据/>，得到融合后的特征数据/>，/>。

进一步的，还包括在步骤(j)后执行如下步骤：

(j-1)通过交叉熵损失计算多任务学习模型IMVD的分类器的损失函数；

(j-2)通过交叉熵损失计算多任务学习模型IMVD的解码器的损失函数；

(j-3)通过公式计算得到总损失函数/>，式中/>为超参数，/>；

(j-4)使用Adam优化器利用总损失函数训练多任务学习模型IMVD，得到优化后的多任务学习模型IMVD。

本发明的有益效果是：设计了一种端到端的漏洞检测模型，能够有效的融合代码的结构信息和语义信息, 使得对代码的分析和检测更加全面和准确。采用多任务学习策略，能够综合考虑漏洞检测和代码语义分析的信息。模型不仅能对源代码中的漏洞进行检测，而且具有漏洞语义解释生成机制，生成代码语义描述使得检测结果具有可解释性。

附图说明

图1为本发明的多任务学习模型IMVD的结构图；

图2为本发明的复合特征编码器的结构图；

图3为本发明的代码漏洞检测的流程图；

图4为本发明的代码语义生成的流程图。

具体实施方式

下面结合附图1至附图4对本发明做进一步说明。

(a)获取个不同软件项目的源代码，构建基于函数级别的高级编程语言代码数据集/>，/>，其中/>为第/>个源代码，/>，/>为第/>个源代码的语义文本描述，/>为源代码的文本的标签，/>，/>为0时表示第/>个源代码/>为无漏洞代码，/>为1时表示第/>个源代码/>为真实漏洞代码，对第/>个源代码/>进行数据清洗。

(b)抽取数据清洗后的第个源代码/>的抽象语法树，将抽取得到的抽象语法树依次经过标准化和序列化操作后得到第一token序列。对抽象语法树进行标准化的流程为：首先，统一不同函数和变量的表示，便于后续处理。然后，使用特殊的标记来表示抽象语法树中的特定节点类型，例如循环结构、条件语句、函数调用三种特定的节点类型。对抽象语法树进行序列化的流程为：使用深度优先算法遍历标准化后的抽象语法树，并保存成token序列。token的含义为文本中的最小单位，可以是一个单词，也可以是一个标点符号。在自然语言处理中，通常会将句子切分成一小块一小块的单元，这些小块单元就被称为"token"，具体的，在2008年由剑桥大学出版社出版的《Introduction to Information Retrieval》一书中进行了定义。token的定义为现有技术，因此不再赘述。

(c)将数据清洗后的第个源代码/>转换得到第二token序列。

(d)构建由跨模态编码器、解码器、分类器构成的多任务学习模型IMVD，跨模态编码器由语义特征编码器（code特征编码器）、语法特征编码器（AST特征编码器）、复合特征编码器构成。

(e)对第一token序列进行词嵌入，得到抽象语法树的初始向量表示，将抽象语法树的初始向量表示/>输入到语义特征编码器中，输出得到抽象语法树的特征数据/>。

(f)对第二token序列进行词嵌入，得到源代码的初始向量表示，将源代码的初始向量表示/>输入到语法特征编码器中，输出得到抽象语法树的特征数据/>。

(g)将抽象语法树的特征数据和抽象语法树的特征数据/>输入到复合特征编码器中进行特征融合，得到融合后的特征数据/>。

(h)多任务学习模型IMVD的分类器依次由全连接层、sigmoid函数构成，将融合后的特征数据输入到分类器中，输出结果为0时表示第/>个源代码为正常代码，输出结果为1时表示第/>个源代码为漏洞代码。

构建了一个源代码及其语义描述的数据集，并对其进行了数据清洗以达到高质量数据集的标准。接着，使用静态分析工具将高级编程语言源代码生成抽象语法树，运行卷积神经网络从源代码和抽象语法树中提取语法特征和语义特征。然后，利用交叉注意力机制和长短记忆网络对语法特征和语义特征进行特征融合，将融合后的特征向量用于模型训练和优化，直至模型收敛。最终，训练好的模型可以对输入的高级编程语言代码进行自动漏洞检测，并输出相应的机理解释，以实现对源代码的可解释性分析。实现高效地检测源代码漏洞并对检测结果进行可解释性分析。

表一，函数级别的高级编程语言代码数据集在不同模型中的实验结果

根据表一的实验结果，使用本发明提供的可解释性的基于多任务的源代码漏洞检测的方法，识别准确度达到了97.6%，精确度达到了98.2%，F1-分数达到了95.3%召回率达到了92.5%。相比于其他传统的实验方法，精度有较大的提升，具有良好的漏洞识别效果。

在本发明的一个具体实施例中，步骤(a)包括如下步骤：

(a-1)从github中获取个不同软件项目的源代码；

在本发明的一个具体实施例中，步骤(b)包括如下步骤：

(b-1)中利用静态分析工具Joern抽取第个源代码/>的抽象语法树。此处所用的提取工具也可用其他工具代替，如JavaParser、Clang、Pylint等

(b-2)将抽取的抽象语法树中定义的函数名替换为，将抽取的抽象语法树中向量替换成/>，抽取的抽象语法树中为循环结构的各个节点分别使用/>标记，抽取的抽象语法树中为条件语句的各个节点分别使用/>和/>标记，抽取的抽象语法树中为函数调用的各个节点分别使用/>标记，完成对抽取得到的抽象语法树的标准化处理。

在本发明的一个具体实施例中，步骤(c)中把清洗后的第个源代码/>输入到CodeBERT的tokenizer中根据编程语言的语法和语义将清洗后的第/>个源代码/>分解为/>个token，各个token构成代码标准化表示的第二token序列。

在本发明的一个具体实施例中，步骤(e)包括如下步骤：

(e-1)使用word2vec将第一token序列进行词嵌入，得到抽象语法树的初始向量表示，/>，/>为第/>个源代码/>的第/>个token的向量表示，，/>为始向量/>的token的数量。

(e-2)语义特征编码器由第一卷积单元、第一最大池化层、第二卷积单元、第二最大池化层构成。

(e-3)语义特征编码器的第一卷积单元由卷积层、Layer Normalization层、Dropout层、Relu激活函数层构成，将抽象语法树的初始向量表示输入到第一卷积单元的卷积层中，输出得到特征数据/>，将抽象语法树的初始向量表示/>与特征数据/>进行残差连接后输入到第一卷积单元的Layer Normalization层中进行归一化处理，输出得到特征数据/>，将特征数据/>依次输入到第一卷积单元的Dropout层、Relu激活函数层中，输出得到特征数据/>。

(e-4)将特征数据输入到语义特征编码器的第一最大池化层中，输出得到特征数据/>。

(e-5)语义特征编码器的第二卷积单元由卷积层、Layer Normalization层、Dropout层、Relu激活函数层构成，将特征数据输入到第二卷积单元的卷积层中，输出得到特征数据/>，将特征数据/>与特征数据/>进行残差连接后输入到第二卷积单元的Layer Normalization层中进行归一化处理，输出得到特征数据/>，将特征数据/>依次输入到第二卷积单元的Dropout层、Relu激活函数层中，输出得到特征数据/>。

在该实施例中，优选的，步骤(e-3)中第二卷积单元的卷积层的卷积核大小为3×3，步长为1，padding为0，步骤(e-5)中第一卷积单元的卷积层的卷积核大小为3×3，步长为1，padding为0。

在本发明的一个具体实施例中，步骤(f)包括如下步骤：

(f-1)使用word2vec将第二token序列进行词嵌入，得到源代码的初始向量表示，，/>为第/>个源代码/>的第/>个token的向量表示，，/>为初始向量/>的token的数量。

(f-2)语法特征编码器由第一卷积单元、第一最大池化层、第二卷积单元、第二最大池化层构成。

(f-3)语法特征编码器的第一卷积单元由卷积层、Layer Normalization层、Dropout层、Relu激活函数层构成，将源代码的初始向量表示输入到第一卷积单元的卷积层中，输出得到特征数据/>，将源代码的初始向量表示/>与特征数据/>进行残差连接后输入到第一卷积单元的Layer Normalization层中进行归一化处理，输出得到特征数据/>，将特征数据/>依次输入到第一卷积单元的Dropout层、Relu激活函数层中，输出得到特征数据/>。

(f-4)将特征数据输入到语法特征编码器的第一最大池化层中，输出得到特征数据/>。

(f-5)语法特征编码器的第二卷积单元由卷积层、Layer Normalization层、Dropout层、Relu激活函数层构成，将特征数据输入到第二卷积单元的卷积层中，输出得到特征数据/>，将特征数据/>与特征数据/>进行残差连接后输入到第二卷积单元的Layer Normalization层中进行归一化处理，输出得到特征数据/>，将特征数据/>依次输入到第二卷积单元的Dropout层、Relu激活函数层中，输出得到特征数据/>。

在本发明的一个具体实施例中，步骤(g)包括如下步骤：

(g-1)复合特征编码器由改进的交叉注意力机制、BiLSTM网络构成。

(g-2)将抽象语法树的特征数据和抽象语法树的特征数据/>输入到改进的交叉注意力机制中，通过公式/>计算得到注意力权重/>，通过公式计算得到注意力权重/>，式中/>为交叉注意力机制的查询向量，，/>为可学习的权重，/>为交叉注意力机制的键向量，，/>为可学习的权重，/>为交叉注意力机制的值向量，，/>为可学习的权重，/>，/>为可学习的权重，/>为交叉注意力机制的键向量，/>，/>为可学习的权重，/>为交叉注意力机制的值向量，/>，/>为可学习的权重，/>为转置。

(g-3)使用python中的numpy库将注意力权重和注意力权重/>按位置匹配成数据对，得到新的注意力权重矩阵/>，通过python中的max函数对注意力权重矩阵/>进行取最大值操作处理，得到融合后的注意力权重/>。

(g-4)通过公式计算得到第/>个源代码/>特征增强后的代码向量表示/>，得到/>个源代码特征增强后的向量表示/>，/>。

(g-5)通过公式计算得到第/>个源代码/>抽象语法树特征增强后的向量表示/>，得到/>个抽象语法树特征增强后的向量表示/>，。

(g-6)将第个源代码/>特征增强后的代码向量表示/>和第/>个源代码/>抽象语法树特征增强后的向量表示/>通过concatenate函数进行拼接操作，得到拼接后的向量/>，将拼接后的向量/>输入到BiLSTM网络中进行复合特征提取，得到第/>个源代码/>的融合后的特征数据/>，得到融合后的特征数据/>，/>。BiLSTM网络也可用其他神经网络替代，如长短期记忆网络（Long Short-Term Memory）、循环神经网络(Recurrent Neural Network)等。

在本发明的一个具体实施例中，还包括在步骤(j)后执行如下步骤：

(j-1)通过交叉熵损失计算多任务学习模型IMVD的分类器的损失函数。

(j-2)通过交叉熵损失计算多任务学习模型IMVD的解码器的损失函数。

(j-3)通过公式计算得到总损失函数/>，式中/>为超参数，/>。

(j-4)使用Adam优化器利用总损失函数训练多任务学习模型IMVD，得到优化后的多任务学习模型IMVD。训练时，在每个epoch中，通过向后传播计算梯度，并使用梯度下降算法根据优化器的规则更新模型的参数。对模型进行多个epoch的训练，直至模型收敛为止。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种可解释性的基于多任务的源代码漏洞检测的方法，其特征在于，包括如下步骤：

(a)获取个不同软件项目的源代码，构建基于函数级别的高级编程语言代码数据集/>，，其中/>为第/>个源代码，/>，/>为第/>个源代码/>的语义文本描述，/>为源代码的文本的标签，/>，/>为0时表示第/>个源代码/>为无漏洞代码，/>为1时表示第/>个源代码/>为真实漏洞代码，对第/>个源代码/>进行数据清洗；

(c)将数据清洗后的第个源代码/>转换得到第二token序列；

2.根据权利要求1所述的可解释性的基于多任务的源代码漏洞检测的方法，其特征在于，步骤(a)包括如下步骤：

(a-1)从github中获取个不同软件项目的源代码；

3.根据权利要求1所述的可解释性的基于多任务的源代码漏洞检测的方法，其特征在于，步骤(b)包括如下步骤：

4.根据权利要求3所述的可解释性的基于多任务的源代码漏洞检测的方法，其特征在于：步骤(c)中把清洗后的第个源代码/>输入到CodeBERT的tokenizer中根据编程语言的语法和语义将清洗后的第/>个源代码/>分解为/>个token，各个token构成代码标准化表示的第二token序列。

5.根据权利要求3所述的可解释性的基于多任务的源代码漏洞检测的方法，其特征在于，步骤(e)包括如下步骤：

(e-1)使用word2vec将第一token序列进行词嵌入，得到抽象语法树的初始向量表示，，/>为第/>个源代码/>的第/>个token的向量表示，，/>为始向量/>的token的数量；

(e-3)语义特征编码器的第一卷积单元由卷积层、Layer Normalization层、Dropout层、Relu激活函数层构成，将抽象语法树的初始向量表示输入到第一卷积单元的卷积层中，输出得到特征数据/>，将抽象语法树的初始向量表示/>与特征数据/>进行残差连接后输入到第一卷积单元的Layer Normalization层中进行归一化处理，输出得到特征数据，将特征数据/>依次输入到第一卷积单元的Dropout层、Relu激活函数层中，输出得到特征数据/>；

(e-4)将特征数据输入到语义特征编码器的第一最大池化层中，输出得到特征数据；

(e-5)语义特征编码器的第二卷积单元由卷积层、Layer Normalization层、Dropout层、Relu激活函数层构成，将特征数据输入到第二卷积单元的卷积层中，输出得到特征数据/>，将特征数据/>与特征数据/>进行残差连接后输入到第二卷积单元的LayerNormalization层中进行归一化处理，输出得到特征数据/>，将特征数据/>依次输入到第二卷积单元的Dropout层、Relu激活函数层中，输出得到特征数据/>；

6.根据权利要求5所述的可解释性的基于多任务的源代码漏洞检测的方法，其特征在于：步骤(e-3)中第二卷积单元的卷积层的卷积核大小为3×3，步长为1，padding为0，步骤(e-5)中第一卷积单元的卷积层的卷积核大小为3×3，步长为1，padding为0。

7.根据权利要求5所述的可解释性的基于多任务的源代码漏洞检测的方法，其特征在于，步骤(f)包括如下步骤：

(f-1)使用word2vec将第二token序列进行词嵌入，得到源代码的初始向量表示，，/>为第/>个源代码/>的第/>个token的向量表示，,/>为初始向量/>的token的数量；

(f-3)语法特征编码器的第一卷积单元由卷积层、Layer Normalization层、Dropout层、Relu激活函数层构成，将源代码的初始向量表示输入到第一卷积单元的卷积层中，输出得到特征数据/>，将源代码的初始向量表示/>与特征数据/>进行残差连接后输入到第一卷积单元的Layer Normalization层中进行归一化处理，输出得到特征数据/>，将特征数据/>依次输入到第一卷积单元的Dropout层、Relu激活函数层中，输出得到特征数据；

(f-4)将特征数据输入到语法特征编码器的第一最大池化层中，输出得到特征数据；

(f-5)语法特征编码器的第二卷积单元由卷积层、Layer Normalization层、Dropout层、Relu激活函数层构成，将特征数据输入到第二卷积单元的卷积层中，输出得到特征数据/>，将特征数据/>与特征数据/>进行残差连接后输入到第二卷积单元的LayerNormalization层中进行归一化处理，输出得到特征数据/>，将特征数据/>依次输入到第二卷积单元的Dropout层、Relu激活函数层中，输出得到特征数据/>；

8.根据权利要求1所述的可解释性的基于多任务的源代码漏洞检测的方法，其特征在于，步骤(g)包括如下步骤：

(g-2)将抽象语法树的特征数据和抽象语法树的特征数据/>输入到改进的交叉注意力机制中，通过公式/>计算得到注意力权重/>，通过公式计算得到注意力权重/>，式中/>为交叉注意力机制的查询向量，/>，/>为可学习的权重，/>为交叉注意力机制的键向量，，/>为可学习的权重，/>为交叉注意力机制的值向量，，/>为可学习的权重，/>，/>为可学习的权重，/>为交叉注意力机制的键向量，/>，/>为可学习的权重，/>为交叉注意力机制的值向量，/>，/>为可学习的权重，/>为转置；

(g-5)通过公式计算得到第/>个源代码/>抽象语法树特征增强后的向量表示/>，得到/>个抽象语法树特征增强后的向量表示/>，/>；

9.根据权利要求1所述的可解释性的基于多任务的源代码漏洞检测的方法，其特征在于，还包括在步骤(j)后执行如下步骤：

(j-3)通过公式计算得到总损失函数/>，式中/>为超参数，；