CN117807603A

CN117807603A - 软件供应链审计方法、系统及计算机可读存储介质

Info

Publication number: CN117807603A
Application number: CN202410227591.XA
Authority: CN
Inventors: 陈晓莉; 林建洪; 蓝康波; 国毓芯; 赵祥廷; 朱崇
Original assignee: Zhejiang Ponshine Information Technology Co ltd
Current assignee: Zhejiang Ponshine Information Technology Co ltd
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-04-02
Anticipated expiration: 2044-02-29
Also published as: CN117807603B

Abstract

本发明涉及软件供应链审计方法、系统及计算机可读存储介质，审计方法包括：采集软件供应链审计数据；对采集的软件供应链审计数据进行数据分词，以转换得到Token序列；之后进行Embedding编码，得到待处理数据矩阵；对待处理数据矩阵进行归一化处理，之后进行位置编码，得到位置编码矩阵；将位置编码矩阵输入多头注意力机制网络结构进行计算，其计算结果通过多次Gibbs采样结合自回归的方式逐个生成输出序列中的每个Token，得到Token输出序列；将Token输出序列通过输出层计算，以输出审计结果；其中，输出层包括依次连接的归一化逆转换和前馈神经网络。本发明有效提高网络模型的精确性、灵活性、可解释性。

Description

软件供应链审计方法、系统及计算机可读存储介质

技术领域

本发明属于软件供应链技术领域，具体涉及一种软件供应链审计方法、系统及计算机可读存储介质。

背景技术

软件供应链安全是指在软件开发和交付过程中，保障软件系统各个环节的安全性，以防止恶意攻击、漏洞利用和恶意代码的注入。软件供应链包括从软件开发、测试、打包、分发到部署等各个环节，涉及多个参与方、组织和网络。在当前数字化时代，软件供应链攸关企业的业务运作和信息安全，因此需要给予足够的重视。

近年来，人工智能领域大语言模型技术深入到各个行业及领域中，为解决优化软件供应链技术审计阶段可能存在的问题，考虑结合开源的大语言模型并结合创新的技术要点适应性的开发应用在软件供应链技术审计模块中，由此设计软件供应链审计方案，其中包含软件供应链审计中代码审查、组件分析、安全测试等不同阶段的实现。

发明内容

基于现有技术中存在的上述不足，本发明的目的是提供一种软件供应链审计方法、系统及计算机可读存储介质。

为了达到上述发明目的，本发明采用以下技术方案：

一种软件供应链审计方法，包括以下步骤：

S1、采集软件供应链审计数据；

S2、基于Tokenization对采集的软件供应链审计数据进行数据分词，以转换得到Token序列；

S3、对Token序列进行Embedding编码，将Token序列的每个Token映射为一个实数向量，得到待处理数据矩阵；

S4、对待处理数据矩阵进行归一化处理，之后进行位置编码，得到位置编码矩阵；

S5、将位置编码矩阵输入多头注意力机制网络结构进行计算，其计算结果通过多次Gibbs采样结合自回归的方式逐个生成输出序列中的每个Token，得到Token输出序列；

S6、将Token输出序列通过输出层计算，以输出审计结果；其中，输出层包括依次连接的归一化逆转换和前馈神经网络。

作为优选方案，所述步骤S1中，软件供应链审计数据的类型包括代码审查、组件分析和安全测试。

作为优选方案，所述代码审查对应的软件供应链审计数据为代码片段或代码文件；

所述组件分析对应的软件供应链审计数据为组件知识图谱；

所述安全测试对应的软件供应链审计数据为软件供应链相关知识问题或相似度检测代码片段。

作为优选方案，所述步骤S4中，归一化处理采用均方根标准化。

作为优选方案，所述步骤S4中，位置编码采用旋转位置编码。

作为优选方案，所述步骤S5中，位置编码矩阵输入多头注意力机制网络结构进行计算的过程包括以下步骤：

S51、位置编码矩阵通过Embedding层，通过三组矩阵运算得到query值、key值和value值；

S52、对key值和query值分别进行位置编码，并计算相似度得分；

S53、对相似度得分进行Softmax的掩蔽操作后，与value值相结合得到计算结果。

作为优选方案，所述步骤S5中，每次生成一个Token时，使用上一次已生成的Token来预测下一个Token。

作为优选方案，所述步骤S5中，前馈神经网络中选择SwiGLU激活函数。

本发明还提供一种软件供应链审计系统，应用如上任一项方案所述的审计方法，所述审计系统包括：

采集模块，用于采集软件供应链审计数据；

分词模块，用于基于Tokenization对采集的软件供应链审计数据进行数据分词，以转换得到Token序列；

编码模块，用于对Token序列进行Embedding编码，将Token序列的每个Token映射为一个实数向量，得到待处理数据矩阵；

归一化模块，用于对待处理数据矩阵进行归一化处理；

位置编码模块，用于对归一化处理之后的待处理数据矩阵进行位置编码，得到位置编码矩阵；

计算模块，用于将位置编码矩阵输入多头注意力机制网络结构进行计算；

生成模块，用于将多头注意力机制网络结构的计算结果通过多次Gibbs采样结合自回归的方式逐个生成输出序列中的每个Token，得到Token输出序列；

输出模块，用于将Token输出序列通过输出层计算，以输出审计结果；其中，输出层包括依次连接的归一化逆转换和前馈神经网络。

本发明还提供一种计算机可读存储介质，可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行如上任一项方案所述的审计方法。

本发明与现有技术相比，有益效果是：

本发明基于软件供应链审计阶段开发设计包含代码审查、组件分析、安全测试等功能，在开源的大语言模型Llama内部网络结构的基础上，结合各功能领域的适应性要求，调整其内部Transformer中多头注意力机制及自回归生成中输出编码采样的要求，选择MCMC马尔可夫链蒙特卡洛采样的一种特殊形式，即Gibbs采样进行迭代优化设计，以此来提高模型网络的精确性、灵活性和可解释性。

附图说明

图1是本发明实施例1的软件供应链审计方法的流程图；

图2是本发明实施例1的基于多头注意力机制结合Gibbs采样的网络结构示意图；

图3是本发明实施例1的软件供应链审计系统的各组织模块分解图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例1：

如图1所示，本实施例的基于Llama结合Gibbs采样的软件供应链审计方法，包括以下步骤：

（1）采集软件供应链审计数据；

具体地，本实施例根据审计功能进行分类，若采集的软件供应链审计数据为代码审查问题，即数据类型为代码片段或代码文件，支持C、C++、Java、Python、sql、go等多种编程语言，旨在通过该审计系统代码审查模型对代码内容、格式、语句等方面进行审查，最终输出审计结果，包括问题定位等；

若采集的软件供应链审计数据为组件分析问题，即数据类型为组件知识图谱，最终输出审计后的各组件问题核验点或审计分析结果；

若采集的软件供应链审计数据为安全测试问题，即数据类型为软件供应链相关知识文本问题、相似度代码检测片段等，最终输出审计结果为回答结果或检测结果。

（2）经预训练的软件供应链审计知识问答网络进行问答预测。

不同功能文本问题输入后统一进行数据分词处理、Embedding编码、预归一化、位置编码、网络计算、结果输出。其中，数据分词根据输入数据差异分别做格式化转换，英文文本数据选择nltk方式进行分词，中文分词选择N-gram做分词处理。另外，网络计算过程中的网络模型为预训练网络结构，其预训练过程详述如下：

（a）数据收集及整理。基于开源Llama预训练模型，新增训练数据集，新增数据集通过爬虫、知识库积累等方式，输入数据集内容包括根据关键字检索相关“软件供应链”、“软件供应链安全”、“漏洞”、“开源组件”、“源码”等进行数据收集，数据形式包括网页数据WARC、元数据WAT、文本提取WET等；源码及相关编程语言代码脚本的收集整理、SBOM组件、开源组件库、安全知识库等知识图谱的收集。

（b）格式化软件供应链审计数据输入。格式化数据文本，如基于相应功能的软件供应链相关知识领域问题输入；非格式化数据，如待审计源码文件等。

（c）数据分词。基于Tokenization将输入的软件供应链审计数据转换成Token序列，即将输入的软件供应链审计数据映射成模型可理解的形式。

（d）Embedding编码。在Token序列的基础上做Embedding编码，将Token序列的每个Token映射为一个实数向量，得到待处理数据矩阵。

（e）归一化。基于均方根标准化RMSNorm对待处理数据矩阵做数据标准化处理，减少大语言模型中内部协变量偏移的影响。内部协变量偏移是指神经网络中每一层的输入分布随着前面层的参数更新而发生变化的现象。这种变化可能导致参数梯度的不稳定性，从而延缓了模型的收敛速度。传统的解决方法归一化的计算代价较高，且对于小批次的训练数据效果不佳。

（f）位置编码Positional Encoding。选择旋转位置编码RoPE进行位置编码，基于每个Token对应的位置顺序进行位置编码，为模型提供上下文关系的信息，输出得到位置编码矩阵。

（g）将位置编码矩阵输入多头注意力机制网络结构进行计算，其计算结果通过多次Gibbs采样结合自回归的方式逐个生成输出序列中的每个Token，得到Token输出序列；其中，在解码过程中，每次生成一个Token时，使用前面已生成的内容作为上下文，来帮助预测下一个Token。

本实施例的位置编码矩阵输入多头注意力机制中，通过Embedding层，经过三组矩阵运算得到query、key、value，在此基础上key和query分别再次进行位置编码并通过计算得到相似度得分，之后再经过Softmax的掩蔽操作后，与value相结合得到计算结果，即多个Z矩阵。其中，query与key是用来比较衡量目标词与上下文之间的相似度关联，value是用来提取词的本质特征。

由多头注意力机制计算得到的多个Z矩阵通过多次Gibbs采样结合自回归的方式逐个生成输出序列中的每个Token，得到Token输出序列。Gibbs采样是MCMC采样的一种，是一种基于马尔可夫链蒙特卡洛采样的更优化的形式，是一种随机模拟的近似采样；引入马尔可夫链的概念，通过依靠状态转移矩阵来处理高维难以直接采样时从某一多变量概率分布中近似抽取样本序列；其状态转移概率矩阵考虑了文本上下文的链接关系，且相对传统的MCMC采样计算速度更快更省时。另外，多次采样考虑提高采样的准确性。

（h）输出处理。Token输出序列通过输出层Layer，即依次接入归一化逆转换以及接入前馈神经网络FNN，在FFN中选择SwiGLU激活函数，以增加网络的表达能力，最终进行审计结果Answer的输出。循环迭代上述网络，输出拟合效果最好的模型作为最终训练好的网络模型。

（3）在步骤（1）中采集的软件供应链审计数据输入预训练网络模型预测输出后，得到检索问题回答结果，即审计结果。

具体地，若代码审查问题对应的软件供应链审计数据输入预训练网络模型后输出代码审查结果，包括正误判断反馈（0/1）；若返回结果为0，即输入的代码审查文本准确；若返回结果为1，即输入的代码审查文本存在问题，并同步检索用户可能需要的规范代码示例。

若组件分析问题对应的软件供应链审计数据输入预训练网络模型后输出组件分析结果，包括审计结果反馈（0/1）；若返回结果为0，代表输入审计的知识图谱组件分析审计通过；若返回结果为1，代表输入的审计的知识图谱组件分析审计存在问题，同时将输出问题节点，即该节点可能存在问题的概率。

若安全测试问题对应的软件供应链审计数据输入预训练网络模型后输出安全测试结果，根据输入检索的问题内容，模型网络通过样本检索及上下文关联等多种网络计算组合，输出检索问题答案，其同一问题可多次进行检索，由于网络计算的适应性，其返回答案可能存在差异，每次返回的结果根据该检索问题匹配概率值高低进行逐个返回，且每次仅返回一个。

以下通过安全测试问题的审计为例对上述审计方法进行详细说明，具体的审计过程包括：

1、安全测试问题数据输入。即输入数据类型为文本类型，自动识别为安全测试审计；

2、文本数据处理即文本数据分词。基于Tokenization将输入的数据转换成Token序列，选择N-gram做分词处理；

3、Embedding编码。在数据分词基础上做Embedding编码，将每个Token映射为一个实数向量t，将输入数据映射成模型可理解的形式即数据矩阵格式，m为Token的数量，t _i为第i个Token映射的实数向量，i∈[1，m]。

4、归一化。保留原Llama原结构中归一化方式选择RMSNorm（均方根标准化）做数据标准化处理，归一化处理后得到一组新的数据矩阵。

5、位置编码。选择RoPE进行位置编码，基于数据矩阵中t _i对应的位置顺序关系进行位置编码，为模型提供上下文关系的信息，输出得到位置编码矩阵，位置编码矩阵的矩阵大小为n*n，Wj为数据矩阵/>经过位置编码得到各个向量，j∈[1，n]。

6、基于Muti-Head Attention多头注意力机制结合Gibbs采样进行迭代，运用自回归的方式逐个生成输出序列中的每个Token；即在解码过程中，位置编码矩阵中每个Wj按顺序依次生成一个Zj，在多次Gibbs采样中每次自回归迭代将使用前面已生成的内容作为上下文，来帮助预测下一个Zj，最终迭代结果得到Token输出序列，即数据矩阵。

如图2所示，位置编码矩阵输入多头注意力机制中，通过Embedding层，经过三组矩阵运算得到query、key、value，即W1对应/>，W2对应/>，以此类推，Wn对应/>；在此基础上对keyj和queryj分别再次进行Rope位置编码通过计算得到相似度得分Scorej再经Softmax的掩蔽操作后，与valuej相结合得到矩阵Zj。

由多头注意力机制得到的多个矩阵Zj通过多次Gibbs采样结合自回归的方式逐个生成输出序列中的每个Token，得到Token输出序列，即矩阵Zn*n，即数据矩阵。

7、输出解码处理。生成的数据矩阵经过输出层，依次接入归一化逆转换，之后接入前馈神经网络FNN，最终得到Answer的输出即输入检索问题的答案。

8、模型网络通过样本检索及上下文关联等多种网络计算组合，输出检索问题答案，其同一问题可多次通过该系统进行检索，由于网络计算的适应性其返回答案可能存在差异，每次返回的结果根据该检索问题匹配概率值高低进行逐个返回，且每次仅返回一个。

基于上述审计方法，如图3所示，本实施例的软件供应链审计系统包括以下功能模块：采集模块、分词模块、编码模块、归一化模块、位置编码模块、计算模块、生成模块和输出模块。

具体地，采集模块用于采集软件供应链审计数据；

分词模块用于基于Tokenization对采集的软件供应链审计数据进行数据分词，以转换得到Token序列；

编码模块用于对Token序列进行Embedding编码，将Token序列的每个Token映射为一个实数向量，得到待处理数据矩阵；

归一化模块用于对待处理数据矩阵进行归一化处理；

位置编码模块用于对归一化处理之后的待处理数据矩阵进行位置编码，得到位置编码矩阵；

计算模块用于将位置编码矩阵输入多头注意力机制网络结构进行计算；

生成模块用于将多头注意力机制网络结构的计算结果通过多次Gibbs采样结合自回归的方式逐个生成输出序列中的每个Token，得到Token输出序列；

输出模块用于将Token输出序列通过输出层计算，以输出审计结果；其中，输出层包括依次连接的归一化逆转换和前馈神经网络；

上述功能模块的详细处理过程可参考上述审计方法的详细描述，在此不赘述。

本实施例的计算机可读存储介质，可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行上述审计方法，实现软件供应链审计的智能化。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.一种软件供应链审计方法，其特征在于，包括以下步骤：

S1、采集软件供应链审计数据；

2.根据权利要求1所述的软件供应链审计方法，其特征在于，所述步骤S1中，软件供应链审计数据的类型包括代码审查、组件分析和安全测试。

3.根据权利要求2所述的软件供应链审计方法，其特征在于，所述代码审查对应的软件供应链审计数据为代码片段或代码文件；

所述组件分析对应的软件供应链审计数据为组件知识图谱；

4.根据权利要求1所述的软件供应链审计方法，其特征在于，所述步骤S4中，归一化处理采用均方根标准化。

5.根据权利要求1所述的软件供应链审计方法，其特征在于，所述步骤S4中，位置编码采用旋转位置编码。

6.根据权利要求1所述的软件供应链审计方法，其特征在于，所述步骤S5中，位置编码矩阵输入多头注意力机制网络结构进行计算的过程包括以下步骤：

7.根据权利要求1所述的软件供应链审计方法，其特征在于，所述步骤S5中，每次生成一个Token时，使用上一次已生成的Token来预测下一个Token。

8.根据权利要求1所述的软件供应链审计方法，其特征在于，所述步骤S5中，前馈神经网络中选择SwiGLU激活函数。

9.一种软件供应链审计系统，应用如权利要求1-8任一项所述的审计方法，其特征在于，所述审计系统包括：

采集模块，用于采集软件供应链审计数据；

归一化模块，用于对待处理数据矩阵进行归一化处理；

10.一种计算机可读存储介质，可读存储介质中存储有指令，其特征在于，当指令在计算机上运行时，使得计算机执行如权利要求1-8任一项所述的审计方法。