CN117575012A

CN117575012A - 一种基于大语言模型的漏洞知识库构建方法及交互方法

Info

Publication number: CN117575012A
Application number: CN202311700120.8A
Authority: CN
Inventors: 翟栋; 冯其; 周玉廷; 范佳
Original assignee: Sichuan Cric Technology Co ltd
Current assignee: Sichuan Cric Technology Co ltd
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-02-20

Abstract

本发明涉及信息安全领域，其公开了一种基于大语言模型的漏洞知识库构建方法及交互方法，解决传统漏洞知识库知识形态固定，用户交互不友好的问题。本发明在漏洞知识库构建过程中，首先收集漏洞知识，通过大语言模型对收集到的漏洞知识进行处理，通过文本嵌入获得文本向量，并以向量形式存储在本地作为原始数据库使用。当问答系统接收到用户问题时，大语言模型对用户问题进行预处理，获得问题向量；系统根据所述问题向量，在原始数据库中搜索最相近的知识点作为原始答案；系统将获得的原始答案经过大语言模型的二次处理，生成与用户问题对应的漏洞知识，并反馈给用户。本发明方案适用于各个安全运营平台或者漏洞知识库平台。

Description

一种基于大语言模型的漏洞知识库构建方法及交互方法

技术领域

本发明涉及信息安全领域，具体涉及一种基于大语言模型的漏洞知识库构建方法及交互方法。

背景技术

通用漏洞知识库一般包含各类漏洞的描述、分类、修补建议等信息，以帮助用户了解和处理各种安全风险。通常，漏洞知识库的来源包括安全研究人员、厂商、开源社区等。漏洞知识库将这些信息进行整理归纳和分类存储，供用户查询和使用。

在使用漏洞知识库时，用户可以通过查询关键词或漏洞编号等方式获取相关信息。传统的漏洞知识库一般是对漏洞信息和处置建议的固定展示，没有办法和用户交互。更不能理解用户不同形式的问题，并给出与之匹配的答案。

自从2022年11月30日OpenAI公司推出ChatGPT以来，大语言模型受到了学术界和业界的广泛关注，由于ChatGPT在语言理解和知识问答方面的优异表现，大语言模型被认为具备记忆和应用世界知识(worldknowledge)的能力。但是大语言模型的知识获取过程是一个黑盒方式，容易受到训练语料质量的影响，即便是通过人类反馈技术和知识技术提升质量，由于大模型的黑盒属性，其知识反馈也可能存在错误。

发明内容

本发明所要解决的技术问题是：提出一种基于大语言模型的漏洞知识库构建方法及交互方法，解决传统漏洞知识库知识形态固定，用户交互不友好的问题。

本发明解决上述技术问题采用的技术方案是：

一方面，本发明提供了一种基于大语言模型的漏洞知识库构建方法，包括：

收集漏洞知识，通过大语言模型对收集到的漏洞知识进行处理，通过文本嵌入获得文本向量，并以向量形式存储在本地作为原始数据库使用。

进一步的，所述漏洞知识的来源包括：网络、本地文本文件或者数据库。

进一步的，所述通过大语言模型对收集到的漏洞知识进行处理，通过文本嵌入获得文本向量，包括：

首先将收集的漏洞知识转化为txt文本，然后通过对txt文本进行分割，将漏洞知识拆分为若干独立的知识点，获得对应的文本块，每个文本块中的知识点作为问答的最小记录，与问题进行匹配，接着，通过调用大语言模型的文本向量表示功能接口，将文本块转化为向量形式。

进一步的，还包括：在对文本向量进行存储时，还存储原始知识点。

另一方面，本发明还提供了一种基于大语言模型的漏洞知识库交互方法，应用于包括大语言模型和如上所述的原始数据库的问答系统中，该方法包括以下步骤：

当问答系统接收到用户问题时，大语言模型对用户问题进行预处理，获得问题向量；

系统根据所述问题向量，在原始数据库中搜索最相近的知识点作为原始答案；

系统将获得的原始答案经过大语言模型的二次处理，生成与用户问题对应的漏洞知识，并反馈给用户。

进一步的，所述用户问题为通过自然语言问答的方式向问答系统输入的问题。

进一步的，所述大语言模型对用户问题进行预处理包括：大语言模型利用自然语言处理能力，对用户问题进行纠错和提取关键点处理。

进一步的，所述大语言模型的二次处理为根据历史会话信息对原始答案的分析推理。

本发明的有益效果是：

本发明将本地的漏洞知识库通过大语言模型进行处理，并作为答案的基础数据源，保证了答案的精准和可靠；同时，使用大语言模型作为用户和漏洞知识库之间的桥梁，对用户的问题进行预处理，实现对用户请求的准确“理解”，在获得原始答案后，利用大语言模型对原始答案进行二次加工，从而输出更为准确的漏洞处置建议。基于上述，本发明能够解决传统漏洞知识库知识形态固定，用户交互不友好的问题。本发明方案适用于各个安全运营平台或者漏洞知识库平台。

附图说明

图1为本发明实施例中的基于大语言模型的漏洞知识库交互流程图；

图2为漏洞知识入库的流程图。

具体实施方式

本发明旨在提出一种基于大语言模型的漏洞知识库构建方法及交互方法，解决传统漏洞知识库知识形态固定，用户交互不友好的问题。本发明方案将传统的漏洞知识库搜索与大语言模型进行结合，将漏洞知识库内容进行分析提供给模型，利用大模型对消息中蕴含的知识进行分析。同时使用大语言模型作为用户和问答系统的沟通介质，发挥其强大的自然语言处理能力，对用于请求进行纠错、提取关键点等预处理实现“理解”，对输出结果在保证正确的基础上二次加工，从而输出更为准确的漏洞处置建议。

实施例：

本实施例中，首先需要进行漏洞知识入库，参见图2，其主要包括：收集漏洞知识，通过大语言模型对收集到的漏洞知识进行处理，通过文本嵌入获得文本向量，并以向量形式存储在本地作为原始数据库使用。

具体而言，可以通过网络、本地文本文件或者数据库等搜集尽可能多的漏洞知识，然后将其转换为便于处理的txt文本，接着，对txt文本进行分割，将漏洞知识拆分为若干独立的知识点，获得对应的文本块，每个知识点会作为问答的最小记录，与问题进行匹配。然后，通过调用大语言模型的文本向量表示功能接口，将文本转化为向量形式，最后进行数据存储。这里存储不仅仅包括文本向量的存储，还包括原始知识点的存储。并且都以kv(键值对)形式存储，便于后续快速匹配搜索。

通过该手段，将搜集的漏洞知识通过大语言模型进行处理，并作为答案的基础数据源，保证了答案的精准和可靠。

基于上述获得的原始数据库，便可以搭建问答系统，在问答系统中，使用大语言模型(LLM)作为用户和问答系统的沟通介质，如图1所示，其包括以下实施过程：

用户通过自然语言问答的方式向问答系统输入问题；

大语言模型利用自然语言处理能力，对用户问题进行纠错和提取关键点处理，从而获得问题向量；

系统将获得的原始答案经过大语言模型的二次处理，如根据历史会话信息对原始答案的分析推理，从而进行原始答案的“精加工”，生成与用户问题对应的漏洞知识并反馈给用户。

通过该手段，本发明实现了更加友好的交互方式，用户能够获得准确的答案。

需要说明的是，上述方案中，大语言模型的预处理和对答案的二次处理的具体实施均属于现有技术，本领域技术人员易于实现，故不再具体赘述。

最后应当说明的是，上述实施例仅是优选实施方式，并不用以限制本发明。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可以做出若干修改，等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大语言模型的漏洞知识库构建方法，其特征在于，包括：

2.如权利要求1所述的一种基于大语言模型的漏洞知识库构建方法，其特征在于，

所述漏洞知识的来源包括：网络、本地文本文件或者数据库。

3.如权利要求1所述的一种基于大语言模型的漏洞知识库构建方法，其特征在于，

所述通过大语言模型对收集到的漏洞知识进行处理，通过文本嵌入获得文本向量，包括：

4.如权利要求1-3任意一项所述的一种基于大语言模型的漏洞知识库构建方法，其特征在于，还包括：在对文本向量进行存储时，还存储原始知识点。

5.一种基于大语言模型的漏洞知识库交互方法，应用于包括大语言模型和采用如权利要求1-4任意一项所述的基于大语言模型的漏洞知识库构建方法构建的原始数据库的问答系统中，其特征在于，该方法包括以下步骤：

6.如权利要求5所述的一种基于大语言模型的漏洞知识库交互方法，其特征在于，

所述用户问题为通过自然语言问答的方式向问答系统输入的问题。

7.如权利要求5所述的一种基于大语言模型的漏洞知识库交互方法，其特征在于，所述大语言模型对用户问题进行预处理包括：大语言模型利用自然语言处理能力，对用户问题进行纠错和提取关键点处理。

8.如权利要求5-7任意一项所述的一种基于大语言模型的漏洞知识库交互方法，其特征在于，所述大语言模型的二次处理为根据历史会话信息对原始答案的分析推理。