CN117575012A - 一种基于大语言模型的漏洞知识库构建方法及交互方法 - Google Patents
一种基于大语言模型的漏洞知识库构建方法及交互方法 Download PDFInfo
- Publication number
- CN117575012A CN117575012A CN202311700120.8A CN202311700120A CN117575012A CN 117575012 A CN117575012 A CN 117575012A CN 202311700120 A CN202311700120 A CN 202311700120A CN 117575012 A CN117575012 A CN 117575012A
- Authority
- CN
- China
- Prior art keywords
- language model
- large language
- vulnerability
- vulnerability knowledge
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000003993 interaction Effects 0.000 title claims abstract description 17
- 238000009411 base construction Methods 0.000 title claims abstract description 7
- 239000013598 vector Substances 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000003058 natural language processing Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 4
- 238000010276 construction Methods 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003754 machining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息安全领域,其公开了一种基于大语言模型的漏洞知识库构建方法及交互方法,解决传统漏洞知识库知识形态固定,用户交互不友好的问题。本发明在漏洞知识库构建过程中,首先收集漏洞知识,通过大语言模型对收集到的漏洞知识进行处理,通过文本嵌入获得文本向量,并以向量形式存储在本地作为原始数据库使用。当问答系统接收到用户问题时,大语言模型对用户问题进行预处理,获得问题向量;系统根据所述问题向量,在原始数据库中搜索最相近的知识点作为原始答案;系统将获得的原始答案经过大语言模型的二次处理,生成与用户问题对应的漏洞知识,并反馈给用户。本发明方案适用于各个安全运营平台或者漏洞知识库平台。
Description
技术领域
本发明涉及信息安全领域,具体涉及一种基于大语言模型的漏洞知识库构建方法及交互方法。
背景技术
通用漏洞知识库一般包含各类漏洞的描述、分类、修补建议等信息,以帮助用户了解和处理各种安全风险。通常,漏洞知识库的来源包括安全研究人员、厂商、开源社区等。漏洞知识库将这些信息进行整理归纳和分类存储,供用户查询和使用。
在使用漏洞知识库时,用户可以通过查询关键词或漏洞编号等方式获取相关信息。传统的漏洞知识库一般是对漏洞信息和处置建议的固定展示,没有办法和用户交互。更不能理解用户不同形式的问题,并给出与之匹配的答案。
自从2022年11月30日OpenAI公司推出ChatGPT以来,大语言模型受到了学术界和业界的广泛关注,由于ChatGPT在语言理解和知识问答方面的优异表现,大语言模型被认为具备记忆和应用世界知识(worldknowledge)的能力。但是大语言模型的知识获取过程是一个黑盒方式,容易受到训练语料质量的影响,即便是通过人类反馈技术和知识技术提升质量,由于大模型的黑盒属性,其知识反馈也可能存在错误。
发明内容
本发明所要解决的技术问题是:提出一种基于大语言模型的漏洞知识库构建方法及交互方法,解决传统漏洞知识库知识形态固定,用户交互不友好的问题。
本发明解决上述技术问题采用的技术方案是:
一方面,本发明提供了一种基于大语言模型的漏洞知识库构建方法,包括:
收集漏洞知识,通过大语言模型对收集到的漏洞知识进行处理,通过文本嵌入获得文本向量,并以向量形式存储在本地作为原始数据库使用。
进一步的,所述漏洞知识的来源包括:网络、本地文本文件或者数据库。
进一步的,所述通过大语言模型对收集到的漏洞知识进行处理,通过文本嵌入获得文本向量,包括:
首先将收集的漏洞知识转化为txt文本,然后通过对txt文本进行分割,将漏洞知识拆分为若干独立的知识点,获得对应的文本块,每个文本块中的知识点作为问答的最小记录,与问题进行匹配,接着,通过调用大语言模型的文本向量表示功能接口,将文本块转化为向量形式。
进一步的,还包括:在对文本向量进行存储时,还存储原始知识点。
另一方面,本发明还提供了一种基于大语言模型的漏洞知识库交互方法,应用于包括大语言模型和如上所述的原始数据库的问答系统中,该方法包括以下步骤:
当问答系统接收到用户问题时,大语言模型对用户问题进行预处理,获得问题向量;
系统根据所述问题向量,在原始数据库中搜索最相近的知识点作为原始答案;
系统将获得的原始答案经过大语言模型的二次处理,生成与用户问题对应的漏洞知识,并反馈给用户。
进一步的,所述用户问题为通过自然语言问答的方式向问答系统输入的问题。
进一步的,所述大语言模型对用户问题进行预处理包括:大语言模型利用自然语言处理能力,对用户问题进行纠错和提取关键点处理。
进一步的,所述大语言模型的二次处理为根据历史会话信息对原始答案的分析推理。
本发明的有益效果是:
本发明将本地的漏洞知识库通过大语言模型进行处理,并作为答案的基础数据源,保证了答案的精准和可靠;同时,使用大语言模型作为用户和漏洞知识库之间的桥梁,对用户的问题进行预处理,实现对用户请求的准确“理解”,在获得原始答案后,利用大语言模型对原始答案进行二次加工,从而输出更为准确的漏洞处置建议。基于上述,本发明能够解决传统漏洞知识库知识形态固定,用户交互不友好的问题。本发明方案适用于各个安全运营平台或者漏洞知识库平台。
附图说明
图1为本发明实施例中的基于大语言模型的漏洞知识库交互流程图;
图2为漏洞知识入库的流程图。
具体实施方式
本发明旨在提出一种基于大语言模型的漏洞知识库构建方法及交互方法,解决传统漏洞知识库知识形态固定,用户交互不友好的问题。本发明方案将传统的漏洞知识库搜索与大语言模型进行结合,将漏洞知识库内容进行分析提供给模型,利用大模型对消息中蕴含的知识进行分析。同时使用大语言模型作为用户和问答系统的沟通介质,发挥其强大的自然语言处理能力,对用于请求进行纠错、提取关键点等预处理实现“理解”,对输出结果在保证正确的基础上二次加工,从而输出更为准确的漏洞处置建议。
实施例:
本实施例中,首先需要进行漏洞知识入库,参见图2,其主要包括:收集漏洞知识,通过大语言模型对收集到的漏洞知识进行处理,通过文本嵌入获得文本向量,并以向量形式存储在本地作为原始数据库使用。
具体而言,可以通过网络、本地文本文件或者数据库等搜集尽可能多的漏洞知识,然后将其转换为便于处理的txt文本,接着,对txt文本进行分割,将漏洞知识拆分为若干独立的知识点,获得对应的文本块,每个知识点会作为问答的最小记录,与问题进行匹配。然后,通过调用大语言模型的文本向量表示功能接口,将文本转化为向量形式,最后进行数据存储。这里存储不仅仅包括文本向量的存储,还包括原始知识点的存储。并且都以kv(键值对)形式存储,便于后续快速匹配搜索。
通过该手段,将搜集的漏洞知识通过大语言模型进行处理,并作为答案的基础数据源,保证了答案的精准和可靠。
基于上述获得的原始数据库,便可以搭建问答系统,在问答系统中,使用大语言模型(LLM)作为用户和问答系统的沟通介质,如图1所示,其包括以下实施过程:
用户通过自然语言问答的方式向问答系统输入问题;
大语言模型利用自然语言处理能力,对用户问题进行纠错和提取关键点处理,从而获得问题向量;
系统根据所述问题向量,在原始数据库中搜索最相近的知识点作为原始答案;
系统将获得的原始答案经过大语言模型的二次处理,如根据历史会话信息对原始答案的分析推理,从而进行原始答案的“精加工”,生成与用户问题对应的漏洞知识并反馈给用户。
通过该手段,本发明实现了更加友好的交互方式,用户能够获得准确的答案。
需要说明的是,上述方案中,大语言模型的预处理和对答案的二次处理的具体实施均属于现有技术,本领域技术人员易于实现,故不再具体赘述。
最后应当说明的是,上述实施例仅是优选实施方式,并不用以限制本发明。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可以做出若干修改,等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于大语言模型的漏洞知识库构建方法,其特征在于,包括:
收集漏洞知识,通过大语言模型对收集到的漏洞知识进行处理,通过文本嵌入获得文本向量,并以向量形式存储在本地作为原始数据库使用。
2.如权利要求1所述的一种基于大语言模型的漏洞知识库构建方法,其特征在于,
所述漏洞知识的来源包括:网络、本地文本文件或者数据库。
3.如权利要求1所述的一种基于大语言模型的漏洞知识库构建方法,其特征在于,
所述通过大语言模型对收集到的漏洞知识进行处理,通过文本嵌入获得文本向量,包括:
首先将收集的漏洞知识转化为txt文本,然后通过对txt文本进行分割,将漏洞知识拆分为若干独立的知识点,获得对应的文本块,每个文本块中的知识点作为问答的最小记录,与问题进行匹配,接着,通过调用大语言模型的文本向量表示功能接口,将文本块转化为向量形式。
4.如权利要求1-3任意一项所述的一种基于大语言模型的漏洞知识库构建方法,其特征在于,还包括:在对文本向量进行存储时,还存储原始知识点。
5.一种基于大语言模型的漏洞知识库交互方法,应用于包括大语言模型和采用如权利要求1-4任意一项所述的基于大语言模型的漏洞知识库构建方法构建的原始数据库的问答系统中,其特征在于,该方法包括以下步骤:
当问答系统接收到用户问题时,大语言模型对用户问题进行预处理,获得问题向量;
系统根据所述问题向量,在原始数据库中搜索最相近的知识点作为原始答案;
系统将获得的原始答案经过大语言模型的二次处理,生成与用户问题对应的漏洞知识,并反馈给用户。
6.如权利要求5所述的一种基于大语言模型的漏洞知识库交互方法,其特征在于,
所述用户问题为通过自然语言问答的方式向问答系统输入的问题。
7.如权利要求5所述的一种基于大语言模型的漏洞知识库交互方法,其特征在于,所述大语言模型对用户问题进行预处理包括:大语言模型利用自然语言处理能力,对用户问题进行纠错和提取关键点处理。
8.如权利要求5-7任意一项所述的一种基于大语言模型的漏洞知识库交互方法,其特征在于,所述大语言模型的二次处理为根据历史会话信息对原始答案的分析推理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311700120.8A CN117575012A (zh) | 2023-12-12 | 2023-12-12 | 一种基于大语言模型的漏洞知识库构建方法及交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311700120.8A CN117575012A (zh) | 2023-12-12 | 2023-12-12 | 一种基于大语言模型的漏洞知识库构建方法及交互方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117575012A true CN117575012A (zh) | 2024-02-20 |
Family
ID=89893854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311700120.8A Pending CN117575012A (zh) | 2023-12-12 | 2023-12-12 | 一种基于大语言模型的漏洞知识库构建方法及交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117575012A (zh) |
-
2023
- 2023-12-12 CN CN202311700120.8A patent/CN117575012A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162611B (zh) | 一种智能客服应答方法及系统 | |
CN111026842A (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
CA2413455C (en) | Systems and methods for translating languages | |
CN111400453B (zh) | 一种基于法律咨询的智能交互系统及方法 | |
CN115470338B (zh) | 一种基于多路召回的多场景智能问答方法和系统 | |
CN110674276B (zh) | 机器人自学习方法、机器人终端、装置及可读存储介质 | |
CN117932018A (zh) | 一种基于大模型的文档智能问答方法 | |
CN111523328B (zh) | 一种智能客服语义处理方法 | |
JP6550628B1 (ja) | 対話管理サーバ、対話管理方法、及びプログラム | |
CN117828057A (zh) | 知识问答方法、装置、设备和存储介质 | |
CN117556057A (zh) | 知识问答方法、向量数据库构建方法及装置 | |
CN117932009A (zh) | 基于ChatGLM模型的保险客服对话生成方法、装置、设备及介质 | |
CN111401038B (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN114625759B (zh) | 模型训练方法、智能问答方法、设备、介质及程序产品 | |
CN114417880B (zh) | 一种基于电网实训问答知识库的交互式智能问答方法 | |
CN117575012A (zh) | 一种基于大语言模型的漏洞知识库构建方法及交互方法 | |
CN113254612A (zh) | 知识问答处理方法、装置、设备及存储介质 | |
CN112685434A (zh) | 一种基于知识图谱的运维问答方法 | |
CN118093843B (zh) | 基于知识库的问答处理系统 | |
CN113672711B (zh) | 一种服务型机器人意图识别装置及其训练、识别方法 | |
CN113064887B (zh) | 数据管理方法、装置、设备及存储介质 | |
CN117891927B (zh) | 基于大语言模型的问答方法、装置、电子设备及存储介质 | |
CN117453895B (zh) | 一种智能客服应答方法、装置、设备及可读存储介质 | |
CN117119106B (zh) | 一种多功能智控坐席协作系统 | |
JP7012811B1 (ja) | 検索装置、検索方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |