CN113609261B - 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置 - Google Patents
基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置 Download PDFInfo
- Publication number
- CN113609261B CN113609261B CN202110980475.1A CN202110980475A CN113609261B CN 113609261 B CN113609261 B CN 113609261B CN 202110980475 A CN202110980475 A CN 202110980475A CN 113609261 B CN113609261 B CN 113609261B
- Authority
- CN
- China
- Prior art keywords
- vulnerability
- information
- knowledge graph
- network security
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000005065 mining Methods 0.000 title claims abstract description 25
- 238000003058 natural language processing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 25
- 230000006399 behavior Effects 0.000 claims description 22
- 238000013145 classification model Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 238000013499 data model Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 9
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 239000010410 layer Substances 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 230000010485 coping Effects 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置,方法包括:获取用户输入的漏洞查询信息,将漏洞查询信息与历史漏洞查询信息进行匹配,判断漏洞查询信息与多条历史漏洞查询信息的相似度是否大于预设阈值;若相似度大于预设阈值,输出对应历史漏洞查询信息的漏洞查询结果;若相似度不大于预设阈值,对漏洞查询信息进行自然语言处理,提取漏洞查询信息中表述主体和关系的关键词;根据表述主体和关系的关键词从知识图谱中搜索对应主体和关系的行为路径;根据行为路径建立数据表之间的联合关系,进而确定对应的数据表;根据确定的数据表进行分析,输出漏洞查询结果。以此方式,能够方便快速的对深度的逻辑关系进行查询。
Description
技术领域
本公开的实施例一般涉及互联网技术领域,并且更具体地,涉及基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置。
背景技术
在传统数据库搜索过程中,可以通过关键字的筛选进行搜索,能够对指定的表或视图进行有规律的比较查询以获得预定格式的数据。这种查询方式可以解决常见简单数据查询问题,能够通过表的关联方式进行一些固定的联合查询,比如知道漏洞信息查询所属于软件或软件所在的公司等。但是这种传统的方式难以对深度的逻辑关系进行查询。比如想知道“攻击者一般会利用哪些微软产品的漏洞进行攻击时”,即便这些数据在数据库中都已经存在,但是由于没有这个的视图(即表的联立关系),就需要开发人员对这个需求进行分析,然后编写相应的查询才能实现这个功能要求。这个过程不仅是耗时的,而且由于一些问题的复杂性,可能导致最终的结果达不到预期的需求。所以,传统的方式不仅需要人工大量参与,而且很多问题点难以发现,尤其是有一定深度或内在联系的关系难以找出,特别依赖于分析人员的技能水平。
发明内容
根据本公开的实施例,提供了一种能够方便快速的对深度的逻辑关系进行查询的基于网络信息安全的知识图谱的漏洞信息挖掘方案。
在本公开的第一方面,提供了一种基于网络信息安全的知识图谱的漏洞信息挖掘方法,包括:
获取用户输入的漏洞查询信息,将所述漏洞查询信息与历史漏洞查询信息进行匹配,判断所述漏洞查询信息与多条历史漏洞查询信息的相似度是否大于预设阈值;
若所述相似度大于预设阈值,输出对应历史漏洞查询信息的漏洞查询结果;
若所述相似度不大于预设阈值,对漏洞查询信息进行自然语言处理,提取所述漏洞查询信息中表述主体和关系的关键词;
根据所述表述主体和关系的关键词从知识图谱中搜索对应主体和关系的行为路径;
根据所述行为路径建立数据表之间的联合关系,进而确定对应的数据表;
根据确定的数据表进行分析,输出漏洞查询结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述知识图谱是通过以下步骤建立的:
获取原始网络安全数据,所述网络安全数据为描述网络信息安全的初始信息;
利用网络安全数据模型对所述原始网络安全数据进行处理,生成实体关系组,所述实体关系组包括从所述原始网络安全数据中提取出网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系;
对所述实体关系组进行融合,生成网络信息安全的知识图谱。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
根据生成的网络信息安全的知识图谱构建知识图谱数据库;
根据所述知识图谱数据库分别建立漏洞本体模型库、漏洞分类模型库和漏洞补丁模型库;
根据所述漏洞本体模型库训练漏洞本体模型,根据所述漏洞分类模型库训练漏洞分类模型,根据漏洞补丁模型库训练漏洞补丁模型;
根据所述漏洞本体模型对新漏洞的本体进行识别,根据所述漏洞分类模型对新漏洞进行分类,根据所述漏洞补丁模型对新漏洞补丁进行提取,并利用所述知识图谱数据库验证新漏洞补丁的有效性;
根据识别后的漏洞本体、漏洞分类和提取的新漏洞补丁对知识图谱数据库中的知识图谱进行更新。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,输出的漏洞查询结果包括攻击方法、威胁主体、受攻击资产、漏洞、攻击常用恶意软件、失陷指标和应对方案;
所述方法还包括:
对威胁和漏洞进行检测、响应、防御和预测
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述网络安全数据模型通过以下方式训练得到:
以原始网络安全数据作为训练样本,标注出所述训练样本的网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系;
然后将所述训练样本输入到预先建立的神经网络模型,对所述训练样本进行学习,输出训练样本中的网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系,当输出结果与标识结果的相似度大于预设阈值时,对神经网络的模型的参数进行修正;
重复上述过程,直到当输出结果与标识结果的相似度小于所述预设阈值。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,还包括:
对所述实体关系组进行聚类分析,将同一聚类中具有不同描述信息的实体关系组进行合并,将不同聚类中具有相同描述信息的实体关系组区分为不同的实体关系组。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据所述表述主体和关系的关键词从知识图谱中搜索对应主体和关系的行为路径,包括:
根据所述表述主体和关系的关键词确定对应的实体关系组,根据所述实体关系组从知识图谱中搜索对应主体和关系的行为路径。
在本公开的第二方面,提供了一种基于网络信息安全的知识图谱的漏洞信息挖掘装置,包括:
信息获取模块,用于获取用户输入的漏洞查询信息;
关键词提取模块,用于对所述漏洞查询信息进行自然语言处理,提取所述漏洞查询信息中表述主体和关系的关键词;
行为路径搜索模块,用于根据所述表述主体和关系的关键词从知识图谱中搜索对应主体和关系的行为路径;
数据表确定模块,用于根据所述行为路径建立数据表之间的联合关系,进而确定对应的数据表;
输出模块,用于根据确定的数据表进行分析,输出漏洞查询结果。
在本公开的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
通过本公开的基于网络信息安全的知识图谱的漏洞信息挖掘方法,能够方便快速的对网络信息安全的深度逻辑关系进行查询,降低人工的需求量和对分析人员的技能专业水平要求,提高了适用性。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了本公开实施例一的基于网络信息安全的知识图谱的漏洞信息挖掘方法的流程图;
图2示出了本公开实施例二的网络信息安全的知识图谱的生成方法的流程图;
图3示出了本公开实施例三的基于网络信息安全的知识图谱的漏洞信息挖掘装置的功能结构示意图;
图4示出了本公开实施例四的基于网络信息安全的知识图谱的漏洞信息挖掘设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本公开实施例的基于网络信息安全的知识图谱的漏洞信息挖掘方法,通过利用基于网络信息安全数据生成的知识图谱进行漏洞信息挖掘,能够方便快速的对网络信息安全的深度逻辑关系进行查询,降低人工的需求量和对分析人员的技能专业水平要求,提高了适用性。
具体地,如图1所示,为基于网络信息安全的知识图谱的漏洞信息挖掘方法的流程图。从图1中可以看出,本实施例的方法,可以包括以下步骤:
S101:获取用户输入的漏洞查询信息,将所述漏洞查询信息与历史漏洞查询信息进行匹配,判断所述漏洞查询信息与多条历史漏洞查询信息的相似度是否大于预设阈值。
本实施例的基于网络信息安全的知识图谱的漏洞信息挖掘方法,可以用于对网络信息安全的深度逻辑关系进行查询,并且,在对网络信息安全的深度逻辑关系进行查询时,是基于网络信息安全的知识图谱,而该知识图谱是基于网络信息安全的数据库生成的,关于知识图谱的具体生成过程见后续实施例,本实施例不做具体说明,本实施针对如何利用知识图谱进行深度逻辑关系查询的方法进行说明。
当用户先输入漏洞查询信息,例如“攻击者一般会利用哪些微软产品的漏洞进行攻击”时,即便这些数据在数据库中都已经存在,但是由于没有这个的视图(即表的联立关系),就需要开发人员对这个需求进行分析,然后编写相应的查询才能实现这个功能要求。这个过程不仅是耗时的,而且由于一些问题的复杂性,可能导致最终的结果达不到预期的需求。在本实施例中,当用户需要查询深度逻辑关系时,可以利用本实施例的方法进行查询。具体地,先获取用户输入的漏洞查询信息,将所述漏洞查询信息与历史漏洞查询信息进行匹配,判断所述漏洞查询信息与多条历史漏洞查询信息的相似度是否大于预设阈值。由于利用知识图谱查询信息耗费的时间较长,对于当前用户输入的漏洞查询信息,首先将将所述漏洞查询信息与历史漏洞查询信息进行匹配,判断所述漏洞查询信息与多条历史漏洞查询信息的相似度是否大于预设阈值。
S102:若所述相似度大于预设阈值,输出对应历史漏洞查询信息的漏洞查询结果。
对于与历史漏洞查询信息的相似度大于预设阈值的当前的漏洞查询信息(即获取的用户输入的漏洞查询信息),由于查询结果与对应的历史漏洞查询信息相同,并且查询过程还会浪费大量的时间,因此,可以将与当前的漏洞查询信息的相似度大于预设阈值的历史漏洞查询信息对应的查询结果作为当前的漏洞查询信息的漏洞查询结果。
S103:若所述相似度不大于预设阈值,对所述漏洞查询信息进行自然语言处理,提取所述漏洞查询信息中表述主体和关系的关键词。
只有历史漏洞查询信息中不存在与当前的漏洞查询信息的相似度大于预设阈值的历史漏洞查询信息,则对获取的所述漏洞查询信息进行自然语言处理,将所述漏洞查询信息转化为知识图谱能够识别的格式。具体地,先对所述漏洞查询信息进行切词,将所述漏洞查询信息切分为多个词组,然后对切分后的词组进行筛选,提取出词组中的实词,然后将提取出来的实词与预先建立的能够被知识图谱识别的实词表进行匹配,确定能够被知识图谱识别的词组,即上述漏洞中表述主体和关系的关键词。以“攻击者一般会利用哪些微软产品的漏洞进行攻击”,则切词后为“攻击者/一般/会/利用/哪些/微软产品/的/漏洞/进行/攻击”,则提取出来的关键词为“攻击者”、“微软产品”、“漏洞”和“攻击”,其中,“攻击者”、“微软产品”和“漏洞”为主体,“攻击”为关系。
S104:根据所述表述主体和关系的关键词从知识图谱中搜索对应主体和关系的行为路径。
在本实施例中,当提取出所述漏洞查询信息中表述主体和关系的关键词后,根据所述表述主体和关系的关键词从知识图谱中搜索对应主体和关系的行为路径。
S105:根据所述行为路径建立数据表之间的联合关系,进而确定对应的数据表。
在知识图谱中根据上述的主题和关系进行搜索,找到“攻击者”、“微软产品”和“漏洞”的数据表,以及“攻击者”、“微软产品”和“漏洞”之间的关联关系的数据表。
S106:根据确定的数据表进行分析,输出漏洞查询结果。
对搜索到的数据表进行汇总分析,得到分析后的数据,包括“攻击者”和“微软产品”之间的关系,“微软产品”和“漏洞”之间的关系,“攻击者”和“漏洞”之间的关系,以及,“攻击者”、“微软产品”和“漏洞”三者之间的关联关系,然后根据实际需要或者搜索侧重选取相应的分析结果。例如,对于“攻击者一般会利用哪些微软产品的漏洞进行攻击”的漏洞查询信息,则选取包括“微软产品”和“漏洞”之间的关系,以及“攻击者”、“微软产品”和“漏洞”三者之间的关联关系作为查询结果,并输出。
本申请实施例的基于网络信息安全的知识图谱的漏洞信息挖掘方法,能够方便快速的对网络信息安全的深度逻辑关系进行查询,降低人工的需求量和对分析人员的技能专业水平要求,提高了适用性。
作为本公开的一个可选实施例,在上述实施例中,输出的漏洞查询结果包括攻击方法、威胁主体、受攻击资产、漏洞、攻击常用恶意软件、失陷指标和应对方案,上述方法还包括:对威胁和漏洞进行检测、响应、防御和预测。具体地,例如可以利用知识图谱,对IT资产进行清点,明确IT资产漏洞情况,并对关联的威胁主体、攻击方法、恶意软件进行有针对性的防御。对全网进行安全事件和流量进行监测,基于知识图谱中实体组合的方式进行关联分析,发现潜在的威胁和风险。当确认安全威胁和风险时,结合知识图谱数据库中的应对措施COA,关联IT基础设施、恶意软件、攻击方法、漏洞等内容,采取有效的应急响应手段,快速进行威胁处置。对知识图谱中各种实体元素进行关联分析,可推理出威胁主体下一步采取的攻击方法以及利用的恶意软件和漏洞,可有效进行攻击预测,且该预测具有一定的可解释性。
漏洞知识图谱的建立具体的方式是在数据库表层之上建立一套数据的关系模型,即基于现在的数据库的模型。通过这个模型,可以利用图论的知识进行节点和关系的搜索,最终确认数据查询的方试。在这个模型中,所有的数据都是由数据库提供,在数据库之上建立了一层关系映射层,用于将数据库的多张表映射至知识图谱中。通过关系映射层,可以将数据库抽象成知识图谱,从而能够在知识图谱层中进行相应的数据挖掘操作。
如图2所示,为本公开实施例二的网络信息安全的知识图谱的生成方法的流程图。本实施的方法,可以包括以下步骤:
S201:获取原始网络安全数据,所述网络安全数据为描述网络信息安全的初始信息。
在本实施例中,在对自然语言描述的安全信息进行处理时,首先需要获取原始网络安全数据,所述网络安全数据为描述网络信息安全的初始信息。所获取的数据可以是数据库中的信息,包括CVE(Common Vulnerabilities&Exposures,公共漏洞与暴露)中的漏洞描述信息和/或互联网上收集到的网络安全相关信息,漏洞发布平台所发布的漏洞信息、相关媒体发布的关于漏洞的新闻以及突发安全事件的细节描述以及技术人员在网上发布的博文等信息,这些信息通常都与网络安全相关,因此,可以将这些信息作为网络安全相关的原始网络安全数据。
S202:利用网络安全数据模型对所述原始网络安全数据进行处理,生成实体关系组,所述实体关系组包括从所述原始网络安全数据中提取出网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系。
在实际应用中,由于信息的不确定性和自然语言描述的不准确性,在信息安全领域的信息,难得自动化进行处理。例如,“拒绝服务攻击”这一信息,在不同场景下的描述可能不同,可以描述为“服务攻击被拒绝”,也可以描述为“把服务攻击拒绝”,还可以描述为“在遭受到服务攻击后,拒绝”等,此外还可以有其他不规范的描述,这里不再一一列举。同时,由于可能是从不同的数据来源处收集到网络安全相关的数据,则在所收集的网络安全相关的数据中,通常会存在相同含义的网络安全信息具有不同的描述。因此,可以通过归一化处理对网络安全相关的收集数据进行整合,从中提取出用于构建网络安全知识图谱的初始信息,其中,该初始信息可以包含网络安全信息中的实体以及实体之间的关系。
比如,在一些博文中,针对于“拒绝服务攻击”的描述可能为“拒绝服务攻击即是攻击者想办法让目标机器停止提供服务”;而在一些媒体发布的关于漏洞的新闻中,针对于“拒绝服务攻击”描述可能为“使得目标机器无法提供正常的服务”,可见,在博文中所采集的针对于“拒绝提供服务”的描述,与在新闻中所采集的针对于“拒绝提供服务”的描述存在差异,但都是表达了相同的含义。因此,可以将这两种描述进行整合为其中一种描述,为“拒绝服务攻击即是攻击者想办法让目标机器停止提供服务”。
又比如,语言种类的差异,使得中文描述“拒绝服务攻击”与英文描述“Denial ofService”具有相同的含义;而且,基于命名方式的差异,语言种类相同的英文描述“Denialof Service”与英文描述,也具有相同的含义。因此,“拒绝服务攻击”、“Denial ofService”以及“DoS”虽然描述不同,但是三者均具有相同的含义,则,可以将这三种描述整合为其中一种描述,如“Denial of Service”等。当然,致使不同描述具有相同的含义原因存在多种,比如可能是学科、认知、个人习惯的差异等,在此不作过多赘述。
为了解决这个问题,本方案利用自然语言处理技术,对自然语言描述的安全信息进行处理,自动化地提取出有价值的威胁情报以进行描述和信息交换。
具体地,可以利用网络安全数据模型对所述原始网络安全数据进行处理。本实施例的网络安全数据模型是一个预先训练好的神经网络模型,该模型通过以下方式训练得到:
以大量原始网络安全数据作为训练样本,标识出所述训练样本的网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系;
然后将所述训练样本输入到预先建立的神经网络模型,对所述训练样本进行学习,输出训练样本中的网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系,当输出结果与标识结果的相似度大于预设阈值时,对神经网络的模型的参数进行修正;
重复上述过程,直到当输出结果与标识结果的相似度小于所述预设阈值。
通过网络安全数据模型对所述原始网络安全数据进行处理,提取出原始网络安全数据生成实体关系组,所述实体关系组包括从所述原始网络安全数据中提取出网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系。
以“面向生产环境的情报威胁处理工具包”为例,首先需要切词,将整个句子切分为多个词组,然后提取每个词组的词性,最后在提取词组之间的关系。上面的句子可以切词为“面向/生产环境/的/情报/威胁/处理/工具包”,“面向”是动词,“生产环境”是名词,“的”是连词,“情报”是名词,“威胁”是动词,“处理”是动词,“工具包”是名词,“面向”和“生产环境”之间是动宾关系,“面向”和“的”之间是右附加关系,“面向”和“情报”之间是定中关系,“情报”和“威胁”之间是主谓关系,“威胁”和“处理”是动宾关系,“处理”和“工具包”是动宾关系。则网络安全实体即为切词后的各词组,网络安全实体的属性即为各词组的词性,网络安全实体间的关联关系即为词组间的逻辑关系。
S203:对所述实体关系组进行融合,生成网络信息安全的知识图谱。
在利用网络安全数据模型对所述原始网络安全数据进行处理,生成实体关系组后,进而将生成的实体关系组进行融合,生成网络信息安全的知识图谱。
作为本公开的一个可选实施例,在上述实施例中,所述数据库中的网络安全数据包括结构化数据、半结构化数据和非结构化数据。例如,语序错误或者语句中带有标点符合,则一般认为是半结构化数据,而对于乱码以及不规范用于则认为是非结构化数据,而对于不存在上述表述问题的语句则认为是结构化数据,因此,利用网络安全数据模型对所述原始网络安全数据进行处理时,只需要对所述原始网络安全数据中的半结构化数据和非结构化数据进行处理。因此,在利用网络安全数据模型对所述原始网络安全数据进行处理之前,还应当对所述原始网络安全数据进行结构化识别,将所述原始网络安全数据划分为结构化数据、半结构化数据和非结构化数据。对所述原始网络安全数据进行结构化识别,也可以利用神经网络模型实现。
此外,作为本公开的一个实施例,在上述实施例的基础上,还可以包括:
对所述实体关系组进行聚类分析,将同一聚类中具有不同描述信息的实体关系组进行合并,将不同聚类中具有相同描述信息的实体关系组区分为不同的实体关系组。
本申请实施例的基于网络信息安全的知识图谱的漏洞信息挖掘方法,能够方便快速的对网络信息安全的深度逻辑关系进行查询,降低人工的需求量和对分析人员的技能专业水平要求,提高了适用性。
作为本公开的一个具体实施例,上述实施例中的根据所述表述主体和关系的关键词从知识图谱中搜索对应主体和关系的行为路径,包括:
根据所述表述主体和关系的关键词确定对应的实体关系组,根据所述实体关系组从知识图谱中搜索对应主体和关系的行为路径。
此外,作为本公开的一个可选实施例,在上述实施例中,还可以根据生成的网络信息安全的知识图谱构建知识图谱数据库,该知识图谱数据库中包括多个按照上述实施例的方法生成的网络信息安全的知识图谱。在构建知识图谱数据库后,可以根据知识图谱数据库进一步建立漏洞本体模型库、漏洞分类模型库和漏洞补丁模型库。
例如,可以将主体包括漏洞本体的知识图谱划分为漏洞本体模型库中的知识图谱,并对漏洞本体模型库中的知识图谱中的漏洞本体进行标注,按照预设比例选取漏洞本体模型库中标注后的知识图谱,作为神经网络模型的训练样本,训练漏洞本体模型,并利用训练完成的漏洞本体模型对新生成的知识图谱中的漏洞本体进行识别。同理,可以将主体包括漏洞类别的知识图谱划分为漏洞分类模型库中的知识图谱,可以将主体包括漏洞补丁的知识图谱划分为漏洞补丁模型库中的知识图谱,并分别训练漏洞分类模型和漏洞补丁模型,然后根据漏洞分类模型对新漏洞进行分类,根据所述漏洞补丁模型对新漏洞补丁进行提取,并利用所述知识图谱数据库验证新漏洞补丁的有效性验证。然后利用识别后的漏洞本体、漏洞分类和提取的新漏洞补丁对知识图谱数据库中的知识图谱进行更新,从而提高知识图谱数据库的实时性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本公开所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本公开所述方案进行进一步说明。
如图3所示,为本公开实施例三的基于网络信息安全的知识图谱的漏洞信息挖掘装置的功能结构示意图,本实施例的基于网络信息安全的知识图谱的漏洞信息挖掘装置,包括:
信息获取模块301,用于获取用户输入的漏洞查询信息;
关键词提取模块302,用于对所述漏洞查询信息进行自然语言处理,提取所述漏洞查询信息中表述主体和关系的关键词;
行为路径搜索模块303,用于根据所述表述主体和关系的关键词从知识图谱中搜索对应主体和关系的行为路径;
数据表确定模块304,用于根据所述行为路径建立数据表之间的联合关系,进而确定对应的数据表;
输出模块305,用于根据确定的数据表进行分析,输出漏洞查询结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图4示出了本公开实施例四的基于网络信息安全的知识图谱的漏洞信息挖掘设备的结构示意图。图4示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统包括中央处理单元(CPU)401,其可以基于存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM403中,还存储有系统操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也基于需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,基于需要安装在驱动器410上,以便于从其上读出的计算机程序基于需要被安装入存储部分408。
特别地,基于本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的方法中限定的上述功能。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (8)
1.基于网络信息安全的知识图谱的漏洞信息挖掘方法,其特征在于,包括:
获取用户输入的漏洞查询信息,将所述漏洞查询信息与历史漏洞查询信息进行匹配,判断所述漏洞查询信息与多条历史漏洞查询信息的相似度是否大于预设阈值;
若所述相似度大于预设阈值,输出对应历史漏洞查询信息的漏洞查询结果;
若所述相似度不大于预设阈值,对漏洞查询信息进行自然语言处理,提取所述漏洞查询信息中表述主体和关系的关键词;
根据所述表述主体和关系的关键词从知识图谱中搜索对应主体和关系的行为路径;
根据所述行为路径建立数据表之间的联合关系,进而确定对应的数据表;
根据确定的数据表进行分析,输出漏洞查询结果,其中,所述知识图谱是通过以下步骤建立的:
获取原始网络安全数据,所述原始网络安全数据为描述网络信息安全的初始信息;利用网络安全数据模型对所述原始网络安全数据进行处理,生成实体关系组,所述实体关系组包括从所述原始网络安全数据中提取出网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系;对所述实体关系组进行融合,生成网络信息安全的知识图谱;根据生成的网络信息安全的知识图谱构建知识图谱数据库;根据所述知识图谱数据库分别建立漏洞本体模型库、漏洞分类模型库和漏洞补丁模型库;根据所述漏洞本体模型库训练漏洞本体模型,根据所述漏洞分类模型库训练漏洞分类模型,根据漏洞补丁模型库训练漏洞补丁模型;根据所述漏洞本体模型对新漏洞的本体进行识别,根据所述漏洞分类模型对新漏洞进行分类,根据所述漏洞补丁模型对新漏洞补丁进行提取,并利用所述知识图谱数据库验证新漏洞补丁的有效性;根据识别后的漏洞本体、漏洞分类和提取的新漏洞补丁对知识图谱数据库中的知识图谱进行更新。
2.根据权利要求1所述的基于网络信息安全的知识图谱的漏洞信息挖掘方法,其特征在于,输出的漏洞查询结果包括攻击方法、威胁主体、受攻击资产、漏洞、攻击常用恶意软件、失陷指标和应对方案;
所述方法还包括:
对威胁和漏洞进行检测、响应、防御和预测。
3.根据权利要求1所述的基于网络信息安全的知识图谱的漏洞信息挖掘方法,其特征在于,所述网络安全数据模型通过以下方式训练得到:
以原始网络安全数据作为训练样本,标注出所述训练样本的网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系;
然后将所述训练样本输入到预先建立的神经网络模型,对所述训练样本进行学习,输出训练样本中的网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系,当输出结果与标识结果的相似度大于预设阈值时,对神经网络的模型的参数进行修正;
重复上述过程,直到当输出结果与标识结果的相似度小于所述预设阈值。
4.根据权利要求3所述的基于网络信息安全的知识图谱的漏洞信息挖掘方法,其特征在于,还包括:
对所述实体关系组进行聚类分析,将同一聚类中具有不同描述信息的实体关系组进行合并,将不同聚类中具有相同描述信息的实体关系组区分为不同的实体关系组。
5.根据权利要求4所述的基于网络信息安全的知识图谱的漏洞信息挖掘方法,其特征在于,根据所述表述主体和关系的关键词从知识图谱中搜索对应主体和关系的行为路径,包括:
根据所述表述主体和关系的关键词确定对应的实体关系组,根据所述实体关系组从知识图谱中搜索对应主体和关系的行为路径。
6.一种基于网络信息安全的知识图谱的漏洞信息挖掘装置,其特征在于,包括:
信息获取模块,用于获取用户输入的漏洞查询信息;
关键词提取模块,用于对所述漏洞查询信息进行自然语言处理,提取所述漏洞查询信息中表述主体和关系的关键词;
行为路径搜索模块,用于根据所述表述主体和关系的关键词从知识图谱中搜索对应主体和关系的行为路径;
数据表确定模块,用于根据所述行为路径建立数据表之间的联合关系,进而确定对应的数据表;
输出模块,用于根据确定的数据表进行分析,输出漏洞查询结果,其中,所述知识图谱是通过以下步骤建立的:
获取原始网络安全数据,所述原始网络安全数据为描述网络信息安全的初始信息;利用网络安全数据模型对所述原始网络安全数据进行处理,生成实体关系组,所述实体关系组包括从所述原始网络安全数据中提取出网络安全实体、所述网络安全实体的属性以及所述网络安全实体间的关联关系;对所述实体关系组进行融合,生成网络信息安全的知识图谱;根据生成的网络信息安全的知识图谱构建知识图谱数据库;根据所述知识图谱数据库分别建立漏洞本体模型库、漏洞分类模型库和漏洞补丁模型库;根据所述漏洞本体模型库训练漏洞本体模型,根据所述漏洞分类模型库训练漏洞分类模型,根据漏洞补丁模型库训练漏洞补丁模型;根据所述漏洞本体模型对新漏洞的本体进行识别,根据所述漏洞分类模型对新漏洞进行分类,根据所述漏洞补丁模型对新漏洞补丁进行提取,并利用所述知识图谱数据库验证新漏洞补丁的有效性;根据识别后的漏洞本体、漏洞分类和提取的新漏洞补丁对知识图谱数据库中的知识图谱进行更新。
7.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~5中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110980475.1A CN113609261B (zh) | 2021-08-25 | 2021-08-25 | 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110980475.1A CN113609261B (zh) | 2021-08-25 | 2021-08-25 | 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113609261A CN113609261A (zh) | 2021-11-05 |
CN113609261B true CN113609261B (zh) | 2023-10-31 |
Family
ID=78309252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110980475.1A Active CN113609261B (zh) | 2021-08-25 | 2021-08-25 | 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609261B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114037270A (zh) * | 2021-11-08 | 2022-02-11 | 奇安信科技集团股份有限公司 | 一种工业控制安全评估系统及方法 |
CN114785574B (zh) * | 2022-04-07 | 2023-09-29 | 国网浙江省电力有限公司宁波供电公司 | 一种基于ai辅助的远程漏洞精确验证方法 |
CN114817929B (zh) * | 2022-04-19 | 2022-11-22 | 北京天防安全科技有限公司 | 物联网漏洞动态追踪和处理方法、装置、电子设备及介质 |
CN115098566B (zh) * | 2022-08-18 | 2022-12-02 | 创思(广州)电子科技有限公司 | 改进卷积神经网络模型的信息系统 |
CN116305171B (zh) * | 2023-05-19 | 2023-08-01 | 四维创智(北京)科技发展有限公司 | 一种组件漏洞分析方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442696A (zh) * | 2019-08-05 | 2019-11-12 | 北京百度网讯科技有限公司 | 查询处理方法及装置 |
CN110688456A (zh) * | 2019-09-25 | 2020-01-14 | 北京计算机技术及应用研究所 | 一种基于知识图谱的漏洞知识库构建方法 |
CN111698207A (zh) * | 2020-05-07 | 2020-09-22 | 北京华云安信息技术有限公司 | 网络信息安全的知识图谱的生成方法、设备和存储介质 |
CN113032790A (zh) * | 2021-03-30 | 2021-06-25 | 统信软件技术有限公司 | 一种安全漏洞处理方法、系统、计算设备及存储介质 |
-
2021
- 2021-08-25 CN CN202110980475.1A patent/CN113609261B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442696A (zh) * | 2019-08-05 | 2019-11-12 | 北京百度网讯科技有限公司 | 查询处理方法及装置 |
CN110688456A (zh) * | 2019-09-25 | 2020-01-14 | 北京计算机技术及应用研究所 | 一种基于知识图谱的漏洞知识库构建方法 |
CN111698207A (zh) * | 2020-05-07 | 2020-09-22 | 北京华云安信息技术有限公司 | 网络信息安全的知识图谱的生成方法、设备和存储介质 |
CN113032790A (zh) * | 2021-03-30 | 2021-06-25 | 统信软件技术有限公司 | 一种安全漏洞处理方法、系统、计算设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113609261A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113609261B (zh) | 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置 | |
US10783202B2 (en) | Analyzing concepts over time | |
US11544459B2 (en) | Method and apparatus for determining feature words and server | |
US9754021B2 (en) | Method for deducing entity relationships across corpora using cluster based dictionary vocabulary lexicon | |
US10831762B2 (en) | Extracting and denoising concept mentions using distributed representations of concepts | |
US20150310096A1 (en) | Comparing document contents using a constructed topic model | |
KR20200098378A (ko) | 설명 정보 확정 방법, 장치, 전자 기기 및 컴퓨터 저장 매체 | |
CN111291070B (zh) | 一种异常sql检测方法、设备及介质 | |
JP7153004B2 (ja) | コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体 | |
CN111698207B (zh) | 网络信息安全的知识图谱的生成方法、设备和存储介质 | |
Alami et al. | Cybercrime profiling: Text mining techniques to detect and predict criminal activities in microblog posts | |
US10417285B2 (en) | Corpus generation based upon document attributes | |
Zhang et al. | EX‐Action: Automatically Extracting Threat Actions from Cyber Threat Intelligence Report Based on Multimodal Learning | |
US9558462B2 (en) | Identifying and amalgamating conditional actions in business processes | |
CN113722719A (zh) | 针对安全拦截大数据分析的信息生成方法及人工智能系统 | |
CN116821903A (zh) | 检测规则确定及恶意二进制文件检测方法、设备及介质 | |
CN108021595A (zh) | 检验知识库三元组的方法及装置 | |
WO2020057023A1 (zh) | 自然语言的语义解析方法、装置、计算机设备和存储介质 | |
CN115051859A (zh) | 情报分析方法、情报分析装置、电子设备及介质 | |
US11379669B2 (en) | Identifying ambiguity in semantic resources | |
Jain et al. | A framework for adaptive deep reinforcement semantic parsing of unstructured data | |
CN115795058B (zh) | 一种威胁建模方法、系统、电子设备及存储介质 | |
CN115809466B (zh) | 基于stride模型的安全需求生成方法、装置、电子设备及介质 | |
CN116467722B (zh) | 安全漏洞描述的生成方法、装置、介质和电子设备 | |
Xiao et al. | ReviewLocator: Enhance User Review-Based Bug Localization with Bug Reports |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |