CN116976435A - 一种基于网络安全的知识图谱构建方法 - Google Patents
一种基于网络安全的知识图谱构建方法 Download PDFInfo
- Publication number
- CN116976435A CN116976435A CN202311235534.8A CN202311235534A CN116976435A CN 116976435 A CN116976435 A CN 116976435A CN 202311235534 A CN202311235534 A CN 202311235534A CN 116976435 A CN116976435 A CN 116976435A
- Authority
- CN
- China
- Prior art keywords
- data
- entity
- situation
- network security
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 59
- 238000005516 engineering process Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 19
- 230000003993 interaction Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 230000009193 crawling Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 10
- 238000003058 natural language processing Methods 0.000 claims description 9
- 235000014510 cooky Nutrition 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012790 confirmation Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 4
- 230000036541 health Effects 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000036760 body temperature Effects 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000007726 management method Methods 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数字处理技术领域,具体公开了一种基于网络安全的知识图谱构建方法,基于规则抽取三元知识采用实体抽取和实体关系抽取的方式,基于BERT语言模型抽取实体关系,BERT使用遮罩语言模型随机对未标注文本训练语料遮罩,引入下一句预测训练方式训练BERT模型,对每个包含两个实体的句子的实体之前插入特殊标记,获取实体的隐状态向量,使用自注意力以及态势分析对自注意力加权得分分析;本发明通过爬虫技术和图数据库实现数据的高效存储和获取,基于知识图谱检索的技术提高查询结果的准确度,引入态势分析对实体关系的重要性和可信度进行评估,结合态势分析的方法进行网络安全维护。
Description
技术领域
本发明涉及数字处理技术领域,更具体地说,本发明涉及一种基于网络安全的知识图谱构建方法。
背景技术
电子健康记录系统(简称EHR)是用于管理和存储用户电子健康信息的一种综合系统,是数字化的用户健康档案,包含了用户的个人信息、信息记录等相关信息,EHR系统将用户健康信息转化为数字化数据,便于保存、备份和共享,能够及时更新和查看用户的最新数据,增强了信息的准确性和时效性,用户也能够访问自己的电子健康信息,了解自己的健康状况,但是现有的EHR系统在实施和管理上面临着一些挑战,尽管已有的网络安全技术已经取得了良好的防护效果,但是面对海量的网络攻击和未知且层出不穷的漏洞、病毒以及恶意软件,传统的网络安全保护手段利用知识图谱技术无法充分抽取EHR系统中的知识,结合态势分析的方法进行网络安全维护,EHR系统网络环境存在极大的安全隐患,数据隐私的泄露会给用户带来不良影响。为了解决上述问题,现提供一种技术方案。
发明内容
为了克服现有技术的上述缺陷,本发明提供一种基于网络安全的知识图谱构建方法,通过爬虫技术和图数据库实现EHR系统网络安全领域语料和用户数据的高效存储和获取,基于知识图谱检索的技术通过自然语言体温的方式查询知识图谱,提高查询结果的准确度,同时知识抽取和知识问答能够使得EHR系统的查询更加智能和友好直观,引入态势分析对实体关系的重要性和可信度进行评估,进一步提高实体关系抽取的准确度和可信度,结合态势分析的方法进行网络安全维护,维护EHR系统网络环境数据隐私。
为实现上述目的,本发明提供如下技术方案:一种基于网络安全的知识图谱构建方法,包括如下步骤:
步骤S1,公共数据获取:利用爬虫技术采用增量爬取模式模拟浏览器发送请求,获取Cookie、URL、解析网站内容,获取网站ID、日期、危险等级、详细描述、时间和字符串转换方法,自动完成对目标网页模拟点击,使用Scrapy框架完成EHR系统领域语料获取;
步骤S2,EHR系统知识图谱存储:使用图数据库(Neo4j)技术存储EHR网络安全语料中的属性图,存储属性图中的节点和属性、边和属性信息;
步骤S3,EHR系统知识图谱检索:利用图数据库(Neo4j)的Cypher查询语句进行人机交互,创建查询节点、关系并更新数据,利用查询数据进行条件过滤,将查询结果返回并展示,并删除冗余数据;
步骤S4,EHR系统知识图谱知识抽取:利用检索引擎输入检索问句,并对问句进行分类和解析,基于规则抽取三元知识,依赖分析对特定类别问句进行解析,获取三元组查询知识并查询语句构建所需的知识识别和关系分类;
步骤S5,EHR系统知识问答:知识问答模块接收使用自然语言表达的问题,在已有知识的基础上形成自然语言答案返回给用户,对答案系统展示;
在步骤S4中,基于规则抽取三元知识采用实体抽取和实体关系抽取的方式,基于BERT语言模型抽取实体关系,BERT使用遮罩语言模型(MLM)随机对未标注文本的训练语料中15%的词汇遮罩,引入下一句预测(NSP)训练方式训练BERT模型,对每个包含两个实体的句子的实体之前插入特殊标记,获取实体的隐状态向量,使用自注意力评估实体每个字符在句子内部的注意力得分,进行归一化获取该字符的权重,获取自注意力加权得分,引入态势分析对自注意力加权得分以及抽取的实体及实体关系进行分析。
作为本发明进一步的方案,在步骤S4中,引入态势分析对自注意力得分和抽取的实体及实体关系进行分析的过程包括:
步骤A1,定义态势分析参量:在EHR系统知识图谱中,定义态势关系分值为实体之间的关联程度,关系分值为实体关系的自注意力加权得分,定义态势关系距离为实体之间在知识图谱中的欧几里得距离,定义态势时间戳为实体以及实体关系的更新时间,定义态势可信度为实体以及实体关系的可信程度,态势分析可信度计算方法采用基于信任网络的方法;
步骤A2,计算态势分析重要性得分:利用态势关系分值、态势关系距离、态势时间戳以及态势分析可信度构建用于计算态势重要性得分的态势分析数值分析模型,态势重要性得分公式为:
;
式中:为态势重要性得分,/>为态势关系分值,/>为态势关系距离,/>为态势时间戳,/>为态势可信度;
步骤A3,态势分析分类标签标记:对态势重要性得分进行标准化和归一化,获取标准态势重要性分值,利用离散标签对标准态势重要性分值进行标记和分类。
作为本发明进一步的方案,态势分析数值分析模型中,离散标签的标记方法如下:
当时,标准态势重要性分值的离散标签为低度安全态势;
当时,标准态势重要性分值的离散标签为中度安全态势;
当时,标准态势重要性分值的离散标签为高度安全态势。
作为本发明进一步的方案,在步骤S1中,为确保数据存储的安全性,在获取Cookie和登录网站时,采用数据加密技术保护用户的敏感信息,用户的敏感信息包括用户名、密码、病史数据,在进行数据爬取时,设置访问频率为105,只爬取公共网站中最新更新的内容到本地数据库,第一次启动爬虫模块全量爬取数据,后续利用爬虫技术定时检查更新进行爬取,每天设置于早上7:00启动爬虫任务,对于需要登录以及具有访问权限的网站,爬虫以及用户需要经过用户身份验证才能执行,对获取的网站内容利用机器学习分类模型进行数据质量和真实性验证,对数据进行审查和过滤,删除含有恶意信息、不符合要求以及不合法的数据,对于设计用户个人隐私的数据去除或替换个人身份信息。
作为本发明进一步的方案,在步骤S2中,EHR系统知识图谱存储的实现过程包括:
步骤C1,确定知识图谱的模型和实体关系:确定EHR系统中网络安全领域的实体为攻击类型、威胁等级、安全措施,并定义网络安全领域的实体属性,确定EHR系统中用户数据的实体为个人身份、信息记录,并定义用户数据实体的属性;
步骤C2,创建图数据库(Neo4j):安装和配置图数据库(Neo4j),创建两个新的数据库实例,分别用于存储EHR系统的网络安全语料和用户数据,分别配置这两个图数据库实例的连接参数,确保能够通过API以及驱动程序与数据库进行数据和信息交互;
步骤C3,创建节点和添加属性:在图数据库(Neo4j)中,创建网络安全领域实体的节点,添加网络安全实体的属性信息,创建用户数据实体的节点,添加用户数据实体的属性信息;
步骤C4,创建边和添加属性:根据实体之间的关系,为网络安全领域创建网络安全边,并添加网络安全边的属性信息,对于用户数据的实体,根据其关联的信息记录创建用户数据边和用户数据边的属性;
步骤C5,导入网络安全语料数据和用户数据:将步骤C1获取的网络安全数据和EHR系统中的用户数据导入到图数据库(Neo4j)中,将网络安全语料数据转化图数据库(Neo4j)中的节点和边,并将属性信息关联到相应的节点和边上,将用户的数据转化为图数据库中的节点,并将个人敏感信息进行加密处理;
步骤C6,创建索引和约束:对用户数据的节点,设置敏感信息访问权限约束,限制授权人员为管理员和用户本人。
作为本发明进一步的方案,在步骤S3中,EHR系统知识图谱检索的步骤包括人机交互和查询构建、创建查询节点和关系、更新数据和条件过滤、返回和展示查询结果以及删除冗余数据,其中人机交互和查询构建通过Cypher查询语句实现,查询节点和关系通过用户输入的查询条件构建Cypher查询语句,查询的关系包括网络安全领域实体之间的关系以及EHR系统中用户数据实体之间的关系,在删除冗余数据前向用户发出确认提示,并利用区块链技术进行冗余数据备份。
作为本发明进一步的方案,在步骤S4中,EHR系统知识图谱知识抽取通过检索引擎输入检索问句,检索问句包括查询实体、关系以及查询条件,利用自然语言处理技术(NLP)技术解析问句,进行分词、词性标准以及命名实体识别,并使用实体识别正则表达式进行匹配,识别问句中的实体、关系分类,根据实体识别和关系分类的结果构建EHR系统查询问句的三元知识。
作为本发明进一步的方案,在步骤S4中,对每个包含两个实体的句子的实体之前插入特殊标记分别为“[BLG]”和“[ELG]”。
作为本发明进一步的方案,在步骤S4中,基于BERT语言模型抽取实体关系,BERT使用遮罩语言模型(MLM)随机对未标注文本的训练语料中15%的词汇遮罩,引入下一句预测(NSP)训练方式训练BERT模型,这个过程中态势重要性得分用于衡量实体关系在知识图谱中的重要程度,利用态势重要性得分的排序和分类设置处理和展示实体关系的优先等级,其中低度安全态势的优先等级<中度安全态势的优先等级<高度安全态势的优先等级。
本发明一种基于网络安全的知识图谱构建方法的技术效果和优点:
本发明通过爬虫技术和图数据库实现EHR系统网络安全领域语料和用户数据的高效存储和获取,基于知识图谱检索的技术通过自然语言体温的方式查询知识图谱,提高查询结果的准确度,同时知识抽取和知识问答能够使得EHR系统的查询更加智能和友好直观,引入态势分析对实体关系的重要性和可信度进行评估,进一步提高实体关系抽取的准确度和可信度,结合态势分析的方法进行网络安全维护,维护EHR系统网络环境数据隐私。
附图说明
图1为本发明一种基于网络安全的知识图谱构建方法流程图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的方案仅仅是本发明一部分而不是全部。基于本发明中的内容,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他技术方案,都属于本发明保护的范围。
如图1所示,一种基于网络安全的知识图谱构建方法,通过爬虫技术和图数据库实现EHR系统网络安全领域语料和用户数据的高效存储和获取,基于知识图谱检索的技术通过自然语言体温的方式查询知识图谱,提高查询结果的准确度,同时知识抽取和知识问答能够使得EHR系统的查询更加智能和友好直观,引入态势分析对实体关系的重要性和可信度进行评估,进一步提高实体关系抽取的准确度和可信度,结合态势分析的方法进行网络安全维护,维护EHR系统网络环境数据隐私,其方法具体包括如下步骤:
步骤S1,公共数据获取:利用爬虫技术采用增量爬取模式模拟浏览器发送请求,获取Cookie、URL、解析网站内容,获取网站ID、日期、危险等级、详细描述、时间和字符串转换方法,自动完成对目标网页模拟点击,使用Scrapy框架完成EHR系统领域语料获取;
步骤S2,EHR系统知识图谱存储:使用图数据库(Neo4j)技术存储EHR网络安全语料中的属性图,存储属性图中的节点和属性、边和属性信息;
步骤S3,EHR系统知识图谱检索:利用图数据库(Neo4j)的Cypher查询语句进行人机交互,创建查询节点、关系并更新数据,利用查询数据进行条件过滤,将查询结果返回并展示,并删除冗余数据;
步骤S4,EHR系统知识图谱知识抽取:利用检索引擎输入检索问句,并对问句进行分类和解析,基于规则抽取三元知识,依赖分析对特定类别问句进行解析,获取三元组查询知识并查询语句构建所需的知识识别和关系分类;
步骤S5,EHR系统知识问答:知识问答模块接收使用自然语言表达的问题,在已有知识的基础上形成自然语言答案返回给用户,对答案系统展示;
需要说明的是,在步骤S4中,基于规则抽取三元知识采用实体抽取和实体关系抽取的方式,基于BERT语言模型抽取实体关系,BERT使用遮罩语言模型(MLM)随机对未标注文本的训练语料中15%的词汇遮罩,引入下一句预测(NSP)训练方式训练BERT模型,对每个包含两个实体的句子的实体之前插入特殊标记,获取实体的隐状态向量,使用自注意力评估实体每个字符在句子内部的注意力得分,进行归一化获取该字符的权重,获取自注意力加权得分,引入态势分析对自注意力加权得分以及抽取的实体及实体关系进行分析。
采用多种抽取方式结合,即实体抽取、实体关系抽取和BERT语言模型抽取,提高了EHR系统中网络安全领域知识和用户数据实体和实体关系的抽取准确性,传统的基于规则的方法受限于规则的表达能力和覆盖范围,而BERT语言模型能够利用预训练的上下文信息,更好地理解句子的语义和实体之间的关系;通过使用BERT的自注意力机制,能对实体在句子内部的重要性进行评估,更好地捕捉实体之间的关联信息,从而更准确地抽取实体关系;通过引入下一句预测(NSP)训练方式,进一步提高了BERT模型对上下文信息的理解能力,使得BERT能够更好地把握实体关系所在句子之间的上下文关系,有利于准确地抽取实体关系;对自注意力得分进行归一化处理,能确保得到的权重在合理范围内,避免因权重过大或过小而对实体关系抽取产生不利影响;通过引入态势分析对自注意力加权得分以及抽取的实体及实体关系进行分析,进一步提高了实体关系抽取的准确性和可信度,态势分析综合考虑实体关系分值、关系距离、时间戳和可信度的因素,有助于对实体关系进行更细致的评估和排序。
进一步地,在步骤S4中,对每个包含两个实体的句子的实体之前插入特殊标记分别为“[BLG]”和“[ELG]”。
通过在每个实体之前插入特殊标记,“[BLG]”和“[ELG]”,能明确标识出句子中的实体的开始和结束位置,有助于BERT语言模型更好地区分句子中的实体部分,并准确地捕捉实体的上下文信息;对于包含两个实体的句子,BERT模型通过特殊标记能准确地区分两个实体之间的上下文,有助于BERT模型更好地理解实体之间的关系,特别是在进行下一句预测(NSP)训练时,有明确的界限来理解句子之间的上下文关系;在文本中会存在多个相同实体或相似实体,通过在实体之前插入特殊标记,“[BLG]”和“[ELG]”,能避免BERT模型混淆不同实体之间的关系,确保对每个实体进行独立的处理;特殊标记“[BLG]”和“[ELG]”是自定义的,没有与自然语言中其他词汇冲突,这样的标记不会影响BERT模型对其他实体和关系的理解,同时提供了有意义的辅助信息,帮助模型更好地识别实体;特殊标记的插入也能够在态势分析中发挥作用,帮助对实体的重要性和关系进行更准确的分析和评估。
进一步地,在步骤S4中,引入态势分析对自注意力得分和抽取的实体及实体关系进行分析的过程包括:
步骤A1,定义态势分析参量:在EHR系统知识图谱中,定义态势关系分值为实体之间的关联程度,关系分值为实体关系的自注意力加权得分,定义态势关系距离为实体之间在知识图谱中的欧几里得距离,定义态势时间戳为实体以及实体关系的更新时间,定义态势可信度为实体以及实体关系的可信程度,态势分析可信度计算方法采用基于信任网络的方法;
步骤A2,计算态势分析重要性得分:利用态势关系分值、态势关系距离、态势时间戳以及态势分析可信度构建用于计算态势重要性得分的态势分析数值分析模型,态势重要性得分公式为:
;
式中:为态势重要性得分,/>为态势关系分值,/>为态势关系距离,/>为态势时间戳,/>为态势可信度;
步骤A3,态势分析分类标签标记:对态势重要性得分进行标准化和归一化,获取标准态势重要性分值,利用离散标签对标准态势重要性分值进行标记和分类。
通过定义态势关系分值、关系距离、时间戳和可信度的参量,态势分析综合考虑了多个因素对实体关系的重要性和可信度的影响,有助于从多个角度对实体关系进行综合分析,得到更全面、准确的结果;通过计算态势重要性得分,能对知识图谱中的实体关系进行排序,优先展示和使用重要性高、可信度高的实体关系信息,有助于提高知识图谱的质量,使得图谱中的信息更加可靠和有用;态势分析将实体关系的重要性和可信度纳入考虑,能根据用户的具体需求和查询内容,有针对性地展示和使用知识图谱中的信息能够使得查询结果更加符合用户的实际需求,提高用户满意度;引入态势分析对实体关系的重要性进行评估,有助于发现网络安全领域中潜在的威胁和风险,通过对实体关系的态势分析,能更好地理解和评估网络安全事件的关联程度和严重程度,为网络安全分析提供有力支持;通过对实体时间戳的态势分析,能判断实体和实体关系的更新情况,从而及时更新知识图谱,保持知识图谱的实时性和准确性,有助于保持系统的自适应性和持续性发展。
态势重要性得分公式获取的态势重要性得分,能够反映出知识图谱中不同实体及实体关系的重要程度,得分越高的实体或实体关系在知识图谱中的重要性越大,具有更高的关联程度、较小的距离、更新时间较近以及更高的可信度,这些信息有助于对知识图谱的内容进行分析和理解,从而指导决策和行动。在网络安全领域中,高得分的态势实体和实体关系对网络安全事件的预测和防范具有重要意义,而低得分的态势实体和实体关系相关度低或可信度低。
需要说明的是,态势分析数值分析模型中,离散标签的标记方法如下:
当时,标准态势重要性分值的离散标签为低度安全态势;
当时,标准态势重要性分值的离散标签为中度安全态势;
当时,标准态势重要性分值的离散标签为高度安全态势。
需要说明的是,在步骤S4中,基于BERT语言模型抽取实体关系,BERT使用遮罩语言模型(MLM)随机对未标注文本的训练语料中15%的词汇遮罩,引入下一句预测(NSP)训练方式训练BERT模型,这个过程中态势重要性得分用于衡量实体关系在知识图谱中的重要程度,利用态势重要性得分的排序和分类设置处理和展示实体关系的优先等级,其中低度安全态势的优先等级<中度安全态势的优先等级<高度安全态势的优先等级。
通过离散标签,能将抽象的态势分析重要性得分转化为直观的安全态势标签,使得态势分析结果更易于理解和解释,用户能直接根据标签了解到实体关系的重要性和安全状态;离散化的态势分析结果使得决策过程更为简单明了,对于不同的安全态势标签,采取相应的行动和决策,从而更快速地响应潜在的安全问题;通过将态势分析重要性得分离散化,能为系统用户提供决策参考,不同的标签对应不同的安全态势,用户能根据标签来调整对知识图谱中实体关系的使用和信任程度,从而在实际应用中更好地利用知识图谱;离散标签的引入能帮助用户快速筛选和过滤知识图谱中的实体关系信息,用户根据自己的需求,只关注某一特定安全态势标签下的实体关系,从而减少信息冗余和提高查询效率;将态势分析得分映射到三个安全态势标签中,更贴近现实场景中对安全性的划分,使得模型的应用更具实际意义,更符合用户对安全态势的感知和期望。
进一步地,在步骤S1中,为确保数据存储的安全性,在获取Cookie和登录网站时,采用数据加密技术保护用户的敏感信息,用户的敏感信息包括用户名、密码、病史数据,在进行数据爬取时,设置访问频率为105,只爬取公共网站中最新更新的内容到本地数据库,第一次启动爬虫模块全量爬取数据,后续利用爬虫技术定时检查更新进行爬取,每天设置于早上7:00启动爬虫任务,对于需要登录以及具有访问权限的网站,爬虫以及用户需要经过用户身份验证才能执行,对获取的网站内容利用机器学习分类模型进行数据质量和真实性验证,对数据进行审查和过滤,删除含有恶意信息、不符合要求以及不合法的数据,对于设计用户个人隐私的数据去除或替换个人身份信息。
采用数据加密技术保护用户的敏感信息,如用户名、密码和病史数据,能有效防止这些敏感信息在传输和存储过程中被未授权的第三方获取,提高了用户信息的保密性和安全性;设置访问频率为105和只爬取最新更新的内容到本地数据库,以及定时检查更新进行爬取,有助于降低数据爬取的频率和规模,减少对公共网站的压力,从而降低了数据爬取时对网站的影响和风险;通过使用机器学习分类模型对获取的网站内容进行数据质量和真实性验证,能对数据进行初步的筛选和审查,保证获取的数据具有一定的准确性和可信度;对获取的网站内容进行审查和过滤,删除含有恶意信息、不符合要求以及不合法的数据,能保证存储的数据质量,并减少对不合法或不良信息的传播;对设计用户个人隐私的数据进行去除或替换个人身份信息,有助于保护用户的隐私权,确保敏感个人信息不会被不当使用或泄露;对于需要登录和访问权限的网站,采取用户身份验证措施,能防止未授权用户对数据进行访问和爬取,提高了数据的安全性和可控性。
需要说明的是,在步骤S2中,EHR系统知识图谱存储的实现过程包括:
步骤C1,确定知识图谱的模型和实体关系:确定EHR系统中网络安全领域的实体为攻击类型、威胁等级、安全措施,并定义网络安全领域的实体属性,确定EHR系统中用户数据的实体为个人身份、信息记录,并定义用户数据实体的属性;
步骤C2,创建图数据库(Neo4j):安装和配置图数据库(Neo4j),创建两个新的数据库实例,分别用于存储EHR系统的网络安全语料和用户数据,分别配置这两个图数据库实例的连接参数,确保能够通过API以及驱动程序与数据库进行数据和信息交互;
步骤C3,创建节点和添加属性:在图数据库(Neo4j)中,创建网络安全领域实体的节点,添加网络安全实体的属性信息,创建用户数据实体的节点,添加用户数据实体的属性信息;
步骤C4,创建边和添加属性:根据实体之间的关系,为网络安全领域创建网络安全边,并添加网络安全边的属性信息,对于用户数据的实体,根据其关联的信息记录创建用户数据边和用户数据边的属性;
步骤C5,导入网络安全语料数据和用户数据:将步骤C1获取的网络安全数据和EHR系统中的用户数据导入到图数据库(Neo4j)中,将网络安全语料数据转化图数据库(Neo4j)中的节点和边,并将属性信息关联到相应的节点和边上,将用户的数据转化为图数据库中的节点,并将个人敏感信息进行加密处理;
步骤C6,创建索引和约束:对用户数据的节点,设置敏感信息访问权限约束,限制授权人员为管理员和用户本人。
通过步骤C1中确定知识图谱的模型和实体关系,能清晰地定义EHR系统中的网络安全领域实体和用户数据实体,以及它们之间的关系,有助于规范知识图谱的构建和管理,提高系统的可维护性和可扩展性;采用图数据库(Neo4j)作为知识图谱的存储引擎,能够更高效地存储和查询复杂的实体关系图结构,图数据库的优势在于它能够快速地遍历和查找图中的关联关系,适用于处理网络安全领域和用户数据中复杂的实体之间的关系;在步骤C2中创建两个数据库实例用于存储网络安全语料和用户数据,并配置连接参数,能实现数据的物理隔离和保护,此外,步骤C5中对用户的个人敏感信息进行加密处理,有助于保护用户隐私和数据安全;通过在图数据库中创建节点、边和属性,能将网络安全领域的实体和用户数据实体与其属性信息关联起来,使得数据之间的关联关系更加明确和易于查询,提高了数据的可用性和检索效率;在步骤C6中设置敏感信息访问权限约束,限制授权人员为管理员和用户本人,能确保只有经过授权的用户能访问和操作用户的敏感信息,有助于提高数据的安全性和隐私保护。
进一步地,在步骤S3中,EHR系统知识图谱检索的步骤包括人机交互和查询构建、创建查询节点和关系、更新数据和条件过滤、返回和展示查询结果以及删除冗余数据,其中人机交互和查询构建通过Cypher查询语句实现,查询节点和关系通过用户输入的查询条件构建Cypher查询语句,查询的关系包括网络安全领域实体之间的关系以及EHR系统中用户数据实体之间的关系,在删除冗余数据前向用户发出确认提示,并利用区块链技术进行冗余数据备份。
通过人机交互和查询构建,用户直接通过Cypher查询语句与图数据库进行交互,构建查询节点和关系,从而实现对知识图谱的高效查询,这样的查询方式可以灵活、快速地获取用户所需的信息;用户输入的查询条件包括网络安全领域实体之间的关系以及用户数据实体之间的关系,帮助用户实现更加精准的搜索,找到符合特定关联关系的信息;步骤S3中的更新数据和条件过滤,能保证图数据库中的数据保持最新、准确,当有新的知识或用户数据添加进来时,及时更新到图数据库中,确保数据的实时性;在返回和展示查询结果阶段,将查询结果按照用户需要的形式进行展示,使得用户可以更加直观地理解和分析查询结果;通过引入区块链技术进行冗余数据备份,能确保数据的完整性和安全性,区块链技术的去中心化特点能防止数据的篡改和丢失,为数据的长期保存提供了一种可靠的方式。
需要说明的是,在步骤S4中,EHR系统知识图谱知识抽取通过检索引擎输入检索问句,检索问句包括查询实体、关系以及查询条件,利用自然语言处理技术(NLP)技术解析问句,进行分词、词性标准以及命名实体识别,并使用实体识别正则表达式进行匹配,识别问句中的实体、关系分类,根据实体识别和关系分类的结果构建EHR系统查询问句的三元知识。
通过利用检索引擎和自然语言处理技术,系统能够自动化地处理用户输入的查询问句,无需人工干预,大大节省了人力资源和时间成本;自然语言处理技术能够对查询问句进行分词、词性标注以及命名实体识别,从而准确地识别出问句中的实体和关系,避免由于人工处理产生的误差,提高了知识图谱知识抽取的准确性;通过采用自然语言处理技术,系统能够对不同形式和风格的查询问句进行处理,从而具有较强的扩展性,能适应多样化的用户查询需求;自然语言处理技术能够迅速地解析查询问句,识别实体和关系,并构建三元知识,实现快速响应用户的查询,提高了知识图谱的查询效率;通过利用实体识别和关系分类,系统能充分地抽取查询问句中的实体和关系信息,从而构建全面的三元知识,使得知识图谱的内容更加丰富和完整。
最后:以上所述仅为本发明的优选方案而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于网络安全的知识图谱构建方法,包括如下步骤:
步骤S1,公共数据获取:利用爬虫技术采用增量爬取模式模拟浏览器发送请求,获取Cookie、URL、解析网站内容,获取网站ID、日期、危险等级、详细描述、时间和字符串转换方法,自动完成对目标网页模拟点击,使用Scrapy框架完成EHR系统领域语料获取;
步骤S2,EHR系统知识图谱存储:使用图数据库技术存储EHR网络安全语料中的属性图,存储属性图中的节点和属性、边和属性信息;
步骤S3,EHR系统知识图谱检索:利用图数据库的Cypher查询语句进行人机交互,创建查询节点、关系并更新数据,利用查询数据进行条件过滤,将查询结果返回并展示,并删除冗余数据;
步骤S4,EHR系统知识图谱知识抽取:利用检索引擎输入检索问句,并对问句进行分类和解析,基于规则抽取三元知识,依赖分析对问句进行解析,获取三元组查询知识并查询语句构建所需的知识识别和关系分类;
步骤S5,EHR系统知识问答:知识问答模块接收使用自然语言表达的问题,在已有知识的基础上形成自然语言答案返回给用户,对答案系统展示;
其特征在于,在步骤S4中,基于规则抽取三元知识采用实体抽取和实体关系抽取的方式,基于BERT语言模型抽取实体关系,BERT使用遮罩语言模型随机对未标注文本的训练语料中15%的词汇遮罩,引入下一句预测训练方式训练BERT模型,对每个包含两个实体的句子的实体之前插入特殊标记,获取实体的隐状态向量,使用自注意力评估实体每个字符在句子内部的注意力得分,进行归一化获取该字符的权重,获取自注意力加权得分,引入态势分析对自注意力加权得分以及抽取的实体及实体关系进行分析。
2.根据权利要求1所述的一种基于网络安全的知识图谱构建方法,其特征在于,在步骤S4中,引入态势分析对自注意力得分和抽取的实体及实体关系进行分析的过程包括:
步骤A1,定义态势分析参量:在EHR系统知识图谱中,定义态势关系分值为实体之间的关联程度,关系分值为实体关系的自注意力加权得分,定义态势关系距离为实体之间在知识图谱中的欧几里得距离,定义态势时间戳为实体以及实体关系的更新时间,定义态势可信度为实体以及实体关系的可信程度,态势分析可信度计算方法采用基于信任网络的方法;
步骤A2,计算态势分析重要性得分:利用态势关系分值、态势关系距离、态势时间戳以及态势分析可信度构建用于计算态势重要性得分的态势分析数值分析模型,态势重要性得分公式为:
;
式中:为态势重要性得分,/>为态势关系分值,/>为态势关系距离,/>为态势时间戳,/>为态势可信度;
步骤A3,态势分析分类标签标记:对态势重要性得分进行标准化和归一化,获取标准态势重要性分值,利用离散标签对标准态势重要性分值进行标记和分类。
3.根据权利要求2所述的一种基于网络安全的知识图谱构建方法,其特征在于,态势分析数值分析模型中,离散标签的标记方法如下:
当时,标准态势重要性分值的离散标签为低度安全态势;
当时,标准态势重要性分值的离散标签为中度安全态势;
当时,标准态势重要性分值的离散标签为高度安全态势。
4.根据权利要求1所述的一种基于网络安全的知识图谱构建方法,其特征在于,在步骤S1中,为确保数据存储的安全性,在获取Cookie和登录网站时,采用数据加密技术保护用户的敏感信息,用户的敏感信息包括用户名、密码、病史数据,在进行数据爬取时,设置访问频率为105,只爬取公共网站中最新更新的内容到本地数据库,第一次启动爬虫模块全量爬取数据,后续利用爬虫技术定时检查更新进行爬取,每天设置于早上7:00启动爬虫任务,对于需要登录以及具有访问权限的网站,爬虫以及用户需要经过用户身份验证才能执行,对获取的网站内容利用机器学习分类模型进行数据质量和真实性验证,对数据进行审查和过滤,删除含有恶意信息、不符合要求以及不合法的数据,对于设计用户个人隐私的数据去除或替换个人身份信息。
5.根据权利要求1所述的一种基于网络安全的知识图谱构建方法,其特征在于,在步骤S2中,EHR系统知识图谱存储的实现过程包括:
步骤C1,确定知识图谱的模型和实体关系:确定EHR系统中网络安全领域的实体为攻击类型、威胁等级、安全措施,并定义网络安全领域的实体属性,确定EHR系统中用户数据的实体为个人身份、信息记录,并定义用户数据实体的属性;
步骤C2,创建图数据库:安装和配置图数据库,创建两个新的数据库实例,分别用于存储EHR系统的网络安全语料和用户数据,分别配置这两个图数据库实例的连接参数,确保能够通过API以及驱动程序与数据库进行数据和信息交互;
步骤C3,创建节点和添加属性:在图数据库中,创建网络安全领域实体的节点,添加网络安全实体的属性信息,创建用户数据实体的节点,添加用户数据实体的属性信息;
步骤C4,创建边和添加属性:根据实体之间的关系,为网络安全领域创建网络安全边,并添加网络安全边的属性信息,对于用户数据的实体,根据其关联的信息记录创建用户数据边和用户数据边的属性;
步骤C5,导入网络安全语料数据和用户数据:将步骤C1获取的网络安全数据和EHR系统中的用户数据导入到图数据库中,将网络安全语料数据转化图数据库中的节点和边,并将属性信息关联到相应的节点和边上,将用户的数据转化为图数据库中的节点,并将个人敏感信息进行加密处理;
步骤C6,创建索引和约束:对用户数据的节点,设置敏感信息访问权限约束,限制授权人员为管理员和用户本人。
6.根据权利要求1所述的一种基于网络安全的知识图谱构建方法,其特征在于,在步骤S3中,EHR系统知识图谱检索的步骤包括人机交互和查询构建、创建查询节点和关系、更新数据和条件过滤、返回和展示查询结果以及删除冗余数据,其中人机交互和查询构建通过Cypher查询语句实现,查询节点和关系通过用户输入的查询条件构建Cypher查询语句,查询的关系包括网络安全领域实体之间的关系以及EHR系统中用户数据实体之间的关系,在删除冗余数据前向用户发出确认提示,并利用区块链技术进行冗余数据备份。
7.根据权利要求1所述的一种基于网络安全的知识图谱构建方法,其特征在于,在步骤S4中,EHR系统知识图谱知识抽取通过检索引擎输入检索问句,检索问句包括查询实体、关系以及查询条件,利用自然语言处理技术解析问句,进行分词、词性标准以及命名实体识别,并使用实体识别正则表达式进行匹配,识别问句中的实体、关系分类,根据实体识别和关系分类的结果构建EHR系统查询问句的三元知识。
8.根据权利要求1所述的一种基于网络安全的知识图谱构建方法,其特征在于,在步骤S4中,对每个包含两个实体的句子的实体之前插入特殊标记分别为“[BLG]”和“[ELG]”。
9.根据权利要求3所述的一种基于网络安全的知识图谱构建方法,其特征在于,在步骤S4中,基于BERT语言模型抽取实体关系,BERT使用遮罩语言模型随机对未标注文本的训练语料中15%的词汇遮罩,引入下一句预测训练方式训练BERT模型,这个过程中态势重要性得分用于衡量实体关系在知识图谱中的重要程度,利用态势重要性得分的排序和分类设置处理和展示实体关系的优先等级,其中低度安全态势的优先等级<中度安全态势的优先等级<高度安全态势的优先等级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311235534.8A CN116976435B (zh) | 2023-09-25 | 2023-09-25 | 一种基于网络安全的知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311235534.8A CN116976435B (zh) | 2023-09-25 | 2023-09-25 | 一种基于网络安全的知识图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116976435A true CN116976435A (zh) | 2023-10-31 |
CN116976435B CN116976435B (zh) | 2023-12-15 |
Family
ID=88473506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311235534.8A Active CN116976435B (zh) | 2023-09-25 | 2023-09-25 | 一种基于网络安全的知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116976435B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874755A (zh) * | 2024-03-13 | 2024-04-12 | 中国电子科技集团公司第三十研究所 | 一种识别暗网威胁用户的系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256063A (zh) * | 2018-01-15 | 2018-07-06 | 中国人民解放军国防科技大学 | 一种面向网络安全的知识库构建方法 |
CN108509519A (zh) * | 2018-03-09 | 2018-09-07 | 北京邮电大学 | 基于深度学习的通用知识图谱增强问答交互系统及方法 |
CN111897967A (zh) * | 2020-07-06 | 2020-11-06 | 北京大学 | 一种基于知识图谱和社交媒体的医疗问诊推荐方法 |
US20210158144A1 (en) * | 2019-11-25 | 2021-05-27 | Intuit Inc. | Combining statistical methods with a knowledge graph |
US20220292262A1 (en) * | 2021-03-10 | 2022-09-15 | At&T Intellectual Property I, L.P. | System and method for hybrid question answering over knowledge graph |
-
2023
- 2023-09-25 CN CN202311235534.8A patent/CN116976435B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256063A (zh) * | 2018-01-15 | 2018-07-06 | 中国人民解放军国防科技大学 | 一种面向网络安全的知识库构建方法 |
CN108509519A (zh) * | 2018-03-09 | 2018-09-07 | 北京邮电大学 | 基于深度学习的通用知识图谱增强问答交互系统及方法 |
US20210158144A1 (en) * | 2019-11-25 | 2021-05-27 | Intuit Inc. | Combining statistical methods with a knowledge graph |
CN111897967A (zh) * | 2020-07-06 | 2020-11-06 | 北京大学 | 一种基于知识图谱和社交媒体的医疗问诊推荐方法 |
US20220292262A1 (en) * | 2021-03-10 | 2022-09-15 | At&T Intellectual Property I, L.P. | System and method for hybrid question answering over knowledge graph |
Non-Patent Citations (2)
Title |
---|
HONGCHAO JIANG 等: "A BERT-Bi-LSTM-Based Knowledge Graph Question Answering Method", 《2021 INTERNATIONAL CONFERENCE ON COMMUNICATIONS, INFORMATION SYSTEM AND COMPUTER ENGINEERING (CISCE)》, pages 308 - 312 * |
白皓然 等: "态势分析", 《中国农机化学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874755A (zh) * | 2024-03-13 | 2024-04-12 | 中国电子科技集团公司第三十研究所 | 一种识别暗网威胁用户的系统及方法 |
CN117874755B (zh) * | 2024-03-13 | 2024-05-10 | 中国电子科技集团公司第三十研究所 | 一种识别暗网威胁用户的系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116976435B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131882B (zh) | 一种多源异构网络安全知识图谱构建方法及装置 | |
CN113647078B (zh) | 一种管理安全事件的方法、装置和计算机可读存储介质 | |
US11475143B2 (en) | Sensitive data classification | |
Amato et al. | Analyse digital forensic evidences through a semantic-based methodology and NLP techniques | |
EP4319054A2 (en) | Identifying legitimate websites to remove false positives from domain discovery analysis | |
Peng et al. | Astroturfing detection in social media: a binary n‐gram–based approach | |
CN109347801A (zh) | 一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法 | |
US20100318489A1 (en) | Pii identification learning and inference algorithm | |
CN116976435B (zh) | 一种基于网络安全的知识图谱构建方法 | |
CN111753171B (zh) | 一种恶意网站的识别方法和装置 | |
CN110177114A (zh) | 网络安全威胁指标识别方法、设备、装置以及计算机可读存储介质 | |
CN105589953A (zh) | 一种突发公共卫生事件互联网文本抽取方法 | |
Cole et al. | Behavioural investigative advice: Assistance to investigative decision‐making in difficult‐to‐detect murder | |
CN114595689A (zh) | 数据处理方法、装置、存储介质和计算机设备 | |
CN116112194A (zh) | 用户行为分析方法、装置、电子设备及计算机存储介质 | |
Dugyala et al. | Analysis of malware detection and signature generation using a novel hybrid approach | |
Wang et al. | Exploring topic models to discern cyber threats on Twitter: A case study on Log4Shell | |
Joshi | Linked data for software security concepts and vulnerability descriptions | |
CN112685389B (zh) | 数据管理方法、数据管理装置、电子设备及存储介质 | |
CN115470361A (zh) | 数据检测方法以及装置 | |
CN109857753A (zh) | 用户数据验证方法、装置、电子设备及存储介质 | |
TW201539217A (zh) | 文件分析系統、文件分析方法、以及文件分析程式 | |
CN115237978A (zh) | 一种开源威胁情报聚合平台 | |
Ahmed et al. | Semisupervised Federated Learning for Temporal News Hyperpatism Detection | |
Shi et al. | Uncovering product vulnerabilities with threat knowledge graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |