CN115329770A - 基于语义分析的威胁情报提取方法和系统 - Google Patents
基于语义分析的威胁情报提取方法和系统 Download PDFInfo
- Publication number
- CN115329770A CN115329770A CN202210892597.XA CN202210892597A CN115329770A CN 115329770 A CN115329770 A CN 115329770A CN 202210892597 A CN202210892597 A CN 202210892597A CN 115329770 A CN115329770 A CN 115329770A
- Authority
- CN
- China
- Prior art keywords
- information
- entity
- semantic
- words
- threat
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 46
- 238000000605 extraction Methods 0.000 title claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 48
- 238000000034 method Methods 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 9
- 238000012800 visualization Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 4
- 238000013136 deep learning model Methods 0.000 abstract description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于语义分析的威胁情报提取方法和系统,由于在现有的威胁情报分析的基础上,通过改进使用两种网络结构得到增强的语义特征,以及改进实体抽取的嵌入层处理,可以准确标注实体类别和边界,再改进LSTM层实现得到隐藏状态,进一步得到隐藏状态对应的语义特征,克服了现有的关系抽取通常仅使用单一的深度学习模型,无法捕获完整的语义特征,以及实体之间存在有大量的隐式关系,现有的模型难以有效捕获隐式关系的语义特征的问题。
Description
技术领域
本申请涉及网络安全技术领域,尤其涉及一种基于语义分析的威胁情报提取方法和系统。
背景技术
实体是威胁情报分析中最基本的元素,其描述了与威胁相关的具体信息。威胁情报的提取是基于实体的准确识别和提取实现的。实体的识别离不开关系的抽取,关系抽取意图在从非结构化和半结构化数据中识别实体之间所具有的某种语义关系。然而现有的关系抽取通常仅使用单一的深度学习模型,无法捕获完整的语义特征。同时,实体之间存在有大量的隐式关系,现有的模型难以有效捕获隐式关系的语义特征。
因此,急需一种针对性的基于语义分析的威胁情报提取方法和系统。
发明内容
本发明的目的在于提供一种基于语义分析的威胁情报提取方法和系统,在现有的威胁情报分析的基础上,通过改进使用两种网络结构得到增强的语义特征,以及改进实体抽取的嵌入层处理,可以准确标注实体类别和边界,再改进LSTM层实现得到隐藏状态,进一步得到隐藏状态对应的语义特征。
第一方面,本申请提供一种基于语义分析的威胁情报提取方法,所述方法包括:
从不同的传感设备、中转设备、开源平台和网络侧设备处采集状态信息、域名信息、链接地址和报文数据,作为开源威胁情报数据;
对所述开源威胁情报数据进行初始化处理,基于主题、关键字、长度作为特征,采用支持向量机算法进行文本分类,滤除所述开源威胁情报数据中的噪音数据,并以句子为单位进行分割处理,自动标注标识信息,得到威胁情报库;
从所述威胁情报库中按照预定顺序提取语句,分别输入实体抽取模块和语义分析模块;
所述语义分析模块将输入的所述语句按单词降低维度,并与连续空间中的向量一一映射,作为词级别的语义特征,得到词特征;
根据前向和后向分别两次调用GRU网络结构,将所述词特征输入两次调用的GRU网络结构,将两次的输出结果拼接后得到当前的全局语义信息,将所述词特征输入CNN网络结构,得到当前的局部语义信息;
将所述全局语义信息和局部语义信息按时间进行融合,得到增强的语义特征;
所述实体抽取模块根据标注,将隶属的开头单词、实体后续单词和非实体单词送入不同的嵌入层,经过处理后送入对应的LSTM层,所述处理包括输入的所述语句降低维度检测,并将隶属的开头单词添加指引,指向对应表示实体结束的单词,所述指向依据降低维度检测的损失函数,通过求解该损失函数的最优解,得到表示实体结束的单词;
经过相邻的所述LSTM层相互交换向量后,计算得到当前的隐藏向量,所述隐藏向量分为前向隐藏向量和后向隐藏向量,将所述前向隐藏向量与后向隐藏向量连接起来,得到隐藏状态,再将所述隐藏状态分别送入解码层和所述语义分析模块,所述解码层引入标签的转移概率算法,将所述标注作为标签项,根据计算的概率值,预测得到有关实体的映射关系,所述语义分析模块输出隐藏状态对应的第二语义特征;
将所述有关实体的映射关系、第二语义特征和所述增强的语义特征一起录入可视化模块,展示威胁情报实体的知识图谱,提供给用户按实体关系或语义查询提取。
结合第一方面,在第一方面第一种可能的实现方式中,所述采集包括根据信息来源的历史记录,对不同的信息来源给出了不同的评分;还包括根据预先设置的情报类型,侧重采集所述情报类型对应的信息,动态将与所述情报类型相关度低的信息设置为冗余信息,在初始化处理中清除。
结合第一方面,在第一方面第二种可能的实现方式中,所述采集包括提取要素,判断发现的要素是否与当前热门安全事件相关,如果是则在要素中标记热门安全事件摘要,并将多个与该热门安全事件相关的要素进行关联,进行数据融合。
结合第一方面,在第一方面第三种可能的实现方式中,所述指向对应表示实体结束的单词后,确定实体边界,用属性加密算法隔离不同的实体边界,实现不同的实体边界访问控制,按所述实体边界进行查询和判断报警。
第二方面,本申请提供一种基于语义分析的威胁情报提取系统,所述系统包括:
采集模块,用于从不同的传感设备、中转设备、开源平台和网络侧设备处采集状态信息、域名信息、链接地址和报文数据,作为开源威胁情报数据;
初始化模块,用于对所述开源威胁情报数据进行初始化处理,基于主题、关键字、长度作为特征,采用支持向量机算法进行文本分类,滤除所述开源威胁情报数据中的噪音数据,并以句子为单位进行分割处理,自动标注标识信息,得到威胁情报库;
中转模块,用于从所述威胁情报库中按照预定顺序提取语句,分别输入实体抽取模块和语义分析模块;
语义分析模块,用于将输入的所述语句按单词降低维度,并与连续空间中的向量一一映射,作为词级别的语义特征,得到词特征;
根据前向和后向分别两次调用GRU网络结构,将所述词特征输入两次调用的GRU网络结构,将两次的输出结果拼接后得到当前的全局语义信息,将所述词特征输入CNN网络结构,得到当前的局部语义信息;
将所述全局语义信息和局部语义信息按时间进行融合,得到增强的语义特征;
实体抽取模块,用于根据标注,将隶属的开头单词、实体后续单词和非实体单词送入不同的嵌入层,经过处理后送入对应的LSTM层,所述处理包括输入的所述语句降低维度检测,并将隶属的开头单词添加指引,指向对应表示实体结束的单词,所述指向依据降低维度检测的损失函数,通过求解该损失函数的最优解,得到表示实体结束的单词;
经过相邻的所述LSTM层相互交换向量后,计算得到当前的隐藏向量,所述隐藏向量分为前向隐藏向量和后向隐藏向量,将所述前向隐藏向量与后向隐藏向量连接起来,得到隐藏状态,再将所述隐藏状态分别送入解码层和所述语义分析模块,所述解码层引入标签的转移概率算法,将所述标注作为标签项,根据计算的概率值,预测得到有关实体的映射关系,所述语义分析模块输出隐藏状态对应的第二语义特征;
可视化模块,用于将所述有关实体的映射关系、第二语义特征和所述增强的语义特征一起录入,展示威胁情报实体的知识图谱,提供给用户按实体关系或语义查询提取。
第三方面,本申请提供一种基于语义分析的威胁情报提取系统,所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面四种可能中任一项所述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面四种可能中任一项所述的方法。
有益效果
本发明提供一种基于语义分析的威胁情报提取方法和系统,由于在现有的威胁情报分析的基础上,通过改进使用两种网络结构得到增强的语义特征,以及改进实体抽取的嵌入层处理,可以准确标注实体类别和边界,再改进LSTM层实现得到隐藏状态,进一步得到隐藏状态对应的语义特征,克服了现有的关系抽取通常仅使用单一的深度学习模型,无法捕获完整的语义特征,以及实体之间存在有大量的隐式关系,现有的模型难以有效捕获隐式关系的语义特征的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于语义分析的威胁情报提取方法的大致流程图;
图2为本发明基于语义分析的威胁情报提取系统的架构图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
图1为本申请提供的基于语义分析的威胁情报提取方法的大致流程图,所述方法包括:
从不同的传感设备、中转设备、开源平台和网络侧设备处采集状态信息、域名信息、链接地址和报文数据,作为开源威胁情报数据;
对所述开源威胁情报数据进行初始化处理,基于主题、关键字、长度作为特征,采用支持向量机算法进行文本分类,滤除所述开源威胁情报数据中的噪音数据,并以句子为单位进行分割处理,自动标注标识信息,得到威胁情报库;
从所述威胁情报库中按照预定顺序提取语句,分别输入实体抽取模块和语义分析模块;
所述语义分析模块将输入的所述语句按单词降低维度,并与连续空间中的向量一一映射,作为词级别的语义特征,得到词特征;
根据前向和后向分别两次调用GRU网络结构,将所述词特征输入两次调用的GRU网络结构,将两次的输出结果拼接后得到当前的全局语义信息,将所述词特征输入CNN网络结构,得到当前的局部语义信息;
将所述全局语义信息和局部语义信息按时间进行融合,得到增强的语义特征;
所述实体抽取模块根据标注,将隶属的开头单词、实体后续单词和非实体单词送入不同的嵌入层,经过处理后送入对应的LSTM层,所述处理包括输入的所述语句降低维度检测,并将隶属的开头单词添加指引,指向对应表示实体结束的单词,所述指向依据降低维度检测的损失函数,通过求解该损失函数的最优解,得到表示实体结束的单词;
经过相邻的所述LSTM层相互交换向量后,计算得到当前的隐藏向量,所述隐藏向量分为前向隐藏向量和后向隐藏向量,将所述前向隐藏向量与后向隐藏向量连接起来,得到隐藏状态,再将所述隐藏状态分别送入解码层和所述语义分析模块,所述解码层引入标签的转移概率算法,将所述标注作为标签项,根据计算的概率值,预测得到有关实体的映射关系,所述语义分析模块输出隐藏状态对应的第二语义特征;
将所述有关实体的映射关系、第二语义特征和所述增强的语义特征一起录入可视化模块,展示威胁情报实体的知识图谱,提供给用户按实体关系或语义查询提取。
在一些优选实施例中,所述采集包括根据信息来源的历史记录,对不同的信息来源给出了不同的评分;还包括根据预先设置的情报类型,侧重采集所述情报类型对应的信息,动态将与所述情报类型相关度低的信息设置为冗余信息,在初始化处理中清除。
在一些优选实施例中,所述采集包括提取要素,判断发现的要素是否与当前热门安全事件相关,如果是则在要素中标记热门安全事件摘要,并将多个与该热门安全事件相关的要素进行关联,进行数据融合。
所述热门安全事件包括僵尸网络、挖矿、攻击中的一种或多种,对采集的所述热门安全事件信息从时间、空间多重维度进行深度关联分析和数据挖掘,建立规则库,将疑似攻击的溯源信息与规则库中的信息进行对比,通过传播查询和追溯查询构建溯源图,根据所述溯源图获取攻击事件的发生脉络和攻击路径,并在发生脉络上标记热门安全事件摘要。
在一些优选实施例中,所述指向对应表示实体结束的单词后,确定实体边界,用属性加密算法隔离不同的实体边界,实现不同的实体边界访问控制,按所述实体边界进行查询和判断报警。
所述方法还包括采用访问控制、入侵检测,对重要网络节点、网络边界、远程访问用户行为进行安全审计,使用时间戳或计数器并结合完整性检查核查现场设备认证数据的新鲜度和检测数据是否被篡改。
在一些优选实施例中,所述数据融合可采用的聚类算法包括K-Means算法、均值漂移聚类算法、基于密度的聚类算法、或凝聚层次聚类算法。
在一些优选实施例中,所述可视化展示还包括风险评估、攻击关联分析、态势感知,进行主动防御,与云服务器中的数据挖掘、大数据分析配合,定位网络脆弱点和发现潜在的威胁和攻击。
图2为本申请提供的基于语义分析的威胁情报提取系统的架构图,所述系统包括:
采集模块,用于从不同的传感设备、中转设备、开源平台和网络侧设备处采集状态信息、域名信息、链接地址和报文数据,作为开源威胁情报数据;
初始化模块,用于对所述开源威胁情报数据进行初始化处理,基于主题、关键字、长度作为特征,采用支持向量机算法进行文本分类,滤除所述开源威胁情报数据中的噪音数据,并以句子为单位进行分割处理,自动标注标识信息,得到威胁情报库;
中转模块,用于从所述威胁情报库中按照预定顺序提取语句,分别输入实体抽取模块和语义分析模块;
语义分析模块,用于将输入的所述语句按单词降低维度,并与连续空间中的向量一一映射,作为词级别的语义特征,得到词特征;
根据前向和后向分别两次调用GRU网络结构,将所述词特征输入两次调用的GRU网络结构,将两次的输出结果拼接后得到当前的全局语义信息,将所述词特征输入CNN网络结构,得到当前的局部语义信息;
将所述全局语义信息和局部语义信息按时间进行融合,得到增强的语义特征;
实体抽取模块,用于根据标注,将隶属的开头单词、实体后续单词和非实体单词送入不同的嵌入层,经过处理后送入对应的LSTM层,所述处理包括输入的所述语句降低维度检测,并将隶属的开头单词添加指引,指向对应表示实体结束的单词,所述指向依据降低维度检测的损失函数,通过求解该损失函数的最优解,得到表示实体结束的单词;
经过相邻的所述LSTM层相互交换向量后,计算得到当前的隐藏向量,所述隐藏向量分为前向隐藏向量和后向隐藏向量,将所述前向隐藏向量与后向隐藏向量连接起来,得到隐藏状态,再将所述隐藏状态分别送入解码层和所述语义分析模块,所述解码层引入标签的转移概率算法,将所述标注作为标签项,根据计算的概率值,预测得到有关实体的映射关系,所述语义分析模块输出隐藏状态对应的第二语义特征;
可视化模块,用于将所述有关实体的映射关系、第二语义特征和所述增强的语义特征一起录入,展示威胁情报实体的知识图谱,提供给用户按实体关系或语义查询提取。
本申请提供一种基于语义分析的威胁情报提取系统,所述系统包括:所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所有实施例中任一项所述的方法。
本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所有实施例中任一项所述的方法。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可以存储有程序,该程序执行时可包括本发明各个实施例中的部分或全部步骤。所述的存储介质可以为磁碟、光盘、只读存储记忆体(简称:ROM)或随机存储记忆体(简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书各个实施例之间相同相似的部分互相参见即可。尤其,对于实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。
Claims (7)
1.一种基于语义分析的威胁情报提取方法,其特征在于,所述方法包括:
从不同的传感设备、中转设备、开源平台和网络侧设备处采集状态信息、域名信息、链接地址和报文数据,作为开源威胁情报数据;
对所述开源威胁情报数据进行初始化处理,基于主题、关键字、长度作为特征,采用支持向量机算法进行文本分类,滤除所述开源威胁情报数据中的噪音数据,并以句子为单位进行分割处理,自动标注标识信息,得到威胁情报库;
从所述威胁情报库中按照预定顺序提取语句,分别输入实体抽取模块和语义分析模块;
所述语义分析模块将输入的所述语句按单词降低维度,并与连续空间中的向量一一映射,作为词级别的语义特征,得到词特征;
根据前向和后向分别两次调用GRU网络结构,将所述词特征输入两次调用的GRU网络结构,将两次的输出结果拼接后得到当前的全局语义信息,将所述词特征输入CNN网络结构,得到当前的局部语义信息;
将所述全局语义信息和局部语义信息按时间进行融合,得到增强的语义特征;
所述实体抽取模块根据标注,将隶属的开头单词、实体后续单词和非实体单词送入不同的嵌入层,经过处理后送入对应的LSTM层,所述处理包括输入的所述语句降低维度检测,并将隶属的开头单词添加指引,指向对应表示实体结束的单词,所述指向依据降低维度检测的损失函数,通过求解该损失函数的最优解,得到表示实体结束的单词;
经过相邻的所述LSTM层相互交换向量后,计算得到当前的隐藏向量,所述隐藏向量分为前向隐藏向量和后向隐藏向量,将所述前向隐藏向量与后向隐藏向量连接起来,得到隐藏状态,再将所述隐藏状态分别送入解码层和所述语义分析模块,所述解码层引入标签的转移概率算法,将所述标注作为标签项,根据计算的概率值,预测得到有关实体的映射关系,所述语义分析模块输出隐藏状态对应的第二语义特征;
将所述有关实体的映射关系、第二语义特征和所述增强的语义特征一起录入可视化模块,展示威胁情报实体的知识图谱,提供给用户按实体关系或语义查询提取。
2.根据权利要求1所述的方法,其特征在于:所述采集包括根据信息来源的历史记录,对不同的信息来源给出了不同的评分;还包括根据预先设置的情报类型,侧重采集所述情报类型对应的信息,动态将与所述情报类型相关度低的信息设置为冗余信息,在初始化处理中清除。
3.根据权利要求1所述的方法,其特征在于:所述采集包括提取要素,判断发现的要素是否与当前热门安全事件相关,如果是则在要素中标记热门安全事件摘要,并将多个与该热门安全事件相关的要素进行关联,进行数据融合。
4.根据权利要求2或3任一项所述的方法,其特征在于:所述指向对应表示实体结束的单词后,确定实体边界,用属性加密算法隔离不同的实体边界,实现不同的实体边界访问控制,按所述实体边界进行查询和判断报警。
5.一种基于语义分析的威胁情报提取系统,其特征在于,所述系统包括:
采集模块,用于从不同的传感设备、中转设备、开源平台和网络侧设备处采集状态信息、域名信息、链接地址和报文数据,作为开源威胁情报数据;
初始化模块,用于对所述开源威胁情报数据进行初始化处理,基于主题、关键字、长度作为特征,采用支持向量机算法进行文本分类,滤除所述开源威胁情报数据中的噪音数据,并以句子为单位进行分割处理,自动标注标识信息,得到威胁情报库;
中转模块,用于从所述威胁情报库中按照预定顺序提取语句,分别输入实体抽取模块和语义分析模块;
语义分析模块,用于将输入的所述语句按单词降低维度,并与连续空间中的向量一一映射,作为词级别的语义特征,得到词特征;
根据前向和后向分别两次调用GRU网络结构,将所述词特征输入两次调用的GRU网络结构,将两次的输出结果拼接后得到当前的全局语义信息,将所述词特征输入CNN网络结构,得到当前的局部语义信息;
将所述全局语义信息和局部语义信息按时间进行融合,得到增强的语义特征;
实体抽取模块,用于根据标注,将隶属的开头单词、实体后续单词和非实体单词送入不同的嵌入层,经过处理后送入对应的LSTM层,所述处理包括输入的所述语句降低维度检测,并将隶属的开头单词添加指引,指向对应表示实体结束的单词,所述指向依据降低维度检测的损失函数,通过求解该损失函数的最优解,得到表示实体结束的单词;
经过相邻的所述LSTM层相互交换向量后,计算得到当前的隐藏向量,所述隐藏向量分为前向隐藏向量和后向隐藏向量,将所述前向隐藏向量与后向隐藏向量连接起来,得到隐藏状态,再将所述隐藏状态分别送入解码层和所述语义分析模块,所述解码层引入标签的转移概率算法,将所述标注作为标签项,根据计算的概率值,预测得到有关实体的映射关系,所述语义分析模块输出隐藏状态对应的第二语义特征;
可视化模块,用于将所述有关实体的映射关系、第二语义特征和所述增强的语义特征一起录入,展示威胁情报实体的知识图谱,提供给用户按实体关系或语义查询提取。
6.一种基于语义分析的威胁情报提取系统,其特征在于,所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行实现权利要求1-4任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行实现权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210892597.XA CN115329770A (zh) | 2022-07-27 | 2022-07-27 | 基于语义分析的威胁情报提取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210892597.XA CN115329770A (zh) | 2022-07-27 | 2022-07-27 | 基于语义分析的威胁情报提取方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115329770A true CN115329770A (zh) | 2022-11-11 |
Family
ID=83918880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210892597.XA Pending CN115329770A (zh) | 2022-07-27 | 2022-07-27 | 基于语义分析的威胁情报提取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115329770A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116150509A (zh) * | 2023-04-24 | 2023-05-23 | 齐鲁工业大学(山东省科学院) | 社交媒体网络的威胁情报识别方法、系统、设备及介质 |
CN117792801A (zh) * | 2024-02-28 | 2024-03-29 | 贵州华谊联盛科技有限公司 | 一种基于多元事件分析的网络安全威胁识别方法及系统 |
CN117792789A (zh) * | 2024-01-09 | 2024-03-29 | 无锡联云世纪科技股份有限公司 | 安全接入服务边缘系统及方法 |
-
2022
- 2022-07-27 CN CN202210892597.XA patent/CN115329770A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116150509A (zh) * | 2023-04-24 | 2023-05-23 | 齐鲁工业大学(山东省科学院) | 社交媒体网络的威胁情报识别方法、系统、设备及介质 |
CN116150509B (zh) * | 2023-04-24 | 2023-08-04 | 齐鲁工业大学(山东省科学院) | 社交媒体网络的威胁情报识别方法、系统、设备及介质 |
CN117792789A (zh) * | 2024-01-09 | 2024-03-29 | 无锡联云世纪科技股份有限公司 | 安全接入服务边缘系统及方法 |
CN117792801A (zh) * | 2024-02-28 | 2024-03-29 | 贵州华谊联盛科技有限公司 | 一种基于多元事件分析的网络安全威胁识别方法及系统 |
CN117792801B (zh) * | 2024-02-28 | 2024-05-14 | 贵州华谊联盛科技有限公司 | 一种基于多元事件分析的网络安全威胁识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110233849B (zh) | 网络安全态势分析的方法及系统 | |
US10438297B2 (en) | Anti-money laundering platform for mining and analyzing data to identify money launderers | |
CN115329770A (zh) | 基于语义分析的威胁情报提取方法和系统 | |
CN108549814A (zh) | 一种基于机器学习的sql注入检测方法、数据库安全系统 | |
Chen et al. | An anti-phishing system employing diffused information | |
Kamalloo et al. | A coherent unsupervised model for toponym resolution | |
Giasemidis et al. | A semi-supervised approach to message stance classification | |
CN111931935B (zh) | 基于One-shot 学习的网络安全知识抽取方法和装置 | |
CN110427612B (zh) | 基于多语言的实体消歧方法、装置、设备和存储介质 | |
CN117240632B (zh) | 一种基于知识图谱的攻击检测方法和系统 | |
CN113472754A (zh) | 基于网络安全大数据的安全防护配置方法及网络安全系统 | |
CN115495744A (zh) | 威胁情报分类方法、装置、电子设备及存储介质 | |
CN116015703A (zh) | 模型训练方法、攻击检测方法及相关装置 | |
CN117351334A (zh) | 图像审核方法和相关设备 | |
Razali et al. | Political security threat prediction framework using hybrid lexicon-based approach and machine learning technique | |
CN112817877B (zh) | 异常脚本检测方法、装置、计算机设备和存储介质 | |
CN113111184B (zh) | 基于显式事件结构知识增强的事件检测方法及终端设备 | |
Pevny et al. | Nested multiple instance learning in modelling of HTTP network traffic | |
CN109660621A (zh) | 一种内容推送方法及服务设备 | |
CN117668244A (zh) | 威胁情报数据的处理方法和计算机可读存储介质 | |
CN115344563B (zh) | 数据去重方法及装置、存储介质、电子设备 | |
CN113918936A (zh) | Sql注入攻击检测的方法以及装置 | |
CN115238095A (zh) | 基于知识图谱的威胁情报分析方法和系统 | |
CN117251493B (zh) | 一种基于警情地图的多源综合定位方法及装置 | |
Ali et al. | Unintended memorization and timing attacks in named entity recognition models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Xin Inventor after: Duan Kai Inventor before: Li Xin Inventor before: Hu Wenbo Inventor before: Duan Kai |