CN116611436A - 一种基于威胁情报的网络安全命名实体识别方法 - Google Patents
一种基于威胁情报的网络安全命名实体识别方法 Download PDFInfo
- Publication number
- CN116611436A CN116611436A CN202310416035.2A CN202310416035A CN116611436A CN 116611436 A CN116611436 A CN 116611436A CN 202310416035 A CN202310416035 A CN 202310416035A CN 116611436 A CN116611436 A CN 116611436A
- Authority
- CN
- China
- Prior art keywords
- network
- network security
- model
- security
- named entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 12
- 230000008520 organization Effects 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 8
- 238000013528 artificial neural network Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 231100000279 safety data Toxicity 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于威胁情报的网络安全命名实体识别方法,基于深度神经网络,采用如下技术方案:(a)使用BERT大规模预训练模型对文本进行向量表示。由于预训练模型包含了从大规模语料库中学习到的上下文信息,可以极大丰富模型对威胁情报文本的语义表达。(b)融合多个句法信息,如词性、语法成分、依赖关系等。添加新特征,增强模型对标签的推理能力,缓解OOV(Out of Vocabulary)问题。(c)添加全局注意力机制层,增强模型对远距离特征的获取能力,缓解实体稀疏问题。
Description
技术领域
本发明涉及网络安全的技术领域,具体涉及一种基于威胁情报的网络安全命名实体识别方法。
背景技术
随着5G、云计算、物联网等新一代信息技术的飞速发展,网络空间的攻击面不断拓展延伸,网络安全问题空前严峻,新型攻击行为层出不穷,呈现出复杂多样性、长期持续性、高隐蔽性的特点。传统的被动式网络安全防御手段,已难以应对系统性大规模复杂多变的网络攻击。现如今大数据、人工智能等技术兴起,运用网络安全知识图谱技术,可将专家知识与海量安全数据相结合,模拟专家思维进行威胁分析,推理发现漏洞,制定最佳防御策略,全面提升网络安全风险防范的准确性、预见性及对威胁攻击的反制速度。网络安全知识图谱构建技术主要有安全实体识别和关系抽取等,其中安全实体识别技术是其构建的重中之重。
网络安全实体识别是自然语言处理中特定领域的序列标注问题,主要任务是从海量半结构化、非结构化安全数据中抽取预定义类别的实体,例如黑客组织、安全团队、样本文件、漏洞等类型安全实体。目的是对海量多源异构安全数据进行细粒度的深度关联分析和挖掘,对安全领域内专业词汇进行确认和分类。
网络安全实体识别技术相较于通用领域内的实体识别技术,由于关注的实体类别不同,存在以下难点:(a)安全实体类型且多变化频率高,不断涌现新实体导致未登录词(Out of Vocabulary,OOV)问题。(b)安全实体结构复杂,存在大量嵌套、别名、缩略词等多意现象,没有严格的命名规则。(c)威胁情报通常单句较长,句子中实体稀疏,邻近实体标签间的特征不足,更加依赖于远距离特征的获取。
发明内容
本发明的发明内容在于设计出一种基于结构化威胁情报共享标准2.0(STIX 2.0)的网络安全知识本体,提出一种基于威胁情报的网络安全命名实体识别模型。该模型基于深度神经网络,采用如下技术方案:(a)使用BERT大规模预训练模型对文本进行向量表示。由于预训练模型包含了从大规模语料库中学习到的上下文信息,可以极大丰富模型对威胁情报文本的语义表达。(b)融合多个句法信息,如词性、语法成分、依赖关系等。添加新特征,增强模型对标签的推理能力,缓解OOV(Out of Vocabulary)问题。(c)添加全局注意力机制层,增强模型对远距离特征的获取能力,缓解实体稀疏问题。
本发明提出一种基于威胁情报的网络安全命名实体识别方法,包括以下步骤:
S1:构建网络安全知识本体模型,确定所抽取实体类型;
S2:构建网络安全命名实体识别模型的嵌入表示层;
S3:构建网络安全命名实体识别模型的序列建模层;
S4:构建网络安全命名实体识别模型的标签解码层;
S5:使用DNRTI数据集训练模型;
S6:将海量网络威胁情报输入模型。
优选的,所述S1中,基于MITRE公司制定的结构化威胁情报共享标准STIX 2.0,手工构建安全知识本体,依据所构建安全知识本体,确定抽取以下13类安全实体:黑客组织、攻击、样本文件、安全团队、工具、时间、目的、区域、行业、组织、方式、漏洞和特征。
优选的,所述S2中,将威胁情报以句子为单位进行切分,得到句子序列,将每一个句子序列作为BERT模型的输入进行编码;随后通过使用Stanford CoreNLP工具包,获取输入序列X中每一个xn所对应的词性标签、语法树、依赖项词和依赖关系标签,其中xn为中间词。
更优的,通过KVMN网络对所述xn的每一种句法信息编码后,将三种句法信息合并为一个整体,利用如下公式:
其中,是KVMN网络的输出,c表示每种类型的句法信息,i表示上下文特征数量,sn是/>汇总的结果。将此汇总结果与初始词向量拼接,即得到蕴含多种句法信息的最终词向量表示。
优选的,所述S3中,首先经过Bi-LSTM网络进行特征提取,提升上下文词的重要性,得到Bi-LSTM网络输出hn。再经过GAM网络进行特征提取,提升关键词的重要性,得到GAM网络输出zn。
优选的,所述S4中,经过条件随机场CRF网络,考虑相邻标签关系,对当前位置分别计算13类实体标签的概率,将概率最大的标签序列作为最佳预测结果。
优选的,所述S5中,使用BIOES标注法对DNRTI数据集进行重新标注,输入至网络安全命名实体识别模型进行100次训练,选取最佳效果时的参数设定,得到最佳网络安全命名实体识别模型。
优选的,所述S6中,将海量网络威胁情报以句子为单位进行切分,输入网络安全命名实体识别模型。
本发明与现有技术相比,还存在以下优点:
本发明提出一种融合多句法信息的BERT-BiLSTM-GAM-CRF模型。该模型针对网络安全领域实体识别技术现存难点而设计。使用添加多句法信息的方式,显著增强模型对网络安全类实体标签的推理能力,有效的缓解了未登录词问题。使用添加全局自注意力机制的方式,显著增强模型应对威胁情报中常有的长句标签推理能力。在网络安全领域,相较于传统基于神经网络的实体识别模型,本发明的识别效果具有显著优越性。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明一种基于威胁情报的网络安全命名实体识别方法的实现流程图;
图2是本发明网络安全知识本体模型结构图;
图3是本发明LSTM单元详细信息示意图。
具体实施方式
以下结合具体实施例对一种基于威胁情报的网络安全命名实体识别方法作进一步的详细描述,这些实施例只用于比较和解释的目的,本发明不限定于这些实施例中。
本发明的算法流程如图1所示;一种基于威胁情报的网络安全命名实体识别方法,具体步骤包括:
S1:构建网络安全知识本体模型,确定所抽取实体类型;
S2:构建网络安全命名实体识别模型的嵌入表示层;
S3:构建网络安全命名实体识别模型的序列建模层;
S4:构建网络安全命名实体识别模型的标签解码层;
S5:使用DNRTI数据集训练模型;
S6:将海量网络威胁情报输入模型。
优选的,所述S1中,基于MITRE公司制定的结构化威胁情报共享标准STIX 2.0,手工构建安全知识本体,依据所构建安全知识本体,确定抽取以下13类安全实体:黑客组织、攻击、样本文件、安全团队、工具、时间、目的、区域、行业、组织、方式、漏洞和特征。
首先考虑到安全知识共享问题,构建网络安全领域知识本体,以确定所抽取安全实体类型。构建网络安全知识本体要求对领域内知识的全覆盖,且冗余较少。故基于MITRE公司制定的结构化威胁情报共享标准2.0(STIX 2.0),手工构建安全知识本体。知识本体具体如图2所示。
优选的,所述S2中,将威胁情报以句子为单位进行切分,得到句子序列,将每一个句子序列作为BERT模型的输入进行编码;随后通过使用Stanford CoreNLP工具包,获取输入序列X中每一个xn所对应的词性标签、语法树、依赖项词和依赖关系标签,其中xn为中间词。
更优的,通过KVMN网络对所述xn的每一种句法信息编码后,将三种句法信息合并为一个整体,利用如下公式:
其中,是KVMN网络的输出,c表示每种类型的句法信息,i表示上下文特征数量,sn是/>汇总的结果。将此汇总结果与初始词向量拼接,即得到蕴含多种句法信息的最终词向量表示。
嵌入表示层是基于深度学习命名实体识别模型的第一步,目的是将输入的威胁情报文本信息转换为计算机可识别的词向量,同时向量中蕴含多种句法信息以增强模型对语义的表达,缓解OOV问题。据图步骤如下:
步骤2.1、首先将威胁情报以句子为单位进行切分,得到句子序列X=x1,x2,...,xn,将每一个句子序列作为BERT大规模预训练模型的输入进行编码。在BERT模型中具体流程为:每一个xn转换成对应的向量表示,该向量由token embedding和position embedding组成。下一步,向量被送入transformer模型中与其他向量进行交互,以获取更多的上下文信息。而交互过程则由多头注意力机制实现。同时每个向量还会通过前反馈神经网络,进一步提取特征。最后,对transformer模型的输出向量进行平均池化,最终得到融合了上下文语义信息且随语境动态变化的初始词向量mn。
步骤2.2、获取词性标签编码。通过使用Stanford CoreNLP工具包,获取输入序列X中每一个xn所对应的词性标签。首先,将每一个xn定为中间词,使用±1个词的窗口获取中心词的前后词及其词性标签。选择中心词和前后词作为上下文信息,其词性标签作为句法信息。将上下文信息和句法信息输入键-值记忆神经网络(key-value memory network,KVMN),以键-值对形式进行编码。
KVMN网络中具体流程为:对于输入的每一个xn,首先将其上下文信息和句法信息分别映射到KVMN网络中的键和值,表示为和/>其中c表示每种类型的句法信息,i表示上下文特征数量。然后使用两个矩阵将K和V嵌入,分别用/>和/>表示。接下来,对每一个xn的三种句法信息设置权重,利用如下公式:
其中,mn是融合了上下文语义信息的初始词向量。最后,将权重应用于相应的句法信息/>利用如下公式:
其中,是KVMN网络的输出。
步骤2.3、获取语法成分标签编码。通过使用Stanford CoreNLP工具包,获取每一个输入序列X所对应的语法树。以每一个xn作为语法树的子叶,通过语法树向上搜索,找到第一个语法节点。选择该节点下所有词作为上下文信息,其语法成分标签作为句法信息。将上下文信息和句法信息输入KVMN网络,以键-值对形式进行编码。KVMN网络中具体流程同步骤2.2。
步骤2.4、获取依赖关系标签编码。通过使用Stanford CoreNLP工具包,获取输入序列X中每一个xn所对应的依赖项词和依赖关系标签。选择当前词xn和依赖项词作为上下文信息,其依赖关系标签作为句法信息。将上下文信息和句法信息输入KVMN网络,以键-值对形式进行编码。KVMN网络中具体流程同步骤2.2。
步骤2.5、融合多种句法信息编码,获得最终词向量。通过KVMN网络对每一种句法信息编码后,将三种句法信息合并为一个整体,利用如下公式:
其中,sn是汇总的结果。将此汇总结果与初始词向量拼接,即得到蕴含多种句法信息的最终词向量表示。
优选的,所述S3中,首先经过Bi-LSTM网络进行特征提取,提升上下文词的重要性,得到Bi-LSTM网络输出hn。再经过GAM网络进行特征提取,提升关键词的重要性,得到GAM网络输出zn。
序列建模层的目的为利用深度神经网络对输入序列进行建模及特征提取。具体步骤如下:
步骤3.1、经过Bi-LSTM网络进行特征提取。Bi-LSTM网络根据RNN模型改进而来,能有效解决梯度爆炸或梯度消失的问题,且能同时处理上下文信息。Bi-LSTM网络将前向LSTM模型与反向LSTM模型的两个隐藏层输出拼接,生成全局向量hn。LSTM单元结构包含三个门机制:输入、遗忘和输出。LSTM单元具体如图3所示。LSTM模型中隐藏层输出定义如下:
ht=ot⊙tanh(ct)
其中,W1、W2、b1是连接隐藏层的可训练变量,σ是sigmoid激活函数,xt是句子序列X中第n个序列的最终词向量表示(其中n=t),ft、it、ot分别是第t个序列时的输入门、遗忘门、输出门,ct是第t个序列时LSTM单元的内部记忆状态,⊙是点乘运算,~是归一化,ht是LSTM单元对第n个序列的输出。最终Bi-LSTM网络的输出为:
其中,是前向LSTM模型的输出,/>是反向LSTM模型的输出,hn是Bi-LSTM网络最终输出。
步骤3.2、经过GAM(Global self-attention)网络进行特征提取。GAM是全局自注意力机制,核心思想是在特定时间关注更有效的信息,同时忽略其他不重要因素。句子中任意两个字符的依赖关系可以通过全局注意力机制获取,GAM网络与Bi-LSTM网络相结合可以显著增强重要词的作用。
在GAM网络中具体流程为:首先,将Bi-LSTM模型的输出hn通过全连接层转化为un,利用如下公式:
un=tanh(W3hn+b3)
其中,W3是可训练的权重矩阵,b3是注意力机制的可训练偏差向量。下一步,计算un与上下文向量ut的相关性,通过Softmax函数得到归一化权重αn,利用如下公式:
其中,ut是通过随机初始化和训练获得的对应词对当前句子的贡献。最后,每个词得到的hn乘以对应的注意力权重αn得到整个序列的全局特征向量S,利用如下公式:
将全局特征向量S与目标词向量hn组合成向量[S;hn],通过tanh函数增加神经网络的非线性。计算GAM网络输出zn,利用如下公式:
zn=tanh(W[S;hn])
优选的,所述S4中,经过条件随机场CRF网络,考虑相邻标签关系,对当前位置分别计算13类实体标签的概率,将概率最大的标签序列作为最佳预测结果。
其中,CRF网络中具体流程为:给句子两端添加一个起始状态和终止状态,用一个(K+2)*(K+2)的矩阵A表示CRF层。从第i个标签转移到第j个标签的转移分数为Aij。如标签序列y的长度等于句子长度,则网络对句子x的标签打分等于y,利用如下公式:
其中,P是得分矩阵,由BiLSTM-GAM模型计算得到,P的大小为n*k,n和k分别表示词和标签总数,Pij是第j个词对应的第i个标签的得分,Aij是标签i转移到标签j的转移分数矩阵。整个序列的得分等于每个位置得分的总和。归一化概率P(y|x),利用如下公式:
其中,y是真实标签值,是预测标签值,Yx是所有可能标签的集合。计算正确标签的最大似然概率,利用如下公式:
最后,使用维特比算法得到所有序列中预测准确率最高的序列,作为最终实体识别的标注结果。计算最佳句子级标签序列,利用如下公式:
优选的,所述S5中,使用BIOES标注法对DNRTI数据集进行重新标注,输入至网络安全命名实体识别模型进行100次训练,选取最佳效果时的参数设定,得到最佳网络安全命名实体识别模型。
其中DNRTI数据集是基于同样STIX 2.0标准标注的大规模威胁情报实体识别数据集。该数据集定义了13种不同类别实体,包含175220个词,36412个实体。
BIOES标注法具体为:B-begin,代表实体的开头。I-inside,代表实体的中间。O-outside,代表非实体。E-end,代表实体的结尾。S-single,代表单字符实体。
优选的,所述S6中,将海量网络威胁情报以句子为单位进行切分,输入网络安全命名实体识别模型。
将海量网络威胁情报以句子为单位进行切分,输入网络安全命名实体识别模型以得到威胁情报中与网络安全相关的13类实体及其实体类型标签。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (8)
1.一种基于威胁情报的网络安全命名实体识别方法,其特征在于,包括:
S1:构建网络安全知识本体模型,确定所抽取实体类型;
S2:构建网络安全命名实体识别模型的嵌入表示层;
S3:构建网络安全命名实体识别模型的序列建模层;
S4:构建网络安全命名实体识别模型的标签解码层;
S5:使用DNRTI数据集训练模型;
S6:将海量网络威胁情报输入模型。
2.根据权利要求1所述的一种基于威胁情报的网络安全命名实体识别方法,其特征在于,所述S1中,基于MITRE公司制定的结构化威胁情报共享标准STIX 2.0,手工构建安全知识本体,依据所构建安全知识本体,确定抽取以下13类安全实体:黑客组织、攻击、样本文件、安全团队、工具、时间、目的、区域、行业、组织、方式、漏洞和特征。
3.根据权利要求1所述的一种基于威胁情报的网络安全命名实体识别方法,其特征在于,所述S2中,将威胁情报以句子为单位进行切分,得到句子序列,将每一个句子序列作为BERT模型的输入进行编码;随后通过使用Stanford CoreNLP工具包,获取输入序列X中每一个xn所对应的词性标签、语法树、依赖项词和依赖关系标签,其中xn为中间词。
4.根据权利要求3所述的一种基于威胁情报的网络安全命名实体识别方法,其特征在于,所述S2中,通过KVMN网络对所述xn的每一种句法信息编码后,将三种句法信息合并为一个整体,利用如下公式:
其中,是KVMN网络的输出,c表示每种类型的句法信息,i表示上下文特征数量,sn是/>汇总的结果。将此汇总结果与初始词向量拼接,即得到蕴含多种句法信息的最终词向量表示。
5.根据权利要求1所述的一种基于威胁情报的网络安全命名实体识别方法,其特征在于,所述S3中,首先经过Bi-LSTM网络进行特征提取,提升上下文词的重要性,得到Bi-LSTM网络输出hn。再经过GAM网络进行特征提取,提升关键词的重要性,得到GAM网络输出zn。
6.根据权利要求1所述的一种基于威胁情报的网络安全命名实体识别方法,其特征在于,所述S4中,经过条件随机场CRF网络,考虑相邻标签关系,对当前位置分别计算13类实体标签的概率,将概率最大的标签序列作为最佳预测结果。
7.根据权利要求1所述的一种基于威胁情报的网络安全命名实体识别方法,其特征在于,所述S5中,使用BIOES标注法对DNRTI数据集进行重新标注,输入至网络安全命名实体识别模型进行100次训练,选取最佳效果时的参数设定,得到最佳网络安全命名实体识别模型。
8.根据权利要求1所述的一种基于威胁情报的网络安全命名实体识别方法,其特征在于,所述S6中,将海量网络威胁情报以句子为单位进行切分,输入网络安全命名实体识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310416035.2A CN116611436B (zh) | 2023-04-18 | 2023-04-18 | 一种基于威胁情报的网络安全命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310416035.2A CN116611436B (zh) | 2023-04-18 | 2023-04-18 | 一种基于威胁情报的网络安全命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116611436A true CN116611436A (zh) | 2023-08-18 |
CN116611436B CN116611436B (zh) | 2024-07-09 |
Family
ID=87673680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310416035.2A Active CN116611436B (zh) | 2023-04-18 | 2023-04-18 | 一种基于威胁情报的网络安全命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116611436B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117669593A (zh) * | 2024-01-31 | 2024-03-08 | 山东省计算中心(国家超级计算济南中心) | 基于等价语义的零样本关系抽取方法、系统、设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541356A (zh) * | 2020-12-21 | 2021-03-23 | 山东师范大学 | 一种生物医学命名实体识别的方法和系统 |
CN112733541A (zh) * | 2021-01-06 | 2021-04-30 | 重庆邮电大学 | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 |
CN112926327A (zh) * | 2021-03-02 | 2021-06-08 | 首都师范大学 | 一种实体识别方法、装置、设备及存储介质 |
CN113919351A (zh) * | 2021-09-29 | 2022-01-11 | 中国科学院软件研究所 | 基于迁移学习的网络安全命名实体和关系联合抽取方法及装置 |
CN114330322A (zh) * | 2022-01-05 | 2022-04-12 | 北京邮电大学 | 一种基于深度学习的威胁情报信息抽取方法 |
US20220197923A1 (en) * | 2020-12-23 | 2022-06-23 | Electronics And Telecommunications Research Institute | Apparatus and method for building big data on unstructured cyber threat information and method for analyzing unstructured cyber threat information |
CN115759092A (zh) * | 2022-10-13 | 2023-03-07 | 中国民航大学 | 一种基于albert的网络威胁情报命名实体识别方法 |
CN115796147A (zh) * | 2022-12-07 | 2023-03-14 | 中科大数据研究院 | 一种应用于网络安全威胁情报的情报关联度计算方法 |
-
2023
- 2023-04-18 CN CN202310416035.2A patent/CN116611436B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541356A (zh) * | 2020-12-21 | 2021-03-23 | 山东师范大学 | 一种生物医学命名实体识别的方法和系统 |
US20220197923A1 (en) * | 2020-12-23 | 2022-06-23 | Electronics And Telecommunications Research Institute | Apparatus and method for building big data on unstructured cyber threat information and method for analyzing unstructured cyber threat information |
CN112733541A (zh) * | 2021-01-06 | 2021-04-30 | 重庆邮电大学 | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 |
CN112926327A (zh) * | 2021-03-02 | 2021-06-08 | 首都师范大学 | 一种实体识别方法、装置、设备及存储介质 |
CN113919351A (zh) * | 2021-09-29 | 2022-01-11 | 中国科学院软件研究所 | 基于迁移学习的网络安全命名实体和关系联合抽取方法及装置 |
CN114330322A (zh) * | 2022-01-05 | 2022-04-12 | 北京邮电大学 | 一种基于深度学习的威胁情报信息抽取方法 |
CN115759092A (zh) * | 2022-10-13 | 2023-03-07 | 中国民航大学 | 一种基于albert的网络威胁情报命名实体识别方法 |
CN115796147A (zh) * | 2022-12-07 | 2023-03-14 | 中科大数据研究院 | 一种应用于网络安全威胁情报的情报关联度计算方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117669593A (zh) * | 2024-01-31 | 2024-03-08 | 山东省计算中心(国家超级计算济南中心) | 基于等价语义的零样本关系抽取方法、系统、设备及介质 |
CN117669593B (zh) * | 2024-01-31 | 2024-04-26 | 山东省计算中心(国家超级计算济南中心) | 基于等价语义的零样本关系抽取方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116611436B (zh) | 2024-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | A FOFE-based local detection approach for named entity recognition and mention detection | |
US9830315B1 (en) | Sequence-based structured prediction for semantic parsing | |
Yao et al. | Bi-directional LSTM recurrent neural network for Chinese word segmentation | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
US7035789B2 (en) | Supervised automatic text generation based on word classes for language modeling | |
CN111767718B (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
CN110210032A (zh) | 文本处理方法及装置 | |
CN110297889B (zh) | 一种基于特征融合的企业情感倾向分析方法 | |
CN112784576B (zh) | 一种文本依存句法分析方法 | |
CN111753088A (zh) | 一种自然语言信息的处理方法 | |
CN117291265B (zh) | 一种基于文本大数据的知识图谱构建方法 | |
CN116611436B (zh) | 一种基于威胁情报的网络安全命名实体识别方法 | |
CN117033423A (zh) | 一种注入最优模式项和历史交互信息的sql生成方法 | |
CN115329088A (zh) | 图神经网络事件检测模型的鲁棒性分析方法 | |
CN116384371A (zh) | 一种基于bert和依存句法联合实体及关系抽取方法 | |
Zhou | Natural language processing with improved deep learning neural networks | |
Dong et al. | Relational distance and document-level contrastive pre-training based relation extraction model | |
CN117094325B (zh) | 水稻病虫害领域命名实体识别方法 | |
Gao et al. | Chinese causal event extraction using causality‐associated graph neural network | |
Nguyen et al. | Neural sequence labeling for Vietnamese POS tagging and NER | |
Chilukuri et al. | A Novel Model for Prediction of Next Word using Machine Learning | |
Benkov | Neural Machine Translation as a Novel Approach to Machine Translation | |
CN113361277A (zh) | 基于注意力机制的医学命名实体识别建模方法 | |
Anh et al. | Neural sequence labeling for Vietnamese POS Tagging and NER |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |