CN111709241B - 一种面向网络安全领域的命名实体识别方法 - Google Patents
一种面向网络安全领域的命名实体识别方法 Download PDFInfo
- Publication number
- CN111709241B CN111709241B CN202010464122.1A CN202010464122A CN111709241B CN 111709241 B CN111709241 B CN 111709241B CN 202010464122 A CN202010464122 A CN 202010464122A CN 111709241 B CN111709241 B CN 111709241B
- Authority
- CN
- China
- Prior art keywords
- training
- character
- text data
- network security
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 61
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 230000008520 organization Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向网络安全领域的命名实体识别方法。本发明由模型训练和样本选择两个阶段组成。第一阶段:通过预训练语言模型ALBERT训练得到包含语义信息且动态变化的初始字符向量,将其送入Bi‑LSTM+CRF的网络中训练,输出输入文本序列概率最大的标签序列。第二阶段:基于第一阶段训练得到的模型,采用主动学习和自学习相结合的方式,选择有标记价值和训练价值的网络安全文本数据进行人工和机器标记,添加至已有标记本文数据后迭代训练上述模型。本发明不仅显著提高了网络安全实体识别的准确率,而且有效缓解了网络安全领域标记语料匮乏、标记成本高等难题。
Description
技术领域
本发明涉及网络安全文本数据自然语言处理领域,具体涉及一种面向网络安全领域的命名实体识别方法。
背景技术
随着互联网技术和人工智能技术的快速发展和广泛应用,互联网上的信息量呈现出爆炸式的指数级增长,当今社会已经进入信息化和大数据时代。网络信息技术快速发展的同时,网络环境也变得日趋复杂,大量非法组织和个人利用病毒或漏洞通过互联网向多领域目标广泛、持续地发动网络攻击,以窃取相关机密信息或造成相关破坏。当前,人们生产生活对网络信息的依赖性不断增强,网络攻击事件的数量还将持续增多,影响范围也将更加广泛。
为了确保网络空间安全,政府部门、相关企业、网络安全从业人员根据网络监测系统收集得到的网络威胁信息,发布了大量的网络安全分析报告,这些报告中蕴含着难得的专家知识,但是这些知识是典型的碎片化知识,远远没有得到充分利用,这些数据需要经过分析处理,形成结构化数据才具有更强的决策支持力,而利用智能化方法对这些海量的安全分析报告进行专家知识抽取和组织是可行的数据处理方法之一。通过对异质数据中知识点的抽取和组织分析,构建符合特定需求的网络安全事件应对方案,大幅度提升安全分析报告中专家知识的可利用性,利用海量的网络安全专家知识,提升本地网络管理者的工作效率和安防能力。
现有的知识抽取方法主要分为基于规则和词典的方法、基于机器学习的方法和基于深度学习的方法。基于规则和词典的方法识别准确率较高,但是构建领域规则和词典将耗费大量人力、且适用性及迁移性差;基于机器学习的方法,由于网络安全文本数据存在大量专业词汇、中英文混合词汇、一词多义词汇及未登录词汇,人为地构建特征通用性不强且性能依赖训练样本规模;基于深度学习的方法可以实现自动特征提取,但是传统的深度神经网络不能充分地提取有效特征,同时需要大量的标记语料作为训练数据,对网络安全文本数据进行标记时需要耗费大量财力和人力,训练成本极大。
发明内容
本发明的目的在于提供一种面向网络安全领域的命名实体识别方法,以解决上述问题。
为实现上述目的,本发明采用以下技术方案:
一种面向网络安全领域的命名实体识别方法,包括以下步骤:
步骤1,根据爬虫程序,分别从漏洞信息库、安全论坛和企业应急响应中心获取相关的网络安全文本数据并存入数据库;
步骤2,使用BIO标记模式对网络安全文本数据按一定比例进行小规模标记,标记文本数据用于训练网络安全命名实体识别初始模型;其余大规模未标记文本数据用于模型的主动学习和自学习阶段;
步骤3,根据ALBERT预训练语言模型,针对一个包含了大量互不相同的中英文字符、标点符号及特殊字符的词汇表文件构建了字典映射,以句子为单位,根据字典映射将输入文本序列x=(x1,x2,…,xn)转化为输入id序列;特殊字符为[CLS]和[SEP],分别表示句子的开始和结束;
步骤4,构建网络安全命名实体识别的深度神经网络模型,模型分为字向量编码层,语义编码层,标签解码层三部分:首先利用预训练语言模型ALBERT训练得到输入文本序列中包含全局语义信息且随语境动态变化的初始字符向量;然后利用Bi-LSTM双向长短期记忆网络获取字符向量的位置信息和上下文信息;最后利用CRF条件随机场作为解码层输出输入文本序列概率最大的标签序列y*=(y1,y2,…,yn),根据标签序列得到输入文本序列包含的实体信息;
步骤5,使用BIO模式标记的文本数据训练上述模型,通过对比训练文本数据中的标签序列和模型预测得到的最大概率标签序列的差异,采用对数最大似然估计得到损失函数,利用梯度下降法,优化模型参数,使得正确的标签序列概率最大。
进一步的,步骤1中,设计爬虫程序,分别从中国国家信息安全漏洞库CNNVD、FreeBuf安全论坛、深信服安全中心爬取获得网络安全文本数据。
进一步的,步骤2中,本文主要识别的是网络安全文本数据中的漏洞编号、漏洞名称、攻击类型、组织名称、软件名称和地名6类安全实体;针对这6类安全实体,采用BIO标记模式进行标记。
进一步的,具体标记为:B-表示该字符是某一类命名实体的第一个字符,I-表示该字符是某一类命名实体的中间字符,O表示该字符不属于任何一类命名实体;上述类型的网络安全实体是一些专业词汇、中英文混合词汇或一词多义词汇,标记人员需要具备一定的网络安全领域知识。
进一步的,步骤4,具体包括以下步骤:
步骤4.1:首先将输入文本序列对应的输入id序列送入ALBERT预训练网络模型进行编码,将每个字符的id转换成对应的字符嵌入token embedding和位置嵌入positionembedding,连接两者构成字嵌入Embedding,然后将句子中所有字符对应的字嵌入Embedding构成字嵌入矩阵送入Muti-Head Attention多头注意力机制层和Feed Forward前馈神经网络层,最终输出各字符融合了全局语义信息且随语境动态变化的初始字符向量;
步骤4.2:将ALBERT预训练网络模型输出的初始字符向量送入Bi-LSTM双向长短期记忆网络,训练得到各个字符的包含序列位置信息和上下文信息的语义向量表示;
步骤4.3:将语义编码层输出的各字符的向量表示送入CRF条件随机场,学习各字符对应标签的分数,以及标签之间的转移分数,输出概率最大的标签序列作为当前训练语句的标记,根据标签序列提取出输入文本序列包含的实体信息。
进一步的,步骤2中,基于主动学习的不确定采样策略,用训练完成的模型预测大规模未标注语料的标签序列,并计算其置信度;选择置信度最小的文本数据,进行人工标记添加至标记文本数据;同时结合自学习加强模型性能,将选择置信度最大且有效的文本数据,经过机器标记添加至标记文本数据;根据主动学习和自学习的学习方式,对具有一定标记价值和训练价值的未标记文本数据进行了标记,更新标记文本数据,迭代训练上述模型直至满足相应的学习终止条件,最终得到高性能网络安全实体识别模型。
与现有技术相比,本发明有以下技术效果:
1.本发明基于深度神经网络的方法,实现高效准确地从网络安全文本数据中提取网络安全相关的实体信息,例如漏洞名称、攻击类型、组织名称等。通常网络安全文本数据中存在大量专业词汇、中英文混合词汇、一词多义词汇等,传统的神经网络模型不能充分地提取这些实体的结构特征和语义信息,导致识别效果不理想。本文通过预训练语言模型ALBERT训练得到包含语义信息且随语境动态变化的初始字符向量,将其送入Bi-LSTM+CRF的网络中训练,输出文本序列概率最大的标签序列,结果显著提高了对上述网络安全实体信息的识别准确率。该框架主要利用了预训练模型ALBERT的字嵌入功能,在此基础上fine-tuning其后面的连接参数,也就是ALBERT内部的训练参数不参与训练。
2.网络安全领域文本数据的命名实体识别属于特殊领域的命名实体识别任务,同许多其他垂直领域的命名实体识别一样,也存在标记语料匮乏、标记成本高等问题。本发明基于深度神经网络模型,采用主动学习和自学习相结合的方式,选择具有一定标记价值和训练价值的网络安全文本数据进行人工和机器标记,添加至已有标记本文数据后迭代训练模型,在保证模型性能的前提下,有效缓解了上述问题。
附图说明
图1是本发明一种面向网络安全领域的命名实体识别方法流程图。
图2是基于ALBERT+Bi-LSTM+CRF的网络安全实体识别模型示意图。
图3是注意力机制网络工作原理图。
具体实施方式
以下结合附图及实施例对本发明的实施方式进行详细说明。应当理解,所述具体实施例是为更好的解释本发明,凡基于本发明内容所实现的技术均属于本发明的范围。
参阅图1至图3,一种面向网络安全领域的命名实体识别方法,包括以下步骤:
步骤1,设计爬虫程序,分别从漏洞信息库、安全论坛和企业应急响应中心等多种信息源获取相关的网络安全文本数据并存入数据库。实施例分别从中国国家信息安全漏洞库(CNNVD)、FreeBuf安全论坛、深信服安全中心爬取获得网络安全文本数据。
步骤2,使用BIO标记模式对网络安全文本数据进行小规模标记,标记文本数据L用于训练网络安全命名实体识别初始模型;其余大规模未标记文本数据U用于模型的主动学习和自学习阶段。
其详细步骤如下:
步骤2.1:采用BIO标记模式对文本数据进行标记,具体标记为:B-表示该字符是某一类命名实体的第一个字符,I-表示该字符是某一类命名实体的中间字符,O表示该字符不属于任何一类命名实体。例如:对句子“Zlib拒绝服务漏洞,攻击者可利用该漏洞造成拒绝服务。”进行标记的结果为:Z(“B-VUL”)l(“I-VUL”)i(“I-VUL”)b(“I-VUL”)拒(“I-VUL”)绝(“I-VUL”)服(“I-VUL”)务(“I-VUL”)漏(“I-VUL”)洞(“I-VUL”),攻(“O”)击(“O”)者(“O”)可(“O”)以(“O”)利(“O”)用(“O”)该(“O”)漏(“O”)洞(“O”)造(“O”)成(“O”)拒(“B-ATT”)绝(“I-ATT”)服(“I-ATT”)务(“I-ATT”),其中VUL表示漏洞(Vulnerability)名称,ATT表示攻击(Attack)类型。标记格式为:每行两列,第一列为字符,第二列为标记,用空格隔开;句子与句子以“。”分界,用空格隔开。
步骤2.2:将标记后的小规模文本数据L按7:1:2比例划分为训练集、验证集和测试集,其中训练集用于训练模型,验证集用于调整超参数,防止训练模型过拟合,测试集用于测试模型的性能;其余大规模未标记文本数据U用于模型的主动学习和自学习阶段。
步骤3,ALBERT预训练语言模型针对一个包含了21128个互不相同的中英文字符、标点符号及特殊字符([CLS]、[SEP])的词汇表文件构建了字典映射;ALBERT是以单个字符作为输入的(本文配置最大句长128,短句做padding,长句做截断),以句子为单位,在输入文本序列x=(x1,x2,…,xn)两边分别加上开始标识[CLS]和结束标识[SEP],根据字典映射将其转化为ALBERT内部对应的输入id序列。
步骤4,构建如图2所示的网络安全命名实体识别的深度神经网络模型,模型分为字向量编码层,语义编码层,标签解码层三部分:首先利用预训练语言模型ALBERT训练得到输入文本序列中包含全局语义信息且随语境动态变化的初始字符向量;然后利用Bi-LSTM网络更好地获取字符向量的位置信息和上下文信息;最后利用CRF网络作为解码层输出输入文本序列概率最大的标签序列y*=(y1,y2,…,yn),根据标签序列可以得到输入文本序列包含的实体信息。
其详细步骤如下:
步骤4.1:首先将输入文本序列对应的输入id序列送入ALBERT预训练网络模型进行编码,将每个字符的id转换成对应的token embedding和position embedding的连接构成的Embedding,然后将句子中所有字符对应的Embedding构成字嵌入矩阵送入Muti-HeadAttention多头注意力机制层和Feed Forward前馈神经网络层,最终输出各字符融合了全局语义信息且随语境动态变化的初始字符向量。
具体计算方式如下:
图3是注意力机制网络工作原理图,假设字嵌入矩阵为E,Q=WqE,K=WkE,V=WvE,A=KTQ,其中,Q,K,V,分别代表query矩阵,key矩阵,value矩阵;Wq是query权重矩阵,Wk是key权重矩阵,Wv是value权重矩阵,O表示输出的字向量矩阵。
步骤4.2:将ALBERT预训练网络模型输出的初始字符向量送入Bi-LSTM双向长短期记忆网络,训练得到各个字符的包含序列位置信息和上下文信息的语义向量表示。LSTM的运行机制如图3所示,具体计算方式如下:
遗忘门输出向量ft=σ(Wf·[ht-1,xt]+bf),其中Wf表示遗忘门需要被训练的权重,ht-1表示前一时刻的输出,xt表示当前时刻的输入向量,σ表示Sigmoid的非线性映射,bf为遗忘门阈值;输入门输出向量it=σ(Wi·[ht-1,xt]+bi)及中间状态 Wi,bi分别代表输入门需要被训练的权重和输入门阈值;当前的细胞状态更新为输出门输出向量ht=Ot·tanh(Ct),Ot=σ(Wo·[ht-1,xt]+bo),Wo,bo分别代表输出门需要被训练的权重和输出门阈值。
步骤4.3:将语义编码层输出的各字符的向量表示送入CRF网络,学习各字符对应标签的分数hk(yk;x),以及标签之间的转移分数输出概率最大的标签序列y*=(y1,y2,…,yn)作为当前训练语句的标记,根据标签序列提取出输入文本序列包含的实体信息。
具体计算公式如下:
步骤5,使用BIO模式标记的文本数据训练上述模型,通过对比训练文本数据中的标签序列和模型预测得到的最大概率标签序列的差异,采用对数最大似然估计得到损失函数-log(P(y|x;A)),利用梯度下降法,优化模型参数,使得正确的标签序列概率最大。
一种面向网络安全领域的命名实体识别方法,其特征在于,包括以下两个阶段:
1)训练基于深度神经网络的网络安全命名实体识别模型,主要利用了预训练网络模型ALBERT的字嵌入功能生成输入文本序列中包含全局语义信息且随语境动态变化的初始字符向量,其充分提取了网络安全专业词汇、中英文混合词汇、一词多义词汇的结构特征和语义信息,将其送入Bi-LSTM+CRF的网络中训练,输出文本序列概率最大的标签序列,结果显著提高了对上述网络安全实体信息的识别准确率;
2)基于主动学习的不确定采样策略,用训练完成的模型预测大规模未标注语料的标签序列,并计算其置信度。选择置信度最小(即标记价值最大)的S条文本数据,具体公式为:进行人工标记添加至标记文本数据;同时结合自学习可以加强模型性能,由于网络安全语料会存在大量不包含任何实体信息的文本数据(即所有token的标记均为O),为避免对这些文本数据进行无效训练消耗计算资源,选择置信度最大且有效(即训练价值最大)的T条文本数据,具体公式为: β为人为设置的训练价值阈值,经过机器标记添加至标记文本数据。根据主动学习和自学习的学习方式,对具有一定标记价值和训练价值的未标记文本数据进行了标记,更新标记文本数据,迭代训练上述模型直至满足相应的学习终止条件θ(如F值变化小于0.1%),最终得到高性能网络安全实体识别模型。
Claims (5)
1.一种面向网络安全领域的命名实体识别方法,其特征在于,包括以下步骤:
步骤1,根据爬虫程序,分别从漏洞信息库、安全论坛和企业应急响应中心获取相关的网络安全文本数据并存入数据库;
步骤2,使用BIO标记模式对网络安全文本数据按一定比例进行小规模标记,标记文本数据用于训练网络安全命名实体识别初始模型;其余大规模未标记文本数据用于模型的主动学习和自学习阶段;
步骤3,根据ALBERT预训练语言模型,针对一个包含了互不相同的中英文字符、标点符
号及特殊字符的词汇表文件构建了字典映射,以句子为单位,根据字典映射将输入文本序
列x=(,,…,)转化为输入id序列;特殊字符为[CLS]和[SEP],分别表示句子的开始
和结束;
步骤4,构建网络安全命名实体识别的深度神经网络模型,模型分为字向量编码层,语
义编码层,标签解码层三部分:首先利用预训练语言模型ALBERT训练得到输入文本序列中
包含全局语义信息且随语境动态变化的初始字符向量;然后利用Bi-LSTM双向长短期记忆
网络获取字符向量的位置信息和上下文信息;最后利用CRF条件随机场作为解码层输出输
入文本序列概率最大的标签序列=(,,…,),根据标签序列得到输入文本序列包
含的实体信息;
步骤5,使用BIO模式标记的文本数据训练上述模型,通过对比训练文本数据中的标签序列和模型预测得到的最大概率标签序列的差异,采用对数最大似然估计得到损失函数,利用梯度下降法,优化模型参数,使得正确的标签序列概率最大;
步骤4,具体包括以下步骤:
步骤4.1:首先将输入文本序列对应的输入id序列送入ALBERT预训练网络模型进行编码,将每个字符的id转换成对应的字符嵌入token embedding和位置嵌入positionembedding,连接两者构成字嵌入Embedding,然后将句子中所有字符对应的字嵌入Embedding构成字嵌入矩阵送入Muti-Head Attention多头注意力机制层和Feed Forward前馈神经网络层,最终输出各字符融合了全局语义信息且随语境动态变化的初始字符向量;
步骤4.2:将ALBERT预训练网络模型输出的初始字符向量送入Bi-LSTM双向长短期记忆网络,训练得到各个字符的包含序列位置信息和上下文信息的语义向量表示;
步骤4.3:将语义编码层输出的各字符的向量表示送入CRF条件随机场,学习各字符对应标签的分数,以及标签之间的转移分数,输出概率最大的标签序列作为当前训练语句的标记,根据标签序列提取出输入文本序列包含的实体信息。
2.根据权利要求1所述的一种面向网络安全领域的命名实体识别方法,其特征在于,步骤1中,设计爬虫程序,分别从中国国家信息安全漏洞库CNNVD、FreeBuf安全论坛、深信服安全中心爬取获得网络安全文本数据。
3.根据权利要求1所述的一种面向网络安全领域的命名实体识别方法,其特征在于,步骤2中,本文主要识别的是网络安全文本数据中的漏洞编号、漏洞名称、攻击类型、组织名称、软件名称和地名6类安全实体;针对这6类安全实体,采用BIO标记模式进行标记。
4.根据权利要求3所述的一种面向网络安全领域的命名实体识别方法,其特征在于,具体标记为:B-表示该字符是某一类命名实体的第一个字符,I-表示该字符是某一类命名实体的中间字符,O表示该字符不属于任何一类命名实体;上述类型的网络安全实体是一些专业词汇、中英文混合词汇或一词多义词汇。
5.根据权利要求1所述的一种面向网络安全领域的命名实体识别方法,其特征在于,步骤2中,基于主动学习的不确定采样策略,用训练完成的模型预测大规模未标注语料的标签序列,并计算其置信度;选择置信度最小的文本数据,进行人工标记添加至标记文本数据;同时结合自学习加强模型性能,将选择置信度最大且有效的文本数据,经过机器标记添加至标记文本数据;根据主动学习和自学习的学习方式,对具有一定标记价值和训练价值的未标记文本数据进行了标记,更新标记文本数据,迭代训练上述模型直至满足相应的学习终止条件,最终得到高性能网络安全实体识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010464122.1A CN111709241B (zh) | 2020-05-27 | 2020-05-27 | 一种面向网络安全领域的命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010464122.1A CN111709241B (zh) | 2020-05-27 | 2020-05-27 | 一种面向网络安全领域的命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709241A CN111709241A (zh) | 2020-09-25 |
CN111709241B true CN111709241B (zh) | 2023-03-28 |
Family
ID=72538834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010464122.1A Active CN111709241B (zh) | 2020-05-27 | 2020-05-27 | 一种面向网络安全领域的命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709241B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215007B (zh) * | 2020-10-22 | 2022-09-23 | 上海交通大学 | 基于leam模型的机构命名实体归一化方法和系统 |
CN113807097B (zh) * | 2020-10-30 | 2024-07-26 | 北京中科凡语科技有限公司 | 命名实体识别模型建立方法及命名实体识别方法 |
CN112036185B (zh) * | 2020-11-04 | 2021-02-02 | 长沙树根互联技术有限公司 | 一种基于工业企业构建命名实体识别模型的方法及装置 |
CN112215003A (zh) * | 2020-11-09 | 2021-01-12 | 深圳市洪堡智慧餐饮科技有限公司 | 一种基于albert预训练模型和kmean算法的评论标签提取的方法 |
CN112417881A (zh) * | 2020-12-17 | 2021-02-26 | 江苏满运物流信息有限公司 | 物流信息识别方法、装置、电子设备、存储介质 |
CN112966510A (zh) * | 2021-02-05 | 2021-06-15 | 武汉工程大学 | 一种基于albert的武器装备实体抽取方法、系统及存储介质 |
CN113076543B (zh) * | 2021-03-22 | 2022-02-08 | 四川大学 | 一种针对社交网络中漏洞利用知识库的构建方法 |
CN112989832B (zh) * | 2021-03-29 | 2023-04-28 | 华南理工大学 | 一种应用在网络安全领域的实体链接方法 |
CN112989831B (zh) * | 2021-03-29 | 2023-04-28 | 华南理工大学 | 一种应用在网络安全领域的实体抽取方法 |
CN113190643B (zh) * | 2021-04-13 | 2023-02-03 | 安阳师范学院 | 信息生成方法、终端设备和计算机可读介质 |
CN113139050B (zh) * | 2021-05-10 | 2022-07-19 | 桂林电子科技大学 | 基于命名实体识别附加标签和先验知识的文本摘要生成方法 |
CN113128232B (zh) * | 2021-05-11 | 2022-06-21 | 济南大学 | 一种基于albert与多重词信息嵌入的命名实体识别方法 |
CN113673247A (zh) * | 2021-05-13 | 2021-11-19 | 江苏曼荼罗软件股份有限公司 | 基于深度学习的实体识别方法、装置、介质及电子设备 |
CN113254615A (zh) * | 2021-05-31 | 2021-08-13 | 中国移动通信集团陕西有限公司 | 文本处理方法、装置、设备及介质 |
CN113268576B (zh) * | 2021-06-02 | 2024-03-08 | 北京汇声汇语科技有限公司 | 一种基于深度学习的部门语义信息抽取的方法及装置 |
CN113205817B (zh) * | 2021-07-06 | 2021-12-07 | 明品云(北京)数据科技有限公司 | 语音语义识别方法、系统、设备及介质 |
CN113434895B (zh) * | 2021-08-27 | 2021-11-23 | 平安科技(深圳)有限公司 | 文本解密方法、装置、设备及存储介质 |
CN113449528B (zh) * | 2021-08-30 | 2021-11-30 | 企查查科技有限公司 | 一种地址要素提取方法、装置、计算机设备和存储介质 |
CN113836926A (zh) * | 2021-09-27 | 2021-12-24 | 北京林业大学 | 电子病历命名实体识别方法、电子设备及存储介质 |
CN113836919A (zh) * | 2021-09-30 | 2021-12-24 | 中国建筑第七工程局有限公司 | 一种基于迁移学习的建筑行业文本纠错方法 |
CN113886529B (zh) * | 2021-10-22 | 2022-12-02 | 苏州空天信息研究院 | 一种面向网络安全领域的信息抽取方法及其系统 |
CN114036948B (zh) * | 2021-10-26 | 2024-05-31 | 天津大学 | 一种基于不确定性量化的命名实体识别方法 |
CN113919358A (zh) * | 2021-11-03 | 2022-01-11 | 厦门市美亚柏科信息股份有限公司 | 一种基于主动学习的命名实体识别方法和系统 |
CN113988054B (zh) * | 2021-11-04 | 2024-07-16 | 中国矿业大学 | 一种面向煤矿安全领域的实体识别方法 |
CN114564959B (zh) * | 2022-01-14 | 2024-07-05 | 北京交通大学 | 中文临床表型细粒度命名实体识别方法及系统 |
CN115587594B (zh) * | 2022-09-20 | 2023-06-30 | 广东财经大学 | 网络安全的非结构化文本数据抽取模型训练方法及系统 |
CN117034942B (zh) * | 2023-10-07 | 2024-01-09 | 之江实验室 | 一种命名实体识别方法、装置、设备及可读存储介质 |
CN118364822A (zh) * | 2024-06-17 | 2024-07-19 | 中国电子科技集团公司第十五研究所 | 一种基于原型网络的嵌套命名实体识别方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN110826335A (zh) * | 2019-11-14 | 2020-02-21 | 北京明略软件系统有限公司 | 一种命名实体识别的方法和装置 |
-
2020
- 2020-05-27 CN CN202010464122.1A patent/CN111709241B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN110826335A (zh) * | 2019-11-14 | 2020-02-21 | 北京明略软件系统有限公司 | 一种命名实体识别的方法和装置 |
Non-Patent Citations (2)
Title |
---|
基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究;吴俊等;《情报学报》;20200424(第04期);全文 * |
基于BERT的中文电子病历命名实体识别;李灵芳等;《内蒙古科技大学学报》;20200315(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111709241A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709241B (zh) | 一种面向网络安全领域的命名实体识别方法 | |
CN109902145B (zh) | 一种基于注意力机制的实体关系联合抽取方法和系统 | |
US20230031738A1 (en) | Taxpayer industry classification method based on label-noise learning | |
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN113705218B (zh) | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 | |
CN115587594B (zh) | 网络安全的非结构化文本数据抽取模型训练方法及系统 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN113535959B (zh) | 面向基层治理的事件自动分拨方法 | |
CN109918647A (zh) | 一种安全领域命名实体识别方法及神经网络模型 | |
CN111368542A (zh) | 一种基于递归神经网络的文本语言关联抽取方法和系统 | |
CN111709225B (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN112559723A (zh) | 一种基于深度学习的faq检索式问答构建方法及系统 | |
CN115718792A (zh) | 一种基于自然语义处理和深度学习的敏感信息提取方法 | |
CN113869054B (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN112084783B (zh) | 基于民航不文明旅客的实体识别方法及系统 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN117725999A (zh) | 一种基于提示学习和外部知识嵌入的关系抽取方法 | |
CN116362246A (zh) | 一种面向多源威胁情报的实体识别及关系抽取方法 | |
Ren et al. | Named-entity recognition method of key population information based on improved BiLSTM-CRF model | |
CN115906846A (zh) | 一种基于双图的层次特征融合的文档级命名实体识别方法 | |
CN115759081A (zh) | 一种基于短语相似度的攻击模式抽取方法 | |
CN111191455A (zh) | 一种交通事故损害赔偿中法律条文预测方法 | |
CN113919351A (zh) | 基于迁移学习的网络安全命名实体和关系联合抽取方法及装置 | |
CN113076741A (zh) | 一种基于多语言文本数据分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |