CN113988075A - 基于多任务学习的网络安全领域文本数据实体关系抽取法 - Google Patents
基于多任务学习的网络安全领域文本数据实体关系抽取法 Download PDFInfo
- Publication number
- CN113988075A CN113988075A CN202111264565.7A CN202111264565A CN113988075A CN 113988075 A CN113988075 A CN 113988075A CN 202111264565 A CN202111264565 A CN 202111264565A CN 113988075 A CN113988075 A CN 113988075A
- Authority
- CN
- China
- Prior art keywords
- entity
- vector
- relation
- data
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims description 16
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000011161 development Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 99
- 239000011159 matrix material Substances 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 24
- 230000004913 activation Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000009193 crawling Effects 0.000 claims description 9
- 230000018109 developmental process Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012552 review Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 3
- 230000008520 organization Effects 0.000 abstract description 3
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000013519 translation Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 239000000126 substance Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于多任务学习的网络安全领域文本数据实体关系抽取法,该方法解决了原始文本中目标实体之间的关系分类问题,相当程度上解决了大规模互联网数据中结构组织松散、异质多元的缺陷。实体关系是构建复杂知识库系统的重要步骤,比如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。这一技术已经成为自然语言处理、机器智能学习、大数据挖掘等技术发展的关键因素,同时也意味着这一技术关系着我国未来的工业和信息化发展,具有非常广阔的应用前景。
Description
技术领域
本发明涉及人工智能安全的自然语言处理技术领域,更具体地,涉及一种基于多任务学习的网络安全领域文本数据实体关系抽取法。
背景技术
实体关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系,这作为信息检索、信息抽取、自然语言理解等领域的核心任务,一直是自然语言处理领域的热门方向。经过广大中外学者的多年探索研究,取得较为丰富的研究成果。从最初传统的基于规则和词典驱动方法,发展到基于传统的机器学习方法。近些年,随着深度学习的崛起,学者们将Bi-LSTM、GCN等深度学习方法应用到实体关系抽取任务中,使得任务的精准度得到极大的提升。近年来,注意力机制以及预训练模型的引入,不仅了提高模型精准度,而且使得模型的训练效率也得到了极大的提升。
目前已有解决方法技术:
医学实体关系抽取方法、装置、计算机设备及可读存储介质(2019103304707),该方法采用模型对数据进行医学命名实体识别;并基于实体识别结果进行实体关系抽取,获取带有实体关系的实体对基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据,解决了现有技术中人工提取医学实体关系费时费力且效率较低的问题。但是该方法不能够很好的利用数据集上下文关系,也没有解决小部分实体缺失的问题。
一种针对化工领域的文本实体关系抽取方法(2020109787338),该方法公开了一种针对化工领域的文本实体关系抽取方法。通过网络爬虫和众包技术采集到相应数据集,并通过相应关系获取更合理、全面、高精准的一种针对化工领域的文本实体关系抽取方法。但是模型训练的数据集偏小,个别特征出现的次数过少,对这类特征的学习存在不足。
基于注意力机制神经网络的药物实体关系抽取方法及系统(2018115105663),该方法涉及一种基于注意力机制神经网络的药物实体关系抽取方法及系统。该发明增加注意力机制关注实体类别信息权重的分类方法,能够降低长句中错误的依存分析结果带来的影响,提高药化实体关系抽取准确率。但是最大的问题在于需要很多空间资源,而且每轮训练的耗时较长。
一种利用依存分析的开放式中文实体关系抽取方法(2015103213396),该发明公开了一种利用依存分析的开放式中文实体关系抽取方法,该方法首先对句子进行依存分析,再结合中文语法启发式规则和依存分析的结果抽取关系词语,然后根据距离确定命名实体位置,最后进行三元组输出。在SogouCA和SogouCS语料库上进行实验,结果表明该发明适用于大规模语料库,具有良好的可移植性。该发明从根本上克服了汉语语法复杂,表达方式多样,语义丰富等固有性质的限制。但是该模型训练过程较为繁琐和复杂的,并且准确率不够高。
一种基于人机交互的远程监督实体关系抽取方法(2018113966422),该发明公开了一种基于人机交互的远程监督实体关系抽取方法,其特点是将众包技术加入到关系抽取任务的模型训练中,根据模型的反馈及时调整众包策略得到新的数据并投入模型,直到所有数据清洗完毕或模型性能不再提升。该发明与现有技术相比具有众包结果质量高,众包成本低的优点,无需依赖专家进行标注可多工作者并行处理,较好的解决了远程监督实体间关系抽取中噪音数据降低模型性能的问题。但是它们需要消耗更多的计算资源,成本是很大的。
发明内容
本发明提供一种基于多任务学习的网络安全领域文本数据实体关系抽取法,该方法解决了大规模互联网数据中结构组织松散、异质多元的缺陷。
为了达到上述技术效果,本发明的技术方案如下:
一种基于多任务学习的网络安全领域文本数据实体关系抽取法,包括以下步骤:
S1:对收集到的网络安全文本数据进行清洗,并完成标注;
S2:利用网络安全文本领域相关的大规模无标注语料对语言模型ERNIE进行预训练;
S3:利用ERNIE对句子S={s1,s2…sn}进行编码,并输出固定维数的词向量W={w1,w2…wn};
S4:将ERNIE输出的词向量W={w1,w2…wn}作为输入,预测可能存在于句子中的关系集合R;
S5:将步骤S2输出的词向量W与步骤S3关系集合R进行拼接,再分别利用Bi-GRU捕获前后文能有效提高模型准确率的隐藏信息,输出包含隐藏信息的序列H={h1,h2…hn};
S6:通过指针网络识别出句子中的实体集合E,利用全局矩阵将实体与关系进行配对,完成实体关系三元组解码;
S7:重复步骤S2-S6步骤进行多次训练,直至效果达到最优。
进一步地,所述步骤S1中收集到网络安全文本数据的过程是:
S11:首先通过爬虫对中国互联网信息办公室等互联网网站进行定向爬取,爬取的模块有治理监管、预警通报、网络安全审查等一级网址,然后在一级网址的基础上进行二级网址的爬取,直至该二级网址下的所有数据文本;然后收集涉及网络安全的填报数据、整个网络安全行业数据和产业发展报告;
S12:对收集的网络安全文本进行文本分句处理,以句号、问号、感叹号、省略号为标记进行句子切分,得到句子级别的文本数据,既存储方式为一个句子占一行的位置,之后再对句子级别的文本数据进行去重和过滤,将与网络安全无关的数据删去,从而实现对数据的清洗;
S13:对数据进行清洗后,采用“BIO”方案对数据进行人工标注:“B”表明实体开始位置,“I”表明实体中间位置,“O”表示非实体词;标注完成后,随机抽取其中的80%作为训练集,10%作为开发集,10%作为测试集,为了保证数据的均衡,三种数据集的关系量与数据量的比例基本一致,至此,网络安全文本数据收集完毕。
进一步地,所述步骤S3的具体过程是:
将网络安全数据集中的文本序列S={s1,s2…sn}按ERNIE要求的格式输入,利用经过二次预训练的语言模型ERNIE对序列进行编码,输出固定维数的词向量W={w1,w2…wn},并同时生成一个全局矩阵,其中n为该序列的长度。
进一步地,所述步骤S4的具体过程是:
对步骤S3输出的词向量W={w1,w2…wn},预测出可能存在于句子中的关系集合,输出关系集合R;将关系预测建模为一个多标签二元分类任务,通过公式(1)和(2)进行关系预测,如果概率超过某个阈值λ1,对应向量将被分配标签“1”,否则,对应关系将被分配标签“0”;将标签为“1”的词向量,记录为rt添加到关系集合R中,t初始化为1,根据关系数递增,预测原理如下:
Havg=Avgpool(X) (1)
Prel=σ(WrHavg+bv) (2)
其中,Avgpool是平均池化操作,Wr是关系权重矩阵,bv是关系偏置向量。
进一步地,所述步骤S5中,将步骤S3输出的词向量序列W={w1,w2…wn},与步骤S4输出的关系集合R={r1,r2…rm}拼接成X={x1,x2…xn},再利用Bi-GRU进行编码以捕获前文和后文隐藏的信息,最终输出包含隐藏信息的序列H={h1,h2…hn},GRU原理公式表达如下:
GRU的更新门计算:
zt=σ(Wz·[ht-1,xt]+bz) (3)
其中,σ表示sigmoid激活函数,Wz是更新门的权重矩阵,t-1是上一时刻GRU单元的输出,xt是当前时刻输入的词向量,bz是更新门的偏置向量;
GRU的重置门计算:
rt=σ(Wr·[t-1,xt]+br) (4)
GRU当前时刻的输出计算:
其中,zt是更新门的输出,ht-1是上一时刻GRU的输出,~t是隐藏状态的;
利用上述5个公式可得前向GRU输出向量为→ t,以及后向GRU输出向量为← t,将前后向量进行整合,得到Bi-GRU的输出t:
词向量序列X={x1,x2,x3…xn},经过编码后,最终输出包含隐藏信息的序列H={h1,h2…hn};
采用两个相同的二进制分类器,标记当前向量是否对应于对象的开始位置或结束位置,进而识别出句子中的实体集合E;
表示第i个向量识别为对象的开始位置的概率,和表示第i个向量识别为对象的结束位置的概率,如果概率超过某个阈值λ2,则相应的向量将被分配标签“1”,否则将被分配标签“0”,进而将标签为“1”的词向量,记录为ej添加到实体集合E中,j初始化为1,根据实体数递增,预测原理如下:
其中,σ表示sigmoid激活函数,Wstart是预测实体开始位置的权重矩阵,hi是当前预测的词向量,bstart是预测实体开始位置的偏置向量
其中,σ表示sigmoid激活函数,Wend是预测实体结束位置的权重矩阵,bend是预测实体结束位置的偏置向量。
进一步地,所述步骤S6的具体过程是:
将步骤S3生成的全局矩阵,步骤S5输出的包含隐藏信息的序列H和输出的实体集合E进行拼接,再利用以下公式进行实体关系三元组的抽取:
P(s,r,o)=σ(Wg[E;H]+bg) (11)
其中,P(s,r,o)是抽取出来的实体关系三元组,σ表示sigmoid激活函数,E是实体向量,R是关系向量,Wg是预测三元组的权重矩阵,hi是当前预测的词向量,bg是预测三元组的偏置向量。
进一步地,所述步骤S7的具体过程是:
将步骤S6抽取出来的三元组与实际标记数据中的三元组进行对比,计算出当前损失值loss后,利用随机梯度下降法对损失值loss进行优化训练,训练过程中,利用反向传播对模型中各权重的矩阵参数调整,将上述训练过程重复多次,直至效果达到最优。
进一步地,全局矩阵的作用是预测关系集合和实体集合之间配对的分数,以实现实体关系三元组的抽取;左侧是主语,右侧是宾语,标记为“1”则是两个主语的开头,标记为“2”则是两个主语的结尾,由此可确定三元组中配对的主语和宾语,再根据关系集合来预测主语和宾语对应的关系概率,至此,完成实体关系三元组抽取。
进一步地,将关系预测建模为一个多标签二元分类任务,先得到句子中的关系集合,再进行实体识别,效缓解实体冗余。
与现有技术相比,本发明技术方案的有益效果是:
本发明解决了原始文本中目标实体之间的关系分类问题,相当程度上解决了大规模互联网数据中结构组织松散、异质多元的缺陷。实体关系是构建复杂知识库系统的重要步骤,比如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。这一技术已经成为自然语言处理、机器智能学习、大数据挖掘等技术发展的关键因素,同时也意味着这一技术关系着我国未来的工业和信息化发展,具有非常广阔的应用前景。
附图说明
图1为本发明方法流程图;
图2为实例中得到的关系集合;
图3为实例中得到的实体集合;
图4为实例中得到的全局矩阵。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,一种基于多任务学习的网络安全领域文本数据实体关系抽取法,包括以下步骤:
S1:对收集到的网络安全文本数据进行清洗,并完成标注;
S2:利用网络安全文本领域相关的大规模无标注语料对语言模型ERNIE进行预训练;
S3:利用ERNIE对句子S={s1,s2…sn}进行编码,并输出固定维数的词向量W={w1,w2…wn};
S4:将ERNIE输出的词向量W={w1,w2…wn}作为输入,预测可能存在于句子中的关系集合R;
S5:将步骤S2输出的词向量W与步骤S3关系集合R进行拼接,再分别利用Bi-GRU捕获前后文能有效提高模型准确率的隐藏信息,输出包含隐藏信息的序列H={h1,h2…hn};
S6:通过指针网络识别出句子中的实体集合E,利用全局矩阵将实体与关系进行配对,完成实体关系三元组解码;
S7:重复步骤S2-S6步骤进行多次训练,直至效果达到最优。
步骤S1中收集到网络安全文本数据的过程是:
S11:首先通过爬虫对中国互联网信息办公室等互联网网站进行定向爬取,爬取的模块有治理监管、预警通报、网络安全审查等一级网址,然后在一级网址的基础上进行二级网址的爬取,直至该二级网址下的所有数据文本;然后收集涉及网络安全的填报数据、整个网络安全行业数据和产业发展报告;
S12:对收集的网络安全文本进行文本分句处理,以句号、问号、感叹号、省略号为标记进行句子切分,得到句子级别的文本数据,既存储方式为一个句子占一行的位置,之后再对句子级别的文本数据进行去重和过滤,将与网络安全无关的数据删去,从而实现对数据的清洗;
S13:对数据进行清洗后,采用“BIO”方案对数据进行人工标注:“B”表明实体开始位置,“I”表明实体中间位置,“O”表示非实体词;标注完成后,随机抽取其中的80%作为训练集,10%作为开发集,10%作为测试集,为了保证数据的均衡,三种数据集的关系量与数据量的比例基本一致,至此,网络安全文本数据收集完毕。
步骤S3的具体过程是:
将网络安全数据集中的文本序列S={s1,s2…sn}按ERNIE要求的格式输入,利用经过二次预训练的语言模型ERNIE对序列进行编码,输出固定维数的词向量W={w1,w2…wn},并同时生成一个全局矩阵,其中n为该序列的长度。
步骤S4的具体过程是:
对步骤S3输出的词向量W={w1,w2…wn},预测出可能存在于句子中的关系集合,输出关系集合R;将关系预测建模为一个多标签二元分类任务,通过公式(1)和(2)进行关系预测,如果概率超过某个阈值λ1,对应向量将被分配标签“1”,否则,对应关系将被分配标签“0”;将标签为“1”的词向量,记录为rt添加到关系集合R中,t初始化为1,根据关系数递增,预测原理如下:
Havg=Avgpool(X) (1)
Prel=σ(WrHavg+bv) (2)
其中,Avgpool是平均池化操作,Wr是关系权重矩阵,bv是关系偏置向量。
进一步地,所述步骤S5中,将步骤S3输出的词向量序列W={w1,w2…wn},与步骤S4输出的关系集合R={r1,r2…rm}拼接成X={x1,x2…xn},再利用Bi-GRU进行编码以捕获前文和后文隐藏的信息,最终输出包含隐藏信息的序列H={h1,h2…hn},GRU原理公式表达如下:
GRU的更新门计算:
zt=σ(Wz·[ht-1,xt]+bz) (3)
其中,σ表示sigmoid激活函数,Wz是更新门的权重矩阵,ht-1是上一时刻GRU单元的输出,xt是当前时刻输入的词向量,bz是更新门的偏置向量;
GRU的重置门计算:
rt=σ(Wr·[ht-1,xt]+br) (4)
GRU当前时刻的输出计算:
词向量序列X={x1,x2,x3…xn},经过编码后,最终输出包含隐藏信息的序列H={h1,h2…hn};
采用两个相同的二进制分类器,标记当前向量是否对应于对象的开始位置或结束位置,进而识别出句子中的实体集合E;
表示第i个向量识别为对象的开始位置的概率,和表示第i个向量识别为对象的结束位置的概率,如果概率超过某个阈值λ2,则相应的向量将被分配标签“1”,否则将被分配标签“0”,进而将标签为“1”的词向量,记录为ej添加到实体集合E中,j初始化为1,根据实体数递增,预测原理如下:
其中,σ表示sigmoid激活函数,Wstart是预测实体开始位置的权重矩阵,hi是当前预测的词向量,bstart是预测实体开始位置的偏置向量
其中,σ表示sigmoid激活函数,end是预测实体结束位置的权重矩阵,end是预测实体结束位置的偏置向量。
步骤S6的具体过程是:
将步骤S3生成的全局矩阵,步骤S5输出的包含隐藏信息的序列H和输出的实体集合E进行拼接,再利用以下公式进行实体关系三元组的抽取:
P(s,r,o)=σ(Wg[E;H]+bg) (11)
其中,P(s,r,o)是抽取出来的实体关系三元组,σ表示sigmoid激活函数,E是实体向量,R是关系向量,Wg是预测三元组的权重矩阵,hi是当前预测的词向量,bg是预测三元组的偏置向量。
步骤S7的具体过程是:
将步骤S6抽取出来的三元组与实际标记数据中的三元组进行对比,计算出当前损失值loss后,利用随机梯度下降法对损失值loss进行优化训练,训练过程中,利用反向传播对模型中各权重的矩阵参数调整,将上述训练过程重复多次,直至效果达到最优。
全局矩阵的作用是预测关系集合和实体集合之间配对的分数,以实现实体关系三元组的抽取;左侧是主语,右侧是宾语,标记为“1”则是两个主语的开头,标记为“2”则是两个主语的结尾,由此可确定三元组中配对的主语和宾语,再根据关系集合来预测主语和宾语对应的关系概率,至此,完成实体关系三元组抽取;将关系预测建模为一个多标签二元分类任务,先得到句子中的关系集合,再进行实体识别,效缓解实体冗余。
实例:
数据集句子:“防火墙可有效抵御黑客的攻击”,采用本方法进行处理:
S1:首先,将文本序列S={s1,s2…sn}输入到经过二次预训练的语言模型ERNIE中,进行编码,输出词语向量序列W={w1,w2…wn};
S2:然后,根据ERNIE输出的词向量W进行关系预测,得到关系集合R,如图2所示;
S3:将R和W这两部分拼接成X={x1,x2…xn},并输入Bi-GRU中,分别利用前向和后向的GRU来获取前文和后文隐藏的信息,输出序列H={h1,h2…hn};
S4:输入序列H={h1,h2…hn},用两个相同的二进制分类器,抽取出文本中实体集合E,如图3所示;
S5:将包含隐藏信息的序列H和实体集合E进行拼接,然后根据全局矩阵进行配对,如图4所示。
S6:最后,解码出实体关系三元组:(防火墙,抵御,黑客)、(防火墙,抵御,攻击)。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,包括以下步骤:
S1:对收集到的网络安全文本数据进行清洗,并完成标注;
S2:利用网络安全文本领域相关的大规模无标注语料对语言模型ERNIE进行预训练;
S3:利用ERNIE对句子S={s1,s2…sn}进行编码,并输出固定维数的词向量W={w1,w2…wn};
S4:将ERNIE输出的词向量W={w1,w2…wn}作为输入,预测可能存在于句子中的关系集合R;
S5:将步骤S2输出的词向量W与步骤S3关系集合R进行拼接,再分别利用Bi-GRU捕获前后文能有效提高模型准确率的隐藏信息,输出包含隐藏信息的序列H={h1,h2…hn};
S6:通过指针网络识别出句子中的实体集合E,利用全局矩阵将实体与关系进行配对,完成实体关系三元组解码;
S7:重复步骤S2-S6步骤进行多次训练,直至效果达到最优。
2.根据权利要求1所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,所述步骤S1中收集到网络安全文本数据的过程是:
S11:首先通过爬虫对中国互联网信息办公室等互联网网站进行定向爬取,爬取的模块有治理监管、预警通报、网络安全审查等一级网址,然后在一级网址的基础上进行二级网址的爬取,直至该二级网址下的所有数据文本;然后收集涉及网络安全的填报数据、整个网络安全行业数据和产业发展报告;
S12:对收集的网络安全文本进行文本分句处理,以句号、问号、感叹号、省略号为标记进行句子切分,得到句子级别的文本数据,既存储方式为一个句子占一行的位置,之后再对句子级别的文本数据进行去重和过滤,将与网络安全无关的数据删去,从而实现对数据的清洗;
S13:对数据进行清洗后,采用“BIO”方案对数据进行人工标注:“B”表明实体开始位置,“I”表明实体中间位置,“O”表示非实体词;标注完成后,随机抽取其中的80%作为训练集,10%作为开发集,10%作为测试集,为了保证数据的均衡,三种数据集的关系量与数据量的比例基本一致,至此,网络安全文本数据收集完毕。
3.根据权利要求2所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,所述步骤S3的具体过程是:
将网络安全数据集中的文本序列S={s1,s2…sn}按ERNIE要求的格式输入,利用经过二次预训练的语言模型ERNIE对序列进行编码,输出固定维数的词向量W={w1,w2…wn},并同时生成一个全局矩阵,其中n为该序列的长度。
4.根据权利要求3所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,所述步骤S4的具体过程是:
对步骤S3输出的词向量W={w1,w2…wn},预测出可能存在于句子中的关系集合,输出关系集合R;将关系预测建模为一个多标签二元分类任务,通过公式(1)和(2)进行关系预测,如果概率超过某个阈值λ1,对应向量将被分配标签“1”,否则,对应关系将被分配标签“0”;将标签为“1”的词向量,记录为rt添加到关系集合R中,t初始化为1,根据关系数递增,预测原理如下:
Havg=Avgpool(X) (1)
Prel=σ(WrHavg+bv) (2)
其中,Avgpool是平均池化操作,Wr是关系权重矩阵,bv是关系偏置向量。
5.根据权利要求4所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,所述步骤S5中,将步骤S3输出的词向量序列W={w1,w2…wn},与步骤S4输出的关系集合R={r1,r2…rm}拼接成X={x1,x2…xn},再利用Bi-GRU进行编码以捕获前文和后文隐藏的信息,最终输出包含隐藏信息的序列H={h1,h2…hn},GRU原理公式表达如下:
GRU的更新门计算:
zt=σ(Wz·[ht-1,xt]+bz) (3)
其中,σ表示sigmoid激活函数,Wz是更新门的权重矩阵,ht-1是上一时刻GRU单元的输出,xt是当前时刻输入的词向量,bz是更新门的偏置向量;
GRU的重置门计算:
rt=σ(Wr·[ht-1,xt]+br) (4)
GRU当前时刻的输出计算:
词向量序列X={x1,x2,x3…xn},经过编码后,最终输出包含隐藏信息的序列H={h1,h2…hn}。
6.根据权利要求5所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,所述步骤S5中,采用两个相同的二进制分类器,标记当前向量是否对应于对象的开始位置或结束位置,进而识别出句子中的实体集合E;
表示第i个向量识别为对象的开始位置的概率,和表示第i个向量识别为对象的结束位置的概率,如果概率超过某个阈值λ2,则相应的向量将被分配标签“1”,否则将被分配标签“0”,进而将标签为“1”的词向量,记录为ej添加到实体集合E中,j初始化为1,根据实体数递增,预测原理如下:
其中,σ表示sigmoid激活函数,Wstart是预测实体开始位置的权重矩阵,hi是当前预测的词向量,bstart是预测实体开始位置的偏置向量
其中,σ表示sigmoid激活函数,Wend是预测实体结束位置的权重矩阵,bend是预测实体结束位置的偏置向量。
7.根据权利要求6所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,所述步骤S6的具体过程是:
将步骤S3生成的全局矩阵,步骤S5输出的包含隐藏信息的序列H和输出的实体集合E进行拼接,再利用以下公式进行实体关系三元组的抽取:
P(s,r,o)=σ(Wg[E;H]+bg) (11)
其中,P(s,r,o)是抽取出来的实体关系三元组,σ表示sigmoid激活函数,E是实体向量,R是关系向量,Wg是预测三元组的权重矩阵,hi是当前预测的词向量,bg是预测三元组的偏置向量。
8.根据权利要求7所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,所述步骤S7的具体过程是:
将步骤S6抽取出来的三元组与实际标记数据中的三元组进行对比,计算出当前损失值loss后,利用随机梯度下降法对损失值loss进行优化训练,训练过程中,利用反向传播对模型中各权重的矩阵参数调整,将上述训练过程重复多次,直至效果达到最优。
9.根据权利要求8所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,全局矩阵的作用是预测关系集合和实体集合之间配对的分数,以实现实体关系三元组的抽取;左侧是主语,右侧是宾语,标记为“1”则是两个主语的开头,标记为“2”则是两个主语的结尾,由此可确定三元组中配对的主语和宾语,再根据关系集合来预测主语和宾语对应的关系概率,至此,完成实体关系三元组抽取。
10.根据权利要求9所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,将关系预测建模为一个多标签二元分类任务,先得到句子中的关系集合,再进行实体识别,效缓解实体冗余。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111264565.7A CN113988075A (zh) | 2021-10-28 | 2021-10-28 | 基于多任务学习的网络安全领域文本数据实体关系抽取法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111264565.7A CN113988075A (zh) | 2021-10-28 | 2021-10-28 | 基于多任务学习的网络安全领域文本数据实体关系抽取法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113988075A true CN113988075A (zh) | 2022-01-28 |
Family
ID=79743597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111264565.7A Pending CN113988075A (zh) | 2021-10-28 | 2021-10-28 | 基于多任务学习的网络安全领域文本数据实体关系抽取法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113988075A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792092A (zh) * | 2022-06-24 | 2022-07-26 | 武汉北大高科软件股份有限公司 | 一种基于语义增强的文本主题抽取方法及装置 |
CN117235286A (zh) * | 2023-11-10 | 2023-12-15 | 昆明理工大学 | 强化注意力的实体关系抽取模型及其构建方法、存储介质 |
CN117408247A (zh) * | 2023-12-15 | 2024-01-16 | 南京邮电大学 | 一种基于关系指针网络的智能制造三元组抽取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733792A (zh) * | 2018-05-14 | 2018-11-02 | 北京大学深圳研究生院 | 一种实体关系抽取方法 |
CN112487807A (zh) * | 2020-12-09 | 2021-03-12 | 重庆邮电大学 | 一种基于膨胀门卷积神经网络的文本关系抽取方法 |
CN113360606A (zh) * | 2021-06-24 | 2021-09-07 | 哈尔滨工业大学 | 一种基于Filter的知识图谱问答联合训练方法 |
-
2021
- 2021-10-28 CN CN202111264565.7A patent/CN113988075A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733792A (zh) * | 2018-05-14 | 2018-11-02 | 北京大学深圳研究生院 | 一种实体关系抽取方法 |
CN112487807A (zh) * | 2020-12-09 | 2021-03-12 | 重庆邮电大学 | 一种基于膨胀门卷积神经网络的文本关系抽取方法 |
CN113360606A (zh) * | 2021-06-24 | 2021-09-07 | 哈尔滨工业大学 | 一种基于Filter的知识图谱问答联合训练方法 |
Non-Patent Citations (1)
Title |
---|
CHUNHUI HE 等: "Open Domain Chinese Triples Hierarchical Extraction Method", 《APPLIED SCIENCES》, 14 July 2020 (2020-07-14), pages 1 - 13 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792092A (zh) * | 2022-06-24 | 2022-07-26 | 武汉北大高科软件股份有限公司 | 一种基于语义增强的文本主题抽取方法及装置 |
CN114792092B (zh) * | 2022-06-24 | 2022-09-13 | 武汉北大高科软件股份有限公司 | 一种基于语义增强的文本主题抽取方法及装置 |
CN117235286A (zh) * | 2023-11-10 | 2023-12-15 | 昆明理工大学 | 强化注意力的实体关系抽取模型及其构建方法、存储介质 |
CN117235286B (zh) * | 2023-11-10 | 2024-01-23 | 昆明理工大学 | 强化注意力的实体关系抽取模型及其构建方法、存储介质 |
CN117408247A (zh) * | 2023-12-15 | 2024-01-16 | 南京邮电大学 | 一种基于关系指针网络的智能制造三元组抽取方法 |
CN117408247B (zh) * | 2023-12-15 | 2024-03-29 | 南京邮电大学 | 一种基于关系指针网络的智能制造三元组抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN109446338B (zh) | 基于神经网络的药物疾病关系分类方法 | |
CN110598005B (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
Mou et al. | Natural language inference by tree-based convolution and heuristic matching | |
CN111078889B (zh) | 一种基于多种注意力和改进预训练的药物间关系抽取方法 | |
CN111985245A (zh) | 基于注意力循环门控图卷积网络的关系提取方法及系统 | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN112883738A (zh) | 基于神经网络和自注意力机制的医学实体关系抽取方法 | |
CN110413986A (zh) | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 | |
CN111538848A (zh) | 一种融合多源信息的知识表示学习方法 | |
CN111291556B (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
CN113988075A (zh) | 基于多任务学习的网络安全领域文本数据实体关系抽取法 | |
CN105512209A (zh) | 一种基于特征自动学习的生物医学事件触发词识别方法 | |
CN114021584B (zh) | 基于图卷积网络和翻译模型的知识表示学习方法 | |
CN110321563A (zh) | 基于混合监督模型的文本情感分析方法 | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN110377690B (zh) | 一种基于远程关系抽取的信息获取方法和系统 | |
CN115017299A (zh) | 一种基于去噪图自编码器的无监督社交媒体摘要方法 | |
CN116796744A (zh) | 一种基于深度学习的实体关系抽取方法及系统 | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
CN116661805A (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN116992040A (zh) | 基于概念图的知识图谱补全方法和系统 | |
Lee et al. | Detecting suicidality with a contextual graph neural network | |
CN118364816A (zh) | 基于词法信息增强的开放信息抽取的方法 | |
CN113569008A (zh) | 一种基于社区治理数据的大数据分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |