CN113988075A - 基于多任务学习的网络安全领域文本数据实体关系抽取法 - Google Patents

基于多任务学习的网络安全领域文本数据实体关系抽取法 Download PDF

Info

Publication number
CN113988075A
CN113988075A CN202111264565.7A CN202111264565A CN113988075A CN 113988075 A CN113988075 A CN 113988075A CN 202111264565 A CN202111264565 A CN 202111264565A CN 113988075 A CN113988075 A CN 113988075A
Authority
CN
China
Prior art keywords
entity
vector
relation
data
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111264565.7A
Other languages
English (en)
Inventor
凌捷
邓成汝
罗玉
谢锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202111264565.7A priority Critical patent/CN113988075A/zh
Publication of CN113988075A publication Critical patent/CN113988075A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于多任务学习的网络安全领域文本数据实体关系抽取法,该方法解决了原始文本中目标实体之间的关系分类问题,相当程度上解决了大规模互联网数据中结构组织松散、异质多元的缺陷。实体关系是构建复杂知识库系统的重要步骤,比如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。这一技术已经成为自然语言处理、机器智能学习、大数据挖掘等技术发展的关键因素,同时也意味着这一技术关系着我国未来的工业和信息化发展,具有非常广阔的应用前景。

Description

基于多任务学习的网络安全领域文本数据实体关系抽取法
技术领域
本发明涉及人工智能安全的自然语言处理技术领域,更具体地,涉及一种基于多任务学习的网络安全领域文本数据实体关系抽取法。
背景技术
实体关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系,这作为信息检索、信息抽取、自然语言理解等领域的核心任务,一直是自然语言处理领域的热门方向。经过广大中外学者的多年探索研究,取得较为丰富的研究成果。从最初传统的基于规则和词典驱动方法,发展到基于传统的机器学习方法。近些年,随着深度学习的崛起,学者们将Bi-LSTM、GCN等深度学习方法应用到实体关系抽取任务中,使得任务的精准度得到极大的提升。近年来,注意力机制以及预训练模型的引入,不仅了提高模型精准度,而且使得模型的训练效率也得到了极大的提升。
目前已有解决方法技术:
医学实体关系抽取方法、装置、计算机设备及可读存储介质(2019103304707),该方法采用模型对数据进行医学命名实体识别;并基于实体识别结果进行实体关系抽取,获取带有实体关系的实体对基于所述实体关系计算所述实体对的置信度,基于各个所述实体对、实体关系及对应的置信度生成目标数据,解决了现有技术中人工提取医学实体关系费时费力且效率较低的问题。但是该方法不能够很好的利用数据集上下文关系,也没有解决小部分实体缺失的问题。
一种针对化工领域的文本实体关系抽取方法(2020109787338),该方法公开了一种针对化工领域的文本实体关系抽取方法。通过网络爬虫和众包技术采集到相应数据集,并通过相应关系获取更合理、全面、高精准的一种针对化工领域的文本实体关系抽取方法。但是模型训练的数据集偏小,个别特征出现的次数过少,对这类特征的学习存在不足。
基于注意力机制神经网络的药物实体关系抽取方法及系统(2018115105663),该方法涉及一种基于注意力机制神经网络的药物实体关系抽取方法及系统。该发明增加注意力机制关注实体类别信息权重的分类方法,能够降低长句中错误的依存分析结果带来的影响,提高药化实体关系抽取准确率。但是最大的问题在于需要很多空间资源,而且每轮训练的耗时较长。
一种利用依存分析的开放式中文实体关系抽取方法(2015103213396),该发明公开了一种利用依存分析的开放式中文实体关系抽取方法,该方法首先对句子进行依存分析,再结合中文语法启发式规则和依存分析的结果抽取关系词语,然后根据距离确定命名实体位置,最后进行三元组输出。在SogouCA和SogouCS语料库上进行实验,结果表明该发明适用于大规模语料库,具有良好的可移植性。该发明从根本上克服了汉语语法复杂,表达方式多样,语义丰富等固有性质的限制。但是该模型训练过程较为繁琐和复杂的,并且准确率不够高。
一种基于人机交互的远程监督实体关系抽取方法(2018113966422),该发明公开了一种基于人机交互的远程监督实体关系抽取方法,其特点是将众包技术加入到关系抽取任务的模型训练中,根据模型的反馈及时调整众包策略得到新的数据并投入模型,直到所有数据清洗完毕或模型性能不再提升。该发明与现有技术相比具有众包结果质量高,众包成本低的优点,无需依赖专家进行标注可多工作者并行处理,较好的解决了远程监督实体间关系抽取中噪音数据降低模型性能的问题。但是它们需要消耗更多的计算资源,成本是很大的。
发明内容
本发明提供一种基于多任务学习的网络安全领域文本数据实体关系抽取法,该方法解决了大规模互联网数据中结构组织松散、异质多元的缺陷。
为了达到上述技术效果,本发明的技术方案如下:
一种基于多任务学习的网络安全领域文本数据实体关系抽取法,包括以下步骤:
S1:对收集到的网络安全文本数据进行清洗,并完成标注;
S2:利用网络安全文本领域相关的大规模无标注语料对语言模型ERNIE进行预训练;
S3:利用ERNIE对句子S={s1,s2…sn}进行编码,并输出固定维数的词向量W={w1,w2…wn};
S4:将ERNIE输出的词向量W={w1,w2…wn}作为输入,预测可能存在于句子中的关系集合R;
S5:将步骤S2输出的词向量W与步骤S3关系集合R进行拼接,再分别利用Bi-GRU捕获前后文能有效提高模型准确率的隐藏信息,输出包含隐藏信息的序列H={h1,h2…hn};
S6:通过指针网络识别出句子中的实体集合E,利用全局矩阵将实体与关系进行配对,完成实体关系三元组解码;
S7:重复步骤S2-S6步骤进行多次训练,直至效果达到最优。
进一步地,所述步骤S1中收集到网络安全文本数据的过程是:
S11:首先通过爬虫对中国互联网信息办公室等互联网网站进行定向爬取,爬取的模块有治理监管、预警通报、网络安全审查等一级网址,然后在一级网址的基础上进行二级网址的爬取,直至该二级网址下的所有数据文本;然后收集涉及网络安全的填报数据、整个网络安全行业数据和产业发展报告;
S12:对收集的网络安全文本进行文本分句处理,以句号、问号、感叹号、省略号为标记进行句子切分,得到句子级别的文本数据,既存储方式为一个句子占一行的位置,之后再对句子级别的文本数据进行去重和过滤,将与网络安全无关的数据删去,从而实现对数据的清洗;
S13:对数据进行清洗后,采用“BIO”方案对数据进行人工标注:“B”表明实体开始位置,“I”表明实体中间位置,“O”表示非实体词;标注完成后,随机抽取其中的80%作为训练集,10%作为开发集,10%作为测试集,为了保证数据的均衡,三种数据集的关系量与数据量的比例基本一致,至此,网络安全文本数据收集完毕。
进一步地,所述步骤S3的具体过程是:
将网络安全数据集中的文本序列S={s1,s2…sn}按ERNIE要求的格式输入,利用经过二次预训练的语言模型ERNIE对序列进行编码,输出固定维数的词向量W={w1,w2…wn},并同时生成一个全局矩阵,其中n为该序列的长度。
进一步地,所述步骤S4的具体过程是:
对步骤S3输出的词向量W={w1,w2…wn},预测出可能存在于句子中的关系集合,输出关系集合R;将关系预测建模为一个多标签二元分类任务,通过公式(1)和(2)进行关系预测,如果概率超过某个阈值λ1,对应向量将被分配标签“1”,否则,对应关系将被分配标签“0”;将标签为“1”的词向量,记录为rt添加到关系集合R中,t初始化为1,根据关系数递增,预测原理如下:
Havg=Avgpool(X) (1)
Prel=σ(WrHavg+bv) (2)
其中,Avgpool是平均池化操作,Wr是关系权重矩阵,bv是关系偏置向量。
进一步地,所述步骤S5中,将步骤S3输出的词向量序列W={w1,w2…wn},与步骤S4输出的关系集合R={r1,r2…rm}拼接成X={x1,x2…xn},再利用Bi-GRU进行编码以捕获前文和后文隐藏的信息,最终输出包含隐藏信息的序列H={h1,h2…hn},GRU原理公式表达如下:
GRU的更新门计算:
zt=σ(Wz·[ht-1,xt]+bz) (3)
其中,σ表示sigmoid激活函数,Wz是更新门的权重矩阵,t-1是上一时刻GRU单元的输出,xt是当前时刻输入的词向量,bz是更新门的偏置向量;
GRU的重置门计算:
rt=σ(Wr·[t-1,xt]+br) (4)
其中,σ表示sigmoid激活函数,Wr是重置门的权重矩阵,ht-1是上一时刻GRU单元的输出,xt是当前时刻输入的词向量,br是重置门的偏置向量,根据更新门产生新的记忆信息
Figure BDA0003326582020000041
Figure BDA0003326582020000042
其中,tanh表示tanh激活函数,W是隐藏状态权重矩阵,rt是重置门的输出,ht-1是上一时刻隐藏状态的输出,xt是当前时刻输入的词向量,
Figure BDA0003326582020000043
是记隐藏状态偏置向量;
GRU当前时刻的输出计算:
Figure BDA0003326582020000044
其中,zt是更新门的输出,ht-1是上一时刻GRU的输出,~t是隐藏状态的;
利用上述5个公式可得前向GRU输出向量为 t,以及后向GRU输出向量为 t,将前后向量进行整合,得到Bi-GRU的输出t
Figure BDA0003326582020000045
词向量序列X={x1,x2,x3…xn},经过编码后,最终输出包含隐藏信息的序列H={h1,h2…hn};
采用两个相同的二进制分类器,标记当前向量是否对应于对象的开始位置或结束位置,进而识别出句子中的实体集合E;
Figure BDA0003326582020000051
表示第i个向量识别为对象的开始位置的概率,和
Figure BDA0003326582020000052
表示第i个向量识别为对象的结束位置的概率,如果概率超过某个阈值λ2,则相应的向量将被分配标签“1”,否则将被分配标签“0”,进而将标签为“1”的词向量,记录为ej添加到实体集合E中,j初始化为1,根据实体数递增,预测原理如下:
Figure BDA0003326582020000053
其中,σ表示sigmoid激活函数,Wstart是预测实体开始位置的权重矩阵,hi是当前预测的词向量,bstart是预测实体开始位置的偏置向量
Figure BDA0003326582020000054
其中,σ表示sigmoid激活函数,Wend是预测实体结束位置的权重矩阵,bend是预测实体结束位置的偏置向量。
进一步地,所述步骤S6的具体过程是:
将步骤S3生成的全局矩阵,步骤S5输出的包含隐藏信息的序列H和输出的实体集合E进行拼接,再利用以下公式进行实体关系三元组的抽取:
P(s,r,o)=σ(Wg[E;H]+bg) (11)
其中,P(s,r,o)是抽取出来的实体关系三元组,σ表示sigmoid激活函数,E是实体向量,R是关系向量,Wg是预测三元组的权重矩阵,hi是当前预测的词向量,bg是预测三元组的偏置向量。
进一步地,所述步骤S7的具体过程是:
将步骤S6抽取出来的三元组与实际标记数据中的三元组进行对比,计算出当前损失值loss后,利用随机梯度下降法对损失值loss进行优化训练,训练过程中,利用反向传播对模型中各权重的矩阵参数调整,将上述训练过程重复多次,直至效果达到最优。
进一步地,全局矩阵的作用是预测关系集合和实体集合之间配对的分数,以实现实体关系三元组的抽取;左侧是主语,右侧是宾语,标记为“1”则是两个主语的开头,标记为“2”则是两个主语的结尾,由此可确定三元组中配对的主语和宾语,再根据关系集合来预测主语和宾语对应的关系概率,至此,完成实体关系三元组抽取。
进一步地,将关系预测建模为一个多标签二元分类任务,先得到句子中的关系集合,再进行实体识别,效缓解实体冗余。
与现有技术相比,本发明技术方案的有益效果是:
本发明解决了原始文本中目标实体之间的关系分类问题,相当程度上解决了大规模互联网数据中结构组织松散、异质多元的缺陷。实体关系是构建复杂知识库系统的重要步骤,比如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。这一技术已经成为自然语言处理、机器智能学习、大数据挖掘等技术发展的关键因素,同时也意味着这一技术关系着我国未来的工业和信息化发展,具有非常广阔的应用前景。
附图说明
图1为本发明方法流程图;
图2为实例中得到的关系集合;
图3为实例中得到的实体集合;
图4为实例中得到的全局矩阵。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,一种基于多任务学习的网络安全领域文本数据实体关系抽取法,包括以下步骤:
S1:对收集到的网络安全文本数据进行清洗,并完成标注;
S2:利用网络安全文本领域相关的大规模无标注语料对语言模型ERNIE进行预训练;
S3:利用ERNIE对句子S={s1,s2…sn}进行编码,并输出固定维数的词向量W={w1,w2…wn};
S4:将ERNIE输出的词向量W={w1,w2…wn}作为输入,预测可能存在于句子中的关系集合R;
S5:将步骤S2输出的词向量W与步骤S3关系集合R进行拼接,再分别利用Bi-GRU捕获前后文能有效提高模型准确率的隐藏信息,输出包含隐藏信息的序列H={h1,h2…hn};
S6:通过指针网络识别出句子中的实体集合E,利用全局矩阵将实体与关系进行配对,完成实体关系三元组解码;
S7:重复步骤S2-S6步骤进行多次训练,直至效果达到最优。
步骤S1中收集到网络安全文本数据的过程是:
S11:首先通过爬虫对中国互联网信息办公室等互联网网站进行定向爬取,爬取的模块有治理监管、预警通报、网络安全审查等一级网址,然后在一级网址的基础上进行二级网址的爬取,直至该二级网址下的所有数据文本;然后收集涉及网络安全的填报数据、整个网络安全行业数据和产业发展报告;
S12:对收集的网络安全文本进行文本分句处理,以句号、问号、感叹号、省略号为标记进行句子切分,得到句子级别的文本数据,既存储方式为一个句子占一行的位置,之后再对句子级别的文本数据进行去重和过滤,将与网络安全无关的数据删去,从而实现对数据的清洗;
S13:对数据进行清洗后,采用“BIO”方案对数据进行人工标注:“B”表明实体开始位置,“I”表明实体中间位置,“O”表示非实体词;标注完成后,随机抽取其中的80%作为训练集,10%作为开发集,10%作为测试集,为了保证数据的均衡,三种数据集的关系量与数据量的比例基本一致,至此,网络安全文本数据收集完毕。
步骤S3的具体过程是:
将网络安全数据集中的文本序列S={s1,s2…sn}按ERNIE要求的格式输入,利用经过二次预训练的语言模型ERNIE对序列进行编码,输出固定维数的词向量W={w1,w2…wn},并同时生成一个全局矩阵,其中n为该序列的长度。
步骤S4的具体过程是:
对步骤S3输出的词向量W={w1,w2…wn},预测出可能存在于句子中的关系集合,输出关系集合R;将关系预测建模为一个多标签二元分类任务,通过公式(1)和(2)进行关系预测,如果概率超过某个阈值λ1,对应向量将被分配标签“1”,否则,对应关系将被分配标签“0”;将标签为“1”的词向量,记录为rt添加到关系集合R中,t初始化为1,根据关系数递增,预测原理如下:
Havg=Avgpool(X) (1)
Prel=σ(WrHavg+bv) (2)
其中,Avgpool是平均池化操作,Wr是关系权重矩阵,bv是关系偏置向量。
进一步地,所述步骤S5中,将步骤S3输出的词向量序列W={w1,w2…wn},与步骤S4输出的关系集合R={r1,r2…rm}拼接成X={x1,x2…xn},再利用Bi-GRU进行编码以捕获前文和后文隐藏的信息,最终输出包含隐藏信息的序列H={h1,h2…hn},GRU原理公式表达如下:
GRU的更新门计算:
zt=σ(Wz·[ht-1,xt]+bz) (3)
其中,σ表示sigmoid激活函数,Wz是更新门的权重矩阵,ht-1是上一时刻GRU单元的输出,xt是当前时刻输入的词向量,bz是更新门的偏置向量;
GRU的重置门计算:
rt=σ(Wr·[ht-1,xt]+br) (4)
其中,σ表示sigmoid激活函数,Wr是重置门的权重矩阵,ht-1是上一时刻GRU单元的输出,xt是当前时刻输入的词向量,br是重置门的偏置向量,根据更新门产生新的记忆信息
Figure BDA0003326582020000081
Figure BDA0003326582020000082
其中,tanh表示tanh激活函数,Wh是隐藏状态权重矩阵,rt是重置门的输出,ht-1是上一时刻隐藏状态的输出,xt是当前时刻输入的词向量,
Figure BDA0003326582020000083
是记隐藏状态偏置向量;
GRU当前时刻的输出计算:
Figure BDA0003326582020000084
其中,zt是更新门的输出,ht-1是上一时刻GRU的输出,
Figure BDA0003326582020000085
是隐藏状态的;
利用上述5个公式可得前向GRU输出向量为
Figure BDA0003326582020000086
以及后向GRU输出向量为
Figure BDA0003326582020000087
将前后向量进行整合,得到Bi-GRU的输出ht
Figure BDA0003326582020000088
词向量序列X={x1,x2,x3…xn},经过编码后,最终输出包含隐藏信息的序列H={h1,h2…hn};
采用两个相同的二进制分类器,标记当前向量是否对应于对象的开始位置或结束位置,进而识别出句子中的实体集合E;
Figure BDA0003326582020000089
表示第i个向量识别为对象的开始位置的概率,和
Figure BDA00033265820200000810
表示第i个向量识别为对象的结束位置的概率,如果概率超过某个阈值λ2,则相应的向量将被分配标签“1”,否则将被分配标签“0”,进而将标签为“1”的词向量,记录为ej添加到实体集合E中,j初始化为1,根据实体数递增,预测原理如下:
Figure BDA0003326582020000091
其中,σ表示sigmoid激活函数,Wstart是预测实体开始位置的权重矩阵,hi是当前预测的词向量,bstart是预测实体开始位置的偏置向量
Figure BDA0003326582020000092
其中,σ表示sigmoid激活函数,end是预测实体结束位置的权重矩阵,end是预测实体结束位置的偏置向量。
步骤S6的具体过程是:
将步骤S3生成的全局矩阵,步骤S5输出的包含隐藏信息的序列H和输出的实体集合E进行拼接,再利用以下公式进行实体关系三元组的抽取:
P(s,r,o)=σ(Wg[E;H]+bg) (11)
其中,P(s,r,o)是抽取出来的实体关系三元组,σ表示sigmoid激活函数,E是实体向量,R是关系向量,Wg是预测三元组的权重矩阵,hi是当前预测的词向量,bg是预测三元组的偏置向量。
步骤S7的具体过程是:
将步骤S6抽取出来的三元组与实际标记数据中的三元组进行对比,计算出当前损失值loss后,利用随机梯度下降法对损失值loss进行优化训练,训练过程中,利用反向传播对模型中各权重的矩阵参数调整,将上述训练过程重复多次,直至效果达到最优。
全局矩阵的作用是预测关系集合和实体集合之间配对的分数,以实现实体关系三元组的抽取;左侧是主语,右侧是宾语,标记为“1”则是两个主语的开头,标记为“2”则是两个主语的结尾,由此可确定三元组中配对的主语和宾语,再根据关系集合来预测主语和宾语对应的关系概率,至此,完成实体关系三元组抽取;将关系预测建模为一个多标签二元分类任务,先得到句子中的关系集合,再进行实体识别,效缓解实体冗余。
实例:
数据集句子:“防火墙可有效抵御黑客的攻击”,采用本方法进行处理:
S1:首先,将文本序列S={s1,s2…sn}输入到经过二次预训练的语言模型ERNIE中,进行编码,输出词语向量序列W={w1,w2…wn};
S2:然后,根据ERNIE输出的词向量W进行关系预测,得到关系集合R,如图2所示;
S3:将R和W这两部分拼接成X={x1,x2…xn},并输入Bi-GRU中,分别利用前向和后向的GRU来获取前文和后文隐藏的信息,输出序列H={h1,h2…hn};
S4:输入序列H={h1,h2…hn},用两个相同的二进制分类器,抽取出文本中实体集合E,如图3所示;
S5:将包含隐藏信息的序列H和实体集合E进行拼接,然后根据全局矩阵进行配对,如图4所示。
S6:最后,解码出实体关系三元组:(防火墙,抵御,黑客)、(防火墙,抵御,攻击)。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,包括以下步骤:
S1:对收集到的网络安全文本数据进行清洗,并完成标注;
S2:利用网络安全文本领域相关的大规模无标注语料对语言模型ERNIE进行预训练;
S3:利用ERNIE对句子S={s1,s2…sn}进行编码,并输出固定维数的词向量W={w1,w2…wn};
S4:将ERNIE输出的词向量W={w1,w2…wn}作为输入,预测可能存在于句子中的关系集合R;
S5:将步骤S2输出的词向量W与步骤S3关系集合R进行拼接,再分别利用Bi-GRU捕获前后文能有效提高模型准确率的隐藏信息,输出包含隐藏信息的序列H={h1,h2…hn};
S6:通过指针网络识别出句子中的实体集合E,利用全局矩阵将实体与关系进行配对,完成实体关系三元组解码;
S7:重复步骤S2-S6步骤进行多次训练,直至效果达到最优。
2.根据权利要求1所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,所述步骤S1中收集到网络安全文本数据的过程是:
S11:首先通过爬虫对中国互联网信息办公室等互联网网站进行定向爬取,爬取的模块有治理监管、预警通报、网络安全审查等一级网址,然后在一级网址的基础上进行二级网址的爬取,直至该二级网址下的所有数据文本;然后收集涉及网络安全的填报数据、整个网络安全行业数据和产业发展报告;
S12:对收集的网络安全文本进行文本分句处理,以句号、问号、感叹号、省略号为标记进行句子切分,得到句子级别的文本数据,既存储方式为一个句子占一行的位置,之后再对句子级别的文本数据进行去重和过滤,将与网络安全无关的数据删去,从而实现对数据的清洗;
S13:对数据进行清洗后,采用“BIO”方案对数据进行人工标注:“B”表明实体开始位置,“I”表明实体中间位置,“O”表示非实体词;标注完成后,随机抽取其中的80%作为训练集,10%作为开发集,10%作为测试集,为了保证数据的均衡,三种数据集的关系量与数据量的比例基本一致,至此,网络安全文本数据收集完毕。
3.根据权利要求2所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,所述步骤S3的具体过程是:
将网络安全数据集中的文本序列S={s1,s2…sn}按ERNIE要求的格式输入,利用经过二次预训练的语言模型ERNIE对序列进行编码,输出固定维数的词向量W={w1,w2…wn},并同时生成一个全局矩阵,其中n为该序列的长度。
4.根据权利要求3所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,所述步骤S4的具体过程是:
对步骤S3输出的词向量W={w1,w2…wn},预测出可能存在于句子中的关系集合,输出关系集合R;将关系预测建模为一个多标签二元分类任务,通过公式(1)和(2)进行关系预测,如果概率超过某个阈值λ1,对应向量将被分配标签“1”,否则,对应关系将被分配标签“0”;将标签为“1”的词向量,记录为rt添加到关系集合R中,t初始化为1,根据关系数递增,预测原理如下:
Havg=Avgpool(X) (1)
Prel=σ(WrHavg+bv) (2)
其中,Avgpool是平均池化操作,Wr是关系权重矩阵,bv是关系偏置向量。
5.根据权利要求4所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,所述步骤S5中,将步骤S3输出的词向量序列W={w1,w2…wn},与步骤S4输出的关系集合R={r1,r2…rm}拼接成X={x1,x2…xn},再利用Bi-GRU进行编码以捕获前文和后文隐藏的信息,最终输出包含隐藏信息的序列H={h1,h2…hn},GRU原理公式表达如下:
GRU的更新门计算:
zt=σ(Wz·[ht-1,xt]+bz) (3)
其中,σ表示sigmoid激活函数,Wz是更新门的权重矩阵,ht-1是上一时刻GRU单元的输出,xt是当前时刻输入的词向量,bz是更新门的偏置向量;
GRU的重置门计算:
rt=σ(Wr·[ht-1,xt]+br) (4)
其中,σ表示sigmoid激活函数,Wr是重置门的权重矩阵,ht-1是上一时刻GRU单元的输出,xt是当前时刻输入的词向量,br是重置门的偏置向量,根据更新门产生新的记忆信息
Figure FDA0003326582010000031
Figure FDA0003326582010000032
其中,tanh表示tanh激活函数,Wh是隐藏状态权重矩阵,rt是重置门的输出,ht-1是上一时刻隐藏状态的输出,xt是当前时刻输入的词向量,
Figure FDA0003326582010000033
是记隐藏状态偏置向量;
GRU当前时刻的输出计算:
Figure FDA0003326582010000034
其中,zt是更新门的输出,ht-1是上一时刻GRU的输出,
Figure FDA0003326582010000035
是隐藏状态的;
利用上述5个公式可得前向GRU输出向量为
Figure FDA0003326582010000036
以及后向GRU输出向量为
Figure FDA0003326582010000037
将前后向量进行整合,得到Bi-GRU的输出ht
Figure FDA0003326582010000038
词向量序列X={x1,x2,x3…xn},经过编码后,最终输出包含隐藏信息的序列H={h1,h2…hn}。
6.根据权利要求5所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,所述步骤S5中,采用两个相同的二进制分类器,标记当前向量是否对应于对象的开始位置或结束位置,进而识别出句子中的实体集合E;
Figure FDA0003326582010000039
表示第i个向量识别为对象的开始位置的概率,和
Figure FDA00033265820100000310
表示第i个向量识别为对象的结束位置的概率,如果概率超过某个阈值λ2,则相应的向量将被分配标签“1”,否则将被分配标签“0”,进而将标签为“1”的词向量,记录为ej添加到实体集合E中,j初始化为1,根据实体数递增,预测原理如下:
Figure FDA00033265820100000311
其中,σ表示sigmoid激活函数,Wstart是预测实体开始位置的权重矩阵,hi是当前预测的词向量,bstart是预测实体开始位置的偏置向量
Figure FDA00033265820100000312
其中,σ表示sigmoid激活函数,Wend是预测实体结束位置的权重矩阵,bend是预测实体结束位置的偏置向量。
7.根据权利要求6所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,所述步骤S6的具体过程是:
将步骤S3生成的全局矩阵,步骤S5输出的包含隐藏信息的序列H和输出的实体集合E进行拼接,再利用以下公式进行实体关系三元组的抽取:
P(s,r,o)=σ(Wg[E;H]+bg) (11)
其中,P(s,r,o)是抽取出来的实体关系三元组,σ表示sigmoid激活函数,E是实体向量,R是关系向量,Wg是预测三元组的权重矩阵,hi是当前预测的词向量,bg是预测三元组的偏置向量。
8.根据权利要求7所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,所述步骤S7的具体过程是:
将步骤S6抽取出来的三元组与实际标记数据中的三元组进行对比,计算出当前损失值loss后,利用随机梯度下降法对损失值loss进行优化训练,训练过程中,利用反向传播对模型中各权重的矩阵参数调整,将上述训练过程重复多次,直至效果达到最优。
9.根据权利要求8所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,全局矩阵的作用是预测关系集合和实体集合之间配对的分数,以实现实体关系三元组的抽取;左侧是主语,右侧是宾语,标记为“1”则是两个主语的开头,标记为“2”则是两个主语的结尾,由此可确定三元组中配对的主语和宾语,再根据关系集合来预测主语和宾语对应的关系概率,至此,完成实体关系三元组抽取。
10.根据权利要求9所述的基于多任务学习的网络安全领域文本数据实体关系抽取法,其特征在于,将关系预测建模为一个多标签二元分类任务,先得到句子中的关系集合,再进行实体识别,效缓解实体冗余。
CN202111264565.7A 2021-10-28 2021-10-28 基于多任务学习的网络安全领域文本数据实体关系抽取法 Pending CN113988075A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111264565.7A CN113988075A (zh) 2021-10-28 2021-10-28 基于多任务学习的网络安全领域文本数据实体关系抽取法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111264565.7A CN113988075A (zh) 2021-10-28 2021-10-28 基于多任务学习的网络安全领域文本数据实体关系抽取法

Publications (1)

Publication Number Publication Date
CN113988075A true CN113988075A (zh) 2022-01-28

Family

ID=79743597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111264565.7A Pending CN113988075A (zh) 2021-10-28 2021-10-28 基于多任务学习的网络安全领域文本数据实体关系抽取法

Country Status (1)

Country Link
CN (1) CN113988075A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792092A (zh) * 2022-06-24 2022-07-26 武汉北大高科软件股份有限公司 一种基于语义增强的文本主题抽取方法及装置
CN117235286A (zh) * 2023-11-10 2023-12-15 昆明理工大学 强化注意力的实体关系抽取模型及其构建方法、存储介质
CN117408247A (zh) * 2023-12-15 2024-01-16 南京邮电大学 一种基于关系指针网络的智能制造三元组抽取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN112487807A (zh) * 2020-12-09 2021-03-12 重庆邮电大学 一种基于膨胀门卷积神经网络的文本关系抽取方法
CN113360606A (zh) * 2021-06-24 2021-09-07 哈尔滨工业大学 一种基于Filter的知识图谱问答联合训练方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN112487807A (zh) * 2020-12-09 2021-03-12 重庆邮电大学 一种基于膨胀门卷积神经网络的文本关系抽取方法
CN113360606A (zh) * 2021-06-24 2021-09-07 哈尔滨工业大学 一种基于Filter的知识图谱问答联合训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHUNHUI HE 等: "Open Domain Chinese Triples Hierarchical Extraction Method", 《APPLIED SCIENCES》, 14 July 2020 (2020-07-14), pages 1 - 13 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792092A (zh) * 2022-06-24 2022-07-26 武汉北大高科软件股份有限公司 一种基于语义增强的文本主题抽取方法及装置
CN114792092B (zh) * 2022-06-24 2022-09-13 武汉北大高科软件股份有限公司 一种基于语义增强的文本主题抽取方法及装置
CN117235286A (zh) * 2023-11-10 2023-12-15 昆明理工大学 强化注意力的实体关系抽取模型及其构建方法、存储介质
CN117235286B (zh) * 2023-11-10 2024-01-23 昆明理工大学 强化注意力的实体关系抽取模型及其构建方法、存储介质
CN117408247A (zh) * 2023-12-15 2024-01-16 南京邮电大学 一种基于关系指针网络的智能制造三元组抽取方法
CN117408247B (zh) * 2023-12-15 2024-03-29 南京邮电大学 一种基于关系指针网络的智能制造三元组抽取方法

Similar Documents

Publication Publication Date Title
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN109446338B (zh) 基于神经网络的药物疾病关系分类方法
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
Mou et al. Natural language inference by tree-based convolution and heuristic matching
CN111078889B (zh) 一种基于多种注意力和改进预训练的药物间关系抽取方法
CN111985245A (zh) 基于注意力循环门控图卷积网络的关系提取方法及系统
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN112883738A (zh) 基于神经网络和自注意力机制的医学实体关系抽取方法
CN110413986A (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN111538848A (zh) 一种融合多源信息的知识表示学习方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN113988075A (zh) 基于多任务学习的网络安全领域文本数据实体关系抽取法
CN105512209A (zh) 一种基于特征自动学习的生物医学事件触发词识别方法
CN114021584B (zh) 基于图卷积网络和翻译模型的知识表示学习方法
CN110321563A (zh) 基于混合监督模型的文本情感分析方法
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN110377690B (zh) 一种基于远程关系抽取的信息获取方法和系统
CN115017299A (zh) 一种基于去噪图自编码器的无监督社交媒体摘要方法
CN116796744A (zh) 一种基于深度学习的实体关系抽取方法及系统
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
CN116661805A (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN116992040A (zh) 基于概念图的知识图谱补全方法和系统
Lee et al. Detecting suicidality with a contextual graph neural network
CN118364816A (zh) 基于词法信息增强的开放信息抽取的方法
CN113569008A (zh) 一种基于社区治理数据的大数据分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination