CN113988075A

CN113988075A - 基于多任务学习的网络安全领域文本数据实体关系抽取法

Info

Publication number: CN113988075A
Application number: CN202111264565.7A
Authority: CN
Inventors: 凌捷; 邓成汝; 罗玉; 谢锐
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-01-28

Abstract

本发明提供一种基于多任务学习的网络安全领域文本数据实体关系抽取法，该方法解决了原始文本中目标实体之间的关系分类问题，相当程度上解决了大规模互联网数据中结构组织松散、异质多元的缺陷。实体关系是构建复杂知识库系统的重要步骤，比如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。这一技术已经成为自然语言处理、机器智能学习、大数据挖掘等技术发展的关键因素，同时也意味着这一技术关系着我国未来的工业和信息化发展，具有非常广阔的应用前景。

Description

基于多任务学习的网络安全领域文本数据实体关系抽取法

技术领域

本发明涉及人工智能安全的自然语言处理技术领域，更具体地，涉及一种基于多任务学习的网络安全领域文本数据实体关系抽取法。

背景技术

实体关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系，这作为信息检索、信息抽取、自然语言理解等领域的核心任务，一直是自然语言处理领域的热门方向。经过广大中外学者的多年探索研究，取得较为丰富的研究成果。从最初传统的基于规则和词典驱动方法，发展到基于传统的机器学习方法。近些年，随着深度学习的崛起，学者们将Bi-LSTM、GCN等深度学习方法应用到实体关系抽取任务中，使得任务的精准度得到极大的提升。近年来，注意力机制以及预训练模型的引入，不仅了提高模型精准度，而且使得模型的训练效率也得到了极大的提升。

目前已有解决方法技术：

医学实体关系抽取方法、装置、计算机设备及可读存储介质(2019103304707)，该方法采用模型对数据进行医学命名实体识别；并基于实体识别结果进行实体关系抽取，获取带有实体关系的实体对基于所述实体关系计算所述实体对的置信度，基于各个所述实体对、实体关系及对应的置信度生成目标数据，解决了现有技术中人工提取医学实体关系费时费力且效率较低的问题。但是该方法不能够很好的利用数据集上下文关系，也没有解决小部分实体缺失的问题。

一种针对化工领域的文本实体关系抽取方法(2020109787338)，该方法公开了一种针对化工领域的文本实体关系抽取方法。通过网络爬虫和众包技术采集到相应数据集，并通过相应关系获取更合理、全面、高精准的一种针对化工领域的文本实体关系抽取方法。但是模型训练的数据集偏小，个别特征出现的次数过少，对这类特征的学习存在不足。

基于注意力机制神经网络的药物实体关系抽取方法及系统(2018115105663)，该方法涉及一种基于注意力机制神经网络的药物实体关系抽取方法及系统。该发明增加注意力机制关注实体类别信息权重的分类方法，能够降低长句中错误的依存分析结果带来的影响，提高药化实体关系抽取准确率。但是最大的问题在于需要很多空间资源，而且每轮训练的耗时较长。

一种利用依存分析的开放式中文实体关系抽取方法(2015103213396)，该发明公开了一种利用依存分析的开放式中文实体关系抽取方法，该方法首先对句子进行依存分析，再结合中文语法启发式规则和依存分析的结果抽取关系词语，然后根据距离确定命名实体位置，最后进行三元组输出。在SogouCA和SogouCS语料库上进行实验，结果表明该发明适用于大规模语料库，具有良好的可移植性。该发明从根本上克服了汉语语法复杂，表达方式多样，语义丰富等固有性质的限制。但是该模型训练过程较为繁琐和复杂的，并且准确率不够高。

一种基于人机交互的远程监督实体关系抽取方法(2018113966422)，该发明公开了一种基于人机交互的远程监督实体关系抽取方法，其特点是将众包技术加入到关系抽取任务的模型训练中，根据模型的反馈及时调整众包策略得到新的数据并投入模型，直到所有数据清洗完毕或模型性能不再提升。该发明与现有技术相比具有众包结果质量高，众包成本低的优点，无需依赖专家进行标注可多工作者并行处理，较好的解决了远程监督实体间关系抽取中噪音数据降低模型性能的问题。但是它们需要消耗更多的计算资源，成本是很大的。

发明内容

本发明提供一种基于多任务学习的网络安全领域文本数据实体关系抽取法，该方法解决了大规模互联网数据中结构组织松散、异质多元的缺陷。

为了达到上述技术效果，本发明的技术方案如下：

一种基于多任务学习的网络安全领域文本数据实体关系抽取法，包括以下步骤：

S1：对收集到的网络安全文本数据进行清洗，并完成标注；

S2：利用网络安全文本领域相关的大规模无标注语料对语言模型ERNIE进行预训练；

S3：利用ERNIE对句子S＝{s₁，s₂…s_n}进行编码，并输出固定维数的词向量W＝{w₁，w₂…w_n}；

S4：将ERNIE输出的词向量W＝{w₁，w₂…w_n}作为输入，预测可能存在于句子中的关系集合R；

S5：将步骤S2输出的词向量W与步骤S3关系集合R进行拼接，再分别利用Bi-GRU捕获前后文能有效提高模型准确率的隐藏信息，输出包含隐藏信息的序列H＝{h₁，h₂…h_n}；

S6：通过指针网络识别出句子中的实体集合E，利用全局矩阵将实体与关系进行配对，完成实体关系三元组解码；

S7：重复步骤S2-S6步骤进行多次训练，直至效果达到最优。

进一步地，所述步骤S1中收集到网络安全文本数据的过程是：

S11：首先通过爬虫对中国互联网信息办公室等互联网网站进行定向爬取，爬取的模块有治理监管、预警通报、网络安全审查等一级网址，然后在一级网址的基础上进行二级网址的爬取，直至该二级网址下的所有数据文本；然后收集涉及网络安全的填报数据、整个网络安全行业数据和产业发展报告；

S12：对收集的网络安全文本进行文本分句处理，以句号、问号、感叹号、省略号为标记进行句子切分，得到句子级别的文本数据，既存储方式为一个句子占一行的位置，之后再对句子级别的文本数据进行去重和过滤，将与网络安全无关的数据删去，从而实现对数据的清洗；

S13：对数据进行清洗后，采用“BIO”方案对数据进行人工标注：“B”表明实体开始位置，“I”表明实体中间位置，“O”表示非实体词；标注完成后，随机抽取其中的80％作为训练集，10％作为开发集，10％作为测试集，为了保证数据的均衡，三种数据集的关系量与数据量的比例基本一致，至此，网络安全文本数据收集完毕。

进一步地，所述步骤S3的具体过程是：

将网络安全数据集中的文本序列S＝{s₁，s₂…s_n}按ERNIE要求的格式输入，利用经过二次预训练的语言模型ERNIE对序列进行编码，输出固定维数的词向量W＝{w₁，w₂…w_n}，并同时生成一个全局矩阵，其中n为该序列的长度。

进一步地，所述步骤S4的具体过程是：

对步骤S3输出的词向量W＝{w₁，w₂…w_n}，预测出可能存在于句子中的关系集合，输出关系集合R；将关系预测建模为一个多标签二元分类任务，通过公式(1)和(2)进行关系预测，如果概率超过某个阈值λ₁，对应向量将被分配标签“1”，否则，对应关系将被分配标签“0”；将标签为“1”的词向量，记录为r_t添加到关系集合R中，t初始化为1，根据关系数递增，预测原理如下：

H^avg＝Avgpool(X) (1)

P_rel＝σ(W_rH^avg+b_v) (2)

其中，Avgpool是平均池化操作，W_r是关系权重矩阵，b_v是关系偏置向量。

进一步地，所述步骤S5中，将步骤S3输出的词向量序列W＝{w₁，w₂…w_n}，与步骤S4输出的关系集合R＝{r₁，r₂…r_m}拼接成X＝{x₁，x₂…x_n}，再利用Bi-GRU进行编码以捕获前文和后文隐藏的信息，最终输出包含隐藏信息的序列H＝{h₁，h₂…h_n}，GRU原理公式表达如下：

GRU的更新门计算：

z_t＝σ(W_z·[h_t-1，x_t]+b_z) (3)

其中，σ表示sigmoid激活函数，W_z是更新门的权重矩阵，_t-1是上一时刻GRU单元的输出，x_t是当前时刻输入的词向量，b_z是更新门的偏置向量；

GRU的重置门计算：

r_t＝σ(W_r·[_t-1，x_t]+b_r) (4)

其中，σ表示sigmoid激活函数，W_r是重置门的权重矩阵，h_t-1是上一时刻GRU单元的输出，x_t是当前时刻输入的词向量，b_r是重置门的偏置向量，根据更新门产生新的记忆信息

其中，tanh表示tanh激活函数，W是隐藏状态权重矩阵，r_t是重置门的输出，h_t-1是上一时刻隐藏状态的输出，x_t是当前时刻输入的词向量，

是记隐藏状态偏置向量；

GRU当前时刻的输出计算：

其中，z_t是更新门的输出，h_t-1是上一时刻GRU的输出，～_t是隐藏状态的；

利用上述5个公式可得前向GRU输出向量为^→ _t，以及后向GRU输出向量为^← _t，将前后向量进行整合，得到Bi-GRU的输出_t：

词向量序列X＝{x₁，x₂，x₃…x_n}，经过编码后，最终输出包含隐藏信息的序列H＝{h₁，h₂…h_n}；

采用两个相同的二进制分类器，标记当前向量是否对应于对象的开始位置或结束位置，进而识别出句子中的实体集合E；

表示第i个向量识别为对象的开始位置的概率，和

表示第i个向量识别为对象的结束位置的概率，如果概率超过某个阈值λ₂，则相应的向量将被分配标签“1”，否则将被分配标签“0”，进而将标签为“1”的词向量，记录为e_j添加到实体集合E中，j初始化为1，根据实体数递增，预测原理如下：

其中，σ表示sigmoid激活函数，W_start是预测实体开始位置的权重矩阵，h_i是当前预测的词向量，b_start是预测实体开始位置的偏置向量

其中，σ表示sigmoid激活函数，W_end是预测实体结束位置的权重矩阵，b_end是预测实体结束位置的偏置向量。

进一步地，所述步骤S6的具体过程是：

将步骤S3生成的全局矩阵，步骤S5输出的包含隐藏信息的序列H和输出的实体集合E进行拼接，再利用以下公式进行实体关系三元组的抽取：

P(s，r，o)＝σ(W_g[E；H]+b_g) (11)

其中，P(s，r，o)是抽取出来的实体关系三元组，σ表示sigmoid激活函数，E是实体向量，R是关系向量，W_g是预测三元组的权重矩阵，h_i是当前预测的词向量，b_g是预测三元组的偏置向量。

进一步地，所述步骤S7的具体过程是：

将步骤S6抽取出来的三元组与实际标记数据中的三元组进行对比，计算出当前损失值loss后，利用随机梯度下降法对损失值loss进行优化训练，训练过程中，利用反向传播对模型中各权重的矩阵参数调整，将上述训练过程重复多次，直至效果达到最优。

进一步地，全局矩阵的作用是预测关系集合和实体集合之间配对的分数，以实现实体关系三元组的抽取；左侧是主语，右侧是宾语，标记为“1”则是两个主语的开头，标记为“2”则是两个主语的结尾，由此可确定三元组中配对的主语和宾语，再根据关系集合来预测主语和宾语对应的关系概率，至此，完成实体关系三元组抽取。

进一步地，将关系预测建模为一个多标签二元分类任务，先得到句子中的关系集合，再进行实体识别，效缓解实体冗余。

与现有技术相比，本发明技术方案的有益效果是：

本发明解决了原始文本中目标实体之间的关系分类问题，相当程度上解决了大规模互联网数据中结构组织松散、异质多元的缺陷。实体关系是构建复杂知识库系统的重要步骤，比如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。这一技术已经成为自然语言处理、机器智能学习、大数据挖掘等技术发展的关键因素，同时也意味着这一技术关系着我国未来的工业和信息化发展，具有非常广阔的应用前景。

附图说明

图1为本发明方法流程图；

图2为实例中得到的关系集合；

图3为实例中得到的实体集合；

图4为实例中得到的全局矩阵。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，一种基于多任务学习的网络安全领域文本数据实体关系抽取法，包括以下步骤：

S1：对收集到的网络安全文本数据进行清洗，并完成标注；

S7：重复步骤S2-S6步骤进行多次训练，直至效果达到最优。

步骤S1中收集到网络安全文本数据的过程是：

步骤S3的具体过程是：

步骤S4的具体过程是：

H^avg＝Avgpool(X) (1)

P_rel＝σ(W_rH^avg+b_v) (2)

GRU的更新门计算：

z_t＝σ(W_z·[h_t-1，x_t]+b_z) (3)

其中，σ表示sigmoid激活函数，W_z是更新门的权重矩阵，h_t-1是上一时刻GRU单元的输出，x_t是当前时刻输入的词向量，b_z是更新门的偏置向量；

GRU的重置门计算：

r_t＝σ(W_r·[h_t-1，x_t]+b_r) (4)

其中，tanh表示tanh激活函数，W_h是隐藏状态权重矩阵，r_t是重置门的输出，h_t-1是上一时刻隐藏状态的输出，x_t是当前时刻输入的词向量，

是记隐藏状态偏置向量；

GRU当前时刻的输出计算：

其中，z_t是更新门的输出，h_t-1是上一时刻GRU的输出，

是隐藏状态的；

利用上述5个公式可得前向GRU输出向量为

以及后向GRU输出向量为

将前后向量进行整合，得到Bi-GRU的输出h_t：

表示第i个向量识别为对象的开始位置的概率，和

其中，σ表示sigmoid激活函数，_end是预测实体结束位置的权重矩阵，_end是预测实体结束位置的偏置向量。

步骤S6的具体过程是：

P(s，r，o)＝σ(W_g[E；H]+b_g) (11)

步骤S7的具体过程是：

全局矩阵的作用是预测关系集合和实体集合之间配对的分数，以实现实体关系三元组的抽取；左侧是主语，右侧是宾语，标记为“1”则是两个主语的开头，标记为“2”则是两个主语的结尾，由此可确定三元组中配对的主语和宾语，再根据关系集合来预测主语和宾语对应的关系概率，至此，完成实体关系三元组抽取；将关系预测建模为一个多标签二元分类任务，先得到句子中的关系集合，再进行实体识别，效缓解实体冗余。

实例：

数据集句子：“防火墙可有效抵御黑客的攻击”，采用本方法进行处理：

S1：首先，将文本序列S＝{s₁，s₂…s_n}输入到经过二次预训练的语言模型ERNIE中，进行编码，输出词语向量序列W＝{w₁，w₂…w_n}；

S2：然后，根据ERNIE输出的词向量W进行关系预测，得到关系集合R，如图2所示；

S3：将R和W这两部分拼接成X＝{x₁，x₂…x_n}，并输入Bi-GRU中，分别利用前向和后向的GRU来获取前文和后文隐藏的信息，输出序列H＝{h₁，h₂…h_n}；

S4：输入序列H＝{h₁，h₂…h_n}，用两个相同的二进制分类器，抽取出文本中实体集合E，如图3所示；

S5：将包含隐藏信息的序列H和实体集合E进行拼接，然后根据全局矩阵进行配对，如图4所示。

S6：最后，解码出实体关系三元组：(防火墙，抵御，黑客)、(防火墙，抵御，攻击)。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于多任务学习的网络安全领域文本数据实体关系抽取法，其特征在于，包括以下步骤：

S1：对收集到的网络安全文本数据进行清洗，并完成标注；

S7：重复步骤S2-S6步骤进行多次训练，直至效果达到最优。

2.根据权利要求1所述的基于多任务学习的网络安全领域文本数据实体关系抽取法，其特征在于，所述步骤S1中收集到网络安全文本数据的过程是：

3.根据权利要求2所述的基于多任务学习的网络安全领域文本数据实体关系抽取法，其特征在于，所述步骤S3的具体过程是：

4.根据权利要求3所述的基于多任务学习的网络安全领域文本数据实体关系抽取法，其特征在于，所述步骤S4的具体过程是：

H^avg＝Avgpool(X) (1)

P_rel＝σ(W_rH^avg+b_v) (2)

5.根据权利要求4所述的基于多任务学习的网络安全领域文本数据实体关系抽取法，其特征在于，所述步骤S5中，将步骤S3输出的词向量序列W＝{w₁，w₂…w_n}，与步骤S4输出的关系集合R＝{r₁，r₂…r_m}拼接成X＝{x₁，x₂…x_n}，再利用Bi-GRU进行编码以捕获前文和后文隐藏的信息，最终输出包含隐藏信息的序列H＝{h₁，h₂…h_n}，GRU原理公式表达如下：

GRU的更新门计算：

z_t＝σ(W_z·[h_t-1，x_t]+b_z) (3)

GRU的重置门计算：

r_t＝σ(W_r·[h_t-1，x_t]+b_r) (4)

是记隐藏状态偏置向量；

GRU当前时刻的输出计算：

其中，z_t是更新门的输出，h_t-1是上一时刻GRU的输出，

是隐藏状态的；

利用上述5个公式可得前向GRU输出向量为

以及后向GRU输出向量为

将前后向量进行整合，得到Bi-GRU的输出h_t：

词向量序列X＝{x₁，x₂，x₃…x_n}，经过编码后，最终输出包含隐藏信息的序列H＝{h₁，h₂…h_n}。

6.根据权利要求5所述的基于多任务学习的网络安全领域文本数据实体关系抽取法，其特征在于，所述步骤S5中，采用两个相同的二进制分类器，标记当前向量是否对应于对象的开始位置或结束位置，进而识别出句子中的实体集合E；

表示第i个向量识别为对象的开始位置的概率，和

7.根据权利要求6所述的基于多任务学习的网络安全领域文本数据实体关系抽取法，其特征在于，所述步骤S6的具体过程是：

P(s，r，o)＝σ(W_g[E；H]+b_g) (11)

8.根据权利要求7所述的基于多任务学习的网络安全领域文本数据实体关系抽取法，其特征在于，所述步骤S7的具体过程是：

9.根据权利要求8所述的基于多任务学习的网络安全领域文本数据实体关系抽取法，其特征在于，全局矩阵的作用是预测关系集合和实体集合之间配对的分数，以实现实体关系三元组的抽取；左侧是主语，右侧是宾语，标记为“1”则是两个主语的开头，标记为“2”则是两个主语的结尾，由此可确定三元组中配对的主语和宾语，再根据关系集合来预测主语和宾语对应的关系概率，至此，完成实体关系三元组抽取。

10.根据权利要求9所述的基于多任务学习的网络安全领域文本数据实体关系抽取法，其特征在于，将关系预测建模为一个多标签二元分类任务，先得到句子中的关系集合，再进行实体识别，效缓解实体冗余。