CN116910196A - 一种基于多任务学习的校园安全突发事件抽取方法 - Google Patents
一种基于多任务学习的校园安全突发事件抽取方法 Download PDFInfo
- Publication number
- CN116910196A CN116910196A CN202310491844.XA CN202310491844A CN116910196A CN 116910196 A CN116910196 A CN 116910196A CN 202310491844 A CN202310491844 A CN 202310491844A CN 116910196 A CN116910196 A CN 116910196A
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- event
- trigger
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 328
- 238000002372 labelling Methods 0.000 claims abstract description 15
- 239000010410 layer Substances 0.000 claims description 72
- 230000006870 function Effects 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 38
- 238000013528 artificial neural network Methods 0.000 claims description 35
- 230000004927 fusion Effects 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 29
- 238000006243 chemical reaction Methods 0.000 claims description 27
- 230000007246 mechanism Effects 0.000 claims description 20
- 230000001419 dependent effect Effects 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 15
- 125000004122 cyclic group Chemical group 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000002356 single layer Substances 0.000 claims description 6
- 238000005728 strengthening Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 230000036962 time dependent Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003014 reinforcing effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理领域,一种基于多任务学习的校园安全突发事件抽取方法,包括以下步骤:S1:获取校园安全突发事件的原始新闻文本;S2:建立校园安全突发事件抽取模型,包括文本特征表示模块,事件类型分类模块,触发词抽取模块以及论元角色分类模块;S3:执行文本特征表示模块:得到融合语义依存信息的词向量;S4:执行事件类型分类模块:得到预测事件类型特征向量;S5:执行触发词抽取模块:触发词特征向量;S6:执行论元角色分类模块:得到论元角色。解决了序列标注的方法导致标注冲突,无法提取重叠的论元角色的问题;针对专业领域难以充分提取序列中的语义知识和依赖关系的问题。加强触发词的特征表达能力,提升论元角色抽取的能力。
Description
技术领域
本发明涉及一种自然语言处理领域,特别涉及一种基于多任务学习的校园安全突发事件抽取方法。
背景技术
事件抽取是信息抽取任务中的一项重要且具有挑战性的任务,其目的是在非结构化文本中识别出指定类型的事件触发词以及事件角色论元,是信息检索、推荐系统、智能问答、构建知识图谱等应用的基础工作。通过事件抽取方法可以从复杂的新闻突发事件获得结构化的有效的信息,从而进一步构建知识图谱,有助于相关部门快速获取有效的决策。
网络中的校园安全信息多为非结构或半结构化的自由文本,来源如新闻、微博、论坛、企业文档等,往往包含大量领域专业知识、实体关系复杂,虽然数量多但质量差,信息冗余,组织结构和语法语境混乱。传统事件抽取方法在对输入序列的向量化过程中,难以充分提取序列中的语义知识和依赖关系。导致损失较多语义信息,精度受限,在校园安全领域的识别效果不理想。
随着深度学习的迅速发展,深度学习逐渐被应用到事件抽取中并取得了突出的效果。根据事件抽取子任务之间是否联合建模,基于深度学习的事件抽取方法分为流水线式抽取与联合抽取。流水线式抽取是分阶段的方法,可能导致误差传播与任务分离的问题,使得整体抽取性能不佳。联合抽取方法通过共享参数增加事件抽取子任务之间的交互与依赖,从而提升性能。此外,在事件抽取过程中普遍出现的角色重叠问题是目前研究工作中的一个难点。但是现有的传统联合学习事件抽取方法,仅对句子进行一次序列标注,同时提取触发词和论元,但是由于标注冲突,在论元角色分类阶段无法提取重叠的目标。
发明内容
为了解决目前基于深度学习的校园安全突发事件联合抽取任务,大多采用序列标注的方法,从而导致标注冲突,无法提取重叠的论元角色的问题;并且存在针对专业领域难以充分提取序列中的语义知识和依赖关系的问题,提出了一种基于多任务学习的校园安全突发事件抽取方法。该方法将事件抽取分为三个子任务:事件类型分类,触发词识别和论元角色识别。在校园安全突发事件抽取任务上具有较好的性能,能尽快获得结构化的有效的信息,提示有关部门和在校师生有效进行防范应对。
本发明的技术方案为:
一种基于多任务学习的校园安全突发事件抽取方法,包括以下步骤:
S1:获取校园安全突发事件的原始新闻文本,并划分为划分新闻文本;
S2:建立校园安全突发事件抽取模型,包括文本特征表示模块,事件类型分类模块,触发词抽取模块以及论元角色分类模块;
S3:执行文本特征表示模块:输入划分新闻文本,训练得到序列词向量;通过提取序列词向量的语法依赖特征得到融合语义依存信息的词向量;
S4:执行事件类型分类模块:输入序列词向量,将序列词向量转化为句向量;通过句向量识别出预测事件类型;通过训练预测事件类型得到预测事件类型特征向量;
S5:执行触发词抽取模块:输入融合语义依存信息的词向量和预测事件类型特征向量,输出融合事件类型特征的词向量;通过融合事件类型特征的词向量,得到触发词和触发词特征向量;
S6:执行论元角色分类模块:将触发词特征向量输入自注意力机制得到加强后的触发词特征向量;输入加强后的触发词特征向量和融合事件类型特征的词向量,输出融合触发词特征的词向量;
将融合触发词特征的词向量输入多层二进制标注器,得到论元角色。
进一步的,校园安全突发事件抽取模型采用多任务联合学习的方式进行训练;
文本特征表示模块包括RoBERTa编码层,双向循环神经网络Bi-GRU模型和包含图注意力神经网络GAT的特征加强层;
事件类型分类模块包括事件类型分类模块平均池化层和事件类型分类模块全连接层;
触发词抽取模块包括触发词抽取模块特征拼接层和触发词抽取模块全连接层;
论元角色分类模块包括自注意力机制层,论元角色分类模块特征拼接层和论元角色分类模块全连接层。
进一步的,步骤S3具体为:
S3.1:执行文本特征表示模块,将划分新闻文本的数据集中的事件句进行分词,得到事件句序列,然后将事件句序列输入RoBERTa预训练语言模型中,获取序列词向量;
S3.2:采用双向循环神经网络Bi-GRU模型来加强序列特征表示,将序列词向量加强为加强序列时序依赖特征的词向量;
S3.3:获取依存句法分析工具DDParser,对事件句进行依存句法分析,得到事件句的关联词对、长距离依赖词对,并将这些词对生成语义邻接矩阵,采用图注意力神经网络GAT提取加强序列时序依赖特征的词向量的语法依赖特征,得到融合语义依存信息的词向量。
进一步的,S3.1具体为:
执行文本特征表示模块,将划分新闻文本的数据集中的事件句进行分词,得到事件句序列X={x1,x2,...,xN},其中xi表示序列中第i个词,i∈[1,N],N为事件句序列长度;然后将事件句序列输入RoBERTa预训练语言模型,RoBERTa预训练语言模型中的词嵌入模块会对事件句序列中的每一个词进行词嵌入wi和位置嵌入pi;通过如下式(1),将词嵌入wi和位置嵌入pi相加得到第i个词的嵌入表示ei;之后将嵌入表示ei带入如下式(2)进行编码,得到序列词向量H;
ei=wi+pi (1)
H=[{t1,t2,...,ti,...,tN}]=RoBERTa([e1,e2,...,ei,...,eN]) (2)
i∈[1,N],N为事件句序列长度,RoBERTa为RoBERTa预训练语言模型;
S3.2具体为:
使用双向循环神经网络Bi-GRU模型对序列词向量H进行进一步的特征表示,双向循环神经网络Bi-GRU模型将t时刻的序列词向量Ht与上一时刻t-1的双向循环神经网络Bi-GRU模型的隐藏层输出ht-1带入如下式(3)中,得到t时刻的输出,通过将其带入如下式(4),经过N个时刻,输出加强序列时序依赖特征的词向量hGRU,N为事件句序列长度;
ht=BiGRU(Ht,ht-1) (3)
hGRU={h1,h2,h3,...,hN} (4)
式(3)中,Ht表示事件句词向量H在t时刻位置的词向量;ht表示t时刻的隐藏层输出,ht-1表示t-1时刻的隐藏层输出,t∈[1,N],N为事件句序列长度,式(4)中,hGRU表示加强序列时序依赖特征的词向量,hN表示N时刻的隐藏层输出,BiGRU表示双向循环神经网络Bi-GRU模型;
S3.3具体为:
通过百度平台提供的依存句法分析工具DDParser对事件句进行依存句法分析(dependency syntactic parsing),得到事件句的关联词对、长距离依赖词对,并将这些词对生成语义邻接矩阵,与加强序列时序依赖特征的词向量hGRU一起输入到图注意力神经网络GAT中;具体过程为:通过邻接矩阵,将每个词作为节点,将与每个词关联的词作为邻居节点,假设第i个词特征表示为h'i与其邻居节点第j个词的特征表示为h'j,将h'i与h'j代入如下式(5)可以计算第i个词第j个词之间的相关性,通过将h'i与h'j进行拼接,然后输入到单层前馈神经网络a中,再通过LeakyReLU激活函数,计算两个节点之间的权重eij;然后通过如下公式(6)进行注意力系数计算,假设第i个词的邻居节点的集合为Di,利用softmax函数对领居节点的集合Di在如下式(5)得到的节点之间的权重eij进行归一化计算,获取注意力系数αij:
式(5)和式(6)中,eij表示第i个词与第j个词之间的权重,代表两个词之间的相关程度,h'i为第i个词特征表示,h'j为邻居节点第j个词的特征表示,h'K为邻居节点第k个词的特征表示,a为单层前馈神经网络,LeakyReLU为激活函数,“||”表示拼接,W表示一个投影矩阵,表示权重参数;aij为归一化后的注意力系数,Di为第i个词的邻居节点的集合,softmax为归一化函数,exp()为指数函数;
为了使图注意力神经网络GAT的模型结构更加稳定,使用多头注意力机制聚集句子不同部分的特征,在通过式(6)计算K个相互独立的注意力系数后,将它们代入公式(7),将每个邻居节点特征向量h'j点乘一个维度转换向量参数Wk之后,再乘上注意力系数然后加权求和并取平均值,最后通过sigmoid激活函数输出第i个词的特征表达h”i,最终对N个词都进行同样的操作后,得到了融合语义依存信息的词向量h”N={h”1,h”2,...,h”N},N为事件句序列长度;
其中,h”i中心节点i的特征表达,K为注意力头个数,是第k个注意力的权重系数,“||”表示拼接,σ为sigmoid激活函数,Wk为权重矩阵。
进一步的,步骤S4具体为:
S4.1:执行事件类型分类模块,将序列词向量输入事件类型分类模块池化层进行平均池化操作,将序列词向量转化为固定长度的句向量hS;对于输出的句向量表示的公式如下:
hS=MeanPooling(H) (8)
hS为句向量,MeanPooling为平均池化操作,H为序列词向量;
S4.2:将句向量hS输入事件类型分类模块全连接层进行分类,具体为将句向量hS代入如下公式(9)点乘一个维度转换向量权重We,通过sigmoid函数计算事件类型的概率pe,当pe的值大于0.5时,对应的事件类型标签被标注为1,否则被标注为0;标注为1的事件类型即为识别出的预测事件类型,具体操作公式如下:
pe=σ(WehS+be) (9)
其中,We和be分别代表可训练的维度转换向量权重和偏置,σ代表sigmoid激活函数,hS为句向量,Pe为预测事件类型的概率;
S4.3:对于每一个预测事件类型,训练它们的编码向量,得到预测事件类型特征向量,表示为E={e1,e2,...,ej},其中ej代表第j个事件类型的特征向量。
进一步的,步骤S5具体为:
S5.1:执行触发词抽取模块,将预测事件类型特征向量与融合语义依存信息的词向量采用拼接的操作来进行特征融合,得到融合事件类型特征的词向量;
S5.2:将融合事件类型特征的词向量输入二进制分类器来识别划分新闻文本的事件句中的触发词,并得到触发词特征向量。
进一步的,S5.1具体为:
假如预测事件类型为第j个事件类型,从预测事件类型特征向量中查询对应的第j个事件类型特征向量ej,通过与融合语义依存信息的词向量h”N拼接,得到融合事件类型特征的词向量Hj;公式如下:
Hj=Concat(ej,h”N) (10)
其中,ej第j个事件类型特征向量,Concat()为拼接操作,Hj为融合事件类型特征的词向量,h”N为融合语义依存信息的词向量;
S5.2具体为:
将融合事件类型特征的词向量Hj,输入两个相同且独立的二进制分类器来识别触发词在事件句中的起始和结束位置;触发词由在事件句中的词组成;通过为事件句中的每个词生成一个概率,来表示每个词是否为触发词的起始或者结束;加入事件句中第i个词在融合事件类型特征的词向量Hj的特征向量为将/>代入如下公式(11)点乘一个维度转换向量权重/>后再通过sigmoid的函数计算/>同理将/>代入公式(12)点乘一个维度转换向量权重/>后再通过sigmoid的函数计算/>
公式(11)中,σ代表sigmoid函数,代表起始标注的维度转换向量权重,/>代表起始标注的偏置,/>代表事件句中第i个词在融合事件类型特征的词向量的特征向量;代表事件句中第i个词特征向量/>经过二进制分类器输出为触发词起始位置的概率;
公式(12)中,σ代表sigmoid函数,代表结束标注的维度转换向量权重,/>代表结束标注的偏置,/>代表事件句中第i个词在融合事件类型特征的词向量的特征向量;触发词由在事件句中的词组成;/>代表事件句中第i个词特征向量/>经过二进制分类器输出为触发词结束位置的概率;
对于事件句中N个词,两个相同且独立的二进制分类器输出的整体的触发词起始位置概率向量为整体的触发词结束位置概率向量为其中/>代表事件句中第N个词是触发词起始位置的概率,/>代表事件句中第N个词是触发词结束位置的概率;
设定一个阈值0.5,如果和/>的值大于该阈值,则第i个词所在位置被赋值为1,否则赋值为0;如果一个事件句存在多个触发词,采用就近原则来解决词嵌套问题,将两个二进制分类器输出的整体的触发词起始位置概率向量pts与整体的触发词结束位置概率向量pte中距离最近的开始位置和结束位置标为1的位置,作为一个触发词在句中的起始和结束位置;
假设识别出K个触发词,对于第k个触发词,得到了其在事件句中的位置,假设其起始位置为第i个词,结束位置为第j个词,那么可以从融合事件类型特征的词向量Hj中获取i和j这个范围的词的特征向量进行组合,得到第k个触发词特征向量k∈K,K为识别出的触发词的个数。
进一步的,步骤S6具体为:
S6.1:将触发词特征向量输入自注意力机制层,输出加强后的触发词特征向量;将加强后的触发词特征向量与融合事件类型特征的词向量拼接进行特征融合,得到融合触发词特征的词向量;
S6.2:将融合触发词特征的词向量输入输入多层二进制标注器,输出论元角色。
进一步的,S6.1具体为:将触发词特征向量输入到自注意力机制层中,得到加强后的触发词特征向量/>如下公式(13)所示,自注意力机制将触发词中每个词的向量分配高低不同的权重;然后将加强后的触发词特征向量/>与融合事件类型特征的词向量Hj拼接得到融合触发词特征的词向量Ct,如下公式(14)所示;
其中,代表第k个触发词特征向量,Concat()代表拼接操作,/>表示加强后的触发词特征向量,Ct表示融合触发词特征的词向量,Hj表示融合事件类型特征的词向量,SelfAttention表示进行自注意力计算;
S6.2具体为:将融合触发词特征的词向量Ct输入进两个相同且独立的多层二进制标注器,得到论元在事件句中起始和结束的位置以及论元对应的角色概率,论元由在事件句中的词组成,求解如下公式(15)和(16)所示:
公式(15)中,σ代表sigmoid函数,代表起始标注的维度转换向量权重,/>代表起始标注的偏置,/>代表事件句中第i个词在融合触发词特征的词向量Ct中的特征向量;代表事件句中第i个词特征向量/>经过多层二进制分类器输出为论元起始位置的概率;
公式(16)中,σ代表sigmoid函数,代表结束标注的维度转换向量权重,/>代表结束标注的偏置,/>代表事件句中第i个词在融合触发词特征的词向量Ct中的特征向量;论元由在事件句中的词组成;/>代表事件句中第i个词特征向量/>经过多层二进制分类器输出为论元结束位置的概率;
对于事件句中N个词,两个相同且独立的多层二进制分类器输出的整体论元起始位置概率向量为整体论元结束位置概率向量为其中/>代表事件句中第N个词是论元起始位置的概率,/>代表事件句中第N个词是论元结束位置的概率;
设定一个阈值0.5,如果和/>的值大于该阈值,则事件句中第i个词所在位置被赋值为1,否则赋值为0;如果一个事件句存在多个论元,采用就近原则来解决词嵌套问题,将两个多层二进制分类器输出的整体论元起始位置概率向量pas与整体论元结束位置概率向量pae中距离最近的开始位置和结束位置标为1的位置,作为一个论元在事件句中的起始和结束位置;
论元角色分类采用的多层二进制标注,多层二进制标注的层数代表识别出的所有角色的个数,通过对每一个角色标注其论元在事件句中所在的起始和结束的位置,从而根据位置索引到论元在事件句中的对应的所有的词;最终输出论元角色。
优选的,步骤S1具体为:
S1.1:使用网络爬虫从全国学校安全教育网、网络媒体等渠道爬取公开的校园安全突发事件的原始新闻文本;
S1.2:对原始新闻文本文本预处理,并且依据事件发生的日期、事件类型、事件标题等关键信息,对原始新闻文本的关键信息进行匹配,得到预处理后的校园安全突发事件的初始新闻文本;
S1.3:对初始新闻文本进行标注:每条标注的初始新闻文本独有的编号id;每条标注的初始新闻文本包含:事件句content,事件类型type,触发词trigger以及其在事件句中位置的触发词索引trigger-span,论元角色args以及其在事件句中位置的论元角色索引args-span;其中,事件句content是指需要进行校园安全突发事件抽取的文本,;事件类型是指事件句中包含的事件的类型,触发词是事件的核心词;论元角色分为论元和其对应的角色,其中论元是指事件的参与者,角色指论元在事件中充当的角色;得到标注新闻文本;
S1.4:对标注新闻文本的数据集按照7:1:2比例划分为训练集、验证集和测试集,得到划分新闻文本的数据集。
本发明的有益效果在于:(1)针对目前多数现有的研究工作中难以抽取重叠角色的问题,使用多层二进制标注针对不同的角色类型识别相应的论元。
(2)首先使用事件类型标注器提取所有可能的事件类型,然后将事件类型作为先验条件融入语义信息,不仅加强了子任务之间的交互还能避免抽取出冗余的触发词。
(3)在编码阶段,除了采用预训练语言模型训练词向量,同时采用Bi-GRU进一步丰富预训练语言模型编码的语义信息,并通过多层GAT提取语义的依赖结构信息;在论元角色分类阶段,考虑到触发词与论元角色抽取之间的依赖性,引入自注意力机制加强触发词的特征表达能力。有效解决了目前研究方法语义特征表达能力不足的问题,从而提升论元角色抽取的能力。
附图说明
图1为本发明基于多任务学习的校园安全突发事件抽取方法流程图;
图2为本发明校园安全突发事件抽取实例图;
图3为本发明基于多任务学习的校园安全突发事件抽取模型图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1-3所示,一种基于多任务学习的校园安全突发事件抽取方法,包括如下步骤(以下,“事件”均指的是“校园安全突发事件”;“词”在中文中含义同“字”,“词向量”均代表中文中每个字的向量表示):
S1:使用爬虫技术获取校园安全突发事件的原始新闻文本,对原始新闻文本进行预处理与人工标注,并且划分为训练集、验证集和测试集。
具体步骤为:
S1.1:使用网络爬虫从全国学校安全教育网、网络媒体等渠道爬取公开的校园安全突发事件的原始新闻文本。
S1.2:对步骤S1.1采集到的原始新闻文本存在描述数据冗余和内容不相关的问题,因此对原始新闻文本进行包括去重、去除无效符号以及去除内容不相关的文本预处理,并且依据事件发生的日期、事件类型、事件标题等关键信息,对原始新闻文本的关键信息进行匹配,如果该类关键信息相同,则只保留其中的一篇新闻文本,得到预处理后的校园安全突发事件的初始新闻文本。
S1.3:对步骤S1.2的文本预处理后的校园安全突发事件的初始新闻文本进行标注,最终得到的标注形式如图2校园突发事件抽取示例中的标注新闻文本格式所示:每条标注新闻文本独有的编号(id);每条标注新闻文本内包含:事件句(content),事件类型(type),触发词(trigger)以及其在事件句中位置的触发词索引(trigger-span),论元角色(args)以及其在事件句中位置的论元角色索引(args-span)。其中,事件句(content)是指需要进行校园安全突发事件抽取的文本,示例如图2中事件句所示;事件类型是指事件句中包含的事件的类型,示例如图2中事件类型所示,句中,触发词是事件的核心词,其能够清楚地表达事件的发生的性质,通常为名词或者动词,示例如图2中触发词所示。论元角色分为论元和其对应的角色,其中论元是指事件的参与者,角色指论元在事件中充当的角色,示例如图2中论元角色所示。
S1.4:对步骤S1.3中标注新闻文本的数据集按照7:1:2比例划分为训练集、验证集和测试集,得到划分新闻文本的数据集。
S2:建立校园安全突发事件抽取模型,包括文本特征表示模块,事件类型分类模块,触发词抽取模块以及论元角色分类模块。
S3:在文本特征表示模块中,将划分新闻文本的数据集中的事件句进行分词操作(将事件句中的每个词分开组成列表),得到事件句序列,然后将其输入RoBERTa预训练语言模型中,获取序列词向量,并采用双向循环神经网络Bi-GRU模型来加强序列特征表示,最后采用图注意力神经网络GAT提取序列词向量的语法依赖特征,得到融合语义依存信息的词向量。
具体步骤可分解描述如下:
S3.1:文本词向量学习:
在步骤S1执行所得的划分新闻文本的数据集作为输入,首先对划分新闻文本的事件句进行分词操作,得到事件句序列X={x1,x2,...,xN},其中xi表示序列中第i个词,i∈[1,N],N为事件句序列长度。然后将事件句序列输入RoBERTa预训练语言模型,RoBERTa预训练语言模型中的词嵌入模块会对该序列中的每一个词进行词嵌入(记为wi)和位置嵌入(记为pi)。通过如下式(1),将词嵌入wi和位置嵌入pi相加得到第i个词的嵌入表示ei。之后将嵌入表示ei带入如下式(2)进行编码,得到序列词向量H。
ei=wi+pi (1)
H=[{t1,t2,...,ti,...,tN}]=RoBERTa([e1,e2,...,ei,...,eN]) (2)
i∈[1,N],N为事件句序列长度,RoBERTa为RoBERTa预训练语言模型。
采用RoBERTa预训练语言模型来进行编码获取序列词向量,该模型是基于Transformer(NLP自然语言处理领域当中,主要存在三种特征处理器——CNN、RNN以及Transformer)的语言表示模型,并且针对中文的特点进行了优化与改进,使其更适合中文NLP任务,其输入分别为词嵌入、分句嵌入和位置嵌入,由于任务的输入仅为单条句子,因此本发明不考虑分句嵌入信息,通过直接将文本句切分每个词输入模型,输出序列词向量。
S3.2:加强序列特征表示:
使用双向循环神经网络Bi-GRU模型对RoBERTa预训练语言模型输出的序列词向量H进行进一步的特征表示,双向循环神经网络Bi-GRU模型将t时刻的序列词向量Ht与上一时刻t-1的双向循环神经网络Bi-GRU模型的隐藏层输出ht-1带入如下式(3)中,得到t时刻的输出,通过将其带入如下式(4),经过N个时刻,输出最终的加强序列时序依赖特征的词向量hGRU,N为事件句序列长度。
ht=BiGRU(Ht,ht-1) (3)
hGRU={h1,h2,h3,...,hN} (4)
式(3)中,Ht表示事件句词向量H在t时刻位置的词向量;ht表示t时刻的隐藏层输出,ht-1表示t-1时刻的隐藏层输出,t∈[1,N],N为事件句序列长度,式(4)中,hGRU表示加强序列时序依赖特征的词向量,hN表示N时刻的隐藏层输出,BiGRU表示双向循环神经网络Bi-GRU模型。
进一步输出加强序列时序依赖特征的词向量,能够很好地捕捉双向的语义依赖。
S3.3:提取序列语义依存特征:
通过百度平台提供的依存句法分析工具DDParser对事件句进行依存句法分析(dependency syntactic parsing),得到事件句中的关联词对、长距离依赖词对,并将这些词对生成语义邻接矩阵,与步骤S3.2输出的加强序列时序依赖特征的词向量hGRU一起输入到图注意力神经网络GAT中,具体过程为:通过邻接矩阵,将每个词作为节点,将与每个词关联的词作为邻居节点,假设第i个词特征表示为h'i与其邻居节点第j个词的特征表示为h'j,将h'i与h'j代入如下式(5)可以计算第i个词第j个词之间的相关性,通过将h'i与h'j进行拼接,然后输入到单层前馈神经网络a中,再通过LeakyReLU激活函数,计算两个节点之间的权重eij。然后通过如下公式(6)进行注意力系数计算,假设第i个词的邻居节点的集合为Di,利用softmax函数对领居节点的集合Di在如下式(5)得到的节点之间的权重eij进行归一化计算,获取注意力系数αij:
其中,eij表示第i个词与第j个词之间的权重,代表两个词之间的相关程度,h'i为第i个词特征表示,h'j为邻居节点第j个词的特征表示,h'K为邻居节点第k个词的特征表示,a为单层前馈神经网络,LeakyReLU为激活函数,“||”表示拼接,W表示一个投影矩阵,表示权重参数;aij为归一化后的注意力系数,Di为第i个词的邻居节点的集合,softmax为归一化函数,exp()为指数函数;
为了使图注意力神经网络GAT模型结构更加稳定,使用多头注意力机制聚集句子不同部分的特征,在通过式(6)计算K个相互独立的注意力系数后,将它们代入公式(7),将每个邻居节点特征向量h'j点乘一个维度转换向量参数Wk之后,再乘上注意力系数/>然后加权求和并取平均值,最后通过sigmoid激活函数输出第i个词的特征表达h”i,最终对N个词都进行同样的操作后,得到了融合语义依存信息的词向量h”N={h”1,h”2,...,h”N},N为事件句序列长度。
其中,h”i中心节点i的特征表达,K为注意力头个数,是第k个注意力的权重系数“||”表示拼接,σ为sigmoid激活函数,Wk为权重矩阵。
由于图注意力神经网络GAT采用多层多头注意力机制考虑句子中不同词的重要程度,因此获取更全面的语义依赖特征信息。
S4:在事件类型分类模块,将RoBERTa预训练语言模型输出得到的序列词向量输入事件类型分类模块池化层进行平均池化操作,再通过事件类型分类模块全连接层对事件句中包含的所有事件类型进行分类,同时学习事件类型的特征向量。
具体步骤可分解描述如下:
S4.1:句向量获取:
对步骤S3.1中RoBERTa预训练语言模型输出的序列词向量入事件类型分类模块池化层进行平均池化操作,将序列词向量H转化为固定长度的句向量hS。对于输出的句向量表示的公式如下:
hS=MeanPooling(H) (8)
hS为句向量,MeanPooling为平均池化操作,H为序列词向量。
S4.2:事件类型分类:
得到句向量hS后,将其输入事件类型分类模块全连接层进行分类,具体为将句向量hS代入如下公式(9)点乘一个维度转换向量权重We,通过sigmoid函数计算事件类型的概率pe,当pe的值大于0.5时,对应的事件类型标签被标注为1,否则被标注为0。标注为1的事件类型即为识别出的预测事件类型,具体操作公式如下:
pe=σ(WehS+be) (9)
其中,We和be分别代表可训练的维度转换向量权重和偏置,σ代表sigmoid激活函数,hS为句向量,Pe为预测事件类型的概率。
S4.3:事件类型特征向量学习:
在S4.2中得到预测事件类型之后,对于每一个预测事件类型,训练它们的编码向量,得到预测事件类型特征向量,表示为E={e1,e2,...,ej},ej代表预测为第j个事件类型特征向量。
S5:在触发词抽取模块,对已分类得到的预测事件类型,获取预测事件类型特征向量与融合语义依存信息的词向量拼接,再使用二进制标注器识别事件句中包含的触发词。
具体步骤可分解描述如下:
S5.1:事件类型特征融合:
假如步骤S4.2识别出的预测事件类型为第j个事件类型,从步骤S4.3学习的预测事件类型特征向量中查询对应的第j个事件类型特征向量ej,通过与步骤S3.3融合语义依存信息的词向量h”N拼接,得到融合事件类型特征的词向量Hj。公式如下:
Hj=Concat(ej,h”N) (10)
其中,ej代表预测为第j个事件类型特征向量,Concat()为拼接操作,Hj为融合事件类型特征的词向量,h”N为融合语义依存信息的词向量。
S5.2:触发词识别:
将步骤S5.1得到的融合事件类型特征的词向量Hj,同时输入一个针对触发词起始位置的二进制分类器和一个针对触发词结束位置的二进制分类器。首先针对触发词起始位置的二进制分类器,会输出一个概率向量这个概率向量的长度为事件序列的长度,表示每个词为触发词的起始位置的概率。同理针对触发词结束位置的二进制分类器,会输出一个概率向量/>这个概率向量的长度为事件序列的长度,表示每个词为触发词的结束位置的概率。假如事件句中第i个词在融合事件类型特征的词向量Hj的特征向量为/>将/>代入如下公式(11)点乘一个维度转换向量权重/>后再通过sigmoid的函数计算/>同理将/>代入公式(12)点乘一个维度转换向量权重/>后再通过sigmoid的函数计算/>
公式(11)中,σ代表sigmoid函数,代表起始标注的维度转换向量权重,/>代表起始标注的偏置,/>代表事件句中第i个词在融合事件类型特征的词向量的特征向量。触发词由在事件句中的词组成。/>代表事件句中第i个词特征向量/>经过二进制分类器输出为触发词起始位置的概率。
公式(12)中,σ代表sigmoid函数,代表结束标注的维度转换向量权重,/>代表结束标注的偏置,/>代表事件句中第i个词在融合事件类型特征的词向量的特征向量。触发词由在事件句中的词组成。/>代表事件句中第i个词特征向量/>经过二进制分类器输出为触发词结束位置的概率。
对于事件句中N个词,两个相同且独立的二进制分类器输出的整体触发词起始位置概率向量为整体触发词结束位置概率向量为其中/>代表事件句中第N个词是触发词起始位置的概率,/>代表事件句中第N个词是触发词结束位置的概率。
设定一个阈值0.5,如果和/>的值大于该阈值,则第i个词所在位置被赋值为1,否则赋值为0。如果一个事件句存在多个触发词,采用就近原则来解决词嵌套问题,将两个二进制分类器输出的整体触发词起始位置概率向量pts与整体触发词结束位置概率向量pte中距离最近的开始位置和结束位置标为1的位置,作为一个触发词在句中的起始和结束位置,触发词抽取采用的二进制标注如图3中触发词抽取模块(Trigger Decoder)的输出结果所示。/>
假设识别出K个触发词,对于第k个触发词,得到了其在事件句中的位置,假设其起始位置为第i个词,结束位置为第j个词,那么可以从步骤S5.1得到的融合事件类型特征的词向量Hj中获取i和j这个范围的词的特征向量进行组合,得到第k个触发词特征向量k∈K,K为识别出的触发词个数。
S6:在论元角色分类模块,对上一步识别出的触发词,获取触发词的特征向量,再通过自注意力机制增强触发词的表达能力,最后使用多层二进制标注器进行论元角色分类。
具体步骤可分解描述如下:
S6.1:触发词特征融合:
由于通过多任务联合的方式进行训练,因此加强各个任务之间的交互与依赖能够提升子任务的性能,于是将步骤S5.2识别到的触发词与在步骤S5.1得到的融合事件类型特征的词向量Hj进行融合,得到融合触发词特征的词向量。考虑到仅简单的直接将步骤S5.2得到的触发词特征向量与步骤S5.1得到的融合事件类型特征的词向量Hj进行拼接,无法完全表达触发词的特征信息,本发明提出使用自注意力机制加强触发词的特征表达能力,根据不同位置考虑相对重要的信息,根据触发词的起始与结束位置查询到其在事件句词向量中对应的各个词的向量表示,将查询到的向量通过自注意力机制输出最终加强的触发词特征向量,最后将加强的触发词特征向量与融合事件类型特征的词向量Hj进行拼接。
首先,将步骤S5.2得到的第k个触发词特征向量输入到自注意力机制中得到加强后的触发词特征向量/>如下公式(13)所示,自注意力机制将触发词中每个词的向量分配高低不同的权重,这样得到的加强后的触发词特征向量/>便能更加准确地表达触发词的含义,然后将加强后的触发词特征向量/>与融合事件类型特征的词向量Hj拼接得到融合触发词特征的词向量Ct,如下公式(14)所示。
其中,代表第k个触发词特征向量,Concat()代表拼接操作,/>表示加强后的触发词特征向量,Ct表示融合触发词特征的词向量,Hj表示融合事件类型特征的词向量,SelfAttention表示进行自注意力计算。
S6.2:论元角色分类:
将步骤S6.1得到的融合触发词特征的词向量Ct输入进两个相同且独立的多层二进制标注器,得到论元在事件句中起始和结束的位置以及其对应的角色概率如下公式(15)和(16)所示。
公式(15)中,σ代表sigmoid函数,代表起始标注的维度转换向量权重,/>代表起始标注的偏置,/>代表事件句中第i个词在融合触发词特征的词向量Ct中的特征向量。论元由在事件句中的词组成。/>代表事件句中第i个词特征向量/>经过多层二进制分类器输出为论元起始位置的概率。
公式(16)中,σ代表sigmoid函数,代表结束标注的维度转换向量权重,/>代表结束标注的偏置,/>代表事件句中第i个词在融合触发词特征的词向量Ct中的特征向量。论元由在事件句中的词组成。/>代表事件句中第i个词特征向量/>经过多层二进制分类器输出为论元结束位置的概率。
对于事件句中N个词,两个相同且独立的多层二进制分类器输出的整体论元起始位置概率向量为整体论元结束位置概率向量为其中/>代表事件句中第N个词是论元起始位置的概率,/>代表事件句中第N个词是论元结束位置的概率。
设定一个阈值0.5,如果和/>的值大于该阈值,则事件句中第i个词所在位置被赋值为1,否则赋值为0。如果一个事件句存在多个论元,采用就近原则来解决词嵌套问题,将两个多层二进制分类器输出的整体论元起始位置概率向量pas与整体论元结束位置概率向量pae中距离最近的开始位置和结束位置标为1的位置,作为一个论元在事件句中的起始和结束位置。
论元角色分类采用的多层二进制标注如图3中论元角色分类模块(ArgumentsDecoder)所示,多层二进制标注的层数代表识别出的所有角色(role)的个数,通过对每一个角色标注其论元在事件句中所在的起始和结束的位置,从而根据位置索引到论元在事件句中的对应的所有的词。最终论元角色分类输出格式为如图2所示的论元角色。
常用的序列标注方法是对每个词进行BIO标注(具体地B、I、O分别表示Begin,Inner,Other,进一步地来说,B-X表示当前的词是X类型的角色并且位于论元的起始位置,I-X表示当前的词是X类型的角色并且位于论元的中间,O则表示当前的词不属于X类型的角色):具体通过对每个词按照“B-X”“I-X”“O”的格式进行标注,其中X代表角色类型。例如图2的例子中,该事件句包含两个事件,其中如果采用序列标注的方法,“2008年4月25日凌晨3时许”这个论元在两个事件都存在,因此序列标注需要对论元每个词都同时标注,标注为“B-time I-time I-time I-time I-time I-time I-time I-time I-time I-time I-timeI-time I-time I-time I-time”,但是这样无法区分该论元对应的事件类型。
本发明采用多层二进制标注的方法,将事件类型个数作为层数,对每个独立的句子进行标注,格式为“气象灾害事故:{时间:100000000000001},校园设施设备事故:{时间:100000000000001}”,两个1分别代表论元起始和结束的位置。这样同一个论元存在于不同事件类型中导致重叠的问题得到解决。
通过共享编码特征,联合学习所有子任务解码器,从而加强子任务间的依赖关系,具体参考步骤S5.2和S6.1;对于角色重叠问题,采用多层二进制标注并根据子任务之间的条件依赖关系来抽取论元,具体参考步骤S6.2;同时对于语义与句法依赖缺失问题,在编码阶段引入了双向循环神经网络Bi-GRU与图注意力神经网络GAT,具体参考步骤S3.2和S3.3。
以上所述实施例仅表达了本发明的1种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于多任务学习的校园安全突发事件抽取方法,其特征在于,包括以下步骤:
S1:获取校园安全突发事件的原始新闻文本,并划分为划分新闻文本;
S2:建立校园安全突发事件抽取模型,包括文本特征表示模块,事件类型分类模块,触发词抽取模块以及论元角色分类模块;
S3:执行文本特征表示模块:输入划分新闻文本,训练得到序列词向量;通过提取序列词向量的语法依赖特征得到融合语义依存信息的词向量;
S4:执行事件类型分类模块:输入序列词向量,将序列词向量转化为句向量;通过句向量识别出预测事件类型;通过训练预测事件类型得到预测事件类型特征向量;
S5:执行触发词抽取模块:输入融合语义依存信息的词向量和预测事件类型特征向量,输出融合事件类型特征的词向量;通过融合事件类型特征的词向量,得到触发词和触发词特征向量;
S6:执行论元角色分类模块:将触发词特征向量输入自注意力机制得到加强后的触发词特征向量;输入加强后的触发词特征向量和融合事件类型特征的词向量,输出融合触发词特征的词向量;
将融合触发词特征的词向量输入多层二进制标注器,得到论元角色。
2.根据权利要求1所述的基于多任务学习的校园安全突发事件抽取方法,其特征在于,校园安全突发事件抽取模型采用多任务联合学习的方式进行训练;
文本特征表示模块包括RoBERTa编码层,双向循环神经网络Bi-GRU模型和包含图注意力神经网络GAT的特征加强层;
事件类型分类模块包括事件类型分类模块平均池化层和事件类型分类模块全连接层;
触发词抽取模块包括触发词抽取模块特征拼接层和触发词抽取模块全连接层;
论元角色分类模块包括自注意力机制层,论元角色分类模块特征拼接层和论元角色分类模块全连接层。
3.根据权利要求2所述的基于多任务学习的校园安全突发事件抽取方法,其特征在于,步骤S3具体为:
S3.1:执行文本特征表示模块,将划分新闻文本的数据集中的事件句进行分词,得到事件句序列,然后将事件句序列输入RoBERTa预训练语言模型中,获取序列词向量;
S3.2:采用双向循环神经网络Bi-GRU模型来加强序列特征表示,将序列词向量加强为加强序列时序依赖特征的词向量;
S3.3:获取依存句法分析工具DDParser,对事件句进行依存句法分析,得到事件句的关联词对、长距离依赖词对,并将这些词对生成语义邻接矩阵,采用图注意力神经网络GAT提取加强序列时序依赖特征的词向量的语法依赖特征,得到融合语义依存信息的词向量。
4.根据权利要求3所述的基于多任务学习的校园安全突发事件抽取方法,其特征在于,
S3.1具体为:
执行文本特征表示模块,将划分新闻文本的数据集中的事件句进行分词,得到事件句序列X={x1,x2,...,xN},其中xi表示序列中第i个词,i∈[1,N],N为事件句序列长度;然后将事件句序列输入RoBERTa预训练语言模型,RoBERTa预训练语言模型中的词嵌入模块会对事件句序列中的每一个词进行词嵌入wi和位置嵌入pi;通过如下式(1),将词嵌入wi和位置嵌入pi相加得到第i个词的嵌入表示ei;之后将嵌入表示ei带入如下式(2)进行编码,得到序列词向量H;
ei=wi+pi (1)
H=[{t1,t2,...,ti,...,tN}]=RoBERTa([e1,e2,...,ei,...,eN]) (2)
i∈[1,N],N为事件句序列长度,RoBERTa为RoBERTa预训练语言模型;
S3.2具体为:
使用双向循环神经网络Bi-GRU模型对序列词向量H进行进一步的特征表示,双向循环神经网络Bi-GRU模型将t时刻的序列词向量Ht与上一时刻t-1的双向循环神经网络Bi-GRU模型的隐藏层输出ht-1带入如下式(3)中,得到t时刻的输出,通过将其带入如下式(4),经过N个时刻,输出加强序列时序依赖特征的词向量hGRU,N为事件句序列长度;
ht=BiGRU(Ht,ht-1) (3)
hGRU={h1,h2,h3,...,hN} (4)
式(3)中,Ht表示事件句词向量H在t时刻位置的词向量;ht表示t时刻的隐藏层输出,ht-1表示t-1时刻的隐藏层输出,t∈[1,N],N为事件句序列长度,式(4)中,hGRU表示加强序列时序依赖特征的词向量,hN表示N时刻的隐藏层输出,BiGRU表示双向循环神经网络Bi-GRU模型;
S3.3具体为:
通过百度平台提供的依存句法分析工具DDParser对事件句进行依存句法分析,得到事件句的关联词对、长距离依赖词对,并将这些词对生成语义邻接矩阵,与加强序列时序依赖特征的词向量hGRU一起输入到图注意力神经网络GAT中;具体过程为:通过邻接矩阵,将每个词作为节点,将与每个词关联的词作为邻居节点,假设第i个词特征表示为h′i与其邻居节点第j个词的特征表示为h′j,将h′i与h′j代入如下式(5)可以计算第i个词第j个词之间的相关性,通过将h′i与h′j进行拼接,然后输入到单层前馈神经网络a中,再通过LeakyReLU激活函数,计算两个节点之间的权重eij;然后通过如下公式(6)进行注意力系数计算,假设第i个词的邻居节点的集合为Di,利用softmax函数对领居节点的集合Di在如下式(5)得到的节点之间的权重eij进行归一化计算,获取注意力系数αij:
式(5)和式(6)中,eij表示第i个词与第j个词之间的权重,代表两个词之间的相关程度,h′i为第i个词特征表示,h′j为邻居节点第j个词的特征表示,h′K为邻居节点第k个词的特征表示,a为单层前馈神经网络,LeakyReLU为激活函数,“||”表示拼接,W表示一个投影矩阵,表示权重参数;aij为归一化后的注意力系数,Di为第i个词的邻居节点的集合,softmax为归一化函数,exp()为指数函数;
为了使图注意力神经网络GAT的模型结构更加稳定,使用多头注意力机制聚集句子不同部分的特征,在通过式(6)计算K个相互独立的注意力系数后,将它们代入公式(7),将每个邻居节点特征向量h′j点乘一个维度转换向量参数Wk之后,再乘上注意力系数/>然后加权求和并取平均值,最后通过sigmoid激活函数输出第i个词的特征表达h”i,最终对N个词都进行同样的操作后,得到了融合语义依存信息的词向量h”N={h1”,h″2,...,h”N},N为事件句序列长度;
其中,h”i中心节点i的特征表达,K为注意力头个数,是第k个注意力的权重系数,“||”表示拼接,σ为sigmoid激活函数,Wk为权重矩阵。
5.根据权利要求4所述的基于多任务学习的校园安全突发事件抽取方法,其特征在于,步骤S4具体为:
S4.1:执行事件类型分类模块,将序列词向量输入事件类型分类模块池化层进行平均池化操作,将序列词向量转化为固定长度的句向量hS;对于输出的句向量表示的公式如下:
hS=MeanPooling(H) (8)
hS为句向量,MeanPooling为平均池化操作,H为序列词向量;
S4.2:将句向量hS输入事件类型分类模块全连接层进行分类,具体为将句向量hS代入如下公式(9)点乘一个维度转换向量权重We,通过sigmoid函数计算事件类型的概率pe,当pe的值大于0.5时,对应的事件类型标签被标注为1,否则被标注为0;标注为1的事件类型即为识别出的预测事件类型,具体操作公式如下:
pe=σ(WehS+be) (9)
其中,We和be分别代表可训练的维度转换向量权重和偏置,σ代表sigmoid激活函数,hS为句向量,Pe为预测事件类型的概率;
S4.3:对于每一个预测事件类型,训练它们的编码向量,得到预测事件类型特征向量,表示为E={e1,e2,...,ej},其中ej代表第j个事件类型的特征向量。
6.根据权利要求5所述的基于多任务学习的校园安全突发事件抽取方法,其特征在于,步骤S5具体为:
S5.1:执行触发词抽取模块,将预测事件类型特征向量与融合语义依存信息的词向量采用拼接的操作来进行特征融合,得到融合事件类型特征的词向量;
S5.2:将融合事件类型特征的词向量输入二进制分类器来识别划分新闻文本的事件句中的触发词,并得到触发词特征向量。
7.根据权利要求6所述的基于多任务学习的校园安全突发事件抽取方法,其特征在于,
S5.1具体为:
假如预测事件类型为第j个事件类型,从预测事件类型特征向量中查询对应的第j个事件类型特征向量ej,通过与融合语义依存信息的词向量h”N拼接,得到融合事件类型特征的词向量Hj;公式如下:
Hj=Concat(ej,h”N) (10)
其中,ej第j个事件类型特征向量,Concat()为拼接操作,Hj为融合事件类型特征的词向量,h”N为融合语义依存信息的词向量;
S5.2具体为:
将融合事件类型特征的词向量Hj,输入两个相同且独立的二进制分类器来识别触发词在事件句中的起始和结束位置;触发词由在事件句中的词组成;通过为事件句中的每个词生成一个概率,来表示每个词是否为触发词的起始或者结束;加入事件句中第i个词在融合事件类型特征的词向量Hj的特征向量为将/>代入如下公式(11)点乘一个维度转换向量权重/>后再通过sigmoid的函数计算/>同理将/>代入公式(12)点乘一个维度转换向量权重/>后再通过sigmoid的函数计算/>
公式(11)中,σ代表sigmoid函数,代表起始标注的维度转换向量权重,/>代表起始标注的偏置,/>代表事件句中第i个词在融合事件类型特征的词向量的特征向量;/>代表事件句中第i个词特征向量Hji经过二进制分类器输出为触发词起始位置的概率;
公式(12)中,σ代表sigmoid函数,代表结束标注的维度转换向量权重,/>代表结束标注的偏置,/>代表事件句中第i个词在融合事件类型特征的词向量的特征向量;触发词由在事件句中的词组成;/>代表事件句中第i个词特征向量/>经过二进制分类器输出为触发词结束位置的概率;
对于事件句中N个词,两个相同且独立的二进制分类器输出的整体的触发词起始位置概率向量为整体的触发词结束位置概率向量为其中/>代表事件句中第N个词是触发词起始位置的概率,/>代表事件句中第N个词是触发词结束位置的概率;
设定一个阈值0.5,如果和/>的值大于该阈值,则第i个词所在位置被赋值为1,否则赋值为0;如果一个事件句存在多个触发词,采用就近原则来解决词嵌套问题,将两个二进制分类器输出的整体的触发词起始位置概率向量pts与整体的触发词结束位置概率向量pte中距离最近的开始位置和结束位置标为1的位置,作为一个触发词在句中的起始和结束位置;
假设识别出K个触发词,对于第k个触发词,得到了其在事件句中的位置,假设其起始位置为第i个词,结束位置为第j个词,那么可以从融合事件类型特征的词向量Hj中获取i和j这个范围的词的特征向量进行组合,得到第k个触发词特征向量K为识别出的触发词的个数。
8.根据权利要求7所述的基于多任务学习的校园安全突发事件抽取方法,其特征在于,步骤S6具体为:
S6.1:将触发词特征向量输入自注意力机制层,输出加强后的触发词特征向量;将加强后的触发词特征向量与融合事件类型特征的词向量拼接进行特征融合,得到融合触发词特征的词向量;
S6.2:将融合触发词特征的词向量输入输入多层二进制标注器,输出论元角色。
9.根据权利要求8所述的基于多任务学习的校园安全突发事件抽取方法,其特征在于,
S6.1具体为:将触发词特征向量输入到自注意力机制层中,得到加强后的触发词特征向量/>如下公式(13)所示,自注意力机制将触发词中每个词的向量分配高低不同的权重;然后将加强后的触发词特征向量/>与融合事件类型特征的词向量Hj拼接得到融合触发词特征的词向量Ct,如下公式(14)所示;
其中,代表第k个触发词特征向量,Concat()代表拼接操作,/>表示加强后的触发词特征向量,Ct表示融合触发词特征的词向量,Hj表示融合事件类型特征的词向量,SelfAttention表示进行自注意力计算;
S6.2具体为:将融合触发词特征的词向量Ct输入进两个相同且独立的多层二进制标注器,得到论元在事件句中起始和结束的位置以及论元对应的角色概率,论元由在事件句中的词组成,求解如下公式(15)和(16)所示:
公式(15)中,σ代表sigmoid函数,代表起始标注的维度转换向量权重,/>代表起始标注的偏置,/>代表事件句中第i个词在融合触发词特征的词向量Ct中的特征向量;/>代表事件句中第i个词特征向量/>经过多层二进制分类器输出为论元起始位置的概率;
公式(16)中,σ代表sigmoid函数,代表结束标注的维度转换向量权重,/>代表结束标注的偏置,/>代表事件句中第i个词在融合触发词特征的词向量Ct中的特征向量;论元由在事件句中的词组成;/>代表事件句中第i个词特征向量/>经过多层二进制分类器输出为论元结束位置的概率;
对于事件句中N个词,两个相同且独立的多层二进制分类器输出的整体论元起始位置概率向量为整体论元结束位置概率向量为其中/>代表事件句中第N个词是论元起始位置的概率,/>代表事件句中第N个词是论元结束位置的概率;
设定一个阈值0.5,如果和/>的值大于该阈值,则事件句中第i个词所在位置被赋值为1,否则赋值为0;如果一个事件句存在多个论元,采用就近原则来解决词嵌套问题,将两个多层二进制分类器输出的整体论元起始位置概率向量pas与整体论元结束位置概率向量pae中距离最近的开始位置和结束位置标为1的位置,作为一个论元在事件句中的起始和结束位置;
论元角色分类采用的多层二进制标注,多层二进制标注的层数代表识别出的所有角色的个数,通过对每一个角色标注其论元在事件句中所在的起始和结束的位置,从而根据位置索引到论元在事件句中的对应的所有的词;最终输出论元角色。
10.根据权利要求1-9中任一所述的基于多任务学习的校园安全突发事件抽取方法,其特征在于,步骤S1具体为:
S1.1:使用网络爬虫从全国学校安全教育网、网络媒体等渠道爬取公开的校园安全突发事件的原始新闻文本;
S1.2:对原始新闻文本文本预处理,并且依据事件发生的日期、事件类型、事件标题等关键信息,对原始新闻文本的关键信息进行匹配,得到预处理后的校园安全突发事件的初始新闻文本;
S1.3:对初始新闻文本进行标注:每条标注的初始新闻文本独有的编号id;每条标注的初始新闻文本包含:事件句content,事件类型type,触发词trigger以及其在事件句中位置的触发词索引trigger-span,论元角色args以及其在事件句中位置的论元角色索引args-span;其中,事件句content是指需要进行校园安全突发事件抽取的文本,;事件类型是指事件句中包含的事件的类型,触发词是事件的核心词;论元角色分为论元和其对应的角色,其中论元是指事件的参与者,角色指论元在事件中充当的角色;得到标注新闻文本;
S1.4:对标注新闻文本的数据集按照7:1:2比例划分为训练集、验证集和测试集,得到划分新闻文本的数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310491844.XA CN116910196A (zh) | 2023-05-04 | 2023-05-04 | 一种基于多任务学习的校园安全突发事件抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310491844.XA CN116910196A (zh) | 2023-05-04 | 2023-05-04 | 一种基于多任务学习的校园安全突发事件抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116910196A true CN116910196A (zh) | 2023-10-20 |
Family
ID=88357123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310491844.XA Pending CN116910196A (zh) | 2023-05-04 | 2023-05-04 | 一种基于多任务学习的校园安全突发事件抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910196A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874261A (zh) * | 2024-03-12 | 2024-04-12 | 北京邮电大学 | 基于课程学习的问答式事件抽取方法以及相关设备 |
-
2023
- 2023-05-04 CN CN202310491844.XA patent/CN116910196A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874261A (zh) * | 2024-03-12 | 2024-04-12 | 北京邮电大学 | 基于课程学习的问答式事件抽取方法以及相关设备 |
CN117874261B (zh) * | 2024-03-12 | 2024-05-28 | 北京邮电大学 | 基于课程学习的问答式事件抽取方法以及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN111382575A (zh) | 一种基于联合标注和实体语义信息的事件抽取方法 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN111694924A (zh) | 一种事件抽取方法和系统 | |
CN113065358B (zh) | 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法 | |
CN112667813B (zh) | 用于裁判文书的敏感身份信息的识别方法 | |
CN113268561B (zh) | 一种基于多任务联合训练的问题生成方法 | |
CN110781290A (zh) | 一种长篇章结构化文本摘要提取方法 | |
CN112183064A (zh) | 基于多任务联合学习的文本情绪原因识别系统 | |
CN114781392A (zh) | 一种基于bert改进模型的文本情感分析方法 | |
CN111753058A (zh) | 一种文本观点挖掘方法及系统 | |
CN113157859A (zh) | 一种基于上位概念信息的事件检测方法 | |
CN113516198A (zh) | 一种基于记忆网络和图神经网络的文化资源文本分类方法 | |
CN115455202A (zh) | 一种应急事件事理图谱构建方法 | |
CN115935975A (zh) | 一种情感可控的新闻评论生成方法 | |
CN116910196A (zh) | 一种基于多任务学习的校园安全突发事件抽取方法 | |
CN113051904B (zh) | 一种面向小规模知识图谱的链接预测方法 | |
CN114611520A (zh) | 一种文本摘要生成方法 | |
CN115292568A (zh) | 一种基于联合模型的廉政和民生新闻事件抽取方法 | |
CN117909918A (zh) | 一种基于融合特征的监护仪故障预测方法和系统 | |
CN116562286A (zh) | 一种基于混合图注意力的智能配置事件抽取方法 | |
CN116562291A (zh) | 一种基于边界检测的中文嵌套命名实体识别方法 | |
CN115470348A (zh) | 一种暴力事件检测方法、装置及设备 | |
CN113361259B (zh) | 一种服务流程抽取方法 | |
CN113901172B (zh) | 基于关键词结构编码的涉案微博评价对象抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |