CN112612871B - 一种基于序列生成模型的多事件检测方法 - Google Patents

一种基于序列生成模型的多事件检测方法 Download PDF

Info

Publication number
CN112612871B
CN112612871B CN202011496007.9A CN202011496007A CN112612871B CN 112612871 B CN112612871 B CN 112612871B CN 202011496007 A CN202011496007 A CN 202011496007A CN 112612871 B CN112612871 B CN 112612871B
Authority
CN
China
Prior art keywords
text
event
vector
model
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011496007.9A
Other languages
English (en)
Other versions
CN112612871A (zh
Inventor
庄越挺
邵健
吕梦瑶
宗畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011496007.9A priority Critical patent/CN112612871B/zh
Publication of CN112612871A publication Critical patent/CN112612871A/zh
Application granted granted Critical
Publication of CN112612871B publication Critical patent/CN112612871B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于序列生成模型的多事件检测方法。为了解决现有方法对触发词抽取的过度依赖和对事件共现关系、事件类别语义信息忽略的缺陷,本发明利用序列生成模型可以生成不定长序列的特性,实现了在无需进行触发词抽取的情况下也能进行多事件检测的效果,降低了对数据集的标注要求,增强了方法的可用性。在构建序列生成模型时,使用编码器‑解码器的架构,在解码预测输出的过程中使用上一时间步的输出作为输入,因此可以学习各事件类别间的共现关系。此外,本发明同时编码事件文本语义和事件类别名称的语义信息,使得在数据量较少的情况下也能加入更多先验信息得到良好的效果。

Description

一种基于序列生成模型的多事件检测方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于序列生成模型的事件检测方法。
背景技术
随着互联网技术与应用的迅速发展,自然语言文本信息的交流和共享也日益频繁和广泛。这些文本信息通常以新闻资讯,机构公告,论坛评论等非结构化文本形式呈现,常常蕴含着许多拥有潜在价值的事件信息,挖掘这些事件信息具有很强的应用价值。例如,通过金融公告可以检测引起金融市场波动的事件,从而辅助投资者做出决策;通过实时检测社会突发事件,可以为应急处理争取时间。事件检测的目标就是从这些数量庞大、更新迅速、结构复杂的非结构化文本中检测是否有事件发生并得到发生事件的类型。
目前,文本事件检测方法多数利用深度学习方法构建序列标注模型对事件文本进行事件触发词抽取,若文本包含触发词则视为有事件发生,然后通过对触发词的分类得到事件的分类。然而,现有的方法有以下缺点:
1.现有方法过度依赖触发词的抽取和分类来进行事件监测。然而在实际场景中,文本中往往没有明确的触发词或者含有多个触发词。特别地,中文文本中某些触发词的边界难以判断。这些都对事件的检测造成了干扰。此外,触发词标注难度很高,需要人力和时间的消耗,有触发词标注的数据资源很少。因此,现有方法在实际应用中难以达到良好的效果。
2.现有方法对于各个事件类型的检测往往是独立的,没有考虑到事件类型之间的共现关系,例如袭击事件往往会和伤亡事件共同发生。忽略这部分信息影响了事件检测准确率的提升。
3.现有方法大多只关注了事件文本中的信息,没有利用事件类别名称所包含的语义信息。例如,在检测“投资”事件时,没有运用“投资”这个类别名称包含的语义信息,而是简单用数字作为类别的代号,这是一种语义浪费。
针对现有方法的缺陷,本发明提出了一种新颖的基于序列生成模型的多事件检测方法。将传统的基于序列标注和触发词抽取的方法转换为基于序列生成模型的方法。利用序列生成模型可以生成不定长序列的特性,实现了在无需进行触发词抽取的情况下也能进行多事件检测的效果,降低了对数据集的标注要求,增强了方法的可用性。在构建序列生成模型时,使用编码器-解码器的架构,在解码预测输出的过程中使用上一时间步的输出作为输入,因此可以学习各事件类别间的共现关系。此外,该方法除了考虑事件文本语义外,还加入了事件类别名称的语义信息,这相当于加入更多先验信息,在数据量较少的情况下也能得到较好的效果。
发明内容
本发明提供了一种基于序列生成模型的多事件检测方法。在不需要事件触发词抽取的情况下,使用序列生成模型,同时利用事件文本和事件类别名称中的语义信息,并充分考虑事件共现关系来改善事件检测的效果。
一种基于序列生成模型的多事件检测方法,其包括以下步骤:
S1:获取事件文本语料后,对文本进行预处理,然后使用序列化文本标注方法对事件文本中的事件类别进行标注;
S2:构建基于序列生成框架的多事件检测模型;
S3:对模型进行训练和评估,并选择训练效果最好的模型作为最优模型;
S4:利用训练好的最优模型,使用集束搜索的方法进行预测,从而得到生成序列,解析生成序列得到完整的多事件检测结果。
优选地,以上各步骤可以采用如下具体实现方式:
优选地,获取事件文本语料后,对文本进行预处理,然后使用序列化文本标注方法对事件文本中的事件类别进行标注的步骤如下:
S11:获取事件文本语料后,对语料进行清洗;然后使用分词工具对语料进行分词;
S12:对每一条事件文本语料中包含的事件类型进行序列化标注,标注格式为直接将事件类型名称连成序列,中间用特定的分隔符隔开;若该文本不包含任何事件,则标注为“NONE”;然后将标注得到的序列首部添加自定义开始符“<sos>”,尾部添加自定义结束符“<eos>”。
优选地,构建基于序列生成框架的多事件检测模型的步骤如下:
S21:将事件文本输入模型的输入层,将词转化为向量形式,并编码实体及词性特征,具体如S211~S213所示:
S211:使用词嵌入模块将输入文本的每个词转化为向量形式;
S212:对文本中每个词对应的实体和词性类别进行编码,生成实体词性特征向量;
S213:将S211中得到的词向量和S212中词对应的实体词性特征向量拼接起来,共同组成维度为k的组合向量;将一条文本中所有词的组合向量全部拼接得到的文本特征向量表示为x1:n=[x1,x2,...,xn],其中n表示文本中词的个数,xi表示文本中的第i个词,i∈[1,n];
S22:使用包含双向LSTM神经网络模型的编码器进行编码,具体如S221~S222所示:
S221:将S21得到的文本特征向量作为输入数据,传入编码器;
S222:编码器中的双向LSTM深度神经网络对输入数据进行编码,编码后整个句子得到的编码器隐藏状态表示为h1:n=(h1,h2,...,hn),其中每个hi由前向LSTM和后向LSTM的输出拼接而成;
S23:使用注意力计算器计算每一个解码时间步输入文本的注意力特征,得到文本注意力特征向量和记忆向量,具体如S231~S235所示:
S231:设解码器每个时间步的隐藏状态为st,并用S222中编码器最后一步得到的隐藏状态hn作为解码器隐藏状态的初始值s0;随机初始化一个长度等于输入文本长度的记忆向量rt,后续用于累计所有时间步下每个输入词的注意力权重叠加,从而在后续计算注意力权重时提供先前的注意力决策,以避免对原文中某些词的重复关注而生成重复的序列;
S232:在解码的每个时间步t,计算输入文本中每个位置i与该时间步t的关联向量et,i
et,i=vTtanh(Whhi+Wsst+Wrrt,i+be)
其中v,Wh,Ws,Wr,be是可以训练的参数;该时间步t的输出位置与每个输入文本位置的关联向量组合表示为向量et=[et,1,et,2,...,et,n];
S233:根据S232得到的关联向量et计算当前时间步t下输入文本每个词的注意力特征权重at=[at,1,at,2,...,at,n]:
at=soffmax(et)
S234:累计当前时间步t之前的所有时间步下每个输入文本位置的注意力权重at,用于更新当前时间步下的记忆向量rt,计算公式如下:
S235:利用S233生成的注意力权重at和S222生成的隐藏向量hi计算当前时间步t下的文本注意力特征向量ct
S24:使用解码器中的单向LSTM开始解码,每一步对隐藏状态进行更新,并计算得到该步输出词的概率分布,具体如S241~S243所示:
S241:使用解码器中的单向LSTM网络解码,设LSTM单元在时间步t的输出为yt,隐藏状态为st;在每一时间步t,使用S211中的词嵌入模块,查找上一时间步的输出词序号yt-1所对应的词向量gt-1
S242:每一时间步t,使用上一时间步的隐藏状态st-1,并将上一时间步输出对应的词向量gt-1和S235中得到的文本注意力特征向量ct拼接起来作为LSTM单元的输入,从而更新当前时间步的隐藏状态:
st=LSTM(st-1,[gt-1,ct])
并且计算得到解码器的输出:
ot=Vo(Vsst+Vggt-1+Vcct)+bo
其中Vo,Vs,Vg,Vc,bo都是可以学习的参数;
S243:使用解码器的输出ot和掩码向量It得到该解码时间步输出词表的概率分布Pv
Pv=soffmax(ot+It)
掩码向量随机初始化,之后如果上一步输出的词类别为l,则掩码向量的第l个元素设置为负无穷,从而避免解码器一直生成重复的序列。
进一步的,步骤S211中,所述词嵌入模块使用包括word2vec和Glove在内的分布式词向量或包括BERT在内的预训练语言模型。
进一步的,步骤S233中,所述注意力特征权重at中元素的展开形式为:
进一步的,步骤S241中,初始的第一个时间步中,将自定义的开始符“<sos>”作为上一时间步的输出词序号y0
进一步的,对模型进行训练和评估,并选择训练效果最好的模型的步骤如下:
S31:将事件文本语料划分为训练集、验证集和测试集;训练集用于进行训练,验证集用于对模型的效果进行验证并对模型进行挑选,测试集用于进行测试;
S32:对S2构建的多事件检测模型进行训练,训练过程中使用teacher forcing机制进行训练;
S33:在模型的训练过程中,计算单一时间步的损失losst
其中代表该事件步输出正确类别的词w*的概率,at,i,rt,i分别是输入位置i的注意力权重和记忆向量,λ是设定的超参数;
计算所有时间步T的整体损失:
通过最小化loss来训练模型,更新参数;
S34:使用准确率、召回率和F1值对模型效果进行评估,选择在验证集上F1分数最高的模型作为最优模型。
进一步的,利用训练好的模型,使用集束搜索的方法进行预测,从而得到生成序列,解析生成序列得到完整的多事件检测结果的步骤如下:
S41:在模型的测试与应用阶段,将测试文本输入步骤S3训练选择得到的最优模型中,每个时间步可以得到输出词表的概率分布Pv
S42:利用得到的概率分布,通过集束搜索的方法选择每一时间步的输出,最终得出最优生成序列;
S43:通过S1中序列化文本标注方法对应的标注规则解析生成序列,去掉生成序列中的分隔符、开始符和结束符,得到最终的多事件检测结果。
本发明相对于现有技术而言,具有以下有益效果:
为了解决现有方法对触发词抽取的过度依赖和对事件共现关系、事件类别语义信息忽略的缺陷,本发明利用序列生成模型可以生成不定长序列的特性,实现了在无需进行触发词抽取的情况下也能进行多事件检测的效果,降低了对数据集的标注要求,增强了方法的可用性。在构建序列生成模型时,使用编码器-解码器的架构,在解码预测输出的过程中使用上一时间步的输出作为输入,因此可以学习各事件类别间的共现关系。此外,本发明同时编码事件文本语义和事件类别名称的语义信息,使得在数据量较少的情况下也能加入更多先验信息得到良好的效果。
附图说明
为了更清楚地说明本发明的实施例的技术方案,下面将对实施例中所使用的附图进行简单地介绍。显而易见地,下面描述的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于序列生成模型的多事件监测方法的流程图;
图2为本发明提供的基于序列生成框架的多事件检测模型的架构图。
具体实施方式
为了更清晰地阐述本发明的技术方案,本发明非限制性地选择公开了实施例和附图,下面结合附图详细说明本发明的技术实现步骤。
如图1所示,一种基于序列生成模型的多事件检测方法,包括以下步骤:
S1:获取事件文本语料后,对文本进行预处理,然后使用序列化文本标注方
法对事件文本中的事件类别进行标注;
S2:构建基于序列生成框架的多事件检测模型;
S3:对模型进行训练和评估,并选择训练效果最好的模型作为最优模型;
S4:利用训练好的最优模型,使用集束搜索(beam search)的方法进行预测,从而得到生成序列,解析生成序列得到完整的多事件检测结果。
本实施例中,步骤S1的具体实现方式包括:
S11:获取事件文本语料后,对语料进行停用词和乱码等无关字符的清洗;然后使用分词工具对语料进行分词;
S12:对每一条事件文本语料中包含的事件类型进行序列化标注,标注格式为“事件类型A的名称[分隔符]事件类型B的名称[分隔符]事件类型C的名称...”,即直接将事件类型名称连成序列,中间用特定的分隔符隔开。若该文本不包含任何事件,则标注为“NONE”。然后将标注得到的序列首部添加自定义开始符“<sos>”,尾部添加自定义结束符“<eos>”。
如图2所示,本实施例中步骤S2的具体实现方式包括:
S21:将事件文本输入模型的输入层,将词转化为向量形式,并编码实体及词性特征;
S22:使用包含双向LSTM神经网络模型的编码器进行编码;
S23:使用注意力计算器计算每一个解码时间步输入文本的注意力特征,得到文本注意力特征向量和记忆向量;
S24:解码器中的单向LSTM开始解码,每一步对隐藏状态进行更新,并计算得到该步输出词的概率分布。
本实施例中,上述S2的各子步骤可通过下列具体步骤实现:
本实施例中,步骤S21的具体实现方式包括:
S211:使用词嵌入模块将输入文本的每个词转化为向量形式,词嵌入模块可以使用包括word2vec和Glove等的分布式词向量或包括BERT等在内的预训练语言模型;
S212:对文本中每个词对应的实体和词性类别进行编码,生成特征向量;
S213:将S211中得到的词向量和S212中词对应的实体词性特征向量拼接起来,共同组成维度为k的向量。设一条文本包含的词个数为n,则拼接后的向量可以表示为x1:n=[x1,x2,...,xn],其中xi表示文本中的第i个词,i∈[1,n]。
本实施例中,步骤S22的具体实现方式包括:
S221:将S21得到的特征向量作为输入数据,传入编码器;
S222:编码器中的双向LSTM深度神经网络对输入数据进行编码,编码后整个句子得到的编码器隐藏状态可表示为h1:n=(h1,h2,...,hn),其中每个hi由前向LSTM和后向LSTM的输出拼接而成;
本实施例中,步骤S23的具体实现方式包括:
S231:设解码器每个时间步的隐藏状态为st,并用S222中编码器最后一步得到的隐藏状态hn作为解码器隐藏状态的初始值s0。随机初始化一个长度等于输入文本长度的记忆向量rt,后续用于累计所有时间步下每个输入词的注意力权重叠加,从而在后续计算注意力权重时提供先前的注意力决策,以避免对原文中某些词的重复关注而生成重复的序列;
S232:在解码的每个时间步t,计算输入文本中每个位置i与该时间步t的关联向量et,i
et,i=vT tanh(Whhi+Wsst+Wrrt,i+be) (1)
其中v,Wh,Ws,Wr,be是可以训练的参数。因此该时间步t的输出位置与每个输入文本位置的关联向量组合可表示为向量et=[et,1,et,2,...,et,n]。
S233:根据S232得到的关联向量et计算当前时间步t下输入文本每个词的注意力特征权重at=[at,1,at,2,...,at,n]:
at=soffmax(et) (2)
展开形式为:
S234:累计当前时间步t之前的所有时间步下每个输入文本位置的注意力权重at,用于更新当前时间步下的记忆向量rt,计算公式如下:
S235:利用S233生成的注意力权重at和S222生成的隐藏向量hi可以计算当前时间步t下的文本注意力特征向量ct:
本实施例中,步骤S24的具体实现方式包括:
S241:使用解码器中的单向LSTM网络解码,设LSTM单元在时间步t的输出为yt,隐藏状态为st。在每一时间步t,使用S211中的词嵌入模块,查找上一时间步的输出词序号yt-1所对应的词向量gt-1。特别地,由于初始的第一个时间步不存在上一时间步,因此第一步将自定义的开始符“<sos>”作为假设的上一时间步的输出词序号y0
S242:每一时间步t,使用上一时间步的隐藏状态st-1,并将上一时间步输出对应的词向量gt-1和S235中得到的文本注意力特征向量ct拼接起来作为LSTM单元的输入,从而更新当前时间步的隐藏状态:
st=LSTM(st-1,[gt-1,ct]) (6)
并且可以计算得到解码器的输出:
ot=Vo(Vsst+Vggt-1+Vcct)+bo (7)
其中Vo,Vs,Vg,Vc,bo都是可以学习的参数。
S243:使用解码器的输出ot和掩码向量It得到该解码时间步输出词表的概率分布Pv
Pv=softmax(ot+It) (8)
掩码向量随机初始化,之后如果上一步输出的词类别为l,则掩码向量的第l个元素设置为负无穷,从而避免解码器一直生成重复的序列。
本实施例中,步骤S3的具体实现方式包括:
S31:将事件文本语料划分为训练集、验证集和测试集;训练集用于进行训练,验证集用于对模型的效果进行验证并对模型进行挑选,测试集用于进行测试;
S32:对S2构建的多事件检测模型进行训练,训练过程中使用teacher forcing机制进行训练;
S33:在模型的训练过程中,计算单一时间步的损失losst
其中代表该事件步输出正确类别的词w*的概率,at,i,rt,i分别是输入位置i(即xi在文本中的位置i)的注意力权重和记忆向量,λ是设定的超参数。
计算所有时间步T的整体损失:
通过最小化loss来训练模型,更新参数;
S34:使用准确率(precision)、召回率(recall)和F1值对模型效果进行评估。选择在验证集上F1分数最高的模型作为最优模型。
本实施例中,步骤S4的具体实现方式包括:
S41:在模型的测试与应用阶段,将测试文本输入步骤S3训练选择得到的最优模型中,每个时间步可以得到输出词表的概率分布Pv
S42:利用得到的概率分布,通过集束搜索(beam search)的方法选择每一时间步的输出,最终得出最优生成序列;
S43:通过S1中序列化文本标注方法对应的标注规则(具体参见S12)解析生成序列,去掉生成序列中的自定义分隔符、开始符和结束符,得到最终的多事件检测结果。
为了进一步说明本发明的技术效果,下面基于一个具体案例来展示上述基于序列生成模型的多事件检测方法在具体数据上的效果。
实施例
为了更清楚地阐述本发明提出的技术方法,以ACE2005公开事件数据集为例,具体阐述本发明提出的一种基于序列生成模型的多事件检测方法的实现步骤:
1.对ACE2005公开数据集的事件文本语料进行停用词和乱码等无关字符的清洗,然后使用jieba分词工具对语料进行分词;
2.对每一条事件语料进行标签标注,比如一条语料包含“袭击”、“受伤”、“死亡”三类事件,则标注为“<sos>袭击<seq>受伤<seq>死亡<eos>”;若一条文本中不包含事件信息,则标注为“<sos>NONE<eos>”;其中“<sos>”是开始符,“<seq>”是分隔符,“<eos>”是结束符;
3.使用Glove词向量将文本中的词转化为100维词向量矩阵;
4.将文本中词对应的实体类别编码为14位特征向量,将词性类别编码为14维特征向量,合并得到28位特征向量;
5.将词向量与实体词性特征向量拼接为128维的特征向量。长度为n的句子可以表示为x1:n=[x1,x2,...,xn],其中
6.将拼接后的128维特征向量传入编码器;
7.编码器中的双向LSTM深度神经网络对传入的特征向量进行编码,编码后整个句子得到的隐藏状态可表示为h1:n=(h1,h2,...,hn),其中每个hi由前向LSTM的输出和后向LSTM的输出/>拼接而成;
8.解码器在每个时间步t下的隐藏状态为st,使用编码器最后一步得到的隐藏状态hn作为解码器隐藏状态的初始值s0。随机初始化一个长度等于输入文本长度的记忆向量rt,目的是记录已经生成的注意力权重,从而避免对原文中某些词的重复关注而导致的生成序列重复;
9.在解码的每个时间步t,使用tanh函数和线性层实现下列公式的计算,从而得到输入文本中每个位置i与该时间步t的关联向量et,i
et,i=vTtanh(Whhi+Wsst+Wrrt,i+be)
其中v,Wh,Ws,Wr,be是可以训练的参数。因此该时间步t的输出位置与每个输入文本位置的关联向量组合可表示为向量et=[et,1,et,2,...,et,n];
10.利用得到的关联向量et,使用softmax函数,计算当前时间步t下输入文本每个词的注意力特征权重at=[at,1,at,2,...,at,n],计算公式如下:
at=softmax(et)
展开形式为:
11.累计当前时间步t之前的所有时间步下每个输入文本位置的注意力权重at,用于更新当前时间步下的记忆向量rt,rt计算公式如下:
12.使用注意力权重at和编码器隐藏向量hi,计算当前时间步t下的文本注意力特征向量ct,计算公式如下:
13.使用解码器中的单层LSTM网络开始解码,设LSTM网络在时间步t的输出为yt,隐藏状态为st。特别地,第一步将自定义的开始符“<sos>”作为前一步的输出y0。使用Glove词向量查找输出yt-1对应的词向量gt-1
14.每一时间步t,使用上一时间步的隐藏状态st-1,并将上一时间步输出对应的词向量gt-1和文本注意力特征向量ct拼接起来作为LSTM单元的输入,更新当前时间步的隐藏状态st,计算公式如下:
st=LSTM(st-1,[gt-1,ct])
然后使用线性层计算得到解码器的输出ot
ot=Vo(Vsst+Vggt-1+Vcct)+bo
其中Vo,Vs,Vg,Vc,bo都是可以学习的参数。
15.随机初始化一个掩码向量It,It长度等于输出词的总类别数。It后续的更新方式如下:如果上一步输出的词类别为i,则掩码向量的第i个元素设置为负无穷。从而避免解码器一直生成重复的序列。
然后利用解码器的输出ot和掩码向量It,通过softmax函数得到该解码时间步输出词表的概率分布Pv,计算公式如下:
Pv=softmax(ot+It)
16.将ACE2005事件数据集按照60%、20%和20%的比例划分为训练集,验证集和测试集。使用训练集进行训练,使用验证集对模型的效果进行验证并对模型进行挑选,使用测试集进行测试;
17.对步骤3至步骤15所构建的基于序列生成框架的多事件检测模型进行训练,训练中使用teacher forcing机制。
18.使用如下公式计算每一个时间步的损失losst
其中代表该事件步输出正确类别的词w*的概率,at,i,rt,i分别是输入位置i的注意力权重和记忆向量,λ是设定的超参数。
利用如下公式计算所有时间步T的整体损失:
通过最小化loss来训练模型,更新参数;
19.使用准确率(precision)、召回率(recall)和F1值三个指标对训练得到的模型效果进行评估。选择在验证集上F1分数最高的模型作为最优模型使用。
20.使用测试集对模型进行测试与应用,将测试文本输入最优模型中,每个时间步可以得到输出词表的概率分布Pv
21.利用得到的概率分布,通过集束搜索(beam search)的方法选择每一时间步的输出,最终得出综合效果最优的生成序列;
22.去掉生成序列中的自定义分隔符<seq>、开始符<sos>、结束符<eos>,可以直接得到该条文本中包含的事件类型。比如“袭击”、“受伤”、“死亡”。当文本中不包含事件信息时,会得到“NONE”的结果。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (7)

1.一种基于序列生成模型的多事件检测方法,其特征在于,具体步骤如下:
S1:获取事件文本语料后,对文本进行预处理,然后使用序列化文本标注方法对事件文本中的事件类别进行标注;
S2:构建基于序列生成框架的多事件检测模型;
S21:将事件文本输入模型的输入层,将词转化为向量形式,并编码实体及词性特征,具体如S211~S213所示:
S211:使用词嵌入模块将输入文本的每个词转化为向量形式;
S212:对文本中每个词对应的实体和词性类别进行编码,生成实体词性特征向量;
S213:将S211中得到的词向量和S212中词对应的实体词性特征向量拼接起来,共同组成维度为k的组合向量;将一条文本中所有词的组合向量全部拼接得到的文本特征向量表示为x1:n=[x1,x2,...,xn],其中n表示文本中词的个数,xi表示文本中的第i个词,i∈[1,n];
S22:使用包含双向LSTM神经网络模型的编码器进行编码,具体如S221~S222所示:
S221:将S21得到的文本特征向量作为输入数据,传入编码器;
S222:编码器中的双向LSTM深度神经网络对输入数据进行编码,编码后整个句子得到的编码器隐藏状态表示为h1:n=(h1,h2,...,hn),其中每个hi由前向LSTM和后向LSTM的输出拼接而成;
S23:使用注意力计算器计算每一个解码时间步输入文本的注意力特征,得到文本注意力特征向量和记忆向量,具体如S231~S235所示:
S231:设解码器每个时间步的隐藏状态为st,并用S222中编码器最后一步得到的隐藏状态hn作为解码器隐藏状态的初始值s0;随机初始化一个长度等于输入文本长度的记忆向量rt,后续用于累计所有时间步下每个输入词的注意力权重叠加,从而在后续计算注意力权重时提供先前的注意力决策,以避免对原文中某些词的重复关注而生成重复的序列;
S232:在解码的每个时间步t,计算输入文本中每个位置i与该时间步t的关联向量et,i
et,i=vTtanh(Whhi+Wsst+Wrrt,i+be)
其中v,Wh,Ws,Wr,be是可以训练的参数;该时间步t的输出位置与每个输入文本位置的关联向量组合表示为向量et=[et,1,et,2,...,et,n];
S233:根据S232得到的关联向量et计算当前时间步t下输入文本每个词的注意力特征权重at=[at,1,at,2,...,at,n]:
at=softmax(et)
S234:累计当前时间步t之前的所有时间步下每个输入文本位置的注意力权重at,用于更新当前时间步下的记忆向量rt,计算公式如下:
S235:利用S233生成的注意力权重at和S222生成的隐藏向量hi计算当前时间步t下的文本注意力特征向量ct
S24:使用解码器中的单向LSTM开始解码,每一步对隐藏状态进行更新,并计算得到该步输出词的概率分布,具体如S241~S243所示:
S241:使用解码器中的单向LSTM网络解码,设LSTM单元在时间步t的输出为yt,隐藏状态为st;在每一时间步t,使用S211中的词嵌入模块,查找上一时间步的输出词序号yt-1所对应的词向量gt-1
S242:每一时间步t,使用上一时间步的隐藏状态st-1,并将上一时间步输出对应的词向量gt-1和S235中得到的文本注意力特征向量ct拼接起来作为LSTM单元的输入,从而更新当前时间步的隐藏状态:
st=LSTM(st-1,[gt-1,ct])
并且计算得到解码器的输出:
ot=Vo(Vsst+Vggt-1+Vcct)+bo
其中Vo,Vs,Vg,Vc,bo都是可以学习的参数;
S243:使用解码器的输出ot和掩码向量It得到该解码时间步输出词表的概率分布Pv
Pv=softmax(ot+It)
掩码向量随机初始化,之后如果上一步输出的词类别为l,则掩码向量的第l个元素设置为负无穷,从而避免解码器一直生成重复的序列;
S3:对模型进行训练和评估,并选择训练效果最好的模型作为最优模型;
S4:利用训练好的最优模型,使用集束搜索的方法进行预测,从而得到生成序列,解析生成序列得到完整的多事件检测结果。
2.根据权利要求1所述的一种基于序列生成模型的多事件检测方法,其特征在于获取事件文本语料后,对文本进行预处理,然后使用序列化文本标注方法对事件文本中的事件类别进行标注的步骤如下:
S11:获取事件文本语料后,对语料进行清洗;然后使用分词工具对语料进行分词;
S12:对每一条事件文本语料中包含的事件类型进行序列化标注,标注格式为直接将事件类型名称连成序列,中间用特定的分隔符隔开;若该文本不包含任何事件,则标注为“NONE”;然后将标注得到的序列首部添加自定义开始符“<sos>”,尾部添加自定义结束符“<eos>”。
3.根据权利要求1所述的一种基于序列生成模型的多事件检测方法,其特征在于步骤S211中,所述词嵌入模块使用包括word2vec和Glove在内的分布式词向量或包括BERT在内的预训练语言模型。
4.根据权利要求1所述的一种基于序列生成模型的多事件检测方法,其特征在于,步骤S233中,所述注意力特征权重at中元素的展开形式为:
5.根据权利要求1所述的一种基于序列生成模型的多事件检测方法,其特征在于,步骤S241中,初始的第一个时间步中,将自定义的开始符“<sos>”作为上一时间步的输出词序号y0
6.根据权利要求1所述的一种基于序列生成模型的多事件检测方法,其特征在于对模型进行训练和评估,并选择训练效果最好的模型的步骤如下:
S31:将事件文本语料划分为训练集、验证集和测试集;训练集用于进行训练,验证集用于对模型的效果进行验证并对模型进行挑选,测试集用于进行测试;
S32:对S2构建的多事件检测模型进行训练,训练过程中使用teacher forcing 机制进行训练;
S33:在模型的训练过程中,计算单一时间步的损失losst
其中代表该事件步输出正确类别的词w*的概率,at,i,rt,i分别是输入位置i的注意力权重和记忆向量,λ是设定的超参数;
计算所有时间步T的整体损失:
通过最小化loss来训练模型,更新参数;
S34:使用准确率、召回率和F1值对模型效果进行评估,选择在验证集上F1分数最高的模型作为最优模型。
7.根据权利要求1所述的一种基于序列生成模型的多事件检测方法,其特征在于利用训练好的模型,使用集束搜索的方法进行预测,从而得到生成序列,解析生成序列得到完整的多事件检测结果的步骤如下:
S41:在模型的测试与应用阶段,将测试文本输入步骤S3训练选择得到的最优模型中,每个时间步可以得到输出词表的概率分布Pv
S42:利用得到的概率分布,通过集束搜索的方法选择每一时间步的输出,最终得出最优生成序列;
S43:通过S1中序列化文本标注方法对应的标注规则解析生成序列,去掉生成序列中的分隔符、开始符和结束符,得到最终的多事件检测结果。
CN202011496007.9A 2020-12-17 2020-12-17 一种基于序列生成模型的多事件检测方法 Active CN112612871B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011496007.9A CN112612871B (zh) 2020-12-17 2020-12-17 一种基于序列生成模型的多事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011496007.9A CN112612871B (zh) 2020-12-17 2020-12-17 一种基于序列生成模型的多事件检测方法

Publications (2)

Publication Number Publication Date
CN112612871A CN112612871A (zh) 2021-04-06
CN112612871B true CN112612871B (zh) 2023-09-15

Family

ID=75241172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011496007.9A Active CN112612871B (zh) 2020-12-17 2020-12-17 一种基于序列生成模型的多事件检测方法

Country Status (1)

Country Link
CN (1) CN112612871B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254581B (zh) * 2021-05-25 2022-08-19 深圳市图灵机器人有限公司 一种基于神经语义解析的金融文本公式抽取方法及装置
CN113435436A (zh) * 2021-06-03 2021-09-24 北京理工大学 一种基于线性约束矫正网络的场景文字识别方法
CN113609244B (zh) * 2021-06-08 2023-09-05 中国科学院软件研究所 一种基于可控生成的结构化记录抽取方法和装置
CN113327239A (zh) * 2021-06-10 2021-08-31 温州大学 一种增强注意力区域生成网络的小样本目标检测方法
CN114036935A (zh) * 2021-07-13 2022-02-11 北京金山数字娱乐科技有限公司 一种实体识别方法、模型训练方法及装置
CN113901815B (zh) * 2021-10-15 2023-05-05 华能澜沧江水电股份有限公司 基于大坝运行日志的应急工况事件检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599032A (zh) * 2016-10-27 2017-04-26 浙江大学 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN108897989A (zh) * 2018-06-06 2018-11-27 大连理工大学 一种基于候选事件元素注意力机制的生物事件抽取方法
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
US10380236B1 (en) * 2017-09-22 2019-08-13 Amazon Technologies, Inc. Machine learning system for annotating unstructured text
CN110609896A (zh) * 2019-07-19 2019-12-24 中国人民解放军国防科技大学 基于二次解码的军事想定文本事件信息抽取方法及装置
CN111382575A (zh) * 2020-03-19 2020-07-07 电子科技大学 一种基于联合标注和实体语义信息的事件抽取方法
CN111428511A (zh) * 2020-03-12 2020-07-17 北京明略软件系统有限公司 一种事件检测方法和装置
CN111475617A (zh) * 2020-03-30 2020-07-31 招商局金融科技有限公司 事件主体抽取方法、装置及存储介质
CN111694924A (zh) * 2020-06-17 2020-09-22 合肥中科类脑智能技术有限公司 一种事件抽取方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9971764B2 (en) * 2013-07-26 2018-05-15 Genesys Telecommunications Laboratories, Inc. System and method for discovering and exploring concepts
EP3447663A1 (en) * 2017-08-23 2019-02-27 Tata Consultancy Services Limited System and method for event profiling
US20190287012A1 (en) * 2018-03-16 2019-09-19 Microsoft Technology Licensing, Llc Encoder-decoder network with intercommunicating encoder agents
US20190340615A1 (en) * 2018-05-04 2019-11-07 International Business Machines Corporation Cognitive methodology for sequence of events patterns in fraud detection using event sequence vector clustering
US20200226327A1 (en) * 2019-01-11 2020-07-16 Applications Technology (Apptek), Llc System and method for direct speech translation system
US20200342968A1 (en) * 2019-04-24 2020-10-29 GE Precision Healthcare LLC Visualization of medical device event processing
US11531824B2 (en) * 2019-05-17 2022-12-20 Raytheon Bbn Technologies Corp. Cross-lingual information retrieval and information extraction

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599032A (zh) * 2016-10-27 2017-04-26 浙江大学 一种结合稀疏编码和结构感知机的文本事件抽取方法
US10380236B1 (en) * 2017-09-22 2019-08-13 Amazon Technologies, Inc. Machine learning system for annotating unstructured text
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN108897989A (zh) * 2018-06-06 2018-11-27 大连理工大学 一种基于候选事件元素注意力机制的生物事件抽取方法
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN110609896A (zh) * 2019-07-19 2019-12-24 中国人民解放军国防科技大学 基于二次解码的军事想定文本事件信息抽取方法及装置
CN111428511A (zh) * 2020-03-12 2020-07-17 北京明略软件系统有限公司 一种事件检测方法和装置
CN111382575A (zh) * 2020-03-19 2020-07-07 电子科技大学 一种基于联合标注和实体语义信息的事件抽取方法
CN111475617A (zh) * 2020-03-30 2020-07-31 招商局金融科技有限公司 事件主体抽取方法、装置及存储介质
CN111694924A (zh) * 2020-06-17 2020-09-22 合肥中科类脑智能技术有限公司 一种事件抽取方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
J. Chen et al.Using Mention Segmentation to Improve Event Detection with Multi-head Attention.2019 International Conference on Asian Language Processing (IALP).2020,全文. *
庄越挺等.基于主题模型的网络突发热点事件检测.第七届和谐人机环境联合学术会议(HHME2011)论文集.2011,全文. *
沈兰奔.结合注意力机制与长短期记忆网络的中文事件抽取方法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2020,第I138-2505页. *
盛煜堃;彭艳兵.基于注意力机制BiLSTM的事件抽取方法.电子设计工程.2020,(08),全文. *

Also Published As

Publication number Publication date
CN112612871A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN112612871B (zh) 一种基于序列生成模型的多事件检测方法
CN110135457B (zh) 基于自编码器融合文档信息的事件触发词抽取方法及系统
Chung et al. Speech2vec: A sequence-to-sequence framework for learning word embeddings from speech
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
JP5444308B2 (ja) 非ローマ文字および単語のスペル修正のためのシステムおよび方法
CN110866401A (zh) 基于注意力机制的中文电子病历命名实体识别方法及系统
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN111651589B (zh) 一种针对长文档的两阶段文本摘要生成方法
CN114818668B (zh) 一种语音转写文本的人名纠错方法、装置和计算机设备
CN116127953B (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN116151132A (zh) 一种编程学习场景的智能代码补全方法、系统及储存介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN115203406A (zh) 一种基于RoBERTa模型的长文本信息立场检测方法
Gao et al. Generating natural adversarial examples with universal perturbations for text classification
CN115238693A (zh) 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN114818669A (zh) 一种人名纠错模型的构建方法和计算机设备
CN116522165A (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN115687939A (zh) 一种基于多任务学习的Mask文本匹配方法及介质
CN114417891A (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant