CN115658905A - 一种跨篇章的事件多维画像生成方法 - Google Patents
一种跨篇章的事件多维画像生成方法 Download PDFInfo
- Publication number
- CN115658905A CN115658905A CN202211390646.6A CN202211390646A CN115658905A CN 115658905 A CN115658905 A CN 115658905A CN 202211390646 A CN202211390646 A CN 202211390646A CN 115658905 A CN115658905 A CN 115658905A
- Authority
- CN
- China
- Prior art keywords
- event
- word
- text
- events
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种跨篇章的事件多维画像生成方法,对于关注的事件类型,查找描述该类事件的相关文本,并对每篇文本进行语句分块,识别出基本信息、事件经过、原因影响、各方评论等文本块;接着对描述基本信息的文本块进行事件抽取,获取事件的类型、发生/结束时间、地点、行为主体等基本要素;然后从描述事件经过的文本块中识别出子事件,并按照时间先后顺序进行排序,形成事件脉络;最后对不同文本的事件进行共指消解,形成完整的事件画像。该方法能够对分布于多个篇章的事件信息进行关联融合,抽取原因影响、各方评论等复杂要素,并能发现事件的前期动向、主要过程、后续行动等子事件,实现了对重大事件各类要素及发展演化过程的分析。
Description
技术领域
本发明涉及一种事件多维画像生成方法,特别是一种跨篇章的事件多维画像生成方法。
背景技术
事件多维画像生成的目标是从各种来源的文本数据中获取重大事件各个维度的信息,从而支撑全面了解,其主要维度包括基本信息、事件脉络、原因影响、各方评论、同类事件等,如图2所示。
如果没有事件多维画像生成能力的话,用户就需要从海量的存量数据和不断变化的实时数据中发现其需要关注的事件,围绕事件对文本数据进行组织、理解、提炼、关联,梳理其发展过程,这一过程将需要耗费大量的时间。
事件多维画像生成主要帮助他们解决三个核心问题:一是从不断变化的文本数据中自动识别出关注的重大事件;二是提取出事件的基本要素以及发展过程中的重要子事件,从而帮助用户对事件各个方面有一个全面了解;三是为每个事件关联组织各类文本,为进一步阅读探索和开展数据挖掘分析提供基础。
事件多维画像生成并不能够通过简单使用事件抽取技术来解决,其面临的主要难点和问题包括:(1)原因影响、各方评论等要素不再是简单的实体,而是长度不一的一句话甚至一段话,如何抽取这些变长的复杂要素。(2)事件脉络包含了事件的主要过程、前期动向、后续行动等子事件,如何发现这些子事件并梳理其先后关系。(3)同一事件可能由多个文档描述,如何对分布于多篇文档的事件进行关联融合。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种跨篇章的事件多维画像生成方法。
为了解决上述技术问题,本发明公开了一种跨篇章的事件多维画像生成方法,包括:文本预处理、事件基本信息抽取、事件脉络生成和事件跨篇章融合四个阶段;
步骤1,所述文本预处理阶段,包括:接入文本数据,并对所述文本数据进行相关性分类,得到描述关注类型事件的相关文本,并对所述相关文本进行篇章结构解析和细粒度语句分块,得到描述事件不同维度信息的文本块,包括:描述基本信息的文本块、描述事件经过的文本块、描述原因影响的文本块、描述各方评论的文本块以及描述同类事件的文本块;
步骤2,所述事件基本信息抽取阶段,包括:对描述基本信息的文本块进行事件提取,获取事件的基本要素,包括事件的类型、发生或结束时间、地点以及行为主体;
步骤3,所述事件脉络生成阶段,包括:从描述事件经过的文本块中识别出子事件,并按照时间先后顺序进行排序,形成事件脉络;
步骤4,所述事件跨篇章融合阶段,包括:对从不同文本块中提取的事件进行共指发现,形成完整的事件画像。
有益效果:
本发明通过序列语句标注、事件触发词及论元联合抽取、事件顺承关系识别、事件共指发现等技术的应用,实现了跨篇章的事件多维画像生成,与现有语句级和篇章级事件抽取技术相比,显著优点是:(1)能够抽取数据众多、长度不一的事件要素。(2)能够对事件的发展脉络进行梳理。(3)能够对分布于多篇文本的事件进行跨篇章融合。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为本发明的处理流程图。
图2为多维画像体系示意图。
图3为本发明的技术架构图。
图4为本发明所述语句序列分类模型的网络结构图。
图5为本发明所述事件要素抽取模型的网络结构图。
具体实施方式
如图1所示,一种跨篇章的事件多维画像生成方法,包括:文本预处理、事件基本信息抽取、事件脉络生成和事件跨篇章融合四个阶段;
步骤1,所述文本预处理阶段,包括:接入文本数据,并对所述文本数据进行相关性分类,得到描述关注类型事件的相关文本,并对所述相关文本进行篇章结构解析和细粒度语句分块,得到描述事件不同维度信息的文本块,包括:描述基本信息的文本块、描述事件经过的文本块、描述原因影响的文本块、描述各方评论的文本块以及描述同类事件的文本块;
所述的细粒度语句分块的方法为:将语句分块建模为序列语句分类问题,利用BERT模型对所述相关文本中的语句进行上下文相关的表示和分类,具体方法包括:
步骤1-1,文本预处理:给定一系列语句S=<S1,…,Ss>,s表示一系列语句中的语句个数,将其切割为不超过10句话的多个文本片段,对每个文本片段<Sm,…,Sk>,执行步骤1-2和步骤1-3,获取该文本片段的序列语句分类结果;其中,S1表示一系列语句S中的第1个语句,Sn表示一系列语句S中的第n个语句,Sm表示一系列语句S中的第m个语句,Sk表示一系列语句S中的第k个语句;
步骤1-2,输入表示:对于文本片段<Sm,…,Sk>,将每一个语句后面拼接上[SEP]分隔符,形成包含多个语句的序列,最后在整个序列开头插入[CLS],得到输入表示;
步骤1-3,语句分类:将步骤1-2中所述的输入表示输入BERT模型,获取每句话的[SEP]编码,并将结果输入到多层前馈神经网络MLP,输出语句的分类结果;
步骤1-4,结果汇总:将所有文本片段经过步骤1-3后得到的分类结果按照顺序进行拼接,获得最终分类结果。
步骤2,所述事件基本信息抽取阶段,包括:对描述基本信息的文本块进行事件提取,获取事件的基本要素,包括事件的类型、发生或结束时间、地点以及行为主体;
所述的事件提取的方法,是采用一个包含BERT-BiLSTM-CRF编码层、注意力层以及论元映射层的神经网络结构,识别事件触发词和事件类型,并提取每个论元及其角色,具体包括:
BERT-BiLSTM-CRF编码层:采用预训练语言模型BERT加双向LSTM加条件随机场CRF的网络结构,将触发词及事件类型的识别作为序列标注问题,采用BIO的标注方案进行识别;
注意力层:分析所述描述基本信息的文本块中的语句中每个词与触发词之间的相关性,并与Bi-LSTM编码层的输出进行拼接,捕获所述每个词针对于触发词的语义相关性;
论元映射层:分别为每种论元角色建模分类模型,识别所述描述基本信息的文本块中的语句中每个词是否为该论元的开始位置或结束位置。
所述的BERT-BiLSTM-CRF编码层,包括:预训练语言模型BERT、Bi-LSTM编码层以及CRF层;
采用预训练语言模型BERT对输入语句中的词进行语义编码;给定语句Si={w1,w2,w3,…,wn-1,wn},其中wn表示语句Si中的第n个词,编码输出为x={x1,x2,x3,…,xn-1,xn},其中,xn表示词wn的编码;
采用Bi-LSTM编码层对语句进行全局信息编码,为每个词学习上下文信息;语句x={x1,x2,x3,…,xn-1,xn}在经过前向LSTM和后向LSTM编码后,信息输出分别为和其中,表示xn经过前向LSTM编码之后的向量,表示xn经过后向LSTM编码之后的向量;对前后向编码结果进行拼接,获得拼接结果经过Bi-LSTM编码层,语句的编码结果表示为h={h1,h2,h3,…,hn-1,hn},其中,hn表示第n个字符经过Bi-LSTM编码之后的向量;
CRF层识别语句中的触发词及其类型,用于后续论元识别输入;将触发词及类型的识别看作序列标注模型,采用B-X,I-X,O的标注方案,其中B-X中B表示触发词的开始位置,X表示触发词的事件类型,I-X中I表示触发词的中间位置或者结束位置,O表示非触发词结果,给每个词打上对应的标签,实现触发词及其类型的识别,输出触发词集合T={t1,t2,t3,…,tm},其中,tm表示第m个触发词。
所述的注意力层包括:基于触发词集合T,利用注意力机制,分析语句中每个词与触发词之间的相关性,并与Bi-LSTM编码层的输出进行拼接,作为后续输入;具体计算过程如下:
对于第i个触发词ti,进行如下操作
qi=sum([hstart:hend])
其中,[:]表示向量截取,sum()表示向量相加,start表示触发词ti的开始位置,end表示触发词ti的结束位置,qi表示触发词ti在h中的表示,对于触发词集合T,得到触发词表示集合Q={q1,q2,q3,…,qm};
对于第i个触发词的表示qi,利用注意力机制,进行以下计算,得到第j个词与第i个触发词的相关性aij:
然后计算语句中第j个词相对于第i个触发词的注意力表示:hj*aij,并和原始表示进行拼接:
h′ij=[hj,hj*aij]
最后,获得语句中每个词相对于第i个触发词的隐藏层表示h′i={h′i1,h′i2,h′i3,…,h′in}。
所述的论元映射层包括:针对第i个触发词ti,分别为每种论元角色建模分类模型,识别每个词是否为该论元的开始位置或结束位置,通过全连接层,将模型输入h′i映射为二分类:
Ohead=sigmoid(h′iWhead+bhead)
Otail=sigmoid(h′iWtail+btail)
其中,Whead和bhead为预测开始位置的权重参数,Wrail和btail为预测结束位置的权重参数,Ohead表示每个词预测是论元开始位置的概率向量,Otail表示每个词预测是论元结束位置的概率向量。
步骤3,所述事件脉络生成阶段,包括:从描述事件经过的文本块中识别出子事件,并按照时间先后顺序进行排序,形成事件脉络;
所述的时间先后顺序的判断方法为,在所述子事件中没有明确的时间描述时,综合使用时序连接词、事件类型对以及时序关系传递性进行先后顺序判断,具体包括:
时序连接词:构造时序连接词与时序关系映射表,约束存在时序关系的事件对;
事件类型对:构造事件类型对列表,约束符合特定类型的事件对之间的时序关系;
时序关系传递性:事件时序关系存在传递闭包的性质,如果已知relation(e0,e1)且relation(e1,e2),则推出relation(e0,e2);其中,relation(e0,e1)表示事件e0和事件e1存在时序关系,relation(e1,e2)表示事件e1和事件e2存在时序关系,relation(e0,e2)表示事件e0和事件e2存在时序关系。
步骤4,所述事件跨篇章融合阶段,包括:对从不同文本块中提取的事件进行共指发现,形成完整的事件画像。
所述时间相关度RelT(e1,e2)计算方法如下:
其中,time(e1)表示事件e1的时间,time(e2)表示事件e2的时间,windowT是预设置的时间窗口常量;
所述地点相关度RelP(e1,e2)具体计算公式如下:
其中,P(e1)表示事件e1的地点区域,P(e2)表示事件e2的地点区域,dis()是区域中心点间的距离,windowP是一个距离常量;
所述参与者相关度RelA(e1,e2)具体计算公式如下:
其中,actor(e1)表示事件e1中参与者的集合,actor(e2)表示事件e2中参与者的集合;
所述类型相关度通过两个事件e1和e2在分类体系上的距离度量,关联的强度以相同类型为最强,记为RelC(e1,e2)。
所述总体关联度,通过将事件在时间相关度、地点相关度、参与者相关度和类型相关度加权求和获得,具体为:
Rel(e1,e2)=αRelT(e1,e2)+βRelP(e1,e2)+γRelA(e1,e2)+δRelC(e1,e2)。
实施例:
下面将结合附图,对本发明的实施例进行描述。
本实施例提供的一种跨篇章的事件多维画像生成方法,可以应用于从各种来源的文本数据中获取重大事件的多维画像,从而支撑对事件的发生原因、发展过程、造成影响、外界反应等进行全面掌握。
本申请实施例提供的一种跨篇章的事件多维画像生成方法如图3所示,包括文本预处理、事件基本信息抽取、事件脉络生成和事件跨篇章融合四个阶段;
所述文本预处理阶段,用于接入文本数据,并对所述文本数据进行相关性分类,得到描述关注类型事件的相关文本,并对所述相关文本进行篇章结构解析和细粒度语句分块,得到描述事件不同维度信息的文本块;
所述事件基本信息抽取阶段,用于对描述基本信息的文本块进行事件抽取,获取事件的类型、发生/结束时间、地点、行为主体等基本要素;
所述事件脉络生成阶段,用于从描述事件经过的文本块中识别出子事件,并按照时间先后顺序进行排序,形成事件脉络;
所述事件跨篇章融合阶段,用于对不同文本的事件进行共指发现,形成完整的事件画像。
本实施例中,所述文本预处理阶段中所述细粒度语句分块方法,如图4所示,将语句分块建模为序列语句分类问题,提出一种特殊的输入表示,能够利用BERT模型(参考:2019.BERT:Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding.In Proceedings of NAACL-HLT 2019,pages 4171–4186)对语句进行上下文相关的表示和分类,具体包括:
步骤1-1(长文本处理):因为BERT只支持输入512个字,限制了模型处理大文档的能力,为此对文档进行分割。考虑到语句的含义通常更依赖于其前后的一两句话,而不是其他更远的语句。因此,直接分割的方式除了边缘的语句会受一定影响外,对其他语句含义的完整性基本不会产生影响。对文档按语句数量进行切割(如每次输入10句),保证总token数不超过512。然后将分割后的每个文本片段输入步骤2-2,进行序列分类;
步骤1-2(输入表示):提出了一种特殊的输入表示,给定一系列语句S=<S1,…,Ss>,将第一个语句后面拼接上[SEP]分隔符,并对每个语句重复这样的过程,形成包含多个语句的序列,最后在整个序列开头插入[CLS];
步骤1-3(语句分类):将上述表示输入BERT模型,获取每句话的[SEP]编码,[SEP]学习了语句本身的信息以及和其他语句间的上下文关系,从而可以充分捕获其语义用于分类任务。因此,在每句话的[SEP]上面使用一个多层前馈神经网络(MLP)(参考:Multilayerperceptron,fuzzy sets,classifiaction[J].IEEE Transactions on Neuralnetworks.1992.),输出就是这句话对应的分类结果;
步骤1-4(语句分类):将所有文本片段的分类结果进行拼接,获得最终分类结果;
本实施例中,所述事件基本信息抽取阶段采用事件抽取方法,如图5所示,是一个包含BERT-BiLSTM-CRF编码层、注意力层、论元映射层的神经网络结构,能够识别事件触发词、事件类型,并抽取每个论元及其角色,具体包括:
(1)BERT-BiLSTM-CRF编码层:采用预训练语言模型BERT+双向LSTM+条件随机场CRF的网络结构,将触发词及事件类型的识别看作序列标注问题,采用BIO的标注方案进行识别;
所述预训练语言模型BERT对输入的语句进行字符级语义编码。给定语句Si={w1,w2,w3,…,wn-1,wn},编码输出为x={x1,x2,x3,…,xn-1,xn}。
所述Bi-LSTM对语句进行全局信息编码,为每个单词学习上下文信息。语句x={x1,x2,x3,…,xn-1,xn}在经过前向LSTM和后向LSTM编码后(参考:Bidirectional LSTM-CRFmodels for sequence tagging[J].arXiv preprint arXiv:1508.01991,2015.),信息输出分别为和对前后向编码结果进行拼接,获得因此,经过Bi-LSTM编码层,语句的编码结果可表示为h={h1,h2,h3,…,hn-1,hn}。
所述CRF层识别语句中的触发词及其类型,用于后续论元识别输入。将触发词及类型的识别看作序列标注模型,采用B-X,I-X,O的标注方案(BIO的标注方案),其中B-X中B表示触发词的开始位置,X表示触发词的事件类型,I-X中I表示触发词的中间位置或者结束位置,O表示非触发词结果,然后给每个词语打上对应的标签,实现触发词及其类型的识别,输出触发词集合T={t1,t2,t3,…,tm}。
(2)注意力层:基于触发词集合T,利用注意力机制,分析语句中每个词与触发词之间的相关性,并与Bi-LSTM编码层的输出进行拼接,作为后续输入。具体计算过程如下:
对于每个触发词ti,进行如下操作
qi=sum([hstart:hend])
其中,[:]表示向量截取,sum()表示向量相加,start表示触发词ti的开始位置,end表示触发词ti的结束位置,qi表示触发词ti在h中的表示。因此,对于触发词集合T,可以得到Q={q1,q2,q3,…,qm}。
对于第i个触发词的表示qi,利用注意力机制,进行以下计算,得到第j个词与第i个触发词的相关性aij:
然后计算语句中第j个词相对于第i个触发词的注意力表示:hj*aij,并和原始表示进行拼接:
h′ij=[hj,hj*aij]
最后,获得语句中每个词相对于第i个触发词的隐藏层表示h′i={h′i1,h′i2,h′i3,…,h′in}。
(3)论元映射层:分别为每种论元角色(如时间、地点、参与者)建模分类模型,识别每个词是否为该论元的开始位置或结束位置,通过全连接层,将模型输入h′i映射为二分类,
Ohead=sigmoid(h′iWhead+bhead)
Otail=sigmoid(h′iWtail+btail)
其中Whead、bhead为预测开始位置的权重参数,Wtail、btail为预测结束位置的权重参数。
本实施例中,所述事件基本信息抽取阶段采用事件抽取方法的损失函数计算,将CRF的损失函数与论元映射层的损失函数相加,作为最终的损失函数,损失函数定义为
loss=P(y|s)+binary_loss
其中P(y|s)为CRF的损失函数,而binary_loss为论元映射层的损失函数,是一个二分类交叉熵损失函数(binary cross entropy,BCE),公式如下
本实施例中,所述事件脉络生成阶段采用的事件先后顺序判断方法,在事件中没有明确的时间描述时,综合使用时序连接词、事件类型对以及时序关系传递性进行先后顺序判断,具体包括:
(1)时序连接词:构造包括“之后”、“造成”、“之前”、“是因为”等时序连接词与时序关系映射表(如A造成B,表示A在B之前),约束存在时序关系的事件对。
(2)事件类型对:构造“逮捕→审讯”、“地震→受伤”等事件类型对列表,约束符合某些特定类型的事件对之间的时序关系。
(3)时序关系传递性:事件时序关系存在传递闭包的性质,如果已知relation(e0,e1)且relation(e1,e2),那么可推出relation(e0,e2)。
本实施例中,所述事件跨篇章融合阶段的事件共指发现方法,对两个事件从时间、地点、参与者、类型等多个维度综合判断两个事件的相似性,具体包括:
所述时间相关度,事件往往都有一个从开始到结束的持续过程,其时间可能是整个过程中任何一点,因此对于两个共指事件,他们时间并非完全相同。要判断两个事件在时间维度是否相似,需要使用两个时间的间隔来进行度量。如果两个事件时间的差值在一定的范围内,则认为这两个事件在时间上是关联的。具体计算公式如下
其中time(ei)表示事件的时间,windowT是一个可以设置的时间窗口常量,如3天。
所述地点相关度,为度量事件在地点上的相关度,一方面可以利用地点的名称在地域上的从属关系进行判断,如果相交可认为是相关的。另一方面,对于不存在包含关系的地点,可以通过地点在距离上的间隔来衡量其相关度,如果在一定范围内,则认为这两个事件在地点上是关联的。关联的强度与地点间的距离有关。地点间的距离越近,关联的强度越强。具体计算公式如下
其中P(ei)表示事件的地点区域,dis()是区域中心点间的距离,windowP是一个距离常量。
所述参与者相关度,事件往往包含多个参与者,如果两个事件中涉及的参与者相同,或是存在包含关系,则认为这两个事件在参与者上是关联的。关联的强度以交集的个数确定。具体计算公式如下
其中actor(ei)表示事件中参与者的集合。
所述类型相关度,如果两个事件的类型是相同,或是相近的,则认为这两个事件在类型上相关。可以通过两个事件在分类体系上的距离度量,关联的强度以相同类型为最强,记为RelC(e1,e2)。
所述总体关联度,通过将事件在时间、地点、参与者和类型这四个方面的相关度加权求和获得,具体为:
Rel(e1,e2)=αRelT(e1,e2)+βRelP(e1,e2)+γRelA(e1,e2)+δRelC(e1,e2)。
具体实现中,本申请提供计算机存储介质以及对应的数据处理单元,其中,该计算机存储介质能够存储计算机程序,所述计算机程序通过数据处理单元执行时可运行本发明提供的一种跨篇章的事件多维画像生成方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random access memory,RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来,该计算机程序软件产品可以存储在存储介质中,包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机,服务器,单片机,MUU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明提供了一种跨篇章的事件多维画像生成方法的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (10)
1.一种跨篇章的事件多维画像生成方法,其特征在于,包括:文本预处理、事件基本信息抽取、事件脉络生成和事件跨篇章融合四个阶段;
步骤1,所述文本预处理阶段,包括:接入文本数据,并对所述文本数据进行相关性分类,得到描述关注类型事件的相关文本,并对所述相关文本进行篇章结构解析和细粒度语句分块,得到描述事件不同维度信息的文本块,包括:描述基本信息的文本块、描述事件经过的文本块、描述原因影响的文本块、描述各方评论的文本块以及描述同类事件的文本块;
步骤2,所述事件基本信息抽取阶段,包括:对描述基本信息的文本块进行事件提取,获取事件的基本要素,包括事件的类型、发生或结束时间、地点以及行为主体;
步骤3,所述事件脉络生成阶段,包括:从描述事件经过的文本块中识别出子事件,并按照时间先后顺序进行排序,形成事件脉络;
步骤4,所述事件跨篇章融合阶段,包括:对从不同文本块中提取的事件进行共指发现,形成完整的事件画像。
2.根据权利要求1所述的一种跨篇章的事件多维画像生成方法,其特征在于,步骤1中所述的细粒度语句分块的方法为:将语句分块建模为序列语句分类问题,利用BERT模型对所述相关文本中的语句进行上下文相关的表示和分类,具体方法包括:
步骤1-1,文本预处理:给定一系列语句S=<S1,…,Ss>,s表示一系列语句中的语句个数,将其切割为不超过10句话的多个文本片段,对每个文本片段<Sm,…,Sk>,执行步骤1-2和步骤1-3,获取该文本片段的序列语句分类结果;其中,S1表示一系列语句S中的第1个语句,Sn表示一系列语句S中的第n个语句,Sm表示一系列语句S中的第m个语句,Sk表示一系列语句S中的第k个语句;
步骤1-2,输入表示:对于文本片段<Sm,…,Sk>,将每一个语句后面拼接上[SEP]分隔符,形成包含多个语句的序列,最后在整个序列开头插入[CLS],得到输入表示;
步骤1-3,语句分类:将步骤1-2中所述的输入表示输入BERT模型,获取每句话的[SEP]编码,并将结果输入到多层前馈神经网络MLP,输出语句的分类结果;
步骤1-4,结果汇总:将所有文本片段经过步骤1-3后得到的分类结果按照顺序进行拼接,获得最终分类结果。
3.根据权利要求2所述的一种跨篇章的事件多维画像生成方法,其特征在于,步骤2中所述的事件提取的方法,是采用一个包含BERT-BiLSTM-CRF编码层、注意力层以及论元映射层的神经网络结构,识别事件触发词和事件类型,并提取每个论元及其角色,具体包括:
BERT-BiLSTM-CRF编码层:采用预训练语言模型BERT加双向LSTM加条件随机场CRF的网络结构,将触发词及事件类型的识别作为序列标注问题,采用BIO的标注方案进行识别;
注意力层:分析所述描述基本信息的文本块中的语句中每个词与触发词之间的相关性,并与Bi-LSTM编码层的输出进行拼接,捕获所述每个词针对于触发词的语义相关性;
论元映射层:分别为每种论元角色建模分类模型,识别所述描述基本信息的文本块中的语句中每个词是否为该论元的开始位置或结束位置。
4.根据权利要求3所述的一种跨篇章的事件多维画像生成方法,其特征在于,步骤2中所述的BERT-BiLSTM-CRF编码层,包括:预训练语言模型BERT、Bi-LSTM编码层以及CRF层;
采用预训练语言模型BERT对输入语句中的词进行语义编码;给定语句Si={w1,w2,w3,…,wn-1,wn},其中wn表示语句Si中的第n个词,编码输出为x={x1,x2,x3,…,xn-1,xn},其中,xn表示词wn的编码;
采用Bi-LSTM编码层对语句进行全局信息编码,为每个词学习上下文信息;语句x={x1,x2,x3,…,xn-1,xn}在经过前向LSTM和后向LSTM编码后,信息输出分别为和其中,表示xn经过前向LSTM编码之后的向量,表示xn经过后向LSTM编码之后的向量;对前后向编码结果进行拼接,获得拼接结果经过Bi-LSTM编码层,语句的编码结果表示为h={h1,h2,h3,…,hn-1,hn},其中,hn表示第n个字符经过Bi-LSTM编码之后的向量;
CRF层识别语句中的触发词及其类型,用于后续论元识别输入;将触发词及类型的识别看作序列标注模型,采用B-X,I-X,O的标注方案,其中B-X中B表示触发词的开始位置,X表示触发词的事件类型,I-X中I表示触发词的中间位置或者结束位置,O表示非触发词结果,给每个词打上对应的标签,实现触发词及其类型的识别,输出触发词集合T={t1,t2,t3,...,tm},其中,tm表示第m个触发词。
5.根据权利要求4所述的一种跨篇章的事件多维画像生成方法,其特征在于,步骤2中所述的注意力层包括:基于触发词集合T,利用注意力机制,分析语句中每个词与触发词之间的相关性,并与Bi-LSTM编码层的输出进行拼接,作为后续输入;具体计算过程如下:
对于第i个触发词ti,进行如下操作
qi=sum([hstart:hend])
其中,[:]表示向量截取,sum()表示向量相加,start表示触发词ti的开始位置,end表示触发词ti的结束位置,qi表示触发词ti在h中的表示,对于触发词集合T,得到触发词表示集合Q={q1,q2,q3,...,qm};
对于第i个触发词的表示qi,利用注意力机制,进行以下计算,得到第j个词与第i个触发词的相关性aij:
然后计算语句中第j个词相对于第i个触发词的注意力表示:hj*aij,并和原始表示进行拼接:
h′ij=[hj,hj*aij]
最后,获得语句中每个词相对于第i个触发词的隐藏层表示h′i={h′i1,h′i2,h′i3,...,h′in}。
6.根据权利要求5所述的一种跨篇章的事件多维画像生成方法,其特征在于,步骤2中所述的论元映射层包括:针对第i个触发词ti,分别为每种论元角色建模分类模型,识别每个词是否为该论元的开始位置或结束位置,通过全连接层,将模型输入h′i映射为二分类:
Ohead=sigmoid(h′iWhead+bhead)
Otail=sigmoid(h′iWtail+btail)
其中,Whead和bhead为预测开始位置的权重参数,Wtail和btail为预测结束位置的权重参数,Ohead表示每个词预测是论元开始位置的概率向量,Otail表示每个词预测是论元结束位置的概率向量。
7.根据权利要求6所述的一种跨篇章的事件多维画像生成方法,其特征在于,步骤3中所述的时间先后顺序的判断方法为,在所述子事件中没有明确的时间描述时,综合使用时序连接词、事件类型对以及时序关系传递性进行先后顺序判断,具体包括:
时序连接词:构造时序连接词与时序关系映射表,约束存在时序关系的事件对;
事件类型对:构造事件类型对列表,约束符合特定类型的事件对之间的时序关系;
时序关系传递性:事件时序关系存在传递闭包的性质,如果已知relation(e0,e1)且relation(e1,e2),则推出relation(e0,e2);其中,relation(e0,e1)表示事件e0和事件e1存在时序关系,relation(e1,e2)表示事件e1和事件e2存在时序关系,relation(e0,e2)表示事件e0和事件e2存在时序关系。
8.根据权利要求7所述的一种跨篇章的事件多维画像生成方法,其特征在于,步骤4中所述的共指发现的方法,指通过对两个事件从时间相关度、地点相关度、参与者相关度以及类型相关度,根据总体关联度综合判断两个事件的相似性。
9.根据权利要求8所述的一种跨篇章的事件多维画像生成方法,其特征在于,步骤4中所述时间相关度RelT(e1,e2)计算方法如下:
其中,time(e1)表示事件e1的时间,time(e2)表示事件e2的时间,windowT是预设置的时间窗口常量;
所述地点相关度RelP(e1,e2)具体计算公式如下:
其中,P(e1)表示事件e1的地点区域,P(e2)表示事件e2的地点区域,dis()是区域中心点间的距离,windowP是一个距离常量;
所述参与者相关度RelA(e1,e2)具体计算公式如下:
其中,actor(e1)表示事件e1中参与者的集合,actor(e2)表示事件e2中参与者的集合;
所述类型相关度通过两个事件e1和e2在分类体系上的距离度量,关联的强度以相同类型为最强,记为RelC(e1,e2)。
10.根据权利要求9所述的一种跨篇章的事件多维画像生成方法,其特征在于,步骤4中所述总体关联度,通过将事件在时间相关度、地点相关度、参与者相关度和类型相关度加权求和获得,具体为:
Rel(e1,e2)=αRelT(e1,e2)+βRelP(e1,e2)+γRelA(e1,e2)+δRelC(e1,e2)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211390646.6A CN115658905A (zh) | 2022-11-07 | 2022-11-07 | 一种跨篇章的事件多维画像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211390646.6A CN115658905A (zh) | 2022-11-07 | 2022-11-07 | 一种跨篇章的事件多维画像生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115658905A true CN115658905A (zh) | 2023-01-31 |
Family
ID=85016479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211390646.6A Pending CN115658905A (zh) | 2022-11-07 | 2022-11-07 | 一种跨篇章的事件多维画像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115658905A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115878761A (zh) * | 2023-03-02 | 2023-03-31 | 湖南蚁坊软件股份有限公司 | 事件脉络生成方法、设备及介质 |
CN117094397A (zh) * | 2023-10-19 | 2023-11-21 | 北京大数据先进技术研究院 | 一种基于短论元的细粒度事件信息抽取方法、装置和产品 |
-
2022
- 2022-11-07 CN CN202211390646.6A patent/CN115658905A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115878761A (zh) * | 2023-03-02 | 2023-03-31 | 湖南蚁坊软件股份有限公司 | 事件脉络生成方法、设备及介质 |
CN117094397A (zh) * | 2023-10-19 | 2023-11-21 | 北京大数据先进技术研究院 | 一种基于短论元的细粒度事件信息抽取方法、装置和产品 |
CN117094397B (zh) * | 2023-10-19 | 2024-02-06 | 北京大数据先进技术研究院 | 一种基于短论元的细粒度事件信息抽取方法、装置和产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
Ay Karakuş et al. | Evaluating deep learning models for sentiment classification | |
CN115658905A (zh) | 一种跨篇章的事件多维画像生成方法 | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
CN112667813B (zh) | 用于裁判文书的敏感身份信息的识别方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN112632224B (zh) | 基于案例知识图谱的案件推荐方法、装置和电子设备 | |
Pfeiffer et al. | Multivariate business process representation learning utilizing gramian angular fields and convolutional neural networks | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN115168590A (zh) | 文本特征提取方法、模型训练方法、装置、设备及介质 | |
Osipov et al. | Neural network forecasting of news feeds | |
CN113961666B (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
Vardhan et al. | Named-entity recognition for legal documents | |
Parolin et al. | Hanke: Hierarchical attention networks for knowledge extraction in political science domain | |
Kshirsagar et al. | A Review on Application of Deep Learning in Natural Language Processing | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
CN112329442A (zh) | 面向异构法律数据的多任务阅读系统及方法 | |
Deepak et al. | Automatic image captioning system using a deep learning approach | |
CN114298041A (zh) | 网络安全命名实体的识别方法及识别装置 | |
CN114417891A (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
CN113569124A (zh) | 医疗标题匹配方法、装置、设备及存储介质 | |
Indumathi et al. | Apply Deep Learning-based CNN and LSTM for Visual Image Caption Generator | |
Seal et al. | Ben-cnn-bilstm: A model of consequential document set identification of bengali text | |
Wibawa et al. | Detecting emotions using a combination of bidirectional encoder representations from transformers embedding and bidirectional long short-term memory. | |
Ahamad et al. | Sentiment analysis of handwritten and text statement for emotion classification using intelligent techniques: a novel approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |