CN115455939A - 篇章级事件抽取方法、装置、设备及存储介质 - Google Patents
篇章级事件抽取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115455939A CN115455939A CN202211150765.4A CN202211150765A CN115455939A CN 115455939 A CN115455939 A CN 115455939A CN 202211150765 A CN202211150765 A CN 202211150765A CN 115455939 A CN115455939 A CN 115455939A
- Authority
- CN
- China
- Prior art keywords
- event
- type
- parameter
- target
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种篇章级事件抽取方法、装置、设备及存储介质,对于携带有标题信息的目标篇章无需进行触发词的识别,直接进行事件参数抽取,由抽取的各类型事件参数的参数值、事件名称及事件类型组成事件抽取结果,更加符合篇章特性,由于省去了触发词的识别,整个处理流程更加简单。在事件参数抽取过程,对目标篇章进行分句,按照事件参数类型模板,依次抽取每个句子中的各类型事件参数的参数值,由于是对句子级别进行事件参数抽取,能够避免标记的事件参数混乱。对于每一类型事件参数,将各句子中抽取的该类型事件参数的参数值进行整合,得到整合参数值。保证了篇章级抽取的各类型事件参数的参数值的完整性,又避免标记事件参数混乱的问题。
Description
技术领域
本申请涉及自然语言处理技术领域,更具体的说,是涉及一种篇章级事件抽取方法、装置、设备及存储介质。
背景技术
事件是指在特定的时间、地点,涉及一个或多个参与者有某个特别的事物发生,通常描述为状态的改变。在自然语言处理领域,事件抽取任务属于一种比较常见的任务,它事件抽取任务主要是从描述事件信息的非结构化文本到结构化文本的形式转换。在网络舆情监控、突发事件告警、情报收集领域都有广泛的应用。
现有的事件抽取方法一般均是针对句子级别的事件抽取,很少有研究篇章级别的事件抽取的方案。个别的对篇章级进行事件抽取的方案,也是沿用句子级别的事件抽取,如首先抽取整个篇章的触发词,进一步利用抽取的触发词信息,将整个篇章输入序列标注模型,以标注事件参数(又可以称为论元参数),最终由触发词和事件参数组成篇章的事件抽取结果。
现有的篇章级的事件抽取方案并未考虑篇章的特性,采用和句子级别的事件抽取相同的方案容易存在处理流程繁琐的问题。并且,对整个篇章进行序列标注以得到事件参数的方式,容易出现标记的事件参数混乱的问题。
发明内容
鉴于上述问题,提出了本申请以便提供一种篇章级事件抽取方法、装置、设备及存储介质,以解决现有篇章级事件抽取方案处理流程繁琐、容易出现标记的事件参数混乱的问题。具体方案如下:
第一方面,提供了一种篇章级事件抽取方法,包括:
对目标篇章进行分句处理,得到句子序列,所述目标篇章携带有标题信息;
按照设定的事件参数类型模板,依次抽取所述句子序列中每个句子中的各类型事件参数的参数值,所述事件参数类型模板中包含设定的若干类型事件参数;
对于每一类型事件参数,将所述句子序列中各句子中抽取的所述类型事件参数的参数值整合,得到所述类型事件参数的整合参数值;
基于所述目标篇章的标题信息,确定目标篇章的事件名称;
获取所述目标篇章所属领域信息,并基于所属领域信息确定所述目标篇章的事件类型;
由所述事件类型、事件名称及各类型事件参数的整合参数值,组成所述目标篇章的事件抽取结果。
第二方面,提供了一种篇章级事件抽取装置,包括:
分句单元,用于对目标篇章进行分句处理,得到句子序列;
事件参数抽取单元,用于按照设定的事件参数类型模板,依次抽取所述句子序列中每个句子中的各类型事件参数的参数值,所述事件参数类型模板中包含设定的若干类型事件参数;
事件参数整合单元,用于对于每一类型事件参数,将所述句子序列中各句子中抽取的所述类型事件参数的参数值整合,得到所述类型事件参数的整合参数值;
事件名称确定单元,用于基于所述目标篇章的标题,确定目标篇章的事件名称;
事件类型确定单元,用于获取所述目标篇章所属领域信息,并基于所属领域信息确定所述目标篇章的事件类型;
事件抽取结果确定单元,用于由所述事件类型、事件名称及各类型事件参数的整合参数值,组成所述目标篇章的事件抽取结果。
第三方面,提供了一种篇章级事件抽取设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的篇章级事件抽取方法的各个步骤。
第四方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的篇章级事件抽取方法的各个步骤。
借由上述技术方案,本申请的篇章级事件抽取方法,对于携带有标题信息的目标篇章,考虑到篇章的特性即包含了明确的标题信息,该标题信息能够反映事件名称及事件类型,在此基础上,摆脱了句子级事件抽取第一阶段对触发词的识别,可以直接进入事件参数抽取的过程,由抽取的各类型事件参数的参数值、事件名称及事件类型共同组成事件抽取结果,也即提供了一种新的篇章级事件抽取结果的描述形式,更加符合篇章的特性,并且由于省去了触发词的识别,因此整个处理流程更加简单。
进一步地,在事件参数抽取的过程,为了避免现有技术对整个篇章直接采用序列标注的方式进行事件参数的提取,所带来的标记的事件参数混乱的问题,本案中对目标篇章首先进行分句处理,得到句子序列,进而按照设定的事件参数类型模板,依次抽取句子序列中每个句子中的各类型事件参数的参数值,由于是对句子级别进行事件参数的抽取,能够避免标记的事件参数混乱的问题。在此基础上,对于每一类型事件参数,将句子序列中各句子中抽取的该类型事件参数的参数值进行整合,得到该类型事件参数的整合参数值,既保证了篇章级抽取的各类型事件参数的参数值的完整性,又避免标记事件参数混乱的问题。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的篇章级事件抽取方法的一流程示意图;
图2示例了一种对句子序列中每个句子进行各类型事件参数的参数值抽取结果示意图;
图3示例了一种对目标篇章的事件抽取结果的描述模板示意图;
图4示例了一种BERT预训练语言模型的结构示意图;
图5为本申请实施例提供的一种篇章级事件抽取装置结构示意图;
图6为本申请实施例提供的篇章级事件抽取设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了一种篇章级事件抽取方案,适用于对篇章进行事件抽取,得到事件抽取结果。
本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。
接下来,结合图1所示,本申请的篇章级事件抽取方法可以包括如下步骤:
步骤S100、对目标篇章进行分句处理,得到句子序列。
其中,目标篇章为需要进行事件抽取的篇章。目标篇章携带有标题信息。示例如,目标篇章可以是新闻报道等,其包含了明确的标题信息,该标题信息能够反映事件名称及事件类型。
本实施例中为了能够完整处理目标篇章以保证不会因为篇章文本长度的限制而导致信息的丢失,以及出现标注的事件参数混乱等问题,可以首先对目标篇章进行分句处理,得到目标篇章对应的句子序列。
在进行分句时,可以采用各种自然语言处理工具对目标篇章进行分句处理,将其拆分为若干个单句,最终得到句子序列{sentence1,sentence2,…,sentenceN}。
其中,对目标篇章进行分句后可以记录每个句子的位置,也即在句子序列中按照各个句子在目标篇章中的位置顺序排序。
步骤S110、按照设定的事件参数类型模板,依次抽取所述句子序列中每个句子中的各类型事件参数的参数值。
本申请可以预先根据所要进行事件抽取的篇章的领域信息等,预先构建事件参数类型模板,所述事件参数类型模板中可以包含设定的若干事件参数类型,示例如PER(人物)、LOC(地点)、TIME(时间)、MONEY(财物)、ACTION(动作)等各种类型的事件参数。
可选的,本申请可以针对每一种事件类型分别构建与之对应的事件参数类型模板,该事件参数类型模板中包含的各类型事件参数为与事件类型匹配的,也即可以针对不同的事件类型构建与之匹配的事件参数类型模板。
在此基础上,本步骤中按照设定的事件参数类型模板,依次抽取所述句子序列中每个句子中的各类型事件参数的参数值的过程,具体是:
按照与目标篇章的事件类型所对应的事件参数类型模板,依次抽取所述句子序列中每个句子中的各类型事件参数的参数值。
另一种可选的情况下,本申请还可以针对各事件类型构建统一事件参数类型模板,也即,不同的事件类型对应同一个事件参数类型模板,该事件参数类型模板中可以包含各种事件类型中所可能出现的各种类型的事件参数。示例如下表1,其示例了一种不同事件类型对应同一事件参数类型模板的情况:
表1
需要说明的是,上述表1仅仅作为一种示例,具体可以根据实际需要而添加或删除事件参数类型。此外,上表1也仅仅示例了几种可选的事件类型,除此之外,还可以根据实际场景而增加其他的事件类型。
本步骤中,对于模板中包含的每一个类型事件参数,依次抽取所述句子序列中每个句子中的该类型事件参数的参数值,从而得到每个句子中抽取出的各类型事件参数的参数值。
以句子“小明今天上午购买了一部手机”为例:
从该句子中抽取的各类型事件参数的参数值分别为:
PER:小明;TIME:今天上午;MONEY:一部手机;ACTION:购买。
由于句子序列中一般包含多条句子,对每一条句子分别进行各类型事件参数的参数值的抽取,最终抽取结果可以如图2所示,从第一个句子Sentence1到句子序列中最后一个句子SentenceN,分别按照事件参数类型模板抽取了各类型事件参数的参数值(图2中参数值一列并未填充,具体可以根据抽取结果将抽取的参数值填充至图2中参数值一列)。
步骤S120、对于每一类型事件参数,将所述句子序列中各句子中抽取的所述类型事件参数的参数值整合。
具体地,对每一类型事件参数的参数值整合后,可以得到所述类型事件参数的整合参数值。
一种可选的实现方式中,对于事件参数类型模板中的每一类型事件参数:
可以按照句子序列中各句子的排序顺序,依序将每个句子中抽取的所述类型事件参数的参数值组合,得到所述类型事件参数的整合参数值,其中,若某一句子中抽取的所述类型事件参数的参数值为空,则可以利用预设的字符(如padding等)替代所述类型事件参数的参数值。
参照图3,其示例了一种对目标篇章的事件抽取结果的描述模板。其中,虚线框部分以PER(人物)这一类型事件参数为例,示例了参数值整合后的结果。其中,图3示例了采用中括号“[]”表示篇章级整合参数值集合,采用小括号“()”表示句子级识别的事件参数值;如果一个句子包含多个相同类型的事件参数,则利用“\”分隔,如图3中第一个小括号中示例的per1\per2,表示在第一条句子中抽取出两个不同的人物,分别用per1、per2表示。如果一个句子中抽取的某个类型事件参数的参数值为空值,则可以利用特殊字符“PADDING”进行表示。
对于图3中“LOC(地点)\TIME(时间)\MONEY(财务)\ACTION(动作)”等事件参数,其结果与“PER(人物)”的结果形式类似,图3中未示例。
步骤S130、基于所述目标篇章的标题信息,确定目标篇章的事件名称。
具体地,鉴于篇章的特性,即其标题信息能够明确的表达事件的关键信息等,因此本实施例中可以基于目标篇章的标题信息,确定事件名称。
一种可选的情况下,可以直接将所述目标篇章的标题信息,作为目标篇章的事件名称。除此之外,还可以提取所述目标篇章的标题信息的主题,作为目标篇章的事件名称。其中,对标题信息进行主题提取时,可以采用已有的各种主题提取工具。
如图3所示,可以将确定的目标篇章的事件名称填充至第二行中。
步骤S140、获取所述目标篇章所属领域信息,并基于所属领域信息确定所述目标篇章的事件类型。
具体地,目标篇章可能直接携带有所属领域信息,或者是根据目标篇章的获取渠道,确定其所属领域信息。再或者,可以通过对目标篇章采用自然语言分析方法,以确定其所属领域信息。
在确定了目标篇章所属领域信息之后,可以基于其领域信息确定目标篇章的事件类型。
一种可选的方式中,可以在设定的事件类型模板中,选取与目标篇章所属领域信息最接近的一个目标事件类型,作为所述目标篇章的事件类型。其中,事件类型模板中可以包含设定的若干事件类型,如上表1中第一列,示例了若干种事件类型。
如图3所示,可以将确定的目标篇章的事件类型填充至第一行中。
需要说明的是,上述步骤S130-S140,与步骤S100-S120之间并无必然的先后顺序,图1仅示例了一种可选情况。
步骤S150、由所述事件类型、事件名称及各类型事件参数的整合参数值,组成所述目标篇章的事件抽取结果。
具体地,本实施例中目标篇章的事件抽取结果可以由目标篇章的事件类型、事件名称及各类型事件参数的整合参数值组成。如图3,其示例了一种目标篇章的事件抽取结果的模板。
本申请实施例提供的篇章级事件抽取方法,对于携带有标题信息的目标篇章,考虑到篇章的特性即包含了明确的标题信息,该标题信息能够反映事件名称及事件类型,在此基础上,摆脱了句子级事件抽取第一阶段对触发词的识别,可以直接进入事件参数抽取的过程,由抽取的各类型事件参数的参数值、事件名称及事件类型共同组成事件抽取结果,也即提供了一种新的篇章级事件抽取结果的描述形式,更加符合篇章的特性,并且由于省去了触发词的识别,因此整个处理流程更加简单。
进一步地,在事件参数抽取的过程,为了避免现有技术对整个篇章直接采用序列标注的方式进行事件参数的提取,所带来的标记的事件参数混乱的问题,本案中对目标篇章首先进行分句处理,得到句子序列,进而按照设定的事件参数类型模板,依次抽取句子序列中每个句子中的各类型事件参数的参数值,由于是对句子级别进行事件参数的抽取,能够避免标记的事件参数混乱的问题。在此基础上,对于每一类型事件参数,将句子序列中各句子中抽取的该类型事件参数的参数值进行整合,得到该类型事件参数的整合参数值,既保证了篇章级抽取的各类型事件参数的参数值的完整性,又避免标记事件参数混乱的问题。
本申请的一些实施例中,介绍了上述步骤S110抽取句子序列中每个句子中的各类型事件参数的参数值的一种可选实现方式。
具体地,本实施例中可以采用预训练的序列标注模型,对句子序列中每个句子进行各类型事件参数的标注,进而得到各类型事件的参数值。
其中,序列标注模型可以是以标注有句子中各分词所属的事件参数类型标签的训练句子作为训练数据训练得到。
序列标注模块可以是采用BERT等预训练语言模型,结构可以参考图4所示:
其中E1、E2...EN为模型的输入向量,T1、T2...TN为模型的输出向量。
BERT预训练语言模型使用的是Transformer特征抽取器,该特征抽取器可以包括多个连续堆叠的单元,每个单元由自注意力机制和前馈神经网络构成。
在自注意力机制中,每个词对应3个不同的向量,它们分别是Query向量(Q),Key向量(K)和Value向量(V),长度相同。由嵌入向量乘以三个不同的权值矩阵Wq,Wk,Wv得到。每个词的重要度score由Query向量和Key向量相乘而得:score=q·k
Attention值通过使用SoftMax对score做平滑而得,平滑后的结果与Value向量相乘,
实际使用中,一般先通过注意力机制计算包含注意力的编码向量Z,然后将Z送入前馈神经网络层,用作训练下游任务,即:
FFN(Z)=max(0,ZW1+b1)+b2
BERT预训练语言模型使用了由多个自注意力机制构成的多头注意力机制(Multihead-attention),用于获取句子级别的语义信息。
Multihead=concat(head1,head2,…,headn)·W
进一步为解决深度神经网络训练困难的问题,Transformer模块还可以使用″短路连接″和″层归一化″方法。″短路连接″是指将前一层信息无差的传递到下一层从而解决深度神经网络中梯度消失问题;″层归一化″是指对每一层的激活值进行归一化处理,这样可以加速模型训练过程,使得模型尽快收敛。
条件随机场是序列标注任务中的一种常见算法,因此可以用于标注事件参数类型。序列标注模型中常使用的是线性链条件随机场,是一种根据输入序列预测输出序列的判别式模型。对于指定序列X(x1,x2,…xn),其对应标签为Y(y1,y2,…yn),若满足下列条件:
P(Yi|X,Y1,…,Yi-1,Yi+1,…Yn)=P(Yi|X,Yi-1,Yi+1)
设P(N,K)为解码层输出的权重矩阵,进而可以得出评估分数S(x,y),即
其中,A为转移矩阵,k为标签个数,n为序列长度。序列标签y的最大概率可以用SoftMax函数计算,即
训练时可以使用极大似然法求解P(y|x)的最大后验概率:
在本申请的一些实施例中,基于前述提供的篇章级的事件抽取方案的基础上,进一步提供了一种篇章级事件间的关联性分析方案。
在前述需要进行事件抽取的目标篇章的数量为多个时,分别对每一目标篇章按照前述实施例的方式提取事件,在得到每一目标篇章的事件抽取结果之后,可以基于多个目标篇章的事件抽取结果,对多个目标篇章进行关联性分析。
本实施例中提供了两种关联性分析的方式,分别是:
第一、从语义维度,进行事件关联性分析。
本实施例中对于语义维度,进一步可以细分为事件类型角度和事件参数角度。
从事件类型角度:
可以以事件类型作为分类条件,基于多个目标篇章的事件抽取结果,将多个目标篇章划分为至少一个同类型事件集合。
由前述目标篇章的事件抽取过程可知,最终得到的事件抽取结果中包含了目标篇章的事件类型,进而在进行事件关联性分析时,可以以事件类型作为分类条件,将多个目标篇章划分为同类型事件集合。
从事件参数角度:
若存在若干个事件的某一事件参数信息相近或相似,则表明上述事件之间具有相似性。举例而言,假设已知事件A、B、C:如果事件A与B发生时间是相近或者相同的,那么事件A与事件B在“时间”的维度上是具有相似性的;如果事件A与C的发生地点是相同或相近,那么事件A与事件C之间在“发生地点”这个维度上具有相似性;如果事件A、事件B与事件C之间牵涉的人物都是同一个人,那么事件A、事件B、事件C之间在“人物”这个维度上具有相似性。判断两个事件参数之间相似性,可以采用语义相似度度量方法,直接计算每两个事件的事件参数值的相似性。
具体实施过程可以包括:
S1、对于每一类型事件参数,分别计算两两目标篇章的所述类型事件参数的整合参数值的语义相似度。
计算整合参数值的语义相似度时,可以采用语义相似度度量方法。
S2、确定语义相似度超过设定相似度阈值的两个目标篇章之间在所述类型事件参数上存在语义上的关联关系。
其中,设定相似度阈值可以根据实际情况而设定,如设置为100%或小于1的其它数值。
第二、从统计维度进行事件关联性分析。
上述基于语义维度的关联性分析是单纯从某一维度出发分析多个事件之间的关联关系,而基于统计维度的事件关联关系则同时考虑多种维度的语义信息,进而确定多个事件之间的关联关系。本实施例中示例了两种基于统计维度的事件关联关系,如下表2:
表2
具体实施过程可以包括:
S1、对于任意两个目标篇章的事件抽取结果,分别对比二者的各类型事件参数的整合参数值是否相同。
S2、基于对比结果,确定满足第一条件的两个目标篇章间在事件上存在共现关系,确定满足第二条件的两个目标篇章间在事件上存在顺承关系。
上述第一、第二条件分别如下:
第一条件为,两个目标篇章的事件抽取结果中时间参数和地点参数的整合参数值分别相同。
第二条件为,两个目标篇章的事件抽取结果中人物参数、地点参数的整合参数值分别相同,且时间参数的整合参数值不同。
当然,上述仅示例了两种事件关联关系,除此之外,还可以从其它事件参数的维度进行关联性分析,以得出其它事件关联关系,本实施例中不再穷举。
本申请上述实施例中在完成篇章级事件抽取之后,进一步从语义维度和统计维度分别介绍了两种事件关联关系的分析方法,为多个目标篇章所属的事件之间建立关联关系,协助用户分析目标篇章之间、事件与事件之间的关系提供了一种新的思路,且该事件间关联关系分析结果具备很强的可行性及可靠性。
下面对本申请实施例提供的篇章级事件抽取装置进行描述,下文描述的篇章级事件抽取装置与上文描述的篇章级事件抽取方法可相互对应参照。
参见图5,图5为本申请实施例公开的一种篇章级事件抽取装置结构示意图。
如图5所示,该装置可以包括:
分句单元11,用于对目标篇章进行分句处理,得到句子序列;
事件参数抽取单元12,用于按照设定的事件参数类型模板,依次抽取所述句子序列中每个句子中的各类型事件参数的参数值,所述事件参数类型模板中包含设定的若干类型事件参数;
事件参数整合单元13,用于对于每一类型事件参数,将所述句子序列中各句子中抽取的所述类型事件参数的参数值整合,得到所述类型事件参数的整合参数值;
事件名称确定单元14,用于基于所述目标篇章的标题,确定目标篇章的事件名称;
事件类型确定单元15,用于获取所述目标篇章所属领域信息,并基于所属领域信息确定所述目标篇章的事件类型;
事件抽取结果确定单元16,用于由所述事件类型、事件名称及各类型事件参数的整合参数值,组成所述目标篇章的事件抽取结果。
可选的,上述事件参数抽取单元依次抽取所述句子序列中每个句子中的各类型事件参数的参数值的过程,可以包括:
采用预训练的序列标注模型,对所述句子序列中每个句子进行各类型事件参数的标注,得到各类型事件参数的参数值;
所述序列标注模型为以标注有句子中各分词所属的事件参数类型标签的训练句子作为训练数据训练得到。
可选的,上述事件参数整合单元对于每一类型事件参数,将所述句子序列中各句子中抽取的所述类型事件参数的参数值整合,得到所述类型事件参数的整合参数值的过程,可以包括:
对于事件参数类型模板中的每一类型事件参数:
按照句子序列中各句子的排序顺序,依序将每个句子中抽取的所述类型事件参数的参数值组合,得到所述类型事件参数的整合参数值,其中,若某一句子中抽取的所述类型事件参数的参数值为空,则利用预设的字符替代所述类型事件参数的参数值。
可选的,上述事件名称确定单元基于所述目标篇章的标题信息,确定目标篇章的事件名称的过程,可以包括:
将所述目标篇章的标题信息,作为目标篇章的事件名称;
或,
提取所述目标篇章的标题信息的主题,作为目标篇章的事件名称。
可选的,上述事件类型确定单元基于所述目标篇章所属领域信息确定所述目标篇章的事件类型的过程,可以包括:
在设定的事件类型模板中,选取与所述目标篇章所属领域信息最接近的一个目标事件类型,作为所述目标篇章的事件类型;
其中,所述事件类型模板中包含设定的若干事件类型。
可选的,上述进行事件抽取的目标篇章的个数为多个时,本申请的装置还可以包括:
事件关联分析单元,用于在得到每一目标篇章的事件抽取结果之后,基于多个所述目标篇章的事件抽取结果,从语义维度和/或统计维度进行事件关联分析。
可选的,上述事件关联分析单元基于多个所述目标篇章的事件抽取结果,从语义维度进行事件关联分析的过程,可以包括:
以事件类型作为分类条件,基于多个所述目标篇章的事件抽取结果,将多个所述目标篇章划分为至少一个同类型事件集合;
和/或,
对于每一类型事件参数,分别计算两两目标篇章的所述类型事件参数的整合参数值的语义相似度;
确定语义相似度超过设定相似度阈值的两个目标篇章之间在所述类型事件参数上存在语义上的关联关系。
可选的,上述事件关联分析单元基于多个所述目标篇章的事件抽取结果,从统计维度进行事件关联分析的过程,可以包括:
对于任意两个目标篇章的事件抽取结果,分别对比二者的各类型事件参数的整合参数值是否相同;
基于对比结果,确定满足第一条件的两个目标篇章间在事件上存在共现关系、确定满足第二条件的两个目标篇章间在事件上存在顺承关系,其中:
所述第一条件为,两个目标篇章的事件抽取结果中时间参数和地点参数的整合参数值分别相同;
所述第二条件为,两个目标篇章的事件抽取结果中人物参数、地点参数的整合参数值分别相同,且时间参数的整合参数值不同。
本申请实施例提供的篇章级事件抽取装置可应用于篇章级事件抽取设备,如终端:手机、电脑等。可选的,图6示出了篇章级事件抽取设备的硬件结构框图,参照图6,篇章级事件抽取设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
对目标篇章进行分句处理,得到句子序列,所述目标篇章携带有标题信息;
按照设定的事件参数类型模板,依次抽取所述句子序列中每个句子中的各类型事件参数的参数值,所述事件参数类型模板中包含设定的若干类型事件参数;
对于每一类型事件参数,将所述句子序列中各句子中抽取的所述类型事件参数的参数值整合,得到所述类型事件参数的整合参数值;
基于所述目标篇章的标题信息,确定目标篇章的事件名称;
获取所述目标篇章所属领域信息,并基于所属领域信息确定所述目标篇章的事件类型;
由所述事件类型、事件名称及各类型事件参数的整合参数值,组成所述目标篇章的事件抽取结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
对目标篇章进行分句处理,得到句子序列,所述目标篇章携带有标题信息;
按照设定的事件参数类型模板,依次抽取所述句子序列中每个句子中的各类型事件参数的参数值,所述事件参数类型模板中包含设定的若干类型事件参数;
对于每一类型事件参数,将所述句子序列中各句子中抽取的所述类型事件参数的参数值整合,得到所述类型事件参数的整合参数值;
基于所述目标篇章的标题信息,确定目标篇章的事件名称;
获取所述目标篇章所属领域信息,并基于所属领域信息确定所述目标篇章的事件类型;
由所述事件类型、事件名称及各类型事件参数的整合参数值,组成所述目标篇章的事件抽取结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种篇章级事件抽取方法,其特征在于,包括:
对目标篇章进行分句处理,得到句子序列,所述目标篇章携带有标题信息;
按照设定的事件参数类型模板,依次抽取所述句子序列中每个句子中的各类型事件参数的参数值,所述事件参数类型模板中包含设定的若干类型事件参数;
对于每一类型事件参数,将所述句子序列中各句子中抽取的所述类型事件参数的参数值整合,得到所述类型事件参数的整合参数值;
基于所述目标篇章的标题信息,确定目标篇章的事件名称;
获取所述目标篇章所属领域信息,并基于所属领域信息确定所述目标篇章的事件类型;
由所述事件类型、事件名称及各类型事件参数的整合参数值,组成所述目标篇章的事件抽取结果。
2.根据权利要求1所述的方法,其特征在于,所述设定的事件参数类型模板为预设的与所述目标篇章的事件类型对应的事件参数类型模板;
或,所述设定的事件参数类型模板为预设的与各事件类型对应的统一事件参数类型模板。
3.根据权利要求1所述的方法,其特征在于,所述依次抽取所述句子序列中每个句子中的各类型事件参数的参数值,包括:
采用预训练的序列标注模型,对所述句子序列中每个句子进行各类型事件参数的标注,得到各类型事件参数的参数值;
所述序列标注模型为以标注有句子中各分词所属的事件参数类型标签的训练句子作为训练数据训练得到。
4.根据权利要求1所述的方法,其特征在于,所述对于每一类型事件参数,将所述句子序列中各句子中抽取的所述类型事件参数的参数值整合,得到所述类型事件参数的整合参数值,包括:
对于事件参数类型模板中的每一类型事件参数:
按照句子序列中各句子的排序顺序,依序将每个句子中抽取的所述类型事件参数的参数值组合,得到所述类型事件参数的整合参数值,其中,若某一句子中抽取的所述类型事件参数的参数值为空,则利用预设的字符替代所述类型事件参数的参数值。
5.根据权利要求1所述的方法,其特征在于,基于所述目标篇章的标题信息,确定目标篇章的事件名称的过程,包括:
将所述目标篇章的标题信息,作为目标篇章的事件名称;
或,
提取所述目标篇章的标题信息的主题,作为目标篇章的事件名称。
6.根据权利要求1所述的方法,其特征在于,基于所述目标篇章所属领域信息确定所述目标篇章的事件类型的过程,包括:
在设定的事件类型模板中,选取与所述目标篇章所属领域信息最接近的一个目标事件类型,作为所述目标篇章的事件类型;
其中,所述事件类型模板中包含设定的若干事件类型。
7.根据权利要1-6任一项所述的方法,其特征在于,所述目标篇章的数量为多个,在得到每一目标篇章的事件抽取结果之后,还包括:
基于多个所述目标篇章的事件抽取结果,从语义维度和/或统计维度进行事件关联分析。
8.根据权利要求7所述的方法,其特征在于,基于多个所述目标篇章的事件抽取结果,从语义维度进行事件关联分析,包括:
以事件类型作为分类条件,基于多个所述目标篇章的事件抽取结果,将多个所述目标篇章划分为至少一个同类型事件集合;
和/或,
对于每一类型事件参数,分别计算两两目标篇章的所述类型事件参数的整合参数值的语义相似度;
确定语义相似度超过设定相似度阈值的两个目标篇章之间在所述类型事件参数上存在语义上的关联关系。
9.根据权利要求7所述的方法,其特征在于,基于多个所述目标篇章的事件抽取结果,从统计维度进行事件关联分析,包括:
对于任意两个目标篇章的事件抽取结果,分别对比二者的各类型事件参数的整合参数值是否相同;
基于对比结果,确定满足第一条件的两个目标篇章间在事件上存在共现关系、确定满足第二条件的两个目标篇章间在事件上存在顺承关系,其中:
所述第一条件为,两个目标篇章的事件抽取结果中时间参数和地点参数的整合参数值分别相同;
所述第二条件为,两个目标篇章的事件抽取结果中人物参数、地点参数的整合参数值分别相同,且时间参数的整合参数值不同。
10.一种篇章级事件抽取装置,其特征在于,包括:
分句单元,用于对目标篇章进行分句处理,得到句子序列;
事件参数抽取单元,用于按照设定的事件参数类型模板,依次抽取所述句子序列中每个句子中的各类型事件参数的参数值,所述事件参数类型模板中包含设定的若干类型事件参数;
事件参数整合单元,用于对于每一类型事件参数,将所述句子序列中各句子中抽取的所述类型事件参数的参数值整合,得到所述类型事件参数的整合参数值;
事件名称确定单元,用于基于所述目标篇章的标题,确定目标篇章的事件名称;
事件类型确定单元,用于获取所述目标篇章所属领域信息,并基于所属领域信息确定所述目标篇章的事件类型;
事件抽取结果确定单元,用于由所述事件类型、事件名称及各类型事件参数的整合参数值,组成所述目标篇章的事件抽取结果。
11.一种篇章级事件抽取设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~8中任一项所述的篇章级事件抽取方法的各个步骤。
12.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~8中任一项所述的篇章级事件抽取方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211150765.4A CN115455939A (zh) | 2022-09-21 | 2022-09-21 | 篇章级事件抽取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211150765.4A CN115455939A (zh) | 2022-09-21 | 2022-09-21 | 篇章级事件抽取方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115455939A true CN115455939A (zh) | 2022-12-09 |
Family
ID=84304517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211150765.4A Pending CN115455939A (zh) | 2022-09-21 | 2022-09-21 | 篇章级事件抽取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115455939A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648397A (zh) * | 2023-11-07 | 2024-03-05 | 中译语通科技股份有限公司 | 篇章事件抽取方法、系统、设备及存储介质 |
-
2022
- 2022-09-21 CN CN202211150765.4A patent/CN115455939A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648397A (zh) * | 2023-11-07 | 2024-03-05 | 中译语通科技股份有限公司 | 篇章事件抽取方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN111783474B (zh) | 一种评论文本观点信息处理方法、装置及存储介质 | |
CN111222305B (zh) | 一种信息结构化方法和装置 | |
CN110598206A (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN109978060B (zh) | 一种自然语言要素抽取模型的训练方法及装置 | |
CN110401545B (zh) | 聊天群组创建方法、装置、计算机设备和存储介质 | |
CN110096681B (zh) | 合同条款分析方法、装置、设备及可读存储介质 | |
CN112883741B (zh) | 基于双通道图神经网络的特定目标情感分类方法 | |
CN111274829B (zh) | 一种利用跨语言信息的序列标注方法 | |
CN113821605B (zh) | 一种事件抽取方法 | |
CN113094578A (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN112307337B (zh) | 基于标签知识图谱的关联推荐方法、装置及计算机设备 | |
CN110955750A (zh) | 评论区域和情感极性的联合识别方法、装置、电子设备 | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN113297379A (zh) | 一种文本数据多标签分类方法及装置 | |
CN113704396A (zh) | 短文本分类方法、装置、设备及存储介质 | |
CN114756675A (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN115658905A (zh) | 一种跨篇章的事件多维画像生成方法 | |
CN116150651A (zh) | 基于ai的深度合成检测方法和系统 | |
CN115455939A (zh) | 篇章级事件抽取方法、装置、设备及存储介质 | |
CN109065015B (zh) | 一种数据采集方法、装置、设备及可读存储介质 | |
CN114925702A (zh) | 文本相似度识别方法、装置、电子设备及存储介质 | |
CN113761192A (zh) | 文本处理方法、文本处理装置及文本处理设备 | |
CN112597292A (zh) | 问题回复推荐方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |