CN114841140A

CN114841140A - 依存分析模型及基于依存分析的中文联合事件抽取方法

Info

Publication number: CN114841140A
Application number: CN202210452892.3A
Authority: CN
Inventors: 吴昆�; 丁国栋
Original assignee: Mairong Intelligent Technology Shanghai Co ltd
Current assignee: Mairong Intelligent Technology Shanghai Co ltd
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-08-02

Abstract

本发明公开了一种基于依存分析的中文联合事件抽取方法，首先引入了依存分析构建句法结构加强了信息的深度交互；其次为弥合字词的不一致性设计了三种类型的边表示以计算图卷积特征；最终通过对事件触发词分类任务以及事件论元分类任务联合学习，缓解了传统管道式方法的级联误差传播问题，提升了从文档中抽取事件触发词以及论元的效果。基于依存分析的中文联合事件抽取模型，在对语义进行编码的同时融入了句法结构信息，增强了字之间的信息流动，并且针对中文分词的特性为构建无向图设计了不同类型的边表示。本发明通过融入中文文本中包含的句法结构知识丰富了语义特征表示，并且使用联合学习的方法有效的提高了句子级事件抽取的效果。

Description

依存分析模型及基于依存分析的中文联合事件抽取方法

技术领域

本发明属于自然语言处理中信息抽取的事件抽取研究领域，具体涉及一种依存分析模型及基于依存分析的中文联合事件抽取方法。

背景技术

互联网的高速发展带来了海量的数据，其中蕴含的信息具有极大的价值，而如何在数以亿计的数据中快速定位到所需信息一直是亟待解决的问题。数据的载体多种多样，例如声音、图像、文本等。语言作为人类沟通最重要的途径，对其的研究有助于帮助机器理解人类智能，由此诞生了自然语言处理领域。而文本与语言密不可分，人类的绝大部分知识都是以语言文字的形式记载和流传下来的，因此对于文本的研究一直是人工智能的核心部分。结合上述研究领域和问题，信息抽取类任务应运而生，其用于在文本中将人们所需的核心信息提取出来。

事件抽取作为信息抽取领域内的核心任务，旨在将事件从自然文本中提取出来并以表格类的结构化形式用以表示。一个完整的事件由一个定义事件类型的事件触发词和多个事件涉及的论元构成，触发词和论元常为实体。按照抽取阶段划分，事件抽取任务可分解为事件触发词抽取和事件论元抽取两个子任务。事件触发词抽取是将指示事件类型的关键单词(常为动词或名词)从文本中抽取出来，而事件论元抽取则是在已知事件触发词及事件类型的基础上将该事件涉及的所有论元抽取出来。对于完整事件抽取任务，传统的管道式方法将上述两个子任务依次执行，但是该方法存在较为严重的级联误差传播问题。

为了削弱管道式事件抽取方法带来的级联误差传播问题，出现了将两个子任务使用同一模型共同训练的联合事件抽取模型。但现有联合事件抽取方法在抽取论元时仅仅关注文本语义信息，而对于句法结构信息涉猎较少。因此如何在编码过程中融入句法结构信息以指导信息的抽取具有广泛的研究价值。

发明内容

本发明所要解决的技术问题是：提供一种依存分析模型及基于依存分析的中文联合事件抽取方法，解决了现有技术中涉及句法结构信息的事件论元抽取算法涉及少影响数据处理精度及效率的问题。

本发明为解决上述技术问题采用以下技术方案：

一种基于文本表征的依存分析模型构建方法，首先，将文本进行分词，并且使用依存句法分析得到词与词之间的主从关系，建立词与词之间的依存关系；其次，构建三种类型的边，并对应三种类型的边分别生成三个二维邻接矩阵构建图表示，使用无向图表示该依存关系；然后，将初始文本表征输入图卷积神经网络，使用无向图聚合邻居节点信息，将卷积神经网络的输出与初始文本表征进行融合；最后，将融合后得到的分类向量作为该模型的输出。

使用无向图表示依存关系的具体过程如下：

将词之间的依存关系简化为词首字间的依存关系，构建三种类型的边表示，分别为e_along，e_loop，e_rev；依照预先建立的依存关系为三种边构建二维邻接矩阵，将依存关系抽象为无向图表示；所述邻接矩阵均以单字为节点，若两个节点之间存在关系，则将邻接矩阵对应位置的值置为1，反之置为0。

所述融合获取分类向量的具体过程如下：

将获取的词嵌入文本表征，作为图卷积神经网络的初始输入，结合无向图对邻居节点信息进行聚合，计算图卷积向量；将三种边类型的图卷积向量进行拼接，并使用激活函数更新第k+1层的节点向量，将最后一层图卷积网络的输出和词嵌入文本表征结合，获取最终的分类向量，其中，k表示图卷积的层数。

根据如下公式计算图卷积向量

其中，v表示当前更新节点，K(v,u)指示当前边的类型，对应于e_along，e_loop，e_rev三种，N(v,K(v,u))是当前节点在当前边的邻居节点集合，即二维邻接矩阵中值为1的部分，

和

是节点和边类型约束的权重矩阵和偏移量参数。

所述依存句法分析中，使用官方工具包Stanford CoreNLP进行中文文本依存关系分析，首先将中文文本进行分词，经过依存分析得到以词为单位的支配词与从属词之间的中文句法依存关系。

一种基于依存分析的中文联合事件抽取方法，包括如下步骤：

步骤1、预处理包含事件类型以及描述该事件的输入文本，使用预训练语言模型对数据集中的文本进行编码，得到模型的初始文本表征；

步骤2、将原始输入文本进行分词，并将分词结果和步骤1得到的文本表征输入所述依存分析模型，获取融合分类向量；

步骤3、将步骤2中得到的分类向量输入事件触发词分类器，使用0/1标注格式对每个事件类型的候选触发词的首尾索引进行预测，计算当前字是触发词开始和结束的分类概率向量p_ts/te；

步骤4、将步骤2得到的分类向量输入事件论元分类器，使用0/1标注格式对每个角色类型的候选论元的首尾索引进行预测，计算当前字是该论元开始和结束字的分类概率向量p_as/ae；

步骤5、使用步骤3得到的向量p_ts/te和步骤4得到的向量p_as/ae分别进行触发词和论元的抽取，通过参数共享和联合学习进行训练，经过迭代得到最优模型。

所述步骤1的具体过程如下：

划分训练集和测试集，将文档中的长文档分隔为固定长度为200个字的句子集合，其中一个句子对应数据集中的一条样本，使用预训练语言模型BERT进行词嵌入表示得到初始文本表征h。

所述步骤3的具体过程如下：

将步骤2所得融合分类向量输入事件触发词分类器，使用独立前馈神经网络为每一个事件类型计算当前字是触发词开始和结束的分类概率：

p_ts/te(i)＝W_1ts/te(tanh(W_2ts/te·g_i+b_2ts/te))+b_1ts/te

其中ts指示触发词开始索引，te指示触发词结束索引。W_1ts，b_1ts，W_1te，b_1te，W_2ts，b_2ts，W_2te，b_2te均为可学习参数矩阵。

所述步骤4的具体过程如下：

将步骤2所得的融合分类向量输入事件论元分类器，使用前馈神经网络为每一个论元角色计算当前字是该论元开始和结束字的分类概率：

p_as/ae(i)＝W_1as/ae(tanh(W_2as/ae·g_i+b_2as/ae))+b_1as/ae

其中as指示论元开始索引，ae指示论元结束索引。W_1as，b_1as，W_1ae，b_1ae，W_2as，b_2as，W_2ae，b_2ae均为可学习参数矩阵。

所述步骤5的具体过程如下：

将步骤3得到的向量p_ts/te和步骤4得到的向量p_as/ae使用多个二分类器进行分类，使用argmax函数得到预测的0/1标签，指示当前字是否为特定事件触发词或者论元角色的实体开头或者结尾，同时抽取出事件触发词以及事件涉及论元：

y_ts/te＝argmax(p_ts/te)

y_as/ae＝argmax(p_as/ae)。

与现有技术相比，本发明具有以下有益效果：

1、该方案首先引入了依存分析构建句法结构加强了信息的深度交互；其次为弥合字词的不一致性设计了三种类型的边表示以计算图卷积特征；最终通过对事件触发词分类任务以及事件论元分类任务联合学习，缓解了传统管道式方法的级联误差传播问题，提升了从文档中抽取事件触发词以及论元的效果。

2、基于依存分析的中文联合事件抽取模型，在对语义进行编码的同时融入了句法结构信息，增强了字之间的信息流动，并且针对中文分词的特性为构建无向图设计了不同类型的边表示。

3、该方案通过依存分析对单词间的直接关联关系进行建模，并且使用图卷积神经网络将这种句法结构信息与文本语义信息相结合，最终用于联合事件抽取任务，从而同时提升事件触发词和事件论元的抽取结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明一种基于依存分析的中文联合事件抽取方法流程图。

图2是本发明使用的依存分析主从依赖关系示意图。

图3是本发明使用的基于三种边的依存关系抽象示意图。

图4是本发明中图卷积神经网络使用的无向图示意图。

图5是本发明进行中文联合事件抽取任务的整体结构示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

为了更好说明本实施例，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。

本发明的目的在于克服现有技术存在的缺陷，提供一种基于依存分析的中文联合事件抽取方法，以在缓解级联误差传播的基础上更好地利用句法结构信息，将结构与语义相结合，最终提升算法的分类精度。

为解决上述技术问题，本发明基于依存分析构建单词之间基于句法结构的关联信息，并使用图卷积神经网络建模这种依赖信息，并将句法信息与语义信息进行充分融合以得到用于分类的好的向量表示。提出并实现了一种新颖的中文联合事件抽取方法。

本发明的创新主要包括以下几方面：

1)提出使用依存句法分析在文本语义中融入句法结构信息。

2)提出三种类型的边使用图卷积网络从中文文本中聚合邻居节点特征。

3)提出基于依存分析的联合学习模型共同学习触发词抽取和论元抽取两个子任务。

使用无向图表示依存关系的具体过程如下：

将词之间的依存关系简化为词首字间的依存关系，构建三种类型的边表示，分别为e_along，e_loop，e_rev；e是代表边的意思，along是一种类型，e_along表示along类型的边；依照预先建立的依存关系为三种边构建二维邻接矩阵，将依存关系抽象为无向图表示；所述邻接矩阵均以单字为节点，若两个节点之间存在关系，则将邻接矩阵对应位置的值置为1，反之置为0。

所述融合获取分类向量的具体过程如下：

根据如下公式计算图卷积向量

和

是节点和边类型约束的权重矩阵和偏移量参数。

具体实施例，如图1至图5所示，

一种基于依存分析的联合事件抽取方法，该方法包括以下步骤：

S1：预处理包含事件类型以及描述该事件的输入文本，使用预训练语言模型对数据集中的文本进行编码，得到模型的初始文本表征；

S2：将原始输入文本进行分词，并且使用依存句法分析得到词与词之间的主从关系，在句子中，如果一个词修饰另一个词，则称修饰词为从属词，被修饰的词语称为支配词，两者之间的语法关系称为依存关系；

S3：使用无向图表示步骤S2得到的依存关系，设计了三种类型的边表示，分别为e_along，e_loop，e_rev,对应于三种类型的边分别生成三个二维邻接矩阵，构建无向图表示；所述邻接矩阵均以单字为节点，若两个节点之间存在关系，则将邻接矩阵对应位置的值置为1，反之置为0；

S4：将步骤S1得到的初始文本表征输入图卷积神经网络，使用步骤S3构建的无向图聚合邻居节点信息，计算图卷积向量；将三种边类型的图卷积向量进行拼接，并使用激活函数更新第k+1层的节点向量，将最后一层图卷积网络的输出和词嵌入文本表征结合，获取最终的分类向量，其中，k表示图卷积的层数；

S5：将步骤4得到的分类向量输入事件触发词分类器，使用0/1标注格式对每个事件类型的候选触发词的首尾索引进行预测，计算当前字是触发词开始和结束的分类概率向量p_ts/te；

S6：将步骤4得到的分类向量输入事件论元分类器，使用0/1标注格式对每个角色类型的候选论元的首尾索引进行预测，计算当前字是该论元开始和结束字的分类概率向量p_as/ae；

S7：使用步骤5得到的向量p_ts/te和步骤6得到的向量p_as/ae分别进行触发词和论元的抽取，通过参数共享和联合学习进行训练，经过迭代得到最优模型。

所述步骤S1的具体过程如下：

将训练模型所用数据集划分为训练集和测试集，将数据集中的文档以最大长度200个字分隔为句子集合，以句子为单位进行触发词和事件论元抽取，其中，一个句子对应数据集中的一条样本，使用预训练的语言模型BERT进行编码，将每个字映射到固定维度d_h的向量以得到通用的语义嵌入文本表征h：

{h₁,h₂,...,h_N}＝BERT{t₁,t₂,...,t_N}

其中h_i为对应于每个字的词嵌入表征，N指示文本序列长度；文本表征h的大小为N*d_h。

所述步骤S2的具体过程如下：

使用官方工具Stanford CoreNLP进行分词和依存句法分析，对于中文文本，Stanford CoreNLP首先进行分词，紧接着以词为单位得到词语之间基于中文语法的关系，即支配词与从属词间的关系，例如直接宾语(dobj)、复合名词修饰(nmod)、从句补语(ccomp)等，依存分析直接结果示意图如图2所示，得到中文分词结果和依存句法树结构。

例如“首钢”和“斥资”这两个词之间用nsubj(名词主语)类型的边相连接，表示“斥资”这个动作的名词主语是“首钢”；“1993年”和“斥资”这两个词之间用nmod(复合名词修饰)类型的边相连，表示“1993年”修饰“斥资”这个行为。

所述步骤S3的具体过程如下：

步骤S300：使用无向图表示文本依存关系。

步骤S301：由于步骤S1得到的词嵌入文本表征以字为单位，而步骤S2得到的句法依存关系以词为单位，导致依存分析的结果无法直接使用；为了弥合两阶段差异，需要将依存关系转换为以字为单位的无向图表示；因此将词之间的直接关联转换为词的首字之间的直接关联，同时为了不丢失分词结果的信息，引入了自循环边(loop)表示字在分词结果中属于同一词。

步骤302：为了区分节点在原依存分析树中的信息流向，设计了along类型的边表示从支配词流入从属词的边，rev类型的边表示从从属词流入支配词的边。最终经过上述步骤简化得到的依存分析关系图如图3所示。例如“首”和“斥”这两个字之间分别有along类型的边和rev类型的边，“首”和“钢”这两个字之间有loop类型的边。

步骤303：结合图4对于上述三种边构建三个邻接矩阵表示依存关系无向图。三个邻接矩阵的大小均为N*N，N为文本长度，也指代节点个数；其中文本中的每个字为一个节点，若两个节点存在关联，则将其在邻接矩阵中的对应值置为1，反之为0。所述步骤S4的具体过程如下：

步骤S400：基于步骤S3得到邻接矩阵使用图卷积神经网络聚合邻居节点信息。

步骤S401：将步骤S1得到的词嵌入作为图卷积神经网络的初始输入。

其中h_i是文本中第i个字的词嵌入表示，v_i指示该字的节点表示，0指代卷积神经网络层数，即当前向量仅包含自身节点信息，还未开始聚合信息。

步骤S402：使用步骤S3得到的无向图进行信息聚合，V＝(v₁,v₂,...,v_N)是节点的集合。对于第k层的图卷积神经网络，我们对任意v∈V计算图卷积向量

其中v表示当前更新节点，K(v,u)指示当前边的类型，对应于along，loop，rev三种，N(v,K(v,u))是当前节点在当前边的邻居节点集合，即二维邻接矩阵中值为1的部分，

和

是节点和边类型约束的权重矩阵和偏移量参数。经过该步骤节点不断聚合来自依存分析结果中邻居节点的信息，并且随着图卷积神经网络层数的增加，当前节点还能聚合来自几跳外的邻居节点信息。

步骤S403：步骤S402得到三种边类型的隐藏向量表示，将三者进行拼接并使用激活函数f得到第k+1层向前传递的最终向量

完成了图节点向量的更新。

步骤S404：将最后一层图卷积网络的输出和步骤S1得到的词嵌入h融合得到用于分类触发词和事件角色的向量g：

其中，i指示当前字索引，h_i是原始语义向量，

是经过几跳迭代融合了句法结构信息的图卷积神经网络的输出向量，λ为超参数，控制依存句法分析的影响因子。

所述步骤S5的具体过程如下：

将步骤S4所得向量g分别输入两个双仿射层(即所述的输入事件触发词分类器)，得到对应于事件触发词首尾索引的概率矩阵，使用前馈神经网络为每一个事件类型的开始和结束字计算其分类概率p_ts/te：

p_ts/te(i)＝W_1ts/te(tanh(W_2ts/te·g_i+b_2ts/te))+b_1ts/te

其中，W_1ts，b_1ts，W_1te，b_1te，W_2ts，b_2ts，W_2te，b_2te均为可学习参数矩阵，p_ts指示触发词开始索引，p_te指示当前字成为触发词结束(end)位置索引的概率，二者大小均为N*num_e*2，其中，N为文本序列长度，num_e为事件类型数目。

所述步骤S6的具体过程如下：

将步骤S4所得向量g输入另外两个独立的双仿射层(即所述的事件论元分类器)，得到对应于事件论元首尾索引的概率矩阵p_as/ae，使用前馈神经网络为每一个论元角色的开始和结束字计算其分类概率：

p_as/ae(i)＝W_1as/ae(tanh(W_2as/ae·g_i+b_2as/ae))+b_1as/ae

其中W_1as，b_1as，W_1ae，b_1ae，W_2as，b_2as，W_2ae，b_2ae均为可学习参数矩阵，p_as指示当前字成为某一论元开始(start)位置索引的概率，p_ae指示当前字成为某一论元结束(end)位置索引的概率，二者大小均为N*num_r*2，其中，num_r为论元角色数目。

所述步骤S7的具体过程如下：

步骤S700：同时抽取事件触发词及事件论元。

步骤S701：将步骤S5所得向量p_ts/te使用触发词分类器进行分类，使用argmax函数得到预测的0/1标签，1代表该字是某一触发词的开始/结束索引，反之为0，并且得到事件类型。

y_ts/te＝argmax(p_ts/te)

步骤S702：将步骤S6所得向量p_as/ae使用论元分类器进行分类，使用argmax函数得到预测的0/1标签1代表该字是某一事件论元的开始/结束索引，反之则为0。

y_as/ae＝argmax(p_as/ae)。

综上所述，本方案使用预训练的语言模型BERT模型将文本序列编码成词嵌入表示；使用官方工具进行分析得到中文句法结构蕴含的依存关系；针对中文特性设计三种不同类型的边表示并且使用二维矩阵将依存关系抽象为无向图表示；依据无向图使用图神经网络进行邻居节点信息聚合得到融合了中文句法结构信息的分类表征；使用事件分类器抽取事件触发词以及事件类型；使用论元分类器得到该事件涉及所有相关元素。本发明通过融入中文文本中包含的句法结构知识丰富了语义特征表示，并且使用联合学习的方法有效的提高了句子级事件抽取的效果。

至此，基于依存分析的中文联合事件抽取方法已经完成。通过上述方案，充分挖掘并利用了中文句法信息以增强文本语义，在编码过程中充分考虑了中文语句的特点将文本依存关系构建成无向图表示，并且使用图卷积神经网络充分融合了事件文本中蕴含的句法结构信息，增强了文本上下文的关联，最终使用联合学习的方式使得事件触发词及元素抽取的精度和性能得以提升。

本领域技术人员应该理解，本领域技术人员在结合现有技术以及上述实施例可以实现变化例，在此不做赘述。这样的变化例并不影响本发明的实质内容，在此不予赘述。

以上对本发明的较佳实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例，这并不影响本发明的实质内容。因此，本发明的保护范围应以权利要求的保护范围为准，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围。

Claims

1.一种基于文本表征的依存分析模型构建方法，其特征在于：首先，将文本进行分词，并且使用依存句法分析得到词与词之间的主从关系，建立词与词之间的依存关系；其次，构建三种类型的边，并对应三种类型的边分别生成三个二维邻接矩阵构建图表示，使用无向图表示该依存关系；然后，将初始文本表征输入图卷积神经网络，使用无向图聚合邻居节点信息，将卷积神经网络的输出与初始文本表征进行融合；最后，将融合后得到的分类向量作为该模型的输出。

2.根据权利要求1所述的基于文本表征的依存分析模型构建方法，其特征在于：使用无向图表示依存关系的具体过程如下：

3.根据权利要求2所述的基于文本表征的依存分析模型构建方法，其特征在于：所述融合获取分类向量的具体过程如下：

4.根据权利要求3所述的基于文本表征的依存分析模型构建方法，其特征在于：根据如下公式计算图卷积向量