CN113407660A

CN113407660A - 非结构化文本事件抽取方法

Info

Publication number: CN113407660A
Application number: CN202110934216.5A
Authority: CN
Inventors: 陶建华; 吴家帆; 张大伟; 杨国花; 刘通
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2021-09-17
Anticipated expiration: 2041-08-16
Also published as: CN113407660B

Abstract

本发明提供非结构化文本事件抽取方法，包括：通过利用多阶句法树和图神经网络对文本信息进行编码，得到更为丰富和表征能力更强的词特征向量，进而提升事件检测的能力；通过构建外部本体知识，融入到候选事件论元编码环节，增加论元词汇特征编码的差异性，从而提升事件论元识别准确率。

Description

非结构化文本事件抽取方法

技术领域

本发明涉及事件抽取领域，具体涉及非结构化文本事件抽取方法。

背景技术

事件知识是世界知识资源中一种动态的、结构化的知识数据，这类结构化的知识暗含在自然语言文本或者对话中，是人类知识体系中重要的知识结构体。例如，分析“百度首席科学家吴恩达于2017年3月22日离职”所表述的事件，可得到以下结构化信息：离职（事件类型），吴恩达（涉事人），首席科学家（所在职位），百度（离职单位），2017年3月22日（时间）。这类结构化信息可服务于自然语言处理的下游任务，比如知识图谱，搜索引擎，推荐系统以及智能问答等。

事件抽取（Event Extraction, EE）是信息抽取（Information Extraction, IE）领域中一项十分重要且极具挑战的任务，旨在从文本中自动检测出代表特定事件类型的事件触发词以及描述该事件的论元，分别对应于事件检测（Event Detection, ED）和事件论元提取（Event Arguments Extraction, EAE）两个子任务。事件知识因具有丰富的结构化信息表达能力，吸引到越来越多学界和业界的学者投入到相关研究工作，这些工作可分为模式匹配方法和机器学习方法两大类。近几年，随着深度学习的发展，神经网络模型被广泛地运用到事件抽取任务中，且在性能方面取得很大提升。

公开号为CN102693244B公开了一种用于识别非结构化文本中的信息的方法和装置，能够处理包含/不包含名称或同义词形式的非结构化文本。根据本发明的信息识别装置包括：基础术语提取单元，用于根据词典，从第一非结构化文本中提取出所述第一非结构化文本中所包含的名称，作为基础术语；术语提取规则生成单元，用于基于所提取出的基础术语和所述第一非结构化文本，生成术语提取规则；术语提取单元，用于基于所提取出的基础术语和所生成的术语提取规则，从第二非结构化文本中提取出新的术语；术语映射单元，用于将所提取出的每个术语映射到词典中最适合的名称，作为所识别出的信息。

公开号为CN108280173B供了一种非结构化文本的关键信息挖掘方法、介质及设备。所述方法，包括：获取非结构文本的文本信息；采用分词算法，将所述文本信息解析为多个词向量；根据所述词向量，提取所述文本信息的语言模板；将所述语言模板与所述文本信息进行匹配，获得所述文本信息的关键信息；将所述关键信息输出给用户。通过根据文本信息的词向量，提取文本信息的语言模板，再将语言模板与文本信息进行匹配，提取文本信息的关键信息，能够从非结构化的文本信息中提取出结构化的语言模板，从而提取文本信息的关键信息，使用户能够快速获取文本中的关键信息。

现有技术缺点

对于事件检测任务，现有技术主要是训练基于文本序列的分类器对句子中的候选词进行分类，来确定事件类型。这种方法由于受限于神经网络模型编码长文本的能力，因而容易在捕获长句中目标词汇之间的依赖关系表现的十分低效。相反，基于依存树的方法可以利用蕴含在给在事件句的依存树中的句法关系，从而更有效地捕获每个候选触发词和相关词之间的关系。然而，现有基于依存树的方法只用了一阶的句法关系（两个词在依存树中存在直接连接的弧），使得不能对文本信息进行充分编码，虽然可以通过堆叠更多的图卷积网络层来提升编码效果，但是会造成图神经网络编码过平滑问题（不同节点的特征表示愈发趋于一致，丧失区别能力）。

对于事件论元抽取任务，现有方法将不同论元的候选词看作独立的实体，而忽视了考虑不同论元的本体概念之间的相似性，因此在模型对候选实体词区分能力不佳。

发明内容

有鉴于此，本发明提供一种非结构化文本事件抽取方法，所述方法包括：

触发词分类阶段

S1：非结构化文本数据预处理，再对数据预处理后的非结构化文本进行文本的切分与分词，得到切分后的文本片段，再将文本片段进一步分割成单个词片段；

S2：通过查表的方式将分割好的单个词片段，转化成空间向量表示的词向量表示；实体类型编码向量、词性标签编码向量和位置标签编码向量是根据确定的维度随机初始化得到的；

实体类型编码向量、词性标签编码向量和位置标签编码向量的每个元素是随机值；

S3：将所述词向量表示、实体类型编码向量、词性标签编码向量和位置标签编码向量，按每个词的维度方向进行拼接，得到文本句子的原始特征表示；

S4：将所述原始特征表示输入文本特征提取网络，得到文本的深度特征表示；

S5：将所述深度特征表示输入多阶图注意力卷积网络，得到多阶句法的特征表示向量；

S6：应用注意力机制聚合所述多阶句法的特征表示向量，得到聚合多阶特征；

S7：应用一个全连接层网络对所述聚合多阶特征进行分类，得到当前词片段属于每种事件类别的概率值；

事件论元角色分类阶段

S8：将句子的词级别序列的聚合多阶特征拼接成隐层嵌入向量；

S9：应用动态多池化层作为特征聚合器，将所述隐层嵌入向量聚合，得到实例嵌入；

S10：对于特定的上位概念，使用可训练的上位概念向量表示其语义特征；采用了多层感知机来计算注意力分值；

S11：定义一个元素角色的k个上位概念，应用步骤S10计算k个上位概念的注意力分值，再计算k个上位概念的注意力分值的均值，得到面向角色的注意力分值；以所述面向角色的注意力分值作为权重，对隐层嵌入向量中所有隐层嵌入进行加权求和，得到面向角色的嵌入；

S12：将所述实例嵌入和面向角色的嵌入作为分类器的输入，估计给定实例嵌入的条件下，元素角色的概率。

优选的，所述文本特征提取网络采用双向长短时间记忆网络构建。

优选的，所述多阶句法的特征表示向量的具体计算方法为：

根据句法依存树路径的邻接矩阵A可以表示成第一阶句法图；邻接矩阵A可以得到其三个变换矩阵，分别是A_along、A_rev和A_loop；k阶邻接矩阵A^k _subg表示为A ^k _along、A^k _rev和A ^k _loop；将所述深度特征表示和所述k阶邻接矩阵A^k _subg输入图注意力卷积网络，得到多阶句法的特征表示向量h _i ^k。

优选的，所述将所述深度特征表示和所述k阶邻接矩阵A^k _subg输入图注意力卷积网络，得到多阶句法的特征表示向量的具体计算方法为：

其中，a^k为A ^k _along，b^k为A^k _rev，c^k为A ^k _loop，⊕表示按元素相加，f(•)是图注意力网络层，公式如下：

σ是指数线性激活函数，W_a,k和

分别需要学习的权重矩阵和偏置项，p_i和p_j为文本的深度特征表示，

表示矩阵A ^k _along中以节点(i, j)为索引位置的值，u_ij是在更新w_i时，其相邻节点w_j的归一化权重。

优选的，所述将所述u_ij的具体计算方法为：

N_i是词片段w_i在子图中的相邻节点集合；

e_ij=γ(W_comb [W_attp_i ||W_attp_j])；

其中γ代表LeakyReLU非线性激活函数，W_comb和W_att是需要学习的权重矩阵，p_i和p_j为文本的深度特征表示。

优选的，所述k∈[1,K]，其中K是一个人工超参，表示需要学习的最高阶数。

优选的，所述应用注意力机制聚合所述多阶句法的特征表示向量，得到聚合多阶特征的具体方法为：

其中v _i ^k是词片段w _i的第k阶句法图特征表示。

优选的，所述v _i ^k的具体计算方法为：

其中

是h_i ^j经过非线性激活层的句法特征聚合向量，计算公式为

，W_awa和

分别是待学习的权重和偏置项，ctx是一个用来学习每阶图表示重要性的随机初始化的文本向量。

优选的，所述应用注意力机制聚合所述多阶句法的句子特征表示向量，对于每一组触发词-论元对，触发词和论元会将该文本句划分成三部分，由于触发词和论元的位置是非固定的，因此对这三段文本段的池化计算是动态的，池化具体计算方法为：

其中，[•] _i表示一个向量的第i个值，向量的下标表示词片段的位置索引，p_t，p_a分别表示触发词t和候选论元a的位置，如p_t+1表示触发词t的下一个词片段的位置，p_a+1表示候选论元a的下一个词片段的位置，而

表示

中的起始位置到索引为p_t位置之间的词片段，

表示x中的索引为pt+1位置到索引为pa位置之间的词片段，

表示x中的索引为pa+1位置到索引为n位置之间的词片段，max{}表示取括号中向量的最大值，[;;]表示将三个向量按行拼接，拼接后得到新的句子特征x；h₁……h_n得到的方式与上述聚合多阶特征h_i得到的方式相同。

优选的，所述采用了多层感知机来计算注意力分值的具体方法为：

应用所述上位概念向量和所述隐层嵌入向量中的聚合多阶特征计算得到隐层状态向量；再应用softmax计算隐层状态向量中的隐层状态的注意力分值。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

（1）本发明利用句法树能够建模词之间依赖关系的特点，使用图卷积网络对多阶句法树信息编码，并利用注意力机制聚合各阶编码特征，使得最终的词嵌入能够具备更丰富上下文语义信息，从而提升事件类型识别的准确率；

（2）本发明利用实体间上位概念之间差异性较大的特点，通过构建候选论元的上位概念模块，来增加不同候选论元实体词嵌入的区分度，从而提升模型识别论元角色的准确率。

附图说明

图1为本发明实施例提供的非结构化文本事件抽取方法的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如图1所示本申请实施例提供的非结构化文本事件抽取方法，包括：

触发词分类阶段

S1：非结构化文本数据预处理，对原始语料进行清洗处理，主要去除文本中的特殊字符（网页链接、乱码字符、非正常间隔号等）；再对数据预处理后的非结构化文本进行文本的切分与分词，将原始文本数据按终止符（句号，逗号和感叹号）切分成若干文本片段，再使用自然语言处理工具将文本片段进一步分割成单个词片段，并且获得词的实体类型标签（entity type）以及词性标签（parts-of-speech, pos）（中文语料使用中文自然语言处理工具HanLP进行分词，英文语料直接按空格分词）；

S2：通过查表的方式将分割好的单个词片段，转化成空间向量表示的词向量表示；

具体方法为：

通过查表的方式将上述分割好的单词片段，转化成空间向量表示的词向量。此处的词向量表是来自在大规模语料上预训练得到的词嵌入（word embedding）,可以选择现在主流的Word2vec、Glove或者FastText；为了追求在业务领域上的高精度和适配性，也可以自主搜集大规模业务领域数据集进行训练得到具有领域适配的词向量表；

实体类型编码向量、词性标签编码向量和位置标签编码向量是根据确定的维度随机初始化得到的；

实体类型编码向量、词性标签编码向量和位置标签编码向量的尺寸是根据其类别总数以及隐藏层维度确定，如在实验中我们定义了一共8种实体，并设置隐藏层维度的超参数为768，则可以生成一个尺寸为8*768的随机向量，向量的每个元素是随机值；

S4：将所述原始特征表示输入文本特征提取网络，得到文本的深度特征表示p_i，所述文本特征提取网络采用双向长短时间记忆网络构建；（Bidirectional Long-Shot TermMemory network, BiLSTM）,也就是拼接两个编码方向相反的LSTM神经网络的输出构成，从而实现上下文语义信息的建模；

S5：将所述深度特征表示输入多阶图注意力卷积网络，得到多阶句法的特征表示向量，具体计算方法为：

根据句法依存树路径的邻接矩阵A可以表示成第一阶句法图；邻接矩阵A可以得到其三个变换矩阵，分别是A_along、A_rev和A_loop；其中如果词片段w_i和w_j之间存在句法连接弧，那么A_along(i,j)=1, 否则为0；而逆转矩阵A_rev=A^T _along，A_loop是单位矩阵；k阶邻接矩阵阵记录了A_subg的所有k跳路径，A^k _subg表示为A^k _along、A^k _rev和A ^k _loop；将所述深度特征表示和所述k阶邻接矩阵A^k _subg输入图注意力卷积网络，得到多阶句法的特征表示向量h _i ^k；

将所述深度特征表示和所述k阶邻接矩阵A^k _subg输入图注意力卷积网络，得到多阶句法的特征表示向量的具体计算方法为：

σ是指数线性激活函数，W_a,k和

所述u_ij的具体计算方法为：

N_i是词片段w_i在子图中的相邻节点集合；

e_ij=γ(W_comb [W_attp_i ||W_attp_j])；

其中γ代表LeakyReLU非线性激活函数，W_comb和W_att是需要学习的权重矩阵，p_i和p_j为文本的深度特征表示；

所述k∈[1,K]，其中K是一个人工超参，表示需要学习的最高阶数；

S6：应用注意力机制聚合所述多阶句法的特征表示向量，得到聚合多阶特征，具体方法为：

其中v _i ^k是词片段w _i的第k阶句法图特征表示，具体计算方法为：

其中

是h_i ^j经过非线性激活层的句法特征聚合向量，计算公式为

，W_awa和

分别是待学习的权重和偏置项，ctx是一个用来学习每阶图表示重要性的随机初始化的文本向量；

S7：触发词类型分类器：应用一个全连接层网络对所述聚合多阶特征进行分类，得到当前词片段属于每种事件类别的概率值，得到识别出触发词的计算公式为：

其中，w_o和

分别是待学习的权重和偏置；p(O_i ^t│s_j,θ_t)表示句子s_j中的词片段w_i属于第t个标签的的概率值；θ_t代表所有参数，N_i表示预定义的事件类型总数；

事件论元角色分类阶段

S8：句子编码，将句子的词级别序列的识别出触发词的聚合多阶特征拼接成隐层嵌入向量；

S9：应用动态多池化层作为特征聚合器，将所述隐层嵌入向量聚合，得到实例嵌入，

所述应用注意力机制聚合所述多阶句法的句子特征表示向量，对于每一组触发词-论元对，触发词和论元会将该文本句划分成三部分，由于触发词和论元的位置是非固定的，因此对这三段文本段的池化计算是动态的，池化具体计算方法为：

表示

中的起始位置到索引为p_t位置之间的词片段，

表示x中的索引为pt+1位置到索引为pa位置之间的词片段，

表示x中的索引为pa+1位置到索引为n位置之间的词片段，max{}表示取括号中向量的最大值，[;;]表示将三个向量按行拼接，拼接后得到新的句子特征x;h₁……h_n得到的方式与上述聚合多阶特征h_i得到的方式相同，事件分类阶段得到的句子embedding，再用到论元分类。

S10：上位概念模块：对于特定的上位概念，使用可训练的上位概念向量表示其语义特征u_c；采用了多层感知机来计算注意力分值，具体方法为：

应用所述上位概念向量和所述隐层嵌入向量中的聚合多阶特征计算得到隐层状态向量；再应用softmax计算隐层状态向量中的隐层状态的注意力分值；

具体过程为：

首先计算隐层状态：

然后进行softmax操作，为每个隐层状态

得到对应的注意力分值：

其中，W_a，W_b是可训练的矩阵；

S11：逻辑联合模块：定义一个元素角色r∈R的k个上位概念c₁,c₂,…,c_k，应用步骤S10计算k个上位概念的注意力分值s_i ^c1 , s_i ^c2,…, s_i ^ck，再计算k个上位概念的注意力分值的均值，

得到面向角色的注意力分值；以所述面向角色的注意力分值作为权重，对隐层嵌入向量中所有聚合多阶特征进行加权求和，得到面向角色的嵌入，

；

S12：将所述实例嵌入和面向角色的嵌入作为分类器的输入，估计给定实例嵌入的条件下，元素角色的概率，

其中，

表示元素角色向量空间R中的一个元素角色的嵌入，

表示该候选实体词面向元素角色

的嵌入；

目标函数为：

。

在一些具体的实施例中，图1是本申请实施例提出的自动非结构化文本事件抽取方法的流程图，如图1所示，包括以下步骤：

非结构化文本数据预处理：由于文本输入的原始数据大部分是来自网络，表述结构规整的数据比较少，因此需要对数据做一些清洗工作，包括但不限于去停用词，去html标签等；

文本分词、词性标签及实体类型生成与编码：使用Hanlp中文自然语言处理工具对清洗后的文本进行分词，获得每个分词token的词性以及所有命名实体的实体类型，并随机初始化为向量，向量长度为相应类型的种类数量；

文本特征提取网络：将上述词向量、词性向量和实体类型向量拼接，送入到Bi-LSTM网络提取高维的词嵌入特征；

多阶图注意力卷积网络：将不同阶的句法树邻接矩阵以及其转置和自环矩阵送入图卷积网络，然后使用注意力机制聚合不同阶的特征，得到融入了句法结构信息的高维词嵌入；

触发词类型分类器（事件类型分类器）：将上一步的词嵌入送入线性分类器得到当词片段属于每个事件类别的逻辑值，再经过softmax层转换成相应的概率值，取概率值最高者为事件类型判定结果；

动态多池化层：对于每一个事件论元候选词，都会和上一步骤识别出的触发词一起，将所在文本句子划分成三部分，分别对每段进行池化运算，再将三部分池化结果进行拼接，得到候选论元的实例嵌入；

上位概念模块：为每一种事件论元设计一个上位概念编码网络（SCM），并使用注意力机制将编码结果与候选论元的词嵌入与SCM编码结果聚合，得到融合了上位概念的词嵌入表示；

论元角色分类器：将前两步骤的实例嵌入融合上位概念的词嵌入表示聚合，再送入线性分类器，得到当前候选论元属于每种论元角色的概率值，取值最高者为论元角色识别结果。

本发明还公开一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任意实施例中的非结构化文本事件抽取方法的步骤。

在一些实施例中，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD-ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。