CN113190602B

CN113190602B - 融合字词特征与深度学习的事件联合抽取方法

Info

Publication number: CN113190602B
Application number: CN202110380536.0A
Authority: CN
Inventors: 强保华; 陈鹏; 王玉峰; 彭博; 李宝莲; 陈金勇
Original assignee: Guilin University of Electronic Technology; CETC 54 Research Institute
Current assignee: Guilin University of Electronic Technology; CETC 54 Research Institute
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2022-03-25
Anticipated expiration: 2041-04-09
Also published as: CN113190602A

Abstract

本发明公开了一种融合字词特征与深度学习的事件联合抽取方法,所述方法把事件类型和事件元素当作一个联合标签进行标注，减少了流水线误差。通过延拓MacBERT解决文本按字符切分过长无法全部放入预训练模型提取特征的问题，再结合字符和单词的特征，动态地捕获输入序列任意字符和单词之间的依赖关系，更加充分获取文本的语义信息和字、词特征；在模型训练过程中加入扰动去干扰CRF解码，通过对抗训练的方式提高模型的泛化性和健壮性。从减少流水线误差、获取文本更全面的语义信息和加入对抗训练提高模型泛化性三个方面提高事件抽取的准确率和召回率。

Description

融合字词特征与深度学习的事件联合抽取方法

技术领域

本发明涉及事件抽取领域，具体涉及一种融合字词特征与深度学习的事件联合抽取方法。

背景技术

信息抽取的任务包括实体识别与抽取、实体消解、关系抽取和事件抽取等，信息为特定的人、物在特定时间与特定地点相互作用的客观事实，事件抽取是从非结构化信息中自动抽取用户感兴趣的事件，以结构化的方式存储在数据库中供用户查看。

事件抽取包括识别事件类型和识别事件元素二部分，传统的事件抽取，通常采用先识别触发词再识别事件类型最后识别事件元素这样流水线的工作方式，这种工作方式虽然较为灵活但是避免不了流水线的误差。使用流水线的工作方式，单纯地结合字符和单词两种粒度的信息训练事件抽取模型，缺失了很多特征维度信息，对某些事件类型和事件元素的识别存在着一定的困难。

事件抽取通常在一个文本中会有多个事件元素和多个事件类型，一个事件元素有可能属于多个事件类型，一个事件类型可能拥有多个事件元素，即多对多的形态，并且这些元素可能会分布在多个句子中，这些特性是导致事件抽取困难的重要原因，如何充分有效地利用文本特征以提高事件抽取模型的泛化性和健壮性，仍然是当前需要解决的问题。

发明内容

本发明针对事件抽取领域现存的问题，在BiLSTM模型的基础上，把事件类型和事件元素当作一个联合标签进行标注，减少流水线误差；融入字信息以及字词融合信息，并且使用延拓后的MacBERT模型预训练字向量和词向量，更好地解决字符和单词多语义向量表示问题及字符切分文本过长语义学习不全问题；在模型训练过程中注入扰动，通过对抗训练方式提高模型的泛化性和健壮性。

为了实现上述发明目的，本发明提供了以下技术方案：

S1：对待处理的文本进行预处理。

S2：对MacBERT的绝对位置编码进行延拓。

S3：利用预训练模型和词嵌入模型，结合预处理后文本的字符特征信息、分词特征信息，生成文本的字符向量序列和词向量序列。

S4：将文本的字符向量序列进行编码，生成字符隐状态向量。

S5：将文本的词向量输入到卷积神经网络，生成字词综合向量序列，对字词综合向量序列进行编码，字词综合向量序列输入到一个独立的循环神经网络，捕获全局特征，生成字词综合隐状态序列的向量。

S6：将所述字符隐状态向量、字词综合隐状态向量进行合并，得到全局特征隐状态向量。

S7：将所述全局特征隐状态向量，输入到基于梯度上升的对抗神经网络层进行扰动，得到扰动后字词特征隐状态向量。

S8：把所述扰动后字词特征隐状态向量和所述文本的字符向量序列输入到 CRF模型中进行解码，标注出所述文本特征向量序列中的事件元素及该元素的事件类型，生成对应的事件标签序列。

所述步骤S1中，对文本的预处理方式为：对文本采取BIO的标注方式，把事件类型和事件元素当作一个联合标签进行标注，通过从左往右和从右往左二种序列标注方法进行标注，把二个标注结果求并集当作最终标注结果。将标注结果文本以一个字符为单位，分割为字符集合；将待处理的文本利用jieba开源中文分词工具将句子分词，生成词汇集合。

所述步骤S2中，对MacBERT的绝对位置编码进行延拓的方式为：假设已经训练好的绝对位置编码向量为p₁,p₂,…,p_n，延拓后的编码向量为q₁,q₂,…,q_m，其中m＞n；通过延拓公式q_(i-1)n+j＝αu_i+(1-α)u_j进行延拓，其中超参数α∈(0,1)，u₁,u₂,…,u_n是绝对位置编码的“基底”，i是“基底”的编号，i∈(1,n)， j是每个“基底”的绝对位置编码编号，j∈(1,n)，，把i，j对应的位置编码αu_i和(1-α)u_j叠加表示位置(i-1)n+j的位置编码，达到从n个位置编码延拓到 m个的效果。

所述步骤S3中，所述向量序列具体生成步骤如下：对于字符集合，针对“预训练与微调阶段MASK差异”问题，使用延拓后MacBERT模型预训练的字向量，提高向量表示的精准性，通过MacBERT的词汇表建立分词器，将待处理文本以一个字符为单位，根据固定的文本最大长度对所述文本进行截断或者补0，得到字符向量序列；对于词汇集合，使用Word2Vec的skip-gram模型进行词嵌入，给定输入句子序列X＝{X₁,X₂,…,X_n}，将句子进行字向量和词向量映射，得到字符向量序列E^C和词向量序列E^W。

优选的，步骤S4中所述生成字符隐状态序列的向量步骤如下：将字符向量序列E^C作为输入序列输入到双向长短期记忆神经网络BiLSTM中，提取文本上下文特征信息，使用激活函数Tanh缓解梯度消失问题，提高双向长短期记忆神经网络编码精准性，由字符向量序列E^C经过BiLSTM生成字符隐状态向量h^C。

优选的，步骤S5中所述生成字词综合隐状态序列的向量步骤如下：将输入以分词为单位，经过Word2Vec的skip-gram模型训练后生成词向量序列E^W，同时，词语对应的字符通过卷积神经网络CNN生成词语对应的向量序列E^K，将二个序列叠加，得到一个字词综合向量序列E^T，把所述文本的字词综合向量序列 E^T作为输入序列输入到双向长短期记忆神经网络BiLSTM中，提取文本信息，学习词语和词语对应字符之间的语义关系，生成字词综合隐状态向量h^W。

所述步骤S6中，将上述步骤生成的基于延拓MacBERT训练的字符隐状态向量h^C和字词综合隐状态向量h^W二个向量合并成一个长向量全局特征隐状态向量h^num。

所述步骤S7中，在全局特征隐状态向量里面加入扰动，使得模型在预测的时候受到干扰，提高模型泛化性，加入扰动使用梯度上升的方式，具体做法为Δx＝sign(▽_xL(x,y；θ))，其中Δx是对抗扰动，x是输入，y是标签，θ是模型参数，L(x,y；θ)是单个样本的loss，sign函数是防止扰动过大对▽_xL(x,y；θ)做标准化处理，将全局特征隐状态向量输入到基于梯度上升的对抗神经网络层进行扰动，得到扰动后字词特征隐状态向量。

优选的，步骤S8中，把所述扰动后字词特征隐状态向量和所述文本的字符向量序列输入至条件随机场CRF进行标签预测，正则化计算给定句子序列s标记为标签序列l的得分，并且在条件随机场中使用维特比算法进行训练，计算出最高概率的事件标签序列。

附图说明：

图1为本发明示例的流程图。

具体实施方式

下面结合示例流程图对本发明作进一步的详细描述，利于更好的理解本发明的技术方案。

如图1所示，本发明主要包括以下步骤：

(1)对待处理的文本进行预处理，得到预处理结果：

对文本采取BIO的标注方式，把事件类型和事件元素当作一个联合标签进行标注，通过从左往右和从右往左二种序列标注方法进行标注，把二个标注结果求并集当作最终标注结果。将标注结果文本以一个字符为单位，分割为字符集合；将待处理的文本利用jieba开源中文分词工具将句子分词，生成词汇集合。

(2)对MacBERT的绝对位置编码进行延拓，使得可以处理超512长度的文本：

假设已经训练好的绝对位置编码向量为p₁,p₂,…,p_n，延拓后的编码向量为 q₁,q₂,…,q_m，其中m＞n；通过延拓公式q_(i-1)n+j＝αu_i+(1-α)u_j进行延拓，其中超参数α∈(0,1)，u₁,u₂,…,u_n是绝对位置编码的“基底”，i是“基底”的编号， i∈(1,n)，j是每个“基底”的绝对位置编码编号，j∈(1,n)，，把i，j对应的位置编码αu_i和(1-α)u_j叠加表示位置(i-1)n+j的位置编码，达到从n个位置编码延拓到m个的效果。

(3)利用预训练模型和词嵌入模型，结合预处理后文本的字符特征信息、分词特征信息，生成文本的字符向量序列和词向量序列：

对于字符集合，针对“预训练与微调阶段MASK差异”问题，使用延拓后 MacBERT模型预训练的字向量，提高向量表示的精准性，通过MacBERT的词汇表建立分词器，将待处理文本以一个字符为单位，根据固定的文本最大长度对所述文本进行截断或者补0，得到字符向量序列；对于词汇集合，使用Word2Vec的 skip-gram模型进行词嵌入，给定输入句子序列X＝{X₁,X₂,…,X_n}，将句子进行字向量和词向量映射，得到字符向量序列E^C和词向量序列E^W。

(4)将文本的字符向量序列进行编码，生成字符隐状态向量。本实施例提供如下一个优选的生成字符隐状态序列向量的步骤：将字符向量序列E^C作为输入序列输入到双向长短期记忆神经网络BiLSTM中，提取文本上下文特征信息，使用激活函数Tanh缓解梯度消失问题，提高双向长短期记忆神经网络编码精准性，由字符向量序列E^C经过BiLSTM生成字符隐状态向量h^C。

(5)将文本的词向量输入到卷积神经网络，生成字词综合向量序列，对字词综合向量序列进行编码，字词综合向量序列输入到一个独立的循环神经网络，捕获全局特征，生成字词综合隐状态序列的向量。本实施例提供如下一个优选的生成字词综合隐状态序列向量的步骤：将输入以分词为单位，经过Word2Vec的 skip-gram模型训练后生成词向量序列E^W，同时，词语对应的字符通过卷积神经网络CNN生成词语对应的向量序列E^K，将二个序列叠加，得到一个字词综合向量序列E^T，把所述文本的字词综合向量序列E^T作为输入序列输入到双向长短期记忆神经网络BiLSTM中，提取文本信息，学习词语和词语对应字符之间的语义关系，生成字词综合隐状态向量h^W。

(6)将所述字符隐状态向量、字词综合隐状态向量进行合并，得到全局特征隐状态向量：

将上述步骤生成的基于延拓MacBERT训练的字符隐状态向量h^C和字词综合隐状态向量h^W二个向量合并成一个长向量全局特征隐状态向量h^num。

(7)在全局特征隐状态向量里面加入扰动，使得模型在预测的时候受到干扰，提高模型泛化性，加入扰动使用梯度上升的方式，具体做法为Δx＝sign(▽_xL(x,y；θ))，其中Δx是对抗扰动，x是输入，y是标签，θ是模型参数，L(x,y；θ)是单个样本的loss，sign函数是防止扰动过大对▽_xL(x,y；θ)做标准化处理，将全局特征隐状态向量输入到基于梯度上升的对抗神经网络层进行扰动，得到扰动后字词特征隐状态向量。

(8)把所述扰动后字词特征隐状态向量和所述文本的字符向量序列输入到 CRF模型中进行解码，标注出所述文本特征向量序列中的事件元素及该元素的事件类型，生成对应的事件标签序列。具体实现过程：把所述扰动后字词特征隐状态向量和所述文本的字符向量序列输入至条件随机场CRF进行标签预测，正则化计算给定句子序列s标记为标签序列l的得分，并且在条件随机场中使用维特比算法进行训练，计算出最高概率的事件标签序列。

本发明的有益效果：本发明把事件类型和事件元素当作一个联合标签进行标注，减少了流水线误差。通过延拓MacBERT解决文本按字符切分过长无法全部放入预训练模型提取特征的问题，再结合字符和单词的特征，动态地捕获输入序列任意字符和单词之间的依赖关系，更加充分获取文本的语义信息和字、词特征；在模型训练过程中加入扰动去干扰CRF解码，通过对抗训练的方式提高模型的泛化性和健壮性。从减少流水线误差、获取文本更全面的语义信息和加入对抗训练提高模型泛化性三个方面提高事件抽取的准确率和召回率。

Claims

1.融合字词特征与深度学习的事件联合抽取方法，其特征在于，包括以下步骤：

(1)对文本进行预处理：对文本采取BIO的标注方式，把事件类型和事件元素当作一个联合标签进行标注，通过从左往右和从右往左二种序列标注方法进行标注，把二个标注结果求并集当作最终标注结果；将最终标注结果文本以一个字符为单位，分割为字符集合；将待处理的文本利用jieba开源中文分词工具将句子分词，生成词汇集合；

(2)对MacBERT的绝对位置编码进行延拓：假设已经训练好的绝对位置编码向量为p₁,p₂,…,p_n，延拓后的编码向量为q₁,q₂,…,q_m，其中m＞n；通过延拓公式q_(i-1)n+j＝αu_i+(1-α)u_j进行延拓，其中超参数α∈(0,1)，u₁,u₂,…,u_n是绝对位置编码的“基底”，i是“基底”的编号，i∈(1,n)，j是每个“基底”的绝对位置编码编号，j∈(1,n)，把i，j对应的位置编码αu_i和(1-α)u_j叠加表示位置(i-1)n+j的位置编码，达到从n个位置编码延拓到m个的效果；

(3)对于字符集合，针对“预训练与微调阶段MASK差异”问题，使用延拓后MacBERT模型预训练的字向量，提高向量表示的精准性，通过MacBERT的词汇表建立分词器，将待处理文本以一个字符为单位，根据固定的文本最大长度对文本进行截断或者补0，得到字符向量序列；对于词汇集合，给定输入句子序列，将输入以分词为单位，经过Word2Vec的skip-gram模型训练后生成词向量序列，同时，词语对应的字符通过卷积神经网络CNN生成词语对应的字符向量序列，将二个序列叠加，得到一个字词综合向量序列；

(4)将文本的字符向量序列进行编码，生成字符隐状态向量；对字词综合向量序列进行编码，字词综合向量序列输入到一个独立的循环神经网络，捕获全局特征，生成字词综合隐状态向量；

(5)将字符隐状态向量、字词综合隐状态向量进行合并，得到全局特征隐状态向量；

(6)在全局特征隐状态向量里面加入扰动，使得模型在预测的时候受到干扰，提高模型泛化性，加入扰动使用梯度上升的方式，具体做法为

其中Δx是对抗扰动，x是输入，y是标签，θ是模型参数，L(x,y；θ)是单个样本的loss，sign函数是防止扰动过大对

做标准化处理，将全局特征隐状态向量输入到基于梯度上升的对抗神经网络层进行扰动，得到扰动后字词特征隐状态向量；

(7)把所述扰动后字词特征隐状态向量输入至条件随机场CRF进行标签预测，正则化计算给定句子序列标记为标签序列的得分，并且在条件随机场中使用维特比算法进行训练，计算出最高概率的事件标签序列。

2.根据权利要求1所述的事件联合抽取方法，其特征在于，所述方法还包括如下步骤：

(1)将字符向量序列作为输入序列输入到双向长短期记忆神经网络BiLSTM中，提取文本上下文特征信息，使用激活函数Tanh缓解梯度消失问题，提高双向长短期记忆神经网络编码精准性，由字符向量序列经过BiLSTM生成字符隐状态向量；

(2)将输入以分词为单位，经过Word2Vec的skip-gram模型训练后生成词向量序列，同时，词语对应的字符通过卷积神经网络CNN生成词语对应的字符向量序列，将二个序列叠加，得到一个字词综合向量序列，把所述文本的字词综合向量序列作为输入序列输入到双向长短期记忆神经网络BiLSTM中，提取文本信息，学习词语和词语对应字符之间的语义关系，生成字词综合隐状态向量。