CN114861601A

CN114861601A - 基于旋转式编码的事件联合抽取方法及存储介质

Info

Publication number: CN114861601A
Application number: CN202210473365.0A
Authority: CN
Inventors: 强保华; 周翔宇; 王玉峰; 王岳萌; 韩博; 陈鹏
Original assignee: Guilin University of Electronic Technology; CETC 54 Research Institute
Current assignee: Guilin University of Electronic Technology; CETC 54 Research Institute
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-08-05
Anticipated expiration: 2042-04-29
Also published as: CN114861601B

Abstract

本发明公开了一种基于旋转式编码的事件联合抽取方法，所述方法使用了融合旋转式编码的BERT模型解决文本过长无法全部放入预训练模型提取特征的手段；以及使用了加入自注意力机制的BiLSTM捕获相关的时序特征和上下文关系，从多角度获得文本中字符间关联权重表示来更准确地关注句子中的重要字符或单词，丰富文本的语义信息的手段；还有在模型训练过程中通过对抗训练加入扰动提升文本语义多样性，提高模型的鲁棒性和泛化能力的手段；通过上述三个方面提高了事件抽取的准确率和召回率。

Description

基于旋转式编码的事件联合抽取方法及存储介质

技术领域

本发明涉及计算机技术，具体涉及一种基于旋转式编码的事件联合抽取方法及存储介质。

背景技术

信息抽取是利用计算机从文本、音频、视频、图像等数据中自动抽取结构化信息的过程，信息抽取的任务包括实体识别与抽取、实体消解、关系抽取和事件抽取等，事件抽取任务研究从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息并以结构化的形式表示。事件抽取包括识别事件类型和识别事件元素两部分，通常在一个文本中会有多个事件元素和多个事件类型，一个事件元素有可能属于多个事件类型，一个事件类型可能拥有多个事件元素，即多对多的形态，并且这些元素可能会分布在多个句子中，这些特性是导致事件抽取困难的重要原因。如何更充分有效地利用文本特征去提高事件抽取模型的鲁棒性和泛化能力，是事件抽取领域研究的重点和难点。

发明内容

本发明提供了一种基于旋转式编码的事件联合抽取方法，所述方法使用了融合旋转式编码的BERT模型解决文本过长无法全部放入预训练模型提取特征的手段；以及使用了加入自注意力机制的BiLSTM捕获相关的时序特征和上下文关系，从多角度获得文本中字符间关联权重表示来更准确地关注句子中的重要字符或单词，丰富文本的语义信息的手段；还有在模型训练过程中通过对抗训练加入扰动提升文本语义多样性，提高模型的鲁棒性和泛化能力的手段；通过上述三个方面提高了事件抽取的准确率和召回率。

本发明提供的事件联合抽取方法，包括以下步骤：

(1)BERT预训练模型中的位置编码为绝对位置编码，使用旋转式编码替换绝对位置编码，使其能够处理超过512字节的文本。

(2)对文本预处理后生成的字符集合，使用融合旋转式编码的BERT预训练模型进行向量化；通过BERT预训练模型中内置词汇表建立分词器，将待处理文本以字符为单位，根据固定的文本最大长度对所述文本进行截断或者补0，得到字符向量序列；给定输入句子序列，将句子进行字符向量映射，得到字符向量序列。

(3)对于文本预处理后生成的词汇集合，使用Word2Vec的skip-gram模型进行词嵌入，生成词向量序列，将字符向量序列和词向量序列两个序列叠加，得到一个字词综合向量序列。

(4)将字符向量序列作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中，提取文本上下文特征信息，生成字符隐状态向量；将字词综合向量序列作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中，提取文本上下文特征信息，学习词语和词语对应字符之间的语义关系，生成字词综合隐状态向量。

(5)将所述字符隐状态向量和字词综合隐状态向量融合成一个全局特征隐状态向量；向全局特征隐状态向量中加入一定量的负样本，使得模型在预测的时候受到干扰，将全局特征隐状态向量输入到基于梯度上升的对抗神经网络层进行扰动，得到扰动后字词特征隐状态向量。

(6)把所述扰动后字词特征隐状态向量输入至条件随机场CRF进行解码并预测标签，正则化计算给定句子序列标记为标签序列的得分，并使用维特比算法计算出最高得分的事件标签序列。

步骤(2)中的文本预处理可以优选采用的方法：对文本采取BIO的标注方式，把事件类型和事件元素当作一个联合标签进行标注，通过从左往右和从右往左两种序列标注方法进行标注，取两种标注结果的并集作为最终的标注结果；将标注结果以字符为单位，分割为字符集合；用jieba开源中文分词工具对待处理的文本进行分词，生成词汇集合。

本发明还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述事件联合抽取方法的步骤。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合流程图对本发明作进一步的详细描述，利于更好的理解本发明的技术方案。

如图1所示，本发明主要包括以下步骤：

(1)对文本进行预处理，得到预处理结果：对文本采取BIO的标注方式，把事件类型和事件元素当作一个联合标签进行标注，通过从左往右和从右往左二种序列标注方法进行标注，把二个标注结果求并集当作最终标注结果。将标注结果文本以字符为单位，分割为字符集合；利用jieba开源中文分词工具对待处理的文本进行分词，生成词汇集合。

(2)使用旋转式编码替换BERT模型的绝对位置编码，使得可以处理超512长度的文本：以二维情形为例：在m位置的绝对位置编码向量为q_m，旋转式位置编码为p_m，

其中q₀、q₁为q_m的二维绝对位置编码表示，超参数θ＝10000^-2/d，d是位置向量的维度，通过正交矩阵

将绝对位置编码进行压缩，使其能够处理超过512字节的文本。

(3)利用预训练模型对预处理后文本的字符特征信息进行向量化，生成文本的字符向量序列：对步骤(1)中生成的字符集合，使用融合旋转式编码的BERT预训练模型进行向量化，缓解预训练与微调阶段的误差，提高向量表示的精准性。通过BERT预训练模型中内置词汇表建立分词器，将待处理文本以字符为单位，根据固定的文本最大长度对所述文本进行截断或者补0，得到字符向量序列。给定输入句子序列X＝{X₁,X₂,…,X_n}，将句子进行字符向量映射，得到字符向量序列E^C。

(4)利用静态词嵌入模型对预处理后文本的词特征信息进行训练，生成词向量序列；融合字符向量序列和词向量序列，生成字词综合向量序列：

对于步骤(1)中生成的词汇集合，使用Word2Vec的skip-gram模型进行词嵌入，生成词向量序列E^W。将字符向量序列E^C和词向量序列E^W两个序列线性相加，得到一个字词综合向量序列E^T。给定输入第j位置的字符向量序列和词向量序列

和

字词综合向量序列

(5)对字符向量序列E^C和字词综合向量序列E^T进行编码，将字符向量序列E^C和字词综合向量序列E^T分别输入到一个独立的循环神经网络，捕获全局特征，加入字词的位置信息和上下文信息，生成字符隐状态向量和字词综合隐状态向量：

将字符向量序列E^C作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中，提取文本上下文特征信息，获得文本中字符间关联权重表示来更准确地关注句子中的重要字符或单词，生成字符隐状态向量h^C。将字词综合向量序列E^T作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中，提取文本上下文特征信息，学习词语和词语对应字符之间的语义关系，生成字词综合隐状态向量h^W。在双向长短期记忆神经网络BiLSTM加入自注意力机制，让模型注意到整个输入中不同部分之间的相关性。

(6)将所述字符隐状态向量h^C、字词综合隐状态向量h^W进行合并，得到全局特征隐状态向量。将全局特征隐状态向量，输入到对抗神经网络层进行扰动，得到扰动后全局特征隐状态向量：

将上述步骤生成的字符隐状态向量h^C和字词综合隐状态向量h^W二个向量线性相加得到一个全局特征隐状态向量h^sum。给定输入第j位置的字符隐状态向量和字词综合隐状态向量

和

全局特征隐状态向量

在全局特征隐状态向量h^sum里面加入扰动，使得模型在预测的时候受到干扰，提高模型泛化性。加入扰动使用梯度上升的方式，具体做法为

其中Δx是对抗扰动，x是输入，y是标签，θ是模型参数，L(x,y；θ)是单个样本的loss，sign函数是防止扰动过大对

做标准化处理，将全局特征隐状态向量输入到基于梯度上升的对抗神经网络层进行扰动，得到扰动后字词特征隐状态向量h^sum′。

(7)把所述扰动后字词特征隐状态向量h^sum′输入到CRF模型中进行解码，标注出所述文本特征向量序列中的事件元素及该元素的事件类型，生成对应的事件标签序列。具体实现过程：把所述扰动后字词特征隐状态向量h^sum′和所述文本的字符向量序列输入至条件随机场CRF进行解码预测标签，正则化计算给定句子序列s标记为标签序列l的得分，并使用维特比算法计算出最高概率的事件标签序列。

本发明的技术特点和有益效果：

本发明从联合抽取、通过加入自注意力机制的BiLSTM模型获取更加充分语义信息和加入对抗训练三个方面提高事件抽取的准确率和召回率。

Claims

1.一种基于旋转式编码的事件联合抽取方法，其特征在于，包括以下步骤：

(1)BERT预训练模型中的位置编码为绝对位置编码，使用旋转式编码替换绝对位置编码，使其能够处理超过512字节的文本；

(2)对文本预处理后生成的字符集合，使用融合旋转式编码的BERT预训练模型进行向量化；通过BERT预训练模型中内置词汇表建立分词器，将待处理文本以字符为单位，根据固定的文本最大长度对所述文本进行截断或者补0，得到字符向量序列；给定输入句子序列，将句子进行字符向量映射，得到字符向量序列；

(3)对于文本预处理后生成的词汇集合，使用Word2Vec的skip-gram模型进行词嵌入，生成词向量序列，将字符向量序列和词向量序列两个序列叠加，得到一个字词综合向量序列；

(4)将字符向量序列作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中，提取文本上下文特征信息，生成字符隐状态向量；将字词综合向量序列作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中，提取文本上下文特征信息，学习词语和词语对应字符之间的语义关系，生成字词综合隐状态向量；

(5)将所述字符隐状态向量和字词综合隐状态向量融合成一个全局特征隐状态向量；向全局特征隐状态向量中加入一定量的负样本，使得模型在预测的时候受到干扰，将全局特征隐状态向量输入到基于梯度上升的对抗神经网络层进行扰动，得到扰动后字词特征隐状态向量；

2.根据权利要求1所述的方法，其特征在于，所述文本预处理方法为：对文本采取BIO的标注方式，把事件类型和事件元素当作一个联合标签进行标注，通过从左往右和从右往左两种序列标注方法进行标注，取两种标注结果的并集作为最终的标注结果；将标注结果以字符为单位，分割为字符集合；用jieba开源中文分词工具对待处理的文本进行分词，生成词汇集合。

3.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1或2所述的基于旋转式编码的事件联合抽取方法的步骤。