CN114818721A

CN114818721A - 一种结合序列标注的事件联合抽取模型与方法

Info

Publication number: CN114818721A
Application number: CN202210760629.0A
Authority: CN
Inventors: 熊曙初; 张承泉; 李轩; 胡文灿
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-07-29
Anticipated expiration: 2042-06-30
Also published as: CN114818721B

Abstract

本发明公开了一种结合序列标注的事件联合抽取模型与方法，涉及文本数据挖掘领域技术领域，通过构建事件描述文件模板，对文本内容进行分词预处理；利用BERT预训练模型转换成对应的词向量，得到事件词向量，并输入至一维卷积神经网络对词向量进行局部特征提取，得到融合上下文特征的词向量；将词向量和通过序列标注编码的事件元素特征输入到条件随机场中，通过随机梯度下降优化方法进行训练；最后利用训练完成的条件随机场序列标注解码模型进行事件联合抽取；本发明利用单个汉字级的字符特征，避免词表分词错误的问题，通过局部卷积神经网络，融合局部上下文特征，提升捕捉语义能力，强化事件元素实体边界，提高抽取精度。

Description

一种结合序列标注的事件联合抽取模型与方法

技术领域

本发明属于文本数据挖掘领域，涉及神经网络技术，具体是一种结合序列标注的事件联合抽取模型与方法。

背景技术

随着数字化社会的快速发展，当今世界已进入信息爆炸时代，人工智能方法处理提炼海量信息成为当下的重点研究；事件抽取作为自然语言处理中的关键任务之一，其目的是对各类非结构化信息进行挖掘提取，形成结构化信息，为事件的处理、研判和决策提供支撑；

传统事件抽取方法主要分为基于规则模版与基于机器学习两种；基于规则模版的方法需要针对特定任务构建规则模版，泛化性较差且可移植性较低；基于机器学习的方法需要构造合适的特征与分类器，将事件抽取归类于分类任务，可以获得更好的灵活性与精准度；但该方法需要构建大规模标注训练语料库，语料库质量直接影响抽取效果，需要较高的训练成本；

针对传统方法的不足，现阶段事件抽取主要使用深度学习方法；通过构建大规模深度神经网络，可以获得更强的特征学习与上下文语义感知能力；但现有的深度学习方法都采用管道方式，即先识别事件触发词，再确定事件元素，最后判断事件类型；该方法存在传递误差，任意环节的效果都会极大的影响事件抽取精准度；并且目前的方法忽视了上下文语义关系与词元原始特征的结合，仅仅关注上下文语义关系或词元原始特征，导致捕捉触发词语义能力不足、实体边界识别模糊，限制了事件抽取精度，影响了模型的泛化性。

为此，提出一种结合序列标注的事件联合抽取模型与方法。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一；为此，本发明提出一种结合序列标注的事件联合抽取模型与方法，该一种结合序列标注的事件联合抽取模型与方法通过构建事件描述文件模板，对文本内容进行分词预处理；利用BERT预训练模型转换成对应的词向量，得到事件词向量，并输入至一维卷积神经网络对词向量进行局部特征提取，得到融合上下文特征的词向量；将词向量和通过序列标注编码的事件元素特征输入到条件随机场中，通过随机梯度下降优化方法进行训练；最后利用训练完成的条件随机场序列标注解码模型进行事件联合抽取；本发明利用单个汉字级的字符特征，避免词表分词错误的问题，并通过局部卷积神经网络，融合局部上下文特征，提升捕捉语义能力，强化事件元素实体边界，提高了抽取精度。

为实现上述目的，根据本发明的第一方面的实施例提出一种结合序列标注的事件联合抽取模型，包括输入层、多头自注意力编码层、前馈层、卷积特征融合层、条件随机场序列解码层以及输出层；

其中，所述输入层用于通过BERT的中文词典对输入的文本序列进行编码，生成模型可以识别的数字向量；所述数字向量有词向量Etoken、位置表示向量Eposition以及句间分隔向量Esegment三部分组成；并将词向量Etoken、位置表示向量Eposition以及句间分隔向量Esegment拼接为最终输入向量Einput；

所述最终输入向量Einput的拼接公式如公式（1）所示:

Einput = Etoken + Eposition + Esegment （1）；

输入层生成的最终输入向量Einput通过电气方式传输至多头自注意力编码层；

其中，所述多头自注意力编码层用于通过计算文本序列中不同词之间关联程度，调整权重系数矩阵来计算字的表征向量；所述多头自注意力编码层计算字的表征向量包括以下步骤：

步骤S1：所述多头自注意力编码层接收由输入层发送的最终输入向量Einput；

步骤S2：所述多头自注意力编码层加载BERT注意力权重变量Q、K、V，加载公式如公式（2）所示：

步骤S3：对注意力权重变量使用公式（3）自注意力函数得到注意力分数；

步骤S4：设置多头自注意力编码层注意力个数变量m，提供m个不同的视角；对于m个不同的视角，重复执行步骤S2-S3；注意力个数以及视角根据实际经验设置；

步骤S5：将所有自注意力头的信息按公式（4）进行拼接（向量首尾相连）得到多头自注意力编码层的表征向量；

将字的表征向量标记为

；

步骤S6：多头自注意力编码层将表征向量

通过电气方式传输至前馈层；

其中，所述前馈层主要用于利用预训练BERT模型将输出向量

进行编码，获得卷积特征融合层所需要的字向量编码

，其中

为句子包含字符长度，

为BERT嵌入的词向量维度768；前馈层将字向量编码

通过电气方式传输至卷积特征融合层；

其中，所述卷积特征融合层用于实现局部窗口卷积和上下文语义信息提升；在局部窗口卷积操作上，为输入句子序列词向量设计了窗口大小

为3和5的两种并行化卷积操作，然后将两者结果在特征图上进行堆叠；在上下文语义信息提升部分，利用双层

为5的卷积操作，用来提取上下文高层语义空间信息；特征图表示为公式（5），矩阵

作为卷积操作的卷积核，

为上下文窗口大小，

为词向量的维度；

表示触发词或事件元素周围

个词向量（

），

表示偏置，

表示非线性激活函数；将卷积核扫描句子中每个词，获取融合上下文词级的特征C如公式（6）所示；

所述卷积特征融合层将特征C通过电气方式传输至条件随机场序列解码层；

其中，所述条件随机场序列解码层用于将文本序列通过BI标注将事件触发词识别、事件要素识别视为一个序列标签分类任务，对标签之间的依赖关系进行建模，获得正确的标签组合；其中，所述BI标注方式为标注实体的起始位置标记为标签B，实体其余部分标记为标签I，不属于标注内容的标记为标签O；

给定输入序列

和其对应的标签序列

的条件概率

为公式（7）,其中

，

和

分别是参数权重和偏置；训练过程为学习一组特征向量

,利用条件随机场进行预测条件概率最大的输出序列

为公式（8）；

由公式（8）从而得到全局最优的类别标签序列

；训练过程中的优化目标便为正确路径的最大似然，即

，预测时，根据句子标签序列的预测概率进行维特比解码，得到最终的正确标签；

；

其中，所述输出层用于输出正确标签；

根据本发明的第二方面实施例，提出一种结合序列标注的事件联合抽取方法，包括以下步骤：

步骤一：构建事件描述文件模板；构建突发事件模板；所述突发事件模板为确定某个突发事件包含多少事件元素；

步骤二：运用JSON格式保存标注好的文本，文本标注按照步骤一中事件描述文件模板的格式，确定事件触发词与事件元素实体事件：其中，所述事件触发词是标志某类事件发生的文本，其在事件类别识别中扮演了及其重要的作用；所述事件元素实体是事件中涉及的具体要素所对应的文本，其在事件元素分类中扮演重要角色；事件元素实体包括但不限于发生事件、发生地点、事件影响、事件参与方等；

步骤三：读取标注好的JSON文件，对文本进行预处理并根据标注的实体对预处理后的文本打标签，由于要处理的文本数据为不定长的非结构化数据，不利于模型的并行化处理，为解决这个问题需要将文本固定长度为512个字，如果超出固定长度则舍弃多余部分文本，不够补0至固定长度；对文本内容进行BI标注；

步骤四：将文本信息中每个字经过输入层、多头自注意力编码层以及前馈层，获得相应的字符级特征词向量，得到句子编码表示为

，其中

是句子中的第

个字的编码；

步骤五：在卷积特征融合层，利用卷积核在句子序列的方向上进行滑动，捕捉每个位置字的语义信息及其上下文窗口特征，最后综合得到特征图(feature map)作为每个位置的向量输出，通过最后全连接层的维度转换，可以得到最终标签分类概率；

步骤六：将整个句子的事件类型、事件触发词、事件元素实体特征编码（BI序列标注Y向量）和句子X向量输入到条件随机场中，条件随机场层初始化转移矩阵A，通过模型训练迭代更新参数得到具有约束条件(矩阵A的参数表现为约束条件)的转移矩阵A，以确保最后预测结果的有效性；将转移矩阵A定义为公式（9）, 其中

表示第

个标签到第

个标签的转移得分；模型将整个句子

相对于标签序列

的得分定义为公式（10）其中

为卷积特征融合层的输出标签概率向量，由公式（10）所知，句子序列的得分是由CNN层的输出

与CRF层的转移矩阵

共同决定的；即整个句子对应的标签序列的打分由每个标签位置的得分与标签之间的转移得分共同决定的；随后，如公式（11）所示用极大似然估计函数作为模型的损失函数；最终模型的输出为

，

为句子中每个词的标签得分最大的序列；

步骤七：输出句子文本的正确标签。

与现有技术相比，本发明的有益效果是：

本发明通过构建事件描述文件模板，对文本内容进行分词预处理；利用BERT预训练模型转换成对应的词向量，得到事件词向量，并输入至一维卷积神经网络对词向量进行局部特征提取，得到融合上下文特征的词向量；将词向量和通过序列标注编码的事件元素特征输入到条件随机场中，通过随机梯度下降优化方法进行训练；最后利用训练完成的条件随机场序列标注解码模型进行事件联合抽取；本发明利用单个汉字级的字符特征，避免词表分词错误的问题，并通过局部卷积神经网络，融合局部上下文特征，提升捕捉语义能力，强化事件元素实体边界，提高了抽取精度；在使用预训练模型的基础上融入上下文词汇语义特征的联合抽取方法，增强对关键实体的抽取和对全局句子语义与局部词汇特征的捕捉能力。

附图说明

图1为本发明的模型图；

图2为本发明的流程图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，一种结合序列标注的事件联合抽取模型，包括输入层、多头自注意力编码层、前馈层、卷积特征融合层、条件随机场序列解码层以及输出层；

所述最终输入向量Einput的拼接公式为公式（1）:

Einput = Etoken + Eposition + Esegment （1）；

步骤S2：所述多头自注意力编码层加载BERT注意力权重变量Q、K、V，加载公式如公式（2）所示，

步骤S5：将所有自注意力头的信息按公式（4）进行拼接（向量首尾相连）得到多头自注意力编码层的输出向量；

将字的表征向量标记为

；

步骤S6：多头自注意力编码层将表征向量

通过电气方式传输至前馈层；

其中，所述前馈层主要用于利用预训练BERT模型将输出向量

进行编码，获得卷积特征融合层所需要的字向量编码

，其中

为句子包含字符长度，

为BERT嵌入的词向量维度768；前馈层将字向量编码

通过电气方式传输至卷积特征融合层；

作为卷积操作的卷积核，

为上下文窗口大小，

为词向量的维度，“

”操作符表示为两个矩阵对应位置相乘之和；

表示触发词或事件元素周围

个词向量（

），

表示偏置，

其中，所述条件随机场序列解码层用于将文本序列通过BI标注将事件触发词识别、事件要素识别视为一个序列标签分类任务，对标签之间的依赖关系进行建模，获得正确的标签组合；其中，所述BI标注方式为标注实体的起始位置标记为标签B，实体其余部分标记为标签I，不属于标注内容的标记为标签O；例如表1所示的BI标注示例：

表1

原文

钦

州

市

康

熙

岭

镇

一

艘

船

只

起

火

BI标注

B

I

O

B

I

B

I

给定输入序列

和其对应的标签序列

的条件概率

为公式（7）,其中

，

和

分别是参数权重和偏置；训练过程为学习一组特征向量

,利用条件随机场进行预测条件概率最大的输出序列

为公式（8）；

由公式（8）从而得到全局最优的类别标签序列

；训练过程中的优化目标便为正确路径的最大似然，即

其中，所述输出层用于输出正确标签；

通过结合序列标注的事件联合抽取模型利用单个汉字级的字符特征，避免词表分词错误的问题，并通过局部卷积神经网络，融合局部上下文特征，

提升捕捉语义能力，强化区分事件元素实体边界，提升了抽取精度。

如图2所示，一种结合序列标注的事件联合抽取方法，包括以下步骤：

步骤一：构建事件描述文件模板；构建突发事件模板；所述突发事件模板为确定某个突发事件包含多少事件元素；例如自然灾害中的地震事件，其包含以下事件元素：时间、地点、震源深度、震级、受伤人数、死亡人数、财产损失；

步骤二：运用JSON格式保存标注好的文本，文本标注按照步骤一中事件描述文件模板的格式，确定事件触发词与事件元素实体事件：其中，所述事件触发词是标志某类事件发生的文本，其在事件类别识别中扮演了极其重要的作用；所述事件元素实体是事件中涉及的具体要素所对应的文本，其在事件元素分类中扮演重要角色；事件元素实体包括但不限于发生事件、发生地点、事件影响、事件参与方等；

步骤三：读取标注好的JSON文件，对文本进行预处理并根据标注的实体对预处理后的文本打标签，由于要处理的文本数据为不定长的非结构化数据，不利于模型的并行化处理，为解决这个问题需要将文本固定长度为512个字，如果超出固定长度则舍弃多余部分文本，不够补0至固定长度；对文本内容进行BI标注，并将所有文本划分为7：2：1的训练集，测试集以及验证集，划分比例为7:2:1；

，其中

是句子中的第

个字的编码；

表示第

个标签到第

个标签的转移得分；模型将整个句子

相对于标签序列

的得分定义为公式（10）其中

与CRF层的转移矩阵

，

为句子中每个词的标签得分最大的序列；例如：

步骤七：输出句子文本的正确标签。

以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.一种结合序列标注的事件联合抽取模型，其特征在于，包括输入层、多头自注意力编码层、前馈层、卷积特征融合层、条件随机场序列解码层以及输出层；

所述输入层用于通过BERT的中文词典对输入的文本序列进行编码，生成模型可以识别的数字向量Einput；输入层生成的最终输入向量Einput通过电气方式传输至多头自注意力编码层;

所述多头自注意力编码层用于通过计算文本序列中不同词之间关联程度，调整权重系数矩阵来计算字的表征向量；多头自注意力编码层将表征向量通过电气方式传输至前馈层；

所述前馈层用于利用预训练BERT模型将输出向量

进行编码，获得卷积特征融合层所需要的字向量编码

，其中

为句子包含字符长度，

为BERT嵌入的词向量维度768；前馈层将字向量编码

通过电气方式传输至卷积特征融合层；

所述卷积特征融合层用于实现局部窗口卷积和上下文语义信息提升并获得融合上下文词级的特征；卷积特征融合层将融合上下文词级的特征通过电气方式传输至条件随机场序列解码层；

所述条件随机场序列解码层用于将文本序列通过BI标注将事件触发词识别、事件要素识别视为一个序列标签分类任务，对标签之间的依赖关系进行建模，获得正确的标签组合；条件随机场序列解码层将正确的标签组合通过电气方式传输至输出层；

所述输出层用于输出正确的标签组合。

2.根据权利要求1所述的一种结合序列标注的事件联合抽取模型，其特征在于，所述输入层生成的数字向量有词向量Etoken、位置表示向量Eposition以及句间分隔向量Esegment三部分组成；并将词向量Etoken、位置表示向量Eposition以及句间分隔向量Esegment拼接为最终输入向量Einput。

3.根据权利要求1所述的一种结合序列标注的事件联合抽取模型，其特征在于，所述多头自注意力编码层计算字的表征向量包括以下步骤：