CN115169348A

CN115169348A - 一种基于混合神经网络的事件抽取方法

Info

Publication number: CN115169348A
Application number: CN202210726176.XA
Authority: CN
Inventors: 张锋; 程振宁; 陈婕卿; 曾可; 姜会珍; 杨鲤银
Original assignee: Beijing Anne Fox Information Consulting Co ltd; Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Current assignee: Beijing Anne Fox Information Consulting Co ltd; Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-10-11

Abstract

本发明公开了一种基于混合神经网络的事件抽取方法，具体涉及自然语言文本处理技术领域，包括步骤一：对原始文本进行数据预处理，并对原始文本进行分句，得到事件句，再对事件句进行分词、命名体识别，并将事件句序列转换为词向量的形式；步骤二：将以词向量表示的事件句序列传入到双向长短时记忆网络，即（前向和后向两个子LSTM网络），再利用BERT模型来捕捉字级别的语义特征。本发明利用BERT模型来解决一词多义的问题，且充分考虑了卷积神经网络有效提取文本局部特征与BILSTM网络提取文本全局特征的优势，以及文本在上下文语义中的信息，有效提取了文本的特征。模糊上下文语义的情况被解决，提高了事件抽取的效果。

Description

一种基于混合神经网络的事件抽取方法

技术领域

本发明涉及自然语言文本处理技术领域，更具体地说，本发明涉及一种基于混合神经网络的事件抽取方法。

背景技术

随着医疗大数据的不断普及和电子病历的不断进步，越来越多的医院开始使用电子病历记录患者病情，这导致医疗保健中的数据生成率越来越高。中国病历中包含的知识和发现受到了广泛关注，但大量的电子病历对医学信息的整理提出了挑战；目前，文本信息挖掘已经成为热门技术和需求热点。在这种现象下，事件提取(EE)已成为医学诊断中正确、快速收集患者信息的核心，为医学研究事业开辟了新的前景。事件提取是自然语言处理的一项基本任务。其目的是从无序信息中提取用户感兴趣的事件，并以有序的形式呈现给用户。

医院的信息化系统发展迅速，出现了大量的电子病历，如何对这些电子病历进行结构化处理研究成了亟待研究的问题；

目前，数据集数据结构复杂且多样，而在中文病历文本挖掘和利用方面，以往的研究大都缺乏对医学文本信息的全局特征和局部特征的协同考虑。特征的捕捉次数不够，事件提取的效果不太好，故基于上述问题，为此我们设计这样一种基于混合神经网络的事件抽取方法，来解决上述问题。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

为了克服现有技术的上述缺陷，本发明的实施例提供一种基于混合神经网络的事件抽取方法，本发明所要解决的技术问题是：研究中缺乏对医学文本信息的全局特征和局部特征的协同考虑的问题。

为实现上述目的，本发明提供如下技术方案：一种基于混合神经网络的事件抽取方法，包括如下步骤：

步骤一：对原始文本进行数据预处理，并对原始文本进行分句，得到事件句，再对事件句进行分词、命名体识别，并将事件句序列转换为词向量的形式；

步骤二：将以词向量表示的事件句序列传入到双向长短时记忆网络，即(前向和后向两个子LSTM网络)，再利用BERT模型来捕捉字级别的语义特征，并将其转换成高维的动态字向量。

步骤三：将步骤二中BERT输出生成的动态字向量表示输入至BILSTM网络，以获取语义信息，再输入至CNN网络进行上下文学习，以获取全局特征和局部特征。

步骤四：利用softmax作为分类器来对每个候选触发词进行分类，判断该事件所属类型。

步骤五：对BILSTM网络和CNN网络上下文学习得到的测试数据进行事件的预测及提取。

在一个优选地实施方式中，所述步骤一中在得到事件句后根据标注的事件信息，将事件句进行序列标注，触发词根据其类型进行标注，非触发词标注为无类别，得到事件句序列，并将事件句序列以词向量的形式进行表述。

在一个优选地实施方式中，所述步骤二BERT层中，在Embedding过程中，将给定的由n个字组成的中文句子S＝{w₁，w₂，w₃，w₄，...，w_n}每一个字w_i转化成一个维度为768x1的字向量e_i即E＝{e₁，e₂，e₃，e₄，...，e_n}。

在一个优选地实施方式中，所述步骤三在BILSTM层中，动态字向量依次生成后进行点乘与累加操作，得到注意力层的输出，并依据权值大小给隐藏层输出分配相应的注意力资源，构成特征向量的加权语义向量表示，增强病历文本序列的特征表达。

在一个优选地实施方式中，所述步骤三在BILSTM网络中，由干BILSTM网络包含前向和后向两个子LSTM网络，分别向前和向后传递每个LSTM需要经过网络的前向传播公式，其中h_t是此时刻的输入，h_t-1是上一时刻的记忆输出，W_f、W_i、W_c、W_o分别是模型的参数。

本发明的技术效果和优点：

本发明由于神经网络具有很强的自适应性和学习能力、非线性映射能力、鲁棒性和容错能力，受到了人们越来越多的重视。然而，对于复杂的电子病历的文本结构，传统的神经网络难以得到令人满意的识别率。该模型使用BERT模型来解决一词多义的问题，且充分考虑了卷积神经网络有效提取文本局部特征与BILSTM网络提取文本全局特征的优势，以及文本在上下文语义中的信息，有效提取了文本的特征。模糊上下文语义的情况被解决。提高了妊娠期糖尿病电子病历中的事件抽取的效果。

附图说明

图1为本发明整体步骤流程图

图2为本发明具体实施流程图。

图3 CNN卷积神经网络提取文本局部语义特征向量框图

图4 BILSTM提取文本全局语义特征向量框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些示例实施方式使得本公开的描述将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的示例实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、步骤等。在其它情况下，不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

实施例

结合附图1-4所示，实施方式具体为：

本发明提供了一种基于混合神经网络的事件抽取方法，现结合附图对本发明作进一步详细的说明，具体实现和训练步骤如下(以妊娠期糖尿病患者的真实病历为应用场景)：

具体为：事件句表达为L＝{x1,x2,...,xi,...,xn}，其中xi为句子中第i个词，n表示事件句长度，在对事件句L进行人工标注，在标注过程中，将非触发词标记为无类型，触发词根据所属新闻事件类别进行标注，得到事件句序列；

通过开源工具包word2vec训练文本得到词向量，采用skip-gram模型，根据训练得到的词向量，将事件句序列中每个词表述为一个指定长度的向量；

将每个事件句处理成词向量表述的序列形式，即每个候选触发词表示为一个长度为200的词向量，事件句表示为A＝{w1,w2,...,wi,...,wn}；

步骤二：将以词向量表示的事件句序列传入到双向长短时记忆网络，即(前向和后向两个子LSTM网络)，再利用BERT模型来捕捉字级别的语义特征，并将其转换成高维的动态字向量；

具体为：

利用BERT网络模型预训练，此阶段的目的是让网络模型具有提取语义的能力。

a：提取到文本语义特征，首先将每个病历T_n输入到训练好的BERT网络模型，提取到字级别的特征向量。

b：在BERT层中，在Embedding过程中，首先将给定的由n个字组成的中文句子S＝{w₁,w₂,w₃,w₄,…,w_n}每一个字w_i转化成一个维度为768x1的字向量e_i即E＝{e₁,e₂,e₃,e₄,…,e_n}。

步骤三：将步骤二中BERT输出生成的动态字向量表示输入至BILSTM网络，以获取语义信息，再输入至CNN网络进行上下文学习，以获取全局特征和局部特征；

具体为：

a：CNN卷积神经网络模块。

CNN是一种前馈神经网络，本文主要利用卷积神经网络的特性，对句子中的每个词提取局部特征，最后以特征图的形式表现出来。触发词抽取是一个由序列到标签的分类问题，卷积就相当于采用卷积核在输入矩阵上滑动进行乘积求和的一个过程。目标词向量可形成局部特征向量f_ti其表达式为:

f_ti＝f(k_iv_t:t+j-1+b)

其中v_t为输入的词向量矩阵,j为卷积核k的窗口大小,b为偏置值，为ReLU激活函数。

b：BILSTM循环神经网络模块。

在BILSTM网络中(图3)由干BILSTM网络包含前向和后向两个子LSTM网络，分别向前和向后传递每个LSTM需要经过网络的前向传播公式，其中h_t是此时刻的输入，h_t-1是上一时刻的记忆输出，W_f、W_i、W_c、W_o分别是模型的参数。网络的前向传播公式：

f_t＝δ(w_f·[h_t-1,x_t]+b_f)

o_t＝δ(w_o·[h_t-1,x_t]+b_o)；

双向门控网络生成正向输出的特征向量为

双向门控网络生成后向输出的特征向量为

我们再通过全连接层将正向与后向特征向量融合且降维和CNN网络生成的特征向量相同，我们为了使前向与后向特征向量融合时减少关键语义的特征丢失，引入权值α₁和α₂。优化后公式为：

其中，注意力机制模块

比如我们不断反复地看一篇电子病历，但我们没有得到它的完整表示。事实上，我们只保留了足够的特征来将关键的信息进行记忆，对不同的事件进行区分。类似地，我们可以建立一种不关注特征细节、只编码足以区分不同事件的高级特征的表示学习算法。

因为BILSTM神经网络虽然可以建立前后文相关的语义向量信息，但是没有突显当前语义信息与上下文的关联性。在BILSTM层的输出端引入注意力机制，可以有效地强调当前信息在上下文信息中的重要性与关联性，增强语义信息的特征表达，提升模型病历文本分类的性能。

最后对BILSTM层的输出向量与权重向量进行点乘与累加操作，得到注意力层的输出，依据权值大小给隐藏层输出分配相应的注意力资源，构成特征向量的加权语义向量表示，增强病历文本序列的特征表达。

在计算中引入权值变量θ∈(0,1)来平衡损失函数，优化后公式为：

步骤四：利用softmax作为分类器来对每个候选触发词进行分类，判断该事件所属类型；

使用BERT作为编码器，提取文本序列的表征h，并将文本序列表征h和两个记忆槽输入基于依存关系类型映射记忆网络模块。在基于依存关系类型映射记忆网络模块里，分别利用in-entity和cross-entity记忆槽融合键(上下文关联的词)和值(与词的依存关系类型)作为上下文特征，为了区分不同上下文特征的重要程度，采用了注意力机制，通过计算词和键之间的点积，作为权重分配给其上下文特，由上述找出事件的触发词，比对触发词类型，判断事件的类型。

步骤五：对BILSTM网络和CNN网络上下文学习得到的测试数据进行事件的预测及提取，即基于依存关系类型映射记忆网络的输出，预测关系标签。

最后应说明的几点是：首先，在本申请的描述中,需要说明的是,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变，则相对位置关系可能发生改变；

其次：本发明公开实施例附图中，只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计，在不冲突情况下，本发明同一实施例及不同实施例可以相互组合；

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于混合神经网络的事件抽取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于混合神经网络的事件抽取方法，其特征在于：所述步骤一中在得到事件句后根据标注的事件信息，将事件句进行序列标注，触发词根据其类型进行标注，非触发词标注为无类别，得到事件句序列，并将事件句序列以词向量的形式进行表述。

3.根据权利要求1所述的一种基于混合神经网络的事件抽取方法，其特征在于：所述步骤二BERT层中，在Embedding过程中，将给定的由n个字组成的中文句子S＝{w₁，w₂，w₃，w₄，...，w_n}每一个字w_i转化成一个维度为768x1的字向量e_i即E＝{e₁，e₂，e₃，e₄，...，e_n}。

4.根据权利要求1所述的一种基于混合神经网络的事件抽取方法，其特征在于：所述步骤三在BILSTM层中，动态字向量依次生成后进行点乘与累加操作，得到注意力层的输出，并依据权值大小给隐藏层输出分配相应的注意力资源，构成特征向量的加权语义向量表示，增强病历文本序列的特征表达。

5.根据权利要求1所述的一种基于混合神经网络的事件抽取方法，其特征在于：所述步骤三在BILSTM网络中，由干BILSTM网络包含前向和后向两个子LSTM网络，分别向前和向后传递每个LSTM需要经过网络的前向传播公式，其中h_t是此时刻的输入，h_t-1是上一时刻的记忆输出，W_f、W_i、W_c、W_o分别是模型的参数。