CN114548117A

CN114548117A - 一种基于bert语义增强的因果关系抽取方法

Info

Publication number: CN114548117A
Application number: CN202210184092.8A
Authority: CN
Inventors: 朱广丽; 孙争艳; 魏苏波; 张顺香; 许鑫; 吴厚月
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-05-27

Abstract

本发明公开了一种基于BERT语义增强的因果关系抽取方法。所述因果关系抽取方法包括：因果关系候选词库、BERT预训练、因果关系抽取。该方法是一种快速提取文本中存在的因果关系的信息抽取技术，核心任务是在LeakGAN对抗神经网络模型的架构下建立基本模型和增强模型进行对抗学习获得高区分度的特征，分析评论文本中存在的因果关系，实现语义增强下的深层次抽取。该方法基于对抗神经网络的对抗性学习更有区分度的特征，提高因果关系抽取的准确度，可应用于事件预测、问答系统以及情景生成等方面。

Description

一种基于BERT语义增强的因果关系抽取方法

技术领域

本发明涉及因果关系抽取领域，尤其涉及一种基于BERT语义增强的因果关系抽取方法。

背景技术

近年来，因果关系抽取技术在自然语言处理任务的各个方面都已经产生影响，得到了广泛的应用。由于不同领域其因果关系模式的独特性和多样性、评论文本语义结构的复杂性、表达方式的多样性等因素，不可避免的增加了不同领域评论文本因果关系抽取的难度。

在事件预测、问答系统以及情景生成等方面，因果关系抽取技术有很高的应用价值。同时，由于评论文本信息冗余量大，需要用机器学习手段快速提取出有价值的信息，因此因果关系抽取是一项重要的任务。评论文本具有复杂专有名词、价值密度低、信息零碎等特点，使得文本存在语义模糊问题，导致因果关系抽取的准确率低，使得因果关系抽取同样也是一项具有挑战性的任务。

针对现有因果关系抽取上存在语义模糊问题导致特征学习困难的缺陷，提出一种基于BERT语义增强的因果关系抽取方法。

发明内容

本发明的目的在于提供一种基于BERT语义增强的因果关系抽取方法。这是一种针对现有因果关系抽取上存在语义模糊特征学习困难的缺陷，结合了BERT预训练技术和LeakGAN对抗神经网络模型，提出语义增强的因果关系抽取方法。该方法的主要任务是使用构建的因果关系抽取模型学习具有高区分度的特征，同时结合因果关系候选词库，提高因果抽取的准确度。为了实现上述功能，本发明提供的技术方案，包括如下步骤：

1)构建因果关系候选词库。本文使用了因果关系先验知识与语义数据相结合的方法，从金融领域评论文本中提取因果关系候选词，在BERT预训练的过程中，将提取的候选词选择匹配度最高的3个候选词传入BERT，更好的学习句子中复杂的专有名词。

2)构建因果关系抽取模型。为了使模型学习更多的语义信息，采用重复描述因果关系的方法，增强了文本语义的表示，同时为了更好的学习特征，进行多特征融合，进一步解决了模糊语义对因果关系抽取的影响，帮助用户更高效的抽取因果关系。

所述构建因果关系候选词库，由于因果关系通常都是具有较大情感极性强度的词组，因此本发明将优先考虑词组的情感极性强度。由于因果关系可能是正向的情感，也可能的是负向的情感，因此不单考虑是为正向情感词还是为负向情感词，更多考虑的是词组的情感度，选用的是知网的Hownet情感词典，首先计算情感词典中情感词语在金融领域评论语料库中的频率，再结合评论文本中人工标注的情感强度加权计算出因果关系词组的情感强度(the Emotional Intensity of Causal Words，EIC)，筛选出数值较大的2000个词语，构成因果关系词的情感强度词库。

进一步的，所述情感强度划分为4个等级，分别为0级、1级、2级、3级，划分的依据主要考虑以下2个方面：短语中每个词的情感强度的加权平均值、短语在整个标注语料库中出现的频率。

进一步的，所述因果词情感强度(the Emotional Intensity of Causal Words，EIC)用于衡量因果词i在标注语料库中的情感强度，即从因果关系词中计算因果关系词的情感极性强度，借助情感强度特征可以更准确的抽取因果关系词，提高抽取的准确度，如公式EIC_i＝|F_i*I_i|*E_i*W_i。

进一步的，所述权重，为了使权值更具有区分度，将情感强度等级映射到1～4的范围中，同时选取整数，因此权值选用0.5，1，1.5，2四个权重，每上升一个情感强度等级，权重增加1。在此基础上，接着对候选种子词库使用K-means聚类算法进行聚类计算，筛选出最终的候选词库。

所述因果关系抽取模型，其过程如下：

1)数据预处理，数据预处理主要任务包含两个方面，一是对文本的内容进行初步筛选，对句子成分缺省删除或者是对句子格式进行统一；二是对筛选后的句子进行标注。

2)BERT预训练，对于因果增强模型和基本模型都进行预训练

3)基于因果关系的特征融合，除了基本的位置特征，为了选取的更准确，考虑词的关联度，用于衡量因果词和上下文词的关联度，词的情感强度和词本身的权重。

4)因果关系抽取的特征学习，BALG(Bi-LSTM+Attention+LeakGAN，BALG)是指通过Bi-LSTM双向循环网络学习到完整句子的语义特征，加入词级别的注意力层，将特征向量的注意力集中在对因果关系抽取有关键作用的词上，LeakGAN实现文本对抗学习，以学习高区分度特征。

5)因果关系序列化输出，采用CRF进行序列化标注，对句子的每个词进行标注，抽取其中的原因和结果。

本发明所具有的优点和积极效果是：提出了BERT预训练模型的方法。本文将BERT预训练与LeakGAN网络相结合，利用BERT预训练获取含有语义的词向量，通过LeakGAN对抗神经网络的学习得到高区分度的特征用于因果关系抽取，进一步提高了一因一果抽取的准确度。构建了因果关系候选词库。基于因果关系候选词库能够帮助软件平台或者是有关部门进行因果关系抽取，从而可以有效管理市场，帮助做出最佳的决策。同时构建的词库也可以为研究人员研究其他领域的因果关系提供参考。

附图说明

图1为基于BERT语义增强的因果关系抽取方法流程图；

图2为基于BERT语义增强的因果关系抽取方法特征融合图；

图3为基于BERT语义增强的因果关系抽取方法实例效果图。

具体实施方式

下面对本发明做进一步说明：

图1为基于BERT语义增强的因果关系抽取方法流程图。首先，通过因果关系候选词库学习领域的专有名词，在BERT预训练中学习专有名词的特征，并将预训练后的词向量输入到Bi-LSTM网络中提取文本特征，同时为了学习更多特征进行了多特征融合；然后，通过对抗神经网络进一步提取特征；最后，通过CRF进行序列化输出，实现因果关系的抽取。

其中，本发明的数据预处理主要任务包含两个方面，一是对文本的内容进行初步筛选，对句子成分缺省删除或者是对句子格式进行统一；二是对筛选后的句子进行标注，由于本文涉及序列标注，故标点符号也同单词一样进行标注(标注为“O”)。

具体的，由于评论文本专有名词较为复杂且多样，为了更好的学习这些专有名词，本发明提出构建因果关系候选词库，能在BERT预训练的过程中更好的识别专有名词，学习到高质量的词向量。

其中，本方法提出的因果词情感强度(the Emotional Intensity of CausalWords，EIC)用于衡量因果词i在标注语料库中的情感强度，即从因果关系词中计算因果关系词的情感极性强度，借助情感强度特征可以更准确的抽取因果关系词，提高抽取的准确度，如公式EIC_i＝|F_i*I_i|*E_i*W_i所示。利用公式计算所得情感强度值，可以建立因果关系种子词库，同时对于不同情感强度等级的短语赋予适当的权重。为了使权值更具有区分度，将情感强度等级映射到1～4的范围中，同时选取整数，因此权值选用0.5，1，1.5，2四个权重，每上升一个情感强度等级，权重增加1。在此基础上，接着对候选种子词库使用K-means聚类算法进行聚类计算，筛选出最终的候选词集。

进一步的，对于因果关系抽取的特征学习，使用BALG(Bi-LSTM+Attention+LeakGAN，BALG)是指通过Bi-LSTM双向循环网络学习到完整句子的语义特征，加入词级别的注意力层，将特征向量的注意力集中在对因果关系抽取有关键作用的词上，LeakGAN实现文本对抗学习，以学习高区分度特征。

具体的，所述对抗神经网络，主要由基本模型、因果关系增强模型以及softmax分类器组成。使用增强模型时需要依据原句将抽取的因果关系候选词库填充其中，从而提高语义。LeakGAN生成对抗网络的模型，生成器中Manager模块接收来自判别器的特征向量，生成目标嵌入以及Worker模块，与典型的强化学习(Reinforcement Learning，RL)设置不同，对抗性文本生成使用D_φ作为学习奖励功能。D_φ可以分解为一个特征提取器F和最后一个权值向量v的Sigmod分类层，给定输入，有D_φ(x)＝sigmoid(v^TF(x；φ_f))＝sigmoid(v^Tf)其中v是最后的带权值的向量，φ＝(φ_f,φ_v)，sigmoid(z)＝1/(1+e^-z)，f＝F(v；φ_f)是最后一层的特征向量，该特征向量将会发送给生成器。通过判别器泄露的消息生成器接收并重新生成更接近真实数据，为了更好的使函数收敛，LeakGAN提出了一种交叉训练方案。采用监督训练(即MLE)和对抗训练(即GAN)交替进行。

具体的，整个对抗神经网络由BERT预训练后的词向量层、Bi-LSTM层、LeakGAN层及softmax输出分类层构成。其中，最后一层Softmax分类层被两个模型共享，又称分类器。BERT预训练后的词向量将句子语义转化成单词序列输入到网络中，对与句子中某个词进行MASK，获得每个词的相似度，通过分类器进行判断，即最小化交叉熵损失：Loss_B＝minmise(S(H_B(x_b；θ_B),；θ_C),y)其中，x_b表示基本模型特征的输入，θ_B表示基本模型

具体的，对于增强模型，也通过最小化交叉熵损失进行学习，只是参数不一样。Loss_R＝minmise(S(H_R(x_r；θ_R),y)增强模型中的BERT预训练过程，通过利用选取因果关系添加到原始文本中，再进行预训练。对抗神经网络的训练目标就是使得基本模型与增强模型尽可能的数据相近，使得损失函数最小，从的参数，θ_C表示分类器的参数，y表示真实的词向量。进而优化模型参数，进而提高模型精度。

图2为基于BERT语义增强的因果关系抽取方法特征融合图，传统的因果抽取虽然也是用到句子的句法结构和句子的语义信息，但是往往只采用单一位置特征进行学习，使得所以学习到的特征维度不够。因此本文采用多特征融合技术学习具有更多维度的特征。

具体的，除了基本的位置特征，为了选取的更准确，考虑词的关联度，用于衡量因果词和上下文词的关联度，主要是通过计算相似度计算关联度，如公式

所示。其中Ru表示因果词在整个评论语料库中的平均值，Ru,i表示词i与因果词平均值的关联度，Ru,j表示词j与因果词平均值的关联度。

进一步的，基于因果关系的特征融合，除了上述介绍的词的位置特征，关联度特征等，还有词情感强度和词本身的权重。

图3为基于BERT语义增强的因果关系抽取方法实例效果图。由于选择的是金融领域的评论文本，采用的是数据集FNP 2021 Shared Task 2和FNP 2020 Shared Task 2。本发明公开的方法在实例数据集上的参数优化路线更加高效。在训练前期(前10轮)，各个模型的准确率都较低，交叉熵损失较高，该方法处于领先位置；训练的中期(10至35轮)，各个模型的准确率逐渐提升。使用交叉熵损失函数计算得到损失值并进行模型的参数优化，但本发明模型的准确率开始趋近平稳；训练的后期(35至60轮)，各个模型的准确率已经稳定。传统的CNN网络和LSTM网络曲线波动较大，在第50个Epoch才开始收敛，改进的GCN模型曲线相对平缓，波动较小。本发明提出的BALG模型不仅收敛速度更快，训练过程稳定且准确率高，且在后续的训练过程中一直处于领先优势，进一步体现了BALG模型的优势。

用基于BERT语义增强的因果关系方法对金融领域的数据集进行因果关系抽取时，结合本文构建的因果关系候选词库使用BERT进行预训练效果更好。说明LeakGAN相对于普通的CCN算法在金融领域文本方面有很大优势。

此外，以上实施方式仅用以说明本发明的具体实施方式而不是对其限制，本领域技术人员应当理解，还可以对其中部分技术特征进行同等替换，这些修改和替换亦属于本发明保护范围。

Claims

1.一种基于BERT语义增强的因果关系抽取方法，包括因果关系候选词库、BERT预训练、因果关系抽取，其特征在于，通过因果关系候选词库学习各领域的专有名词，在BERT预训练中学习专有名词的特征，并将预训练后的词向量输入到Bi-LSTM网络中提取文本特征，同时为了学习更多特征进行了多特征融合；然后，通过对抗神经网络进一步提取特征；最后，通过CRF进行序列化输出，实现因果关系的抽取。

2.根据权利要求1所述的因果关系候选词库，其特征在于，使用了因果关系先验知识与语义数据相结合的方法，从各领域评论文本中提取因果关系候选词，在BERT预训练的过程中，将提取的候选词选择匹配度最高的3个候选词传入BERT，更好的学习句子中复杂的专有名词。

3.根据权利要求1所述的BERT预训练，其特征在于，BERT预训练时，将每个实体前后用特殊标识#表示出来，一句话中随机选择15％的词汇用于预测，80％情况下采用一个特殊符号[MASK]替换，10％情况下采用一个任意词替换，剩余10％情况下保持原词汇不变预测一个词汇时，使模型更多地依赖于上下文信息去预测词汇，并且赋予了模型一定的纠错能力。

4.根据权利要求1所述的因果关系抽取，其特征在于，包括如下步骤：

2)BERT预训练，对于因果增强模型和基本模型都进行预训练

5)因果关系序列化输出，采用CRF进行序列化标注，对句子的每个词进行标注，抽取其中的原因短语和结果结果。

5.根据权利要求4所述的因果关系序列标注，其特征在于，涉及序列标注，标点符号也同单词一样进行标注(标注为“O”)，不标注因果连接词，本文的因果关系抽取不限于带有标记的显式因果。