CN111651983A

CN111651983A - 一种基于自训练与噪声模型的因果事件抽取方法

Info

Publication number: CN111651983A
Application number: CN202010397785.6A
Authority: CN
Inventors: 丁效; 刘挺; 秦兵; 廖阔
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2020-09-11
Anticipated expiration: 2040-05-12
Also published as: CN111651983B

Abstract

一种基于自训练与噪声模型的因果事件抽取方法，本发明涉及因果事件抽取的方法。本发明的目的是解决现有基于深度学习模型的因果事件抽取方法在有标注数据不足的领域或场景中效果有限的问题。过程为：一、收集已标注的目标领域文本；二、计算一个向量表示；三、计算出概率最大的标签序列；四、训练三中的模型，并对二中的模型进行微调；五、得到大量自标注数据；六、为每个单词计算一个向量表示，计算单词序列生成每个可能的标签序列的概率；七、计算自标注文本中每个单词的噪声矩阵；八、得到由单词序列生成自标注标签序列的概率；九、使用一中有标注数据与五中自标注数据共同训练二、三、六、七中的整体模型。本发明用于因果事件抽取领域。

Description

一种基于自训练与噪声模型的因果事件抽取方法

技术领域

本发明涉及基于自训练与噪声模型进行因果事件抽取的方法。

背景技术

近年来，深度学习方法在各项具有挑战性的自然语言处理任务上取得了令人印象深刻的结果，如机器翻译(Kyunghyun Cho,Bart Van

Caglar Gulcehre,Dzmitry Bahdanau,Fethi Bougares,Holger Schwenk,and YoshuaBengio.2014.Learning phrase representations using RNN encoder-decoder forstatistical machine translation.In Proceedings of the 2014 Conference onEmpirical Methods in Natural Language Processing(EMNLP).)与阅读理解(DanqiChen,Adam Fisch,Jason Weston,and Antoine Bordes.2017.Reading wikipedia toanswer open-domain questions.In Proceedings of the 55th Annual Meeting of theAssociation for Computational Linguistics,pages 1870–1879.)。深度学习方法使用深度神经网络自动学习输入与输出数据间的函数关系，与传统机器学习方法相比，深度神经网络可以自动为最终任务学习出有效的特征，而无需依赖特征工程，从而使模型的学习过程能够以端到端的方式进行，大大提高了其实用性。然而，端到端的深度学习模型由于结构复杂、参数量大，往往需要大量有标注的数据才能较好地训练。获取标注数据需要人类专家的参与，其代价是十分昂贵的，限制了深度学习方法在低资源语言、领域上的应用。

另一方面，无标注的数据往往很容易获取，即使是在有标注数据较少的语言和领域上。半监督学习方法提出同时使用大量无标注数据与少量有标注数据训练模型，这一方法仅需较少的人力进行数据标注，并且往往能够取得比仅使用有标注数据更好的结果，因此在理论和实践上都广受关注。在半监督学习方法中，自训练(Self-Training)(Yarowsky,D.(1995).Unsupervised word sense disambiguation rivaling supervisedmethods.Proceedings of the 33rd Annual Meeting of the Association forComputational Linguistics(pp.189–196).)是一种实用的包装方法。该方法首先在少量有标注的种子数据上训练模型，之后使用模型对无标注数据进行标注，构造自标注数据，并筛选出置信度较高的自标注数据用来进一步训练模型。该方法对模型的结构与任务的形式不做任何假设，因此可以很好地与结构复杂的深度神经网络结合，并应用于各种任务上。

然而，在少量有标注数据上训练的模型效果有限，因此其标注的数据中往往存在很多错误，直接在这些数据上进行自训练难以带来较大的提升。(Alan Joseph Bekker andJacob Goldberger.2016.Training deep neural-networks based on unreliablelabels.In IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP).)假设在不可靠的标签是由隐含的真实标签通过一个噪声信道得到的，提出使用转移矩阵对噪声信道进行建模，采用EM算法交替地对真实标签进行估计以及训练原模型和噪声模型，并将该方法应用在分类任务上。(Jacob Goldberger and EhudBen-Reuven.2017.Train-ing deep neural-networks using a noise adaptationlayer.In Int.Conference on Learning Representations (ICLR).)提出使用全连接神经网络由输入动态计算噪声信道的转移矩阵，使用标准的反向传播算法代替EM算法。(Michael A.Hedderich and Dietrich Klakow.2018.Training a neural network in alow-resource setting on automatically annotated noisy data.In Proceedings ofthe Workshop on Deep Learning Approaches for Low-Resource NLP,pages 12–18.Association for Computational Linguistics.)将该方法推广到序列标注任务上，但仅仅将序列标注视为对每个单词进行分类。(Debjit Paul,Mittul Singh,MichaelA.Hedderich,Dietrich Klakow.2019.Handling Noisy Labels for Robustly Learningfrom Self-Training Data for Low-Resource Sequence Labeling.In Proceedings ofthe 2019 Conference of the North American Chapter of the Association forComputational Linguistics:Student Research Workshop,pages 29–34.Associationfor Computational Linguistics)提出使用噪声信道建模自训练方法中的噪声。序列标注任务通常采用特定的标注规范，例如BIO或BIOES，标签序列的组成不是随意的，每种标签后面只能跟随特定种类的标签，因此简单地将其建模为单词或字符上的分类任务不尽合理。(John Lafferty,Andrew McCallum,and Fernando CN Pereira.2001.Conditionalrandom fields:Probabilistic models for segmenting and labeling sequencedata.In Proceedings of ICML-2001,volume 951,pages 282–289.)提出条件随机场(CRF)模型，除了由单词生成单个标签的发射势外，还使用转移势建模相邻两个标签间的转移概率，其训练目标为最大化正确标签序列考虑发射势和转移势的联合概率，相比仅考虑单个单词上的标签分类更为合理，并在多项序列标注任务上取得了最佳的效果(Xuezhe Maand Eduard Hovy.2016.End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF.In Proceedings of the 54th Annual Meeting of the Association forComputational Linguistics,pages 1064–1074.Association for ComputationalLinguistics)。但目前的研究尚未考虑如何将噪声模型与条件随机场相结合，限制了其在自训练等半监督学习方法中的应用。

信息抽取是自然语言处理中的一类重要研究内容，包含命名实体识别、事件抽取等，目的在于从无结构的自然语言文本中自动抽取出实体、关系、事件等事实信息，并以结构化的形式输出。其中，事件间的因果关系在帮助计算机认识事理演化规律、进行事件推理、辅助决策等方面有着重要作用，受到了广泛的关注。许多工作使用规则模板抽取文本中的因果事件(Sendong Zhao,Quan Wang,Sean Massung,Bing Qin,Ting Liu,Bin Wang,andChengXiang Zhai.2017.Constructing and embedding abstract event causalitynetworks from text snippets.In Proceedings of the Tenth ACM InternationalConference on Web Search and Data Mining,pages 335–344.ACM.)，其优点是方法简单，无需标注数据，且往往可以获得较高的准确率，但缺点是召回率低，无法处理自然语言中多种多样的因果关系表达方式。(R.Girju,B.Beamer,A.Rozovskaya,A.Fister,andS.Bhat,“A knowledge-rich approach to identifying semantic relations betweennominals,”Information processing&management,vol.46,no.5,pp.589–610,2010.,A.Sil,F.Huang,and A.Yates,“Extracting action and event semantics from webtext.”in AAAI Fall Symposium:Commonsense Knowledge,2010.)等一系列工作使用机器学习方法进行因果关系分类，取得了一定的效果，但是依赖其他方法先抽取出文本的事件，使得其实用性大打折扣。(T.Dasgupta,R.Saha,L.Dey,A.Naskar,Automatic extractionof causal relations from text using linguistically informed deep neuralnetworks,in:Proceedings of the 19th Annual SIGdial Meeting on Discourse andDia-logue,Melbourne,Australia,July 12-14,2018,2018,pp.306–316.)等工作提出将因果事件抽取建模为序列标注任务，将输入的文本表示为单词或字符的序列，由深度学习模型输出一个等长的标签序列，由标签序列识别出原因、结果事件在文本中的位置，是一种端到端的方法，具有较高的实用性。但这一系列工作收到有标注数据的制约，目前公开发表的有标注因果数据集规模较小，且各数据集间标注规范均有不同，限制了基于序列标注的因果抽取方法在实际中的应用。

发明内容

本发明的目的是解决现有基于深度学习模型的因果事件抽取方法依赖大量有标注数据，导致其在有标注数据不足的领域或场景中效果有限的问题，而提出一种基于自训练与噪声模型的因果事件抽取方法。

一种基于自训练与噪声模型的因果事件抽取方法具体过程为：

步骤一、收集已标注的目标领域文本，或对目标领域的无标注文本进行标注，标注出因果事件对，标注时，采用序列标注任务的标注方法，为文本中为每个单词标记一个标签，表示该单词属于原因事件、结果事件或其他成分；

步骤二、先用已有的分词工具对步骤一中有标注文本进行分词，使用一种神经网络结构为分词后有标注文本中的单词计算一个向量表示；

步骤三、使用条件随机场模型，由步骤二中的向量表示计算出概率最大的标签序列；

步骤四、利用步骤一中已标注的目标领域文本或对目标领域的无标注文本进行标注的文本数据训练步骤三中的条件随机场模型，并对步骤二中的模型进行微调；

步骤五、搜集同领域大量无标注文本数据，先用已有的分词工具对搜集的同领域大量无标注文本数据进行分词，得到自标注文本分词后的单词序列，利用步骤四中训练好的模型对同领域大量无标注词语进行标注，得到大量自标注数据；

所述步骤四中训练好的模型为步骤二中训练好的预训练词向量矩阵、神经网络模型，以及步骤三中的条件随机场模型的整体；

步骤六、对步骤五中自标注文本分词后的单词序列，使用步骤四中训练好的词向量矩阵、神经网络模型为每个单词w_i计算一个向量表示

并使用步骤四中训练好的的条件随机场模型计算单词序列生成每个可能的标签序列的概率；

步骤七、使用全连接神经网络，由步骤六中单词的向量表示计算自标注文本中每个单词的噪声矩阵；

步骤八、使用另一个条件随机场计算任意标签序列经过噪声信道得到自标注标签序列的概率，并乘以步骤六中由单词序列生成任意标签序列的概率，得到考虑噪声信道情况下由单词序列生成自标注标签序列的概率；

步骤九、使用步骤一中有标注数据与步骤五中自标注数据共同训练步骤二、三、六、七中的整体模型。

本发明的有益效果为：

采用本发明，我们提出了一种基于自训练与噪声模型，在有标注数据与无标注数据上同时训练因果事件抽取模型的方法，该方法不依赖大量有标注数据，可以充分利用无标注数据中的信息进一步提升模型的效果。特别地，我们让模型自行对无标注数据进行标注，将这些数据用于训练，并使用噪声条件随机场建模这部分数据标签中的噪声。我们在中文、英文两个因果事件抽取数据集上进行了评估。实验结果表明，我们的方法在有标注数据较少时，可以取得比很强的基线方法更优的结果。

1、在中文因果事件抽取任务上，我们采用9687条有标注的数据与大量无标注数据进行训练，并在2768条数据上进行测试，我们的方法原因事件抽取的F1值达到了92.58，结果事件抽取的F1值达到了93.96，因果触发词抽取的F1值达到了94.40，三种指标的micro-F1值达到了93.62，比只使用有标注数据的基线方法提升了0.55。该任务上，基线方法的性能较高，而我们的方法仍能带来提升，表明无标注数据中蕴涵着大量有助于提升模型性能的信息。

2、在英文因果事件抽取任务上，我们采用1960条有标注的数据与大量无标注数据进行训练，并在560条数据上进行测试，我们的方法原因事件抽取的F1值达到了83.04，结果事件抽取的F1值达到了76.11，两种指标的micro-F1值达到了79.58，比只使用有标注数据的基线方法提升了1.63。该任务上的有标注数据更少，待标注文本平均长度更长，难度明显高于中文数据集，而我们的方法也取得了更大的提升，表明在标注数据匮乏的情况下，我们的方法能有效地从无标注数据中学习到有用的信息，提升模型的效果。

3、序列标注模型通常先使用一个文本编码器为单词生成向量表示，再使用一个输出层模型由向量表示解码出标签序列。我们采用条件随机场模型作为输出层，并与另一种常用的输出层模型Softmax输出层进行了对比。仅用有标注数据训练时，中文上条件随机场比Softmax输出层的micro-F1值低0.09，英文上低0.56；但使用我们的方法，加入无标注数据与噪声模型训练后，中文上条件随机场比Softmax输出层的micro-F1值高0.33，英文上高0.67，同时我们观察加入无标注数据前后条件随机场的转移矩阵，发现合理的标签转移概率变高了，不合理的标签转移概率降低了，表明条件随机场这一输出层模型更能够从无标注数据中学习到更多知识，我们的方法采用条件随机场模型是十分有效的。

附图说明

图1为本发明流程图。

具体实施方式

具体实施方式一：本实施方式一种基于自训练与噪声模型的因果事件抽取方法具体过程为：

步骤一、收集少量已标注的目标领域文本，或对目标领域的少量无标注文本进行标注，标注出因果事件对，标注时，采用序列标注任务的标注方法，为文本中为每个单词标记一个标签，表示该单词属于原因事件、结果事件或其他成分；

步骤二、先用已有的分词工具对步骤一中有标注文本进行分词，使用一种神经网络结构，例如基于自注意力机制的预训练语言模型，为分词后有标注文本中的单词计算一个向量表示；

步骤四、利用步骤一中已标注的目标领域文本或对目标领域的少量无标注文本进行标注的文本数据训练步骤三中的条件随机场模型，并对步骤二中的模型进行微调；

整体是一起训练的，不是每个部分单独训练的，因为收敛的判断条件是训练目标数值是否继续下降，这个训练目标需要所有模型共同计算，所以是模型整体一起开始训练，一起结束；

(使用一种神经网络结构，例如基于自注意力机制的预训练语言模型，为分词后无标注文本中的每个单词计算一个向量)，并使用步骤四中训练好的的条件随机场模型计算单词序列生成每个可能的标签序列的概率；

步骤七、使用全连接神经网络，由步骤六中单词的向量表示计算自标注文本中每个单词的噪声矩阵，

步骤九、使用步骤一中少量有标注数据与步骤五中大量自标注数据共同训练步骤二、三、六、七中的整体模型。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤一中序列标注任务的标注方法为采用BIO或BIOES等标注规范，例如“货币/超发/导致/了/房价/的/快速/上涨”在BIO标注规范下的标签为“B-cause/I-cause/O/O/B-effect/I-effect/I-effect/I-effect”，其中B-cause表示原因的开始，I-cause表示原因的中间，B-effect表示结果的开始，I-effect表示结果的中间，O表示不属于原因、结果的其他文本。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是：所述步骤二中先用已有的分词工具对步骤一中有标注文本进行分词，使用一种神经网络结构，例如基于自注意力机制的预训练语言模型，为分词后有标注文本中的单词计算一个向量表示；具体过程为：

从预训练的词向量矩阵中查找到分词后有标注文本中的每个单词对应的词向量，并将分词后有标注文本中的每个单词对应的词向量(每个单词对应的词向量是预训练的向量矩阵中的一行)输入一个神经网络得到每个单词融合上下文信息的向量表示；

所述神经网络为循环神经网络、长短时记忆网络或基于自注意力机制的神经网络；

这里的神经网络形式不是固定的，其可以是循环神经网络或基于自注意力机制的神经网络等任何可输出融合上下文信息的单词向量表示的算法。

具体过程为：

先用已有的分词工具对步骤一中有标注文本进行分词，对于步骤一中有标注文本进行分词后的具有n个单词{w₁,...,w_i,…,w_n}的文本s，从预训练的词向量矩阵中查找到分词后有标注文本中的每个单词对应的词向量{e₁,...,e_i,...e_n}，之后，使用深度神经网络计算出每个单词考虑上下文信息的向量表示{h₁,...,h_i,...h_n}，其中h_n＝F(e₁,...,e_i,...e_n)，函数F为BERT深度神经网络结构。

受到基于自注意力机制的大规模预训练语言模型在各项自然语言处理任务上的成功启发，我们建议使用基于自注意力机制的预训练语言模型，例如BERT，计算每个单词融合上下文信息的向量表示。具体地，对于具有n个单词{w₁,w₂,...w_n}的文本s，我们从词向量矩阵中查找到它们对应的单词向量{e₁,e₂,...e_n}，之后，使用深度神经网络计算出每个单词考虑上下文信息的向量表示{h₁,h₂,...h_n}，其中h_n＝F(e₁,e₂,...e_n)，函数F可以是循环神经网络、长短时记忆网络或BERT等深度神经网络结构。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述步骤三中使用条件随机场模型，由步骤二中的向量表示计算出概率最大的标签序列；具体过程为：

步骤三一、使用一个全连接神经网络计算出由单词w_i生成正确标签j_i(步骤一中已有的或标注的)的未归一化对数概率

logP(j_i|w_i)＝w′h_i+b₁

其中，w′为全连接神经网络的权重，b₁为全连接神经网络的偏置，正确标签序列j＝{j₁,...,j_i,...,j_n}；

实际上不仅可以计算单词生成正确标签的概率，也可以计算单词生成其他错误标签的概率，步骤三中只用到了生成正确标签的概率，后面还用到了生成其他标签的概率；这个“生成”是为了显示标签对于单词的依赖关系，意思就是“输出某单词的情况下，输出某个标签时的概率”；

单词是输入，标签是输出，比如输入一个单词A，我可以计算生成(输出)标签1的概率，也可以计算生成标签2、标签3的概率，步骤三里要计算的是生成正确的那个标签的概率；

步骤三二、用一个转移矩阵T¹建模标签间的转移概率，即正确标签j_i转移到正确标签j_i-1的未归一化对数概率为

求转移概率就是在步骤三二那个矩阵里取一个元素；比如标签一共有三个类别：标签1,标签2,标签3，那这个转移矩阵是一个3x3的矩阵，假设为：

A B C

D E F

G H I

A就是标签1转移到标签1的概率

B就是标签1转移到标签2的概率

……

G是标签3转移到标签1

I是标签3转移到标签3

步骤三三、以单词w_i生成正确标签j_i的未归一化对数概率logP(j_i|w_i)作为条件随机场模型的发射势，以正确标签j_i转移到正确标签j_i-1的未归一化对数概率为

作为条件随机场模型的转移势，则对一个正确标签序列{j₁,,...,j_i,...,j_n}，由条件随机场模型计算出的生成该正确标签序列的未归一化对数概率为

式中，

为标签j_i-1转移到标签j_i的未归一化对数概率。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是：所述步骤四中利用步骤一中已标注的目标领域文本或对目标领域的少量无标注文本进行标注的文本数据训练步骤三中的条件随机场模型，并对步骤二中的模型进行微调；具体过程为：

使用最小化正确标签序列{j₁,...,j_i,...,j_n}的负对数似然

作为训练目标，该训练目标可通过前向-后向算法高效地地计算，基于L₁值并采用梯度下降与反向传播算法对步骤二中的预训练词向量矩阵、神经网络模型、以及步骤三中的条件随机场模型的整体进行训练，直至模型收敛，得到训练好的步骤二中的预训练词向量矩阵、神经网络模型，以及步骤三中的条件随机场模型的整体；

所述

为所有可能标签序列。

训练到前面提出的训练目标数值不再减小为止，或用更常用的说法“训练至模型收敛为止”；

采用上述训练方法同时训练步骤三和步骤二中的模型，因为步骤二中的模型经过预训练，对预训练过的模型继续进行训练一般称为“微调”，只是另一种说法而已，实际上和训练步骤三中的模型是一样的)。

整体是一起训练的，不是每个部分单独训练的，因为收敛的判断条件是训练目标数值是否继续下降，这个训练目标需要所有模型共同计算，所以是模型整体一起开始训练，一起结束。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是：所述步骤六中对步骤五中自标注文本分词后的单词序列，使用步骤四中训练好的词向量矩阵、神经网络模型为每个单词w_i计算一个向量表示

(使用一种神经网络结构，例如基于自注意力机制的预训练语言模型，为分词后无标注文本中的每个单词计算一个向量)，并使用步骤四中训练好的的条件随机场模型计算单词序列生成每个可能的标签序列的概率，具体过程为：

对步骤五中分词后的单词序列，使用步骤四中训练好的词向量矩阵、神经网络模型为每个单词w_i计算一个向量表示

(使用一种神经网络结构，例如基于自注意力机制的预训练语言模型，为分词后无标注文本中的每个单词计算一个向量)；

对于每个可能的标签序列

使用步骤四中训练好的条件随机场模型计算单词序列{w₁,...,w_i,...,w_n}生成该标签序列的未归一化对数概率

此处所述步骤二、步骤三中的模型均已在步骤四中训练过。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是：所述步骤七中使用全连接神经网络，由步骤六中单词的向量表示计算自标注文本中每个单词的噪声矩阵，具体过程为：

使用全连接神经网络，由步骤六中计算的无标注文本中的每个单词w_i的向量

计算出自标注文本中每一个单词的噪声矩阵

其中，w″为全连接神经网络的权重，b₂为全连接神经网络的偏置；

该矩阵

行

列的元素

表示该单词的位置上，步骤六中条件随机场输出的标签

经过噪声信道变为自标注标签

的概率。

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：本实施方式与具体实施方式一至七之一不同的是：所述步骤八中使用另一个条件随机场计算任意标签序列经过噪声信道得到自标注标签序列的概率，并乘以步骤六中由单词序列生成任意标签序列的概率，得到考虑噪声信道情况下由单词序列生成自标注标签序列的概率，具体过程为：

用一个转移矩阵T²建模经过噪声信道后相邻标签间的转移概率，即标签

转移到标签

的未归一化对数概率

以任意标签

经过噪声信道得到自标注标签

的概率

作为条件随机场的发射势，经过噪声信道后相邻标签

间的转移概率

作为条件随机场的转移势，计算出任意标签序列经过噪声信道得到自标注标签序列的未归一化对数概率：

将步骤六中计算的由单词序列生成任意标签序列的未归一化对数概率，与该步骤计算的任意标签序列经过噪声信道得到自标注标签序列的未归一化对数概率相加，并对所有可能的标签序列求和，得到考虑噪声信道的情况下由单词序列生成自标注标签序列的未归一化对数概率：

其它步骤及参数与具体实施方式一至七之一相同。

具体实施方式九：本实施方式与具体实施方式一至八之一不同的是：所述步骤九中使用步骤一中少量有标注数据与步骤五中大量自标注数据共同训练步骤二、三、六、七中的整体模型，具体过程为：

使用步骤一中的少量有标注数据，训练步骤三中的条件随机场模型，并对步骤二中的预训练词向量矩阵、神经网络模型进行微调，训练目标L₁的计算方法同步骤四；

使用步骤五中的大量自标注数据，训练步骤三与步骤七中的两个条件随机场模型和步骤六中全连接神经网络，并对步骤二中的预训练词向量矩阵、神经网络模型进行微调，训练目标为最小化自标注标签序列考虑噪声信道的负对数似然：

该训练目标仍然可通过前向-后向算法高效地计算。

基于L₁与L₂值，采用梯度下降与反向传播算法对步骤二、步骤三、步骤六、步骤七中的模型的整体进行训练，直至模型收敛。

其它步骤及参数与具体实施方式一至八之一相同。

具体实施方式十：本实施方式与具体实施方式一至九之一不同的是：所述步骤九中直到模型收敛中的模型为步骤二中的预训练词向量矩阵、神经网络模型，步骤三中的条件随机场模型，步骤六中的全连接神经网络模型，以及步骤七中的另一个条件随机场模型合在一起的模型。

其它步骤及参数与具体实施方式一至九之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

本实施例给定中文金融领域的句子，任务的目的是抽取出句子中包含的原因事件、结果事件及因果触发词，具体是按照以下步骤制备的：

步骤一、收集并标注中文金融领域的文本，用于训练及验证模型；

我们收集了来自腾讯、网易、和讯等十余个网站金融领域的新闻，从中抽取了13989个的句子，标注其中的原因事件、结果事件与因果触发词，并随机划分为9687条数据的训练集，1384条数据的开发集与2768条数据的测试集。

另外，从中筛选了400000余条未标注的文本，用来进行基于自训练的实验。

步骤二、设定基线方法，通过与不同的模型结构与训练方法进行对比，评价了该方法的有效性；

第一类基线方法为不使用自训练的序列标注模型。具体地，我们使用BERT模型为每个单词计算融合上下文信息的向量表示，并实验了Softmax输出层与条件随机场两种从向量表示解码出标签序列的方法。仅使用用标注数据训练以上模型，分别记为BERT与BERT+CRF方法。

第二类基线方法为使用自训练但不考虑噪声的序列标注模型。对于第一类基线方法中的两种模型，将其同时在有标注数据与自标注数据上进行训练。在自标注数据上训练时，直接将自标注标签作为真实标签。将这两种方法记为

与

方法。

第三类基线方法为使用自训练，并考虑自标注数据中噪声的序列标注模型。我们考虑了三种建模噪声的方法：

(1)使用一个独立于单词的噪声矩阵建模噪声，记为NLNN；

(2)使用全连接神经网络，由每个单词的向量计算出专属于该单词的噪声矩阵，记为NLNN-Adapt；

(3)使用循环神经网络，由每个单词的向量及其上下文中单词的向量计算出专属于该单词的噪声矩阵，记为NLNN-Adapt-RNN；

对于Softmax输出层，我们将结合上述三种噪声模型的方法分别记为BERT+NLNN，BERT+NLNN-Adapt，BERT+NLNN-Adapt-RNN；对于条件随机场输出层，我们将结合上述三种噪声模型的方法分别记为BERT+NLCRF，BERT+NLCRF-Adapt，BERT+NLCRF-Adapt-RNN。

其中，BERT+NLCRF-Adapt是我们所提出的方法。

评价方案：我们分别评价原因事件、结果事件、因果触发词三种短语类型的F1值。对于每种短语类型，设抽取正确的短语数为TP，抽取错误的短语数为FP，未抽取出的短语数为FN，则F1值的计算方法如下：

另外，我们还计算了三种短语类型的micro-F1值，micro-F1值将三种短语类型合在一起统计TP、FP与FN，而不是分开统计。

我们在开发集上调整每种方法的超参数，并报告在测试集上的实验结果。对于每种方法，我们选取5个不同的随机种子进行实验，并报告5个随机种子上的平均实验结果，以平衡测试数据较少带来的结果波动。

测试集上的最终实验结果显示在表1中。

表1中文因果事件抽取的实验结果

最佳结果以粗体显示；

对比使用自训练的方法与不使用自训练的方法(

与BERT，

与BERT+CRF)，可以看出加入自训练后结果均有提升，表明自训练确实利用无标注数据中的信息为模型带来提升。

对比使用Softmax输出层与条件随机场的方法，可以看出不使用自训练时，条件随机场的结果低于Softmax输出层；但加入自训练后，使用条件随机场的方法取得了最好的结果，表明条件随机场能够从自训练过程中学习更多的有效信息。

对比各种噪声模型，可以看出使用全连接神经网络为每个单词单独计算噪声矩阵的方法(NLCRF-Adapt)取得了优于其他方法的结果。最终，我们结合自训练、条件随机场以及全连接网络噪声模型的方法取得了最好的结果，对比不使用自训练的方法在micro-F1上取得了0.55的提升，表明我们的方法确实可以充分利用大量无标注数据中的信息提升因果事件抽取的效果。

实施例二：

本实施例给定英文开放域的句子，任务的目的是抽取出句子中包含的原因事件及结果事件，具体是按照以下步骤制备的：

步骤一、收集英文标注了原因、结果事件对的文本及大量无标注文本，用于训练及验证模型；

我们从Penn Discourse Tree Bank(Bonnie Webber,Rashmi Prasad,Alan Lee,and Aravind Joshi.2019.The penn discourse treebank 3.0annotation manual.)与BECauSE 2.0(Jesse Dunietz,Lori Levin,and Jaime Carbonell.2017b.The becausecorpus 2.0:Annotating causality and overlapping relations.In Proceedings ofthe 11th 883 Linguistic Annotation Workshop,pages 95–104.)两个数据集中筛选了包含因果关系、原因和结果在一段相对较短的文本内、且原因与结果短语都是语义较明确的事件的样例，共得到2800条数据，将其划分为训练集1960条，开发集280条，测试集560条。

另外，我们还从Common Crawl(Christian Buck,Kenneth Heafield,and Bas vanOoyen.2014.N-gram counts and language models from the common crawl.InProceedings of the Ninth Interna-tional Conference on Language Resources andEval-uation(LREC’14),pages 3579–3584,Reykjavik,Iceland.European LanguageResources Association(ELRA).)与New York Times Gigaword语料中筛选了400000余条未标注的文本，用来进行基于自训练的实验。

步骤二、设定基线方法，通过与不同的模型结构与训练方法进行对比，评价了该方法的有效性。

本实施例中基线方法的设置同实施例一。

评价方案：我们评价原因事件、结果事件两种短语类型的F1值，以及它们的micro-F1值。具体评价方案同实施例一。

测试集上的最终实验结果显示在表2中。

表2英文因果事件抽取的实验结果

最佳结果以粗体显示；

本实施例中实验结果与实施例一一致，我们结合自训练、条件随机场以及全连接网络噪声模型的方法取得了最好的结果，对比不使用自训练的方法在micro-F1上取得了1.63的提升，比实施例一中的提升更大，表明在有标注数据越稀缺时，我们的方法越能够取得更显著的提升。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于自训练与噪声模型的因果事件抽取方法，其特征在于：所述方法具体过程为：

2.根据权利要求1所述一种基于自训练与噪声模型的因果事件抽取方法，其特征在于：所述步骤一中序列标注任务的标注方法为采用BIO或BIOES标注规范。

3.根据权利要求1或2所述一种基于自训练与噪声模型的因果事件抽取方法，其特征在于：所述步骤二中先用已有的分词工具对步骤一中有标注文本进行分词，使用一种神经网络结构为分词后有标注文本中的单词计算一个向量表示；具体过程为：

从预训练的词向量矩阵中查找到分词后有标注文本中的每个单词对应的词向量，并将分词后有标注文本中的每个单词对应的词向量输入一个神经网络得到每个单词融合上下文信息的向量表示；

具体过程为：

先用已有的分词工具对步骤一中有标注文本进行分词，对于步骤一中有标注文本进行分词后的具有n个单词{w₁,...,w_i,...,w_n}的文本s，从预训练的词向量矩阵中查找到分词后有标注文本中的每个单词对应的词向量{e₁,...,e_i,...e_n}，之后，使用深度神经网络计算出每个单词考虑上下文信息的向量表示{h₁,...,h_i,...h_n}，其中h_n＝F(e₁,...,e_i,...e_n)，函数F为BERT深度神经网络结构。

4.根据权利要求3所述一种基于自训练与噪声模型的因果事件抽取方法，其特征在于：所述步骤三中使用条件随机场模型，由步骤二中的向量表示计算出概率最大的标签序列；具体过程为：

步骤三一、使用一个全连接神经网络计算出由单词w_i生成正确标签j_i的未归一化对数概率

logP(j_i|w_i)＝w′h_i+b₁

步骤三二、用一个转移矩阵T¹建模标签间的转移概率，即正确标签j_i转移到正确标签j_i-₁的未归一化对数概率为