CN114580428A

CN114580428A - 融合多任务和多标签学习的司法领域深度事件抽取方法

Info

Publication number: CN114580428A
Application number: CN202210078832.XA
Authority: CN
Inventors: 黄杨琛; 王立才; 郭前进; 李孟书; 李兴宇
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-06-03

Abstract

本发明公开了融合多任务和多标签学习的司法领域深度事件抽取方法，能够基于BERT预训练模型与multi‑task实现触发词提取与事件分类，在增强后的数据上通过多标签分类实现事件要素提取的司法领域事件抽取。目前针对司法领域文本特点，提出一种基于预训练模型BERT的事件抽取模型，通过masked LM方法在领域数据上对BERT进行调优，以学习到更适合领域知识的特征表示；将触发词提取和事件分类任务联合，以multi‑task的形式将两个任务统一到一个损失函数中，利用任务之间的相关性促进学习性能的提升；使用事件要素的start与end标注进行学习与预测，对于多个事件要素，分别设计对应的网络层进行抽取，减少不同要素之间的相互干扰。

Description

融合多任务和多标签学习的司法领域深度事件抽取方法

技术领域

本发明涉及事件抽取技术领域，具体涉及融合多任务和多标签学习的司法领域深度事件抽取方法。

背景技术

事件抽取是自然语言处理(Natural Language Processing,NLP)领域经典的信息抽取(Information Extraction,IE)任务，要求我们用人工或者自动的方法，从半结构化甚至非结构化的数据中，将与我们的目标相关的事件的重要要素识别出来。事件抽取任务中有五个比较重要的概念：事件描述(event mention)、事件类型(event type)、事件触发词(trigger)、事件要素(argument)和要素的角色(role)。事件描述指描述事件信息的短语或者句子。事件类型指事件的类型，如“盗窃事件”。事件触发词指标志某一事件发生的词语，一般是动词。事件要素指用以描述一个事件的时间、地点、人物等重要信息。事件要素角色则是事件要素在事件进行过程中的作用。从事件抽取的文本信息的角度，可以分为基于语句的事件抽取和基于文档的事件抽取。从事件抽取的模型的角度，事件抽取可以采用流水线结构模型或者联合模型。从事件抽取目标的角度，包含了基于特定schema的事件抽取和开放领域的事件抽取。近十年来，得益于图形计算单元(GPU)计算能力的快速提升，深度学习较机器学习在许多领域，如自动翻译、图像识别、自然语言处理等，取得了良好的效果。目前，在军事、金融、生物等领域已经有大量的应用实践，在传统机器学习方法的基础上大幅度提高了准确率。

目前，事件抽取领域的主要方法分为三大类：

第一类是基于模式匹配的事件抽取方法，模式匹配方法是在一些模式的指导下进行事件的识别和抽取。模式主要用于指明构成目标信息的上下文约束环境，集中体现了领域知识和语言知识的融合。抽取时输入事件文本，通过各种模式匹配算法(如正则表达式)找出符合模式约束条件的信息作为输出。

第二类是基于机器学习的事件抽取方法，通过人工提取相关特征，采用基于pipeline或者joint model的机器学习的方法识别事件，将事件类别及事件要素的识别转化成为分类问题。其中基于pipeline的方法将事件抽取任务转化为多阶段的分类问题，顺序执行多个分类器；基于joint model的方法将触发词识别和元素抽取联合学习，充分利用事件触发词和元素之间的关联关系，有效提升了模型的性能。

第三类是基于深度学习的事件抽取方法，通过词嵌入工具如word2vec、n-gram模型等得到文本对应的词嵌入信息，利用词向量嵌入信息，通过双向长短期记忆网络(Bi-LSTM)对文本的语义信息进行学习，在综合上下文内容的基础上得到特征表示，再通过条件随机场来加上约束条件，得到最后的事件抽取结果。

基于模式匹配的事件抽取方法中，由于模式主要是通过手工方法来建立的，所以这种方式费时费力，也要求用户具有较高的专业领域技能。基于模式匹配的方法在特定领域内可以取得比较好的效果，但是系统的可移植性差，从一个领域移植到另一个领域时，需要重新构建模式。而模式的构建费时费力，需要领域专家的指导。

基于机器学习的方法虽然不依赖于语料的内容与格式，但需要大规模的标注语料，否则会出现较为严重的数据稀疏问题。但现阶段的语料规模难以满足应用需求，且人工标注语料耗时耗力。常用的机器学习方法主要包括隐马尔可夫模型和条件随机场。隐马尔可夫模型适用于比较小的数据集，如果数据集比较复杂，其简单的特征函数就无法覆盖复杂数据集的特征。条件随机场比隐马尔可夫少了一个假设，限制条件减少导致条件随机场能比隐马尔可夫模型利用更多特征，如观测序列上下文信息，以及观测序列要素本身的特征。条件随机场模型能够利用上下文信息，所以比较适合中文的词性标注，其性能取决于特征选择，特征选择的好坏直接决定了模型性能的高低。

基于深度学习的方法，像RNN、LSTM、BILSTM这些模型，它们在序列建模上很强大，能够捕获长远的上下文信息，此外还具备神经网络拟合非线性的能力，这些都是条件随机场无法超越的地方，对于时刻来说，输出层受到隐层(包含上下文信息)和输入层(当前的输入)的影响，但是当前时刻输出层和其他时刻输出层的是相互独立的，对当前时刻来说，希望找到一个概率最大的输出，但其他时刻的输出对当前输出没有影响，如果之间存在较强的依赖关系的话(例如，形容词后面一般接名词，存在一定的约束)，LSTM无法对这些约束进行建模，LSTM模型的性能将受到限制。

目前针对司法领域的文本数据，尚未有一种可进行深度事件提取的方案。

发明内容

有鉴于此，本发明提供了融合多任务和多标签学习的司法领域深度事件抽取方法，能够基于BERT预训练模型与multi-task实现触发词提取与事件分类，在增强后的数据上通过多标签分类实现事件要素提取的司法领域事件抽取。

为达到上述目的，本发明的技术方案包括如下步骤：

步骤1：取司法领域数据进行人工标注，所标注的标签包括事件类型和事件元素，获得司法领域数据集。

步骤2：利用中文预训练语言模型BERT在司法领域数据集上，采用Masked LM语言学习模型进行网络调优，学习到适合司法领域知识的网络参数，从而得到司法领域BERT模型，利用所述司法领域BERT模型的输出为文本的语义信息。

步骤3：构建multi-task网络，所述multi-task网络采用所述司法领域BERT模型提取文本的语义信息作为输入，multi-task网络定义包含触发词起始位置预测、触发词结束位置预测以及事件类型预测三个任务共同定义的损失函数进行调优，multi-task网络的输出包括预测的事件类型、预测的触发词起始位置以及预测的触发词结束位置。

步骤4：根据事件类型确定事件要素，构建事件要素抽取模型，所述事件要素抽取模型以司法领域BERT模型提取的文本语义信息为输入，并为每一个事件要素学习专属的网络参数，在每个事件要素对应网络的最后一层，对每一个分词token分别预测是否属于当前事件要素的起始位置或者结束位置。

进一步地，利用所述司法领域数据集针对中文预训练语言模型BERT在司法领域数据集上，采用Masked LM语言学习模型进行网络调优，具体为：

在人工标注的司法领域数据集上使用Masked LM对BERT模型的参数进行调优，在训练时采用如下策略，随机选择句子中15％的单词进行Mask，在选择为Mask的单词中，有80％真的使用[Mask]进行替换，10％不进行替换，剩下10％使用一个随机单词替换。

进一步地，步骤2具体为：

司法领域事件集合E＝{E₁,…,E_N}，E₁～E_N为第1～第N个司法领域事件；司法领域事件对应的文本信息集合为S＝{S₁,…,S_N}，S₁～S_N分别为第1～第N个司法领域事件对应的文本信息；BERT模型中的epoch的最大值为Epoches，每个epoch的batch数为batch_per_epoch；BERT基础模型为Bert_base_chinese，每个句子的最大长度为max_len；

针对BERT模型中的所有的epoch，执行如下训练流程得到调优后的BERT模型参数：

针对epoch中的每个batch，执行S1～S4：

S1将输入句子补零或截取到长度为max_len，获取句子分词的索引I1；

S2随机选择句子中15％的单词进行Mask，在选择为Mask的单词中，有80％真的使用[Mask]进行替换，10％不进行替换，剩下10％使用一个随机单词替换；

S3获取Mask后的句子输入到BERT基础模型Bert_base_chinese中，获得特征向量，后接θ₀预测句子每个位置对应的分词的索引I2；

S4使用Adam优化器最小化I1与I2之间的差异，定义为第一损失函数L(θ,θ₀)；当验证集上的第一损失函数在一定epoch内不再下降时采取early stopping策略；

进一步地，第一损失函数L(θ,θ₀)定义如下：

其中，θ是BERT模型中的Encoder部分的参数，输入经过θ得到特征向量，θ₀是在Masked LM任务中，接在θ后面的参数，|V|是被mask的词所构成词典的大小；m_i表示被mask的词；p(m＝m_i|θ,θ₀)表示在给定所学习到的参数θ和θ₀的情况下，预测的词m就是被mask的词m_i的概率；

在所述训练流程中，在BERT模型的前两个epoch中，固定θ，以学习速率为lr＝5e^-4调整θ₀，在随后的epoch中，以lr＝1e^-5的学习速率同时调整θ和θ₀，直至达到停止条件。

进一步地，步骤3具体为：将司法数据文本进行分词化(tokenize)之后，获得每一个分词token的位置嵌入、段嵌入和词嵌入，将三个嵌入输入到调优后的司法领域BERT模型中，获得每一个分词的特征向量，即为文本的语义信息；

所述位置嵌入即该分词在输入文本中的位置；所述段嵌入即该分词为输入文本的所属段落；所述词嵌入即该分词在BERT的字典中的索引位置；

司法领域事件集合E＝{E₁,…,E_N}，E₁～E_N为第1～第N个司法领域事件；司法领域事件对应的文本信息集合为S＝{S₁,…,S_N}，S₁～S_N分别为第1～第N个司法领域事件对应的文本信息；司法领域事件对应的触发词集合为TR＝{Tr₁,…,Tr_N}与事件类型集合为TY＝{Ty₁,…,Ty_N}，Tr₁～Tr_N分别为第1～第N个司法领域事件对应的触发词，Ty₁～Ty_N分别为第1～第N个司法领域事件对应的事件类型；epoch的最大值为Epoches，每个epoch的batch数为batch_per_epoch。调优后的BERT模型Bert_fine_tune，每个句子的最大长度为max_len；

针对BERT模型中的所有的epoch，执行如下训练流程得到所学到的事件要素提取的模型参数：

针对epoch中的每个batch，执行SS1～SS4：

SS1.将输入句子补零或截取到长度为max_len，获取事件类型的one-hot编码，触发词起始位置和结束位置；

SS2.将句子输入到Bert_fine_tune中，获得特征向量

SS3.特征向量

后接θ₁预测事件类型的概率，后接θ₂预测触发词起始位置的概率，后接θ₃预测触发词结束位置的概率；

SS4.构建第二损失函数L_T(θ,θ₁,θ₂,θ₃)＝L₁(θ,θ₁)+L₂(θ,θ₂)+L₃(θ,θ₃)，使用Adam优化器最小化第二损失函数。

SS5.当验证集上的loss在一定epoch内不再下降时采取early stopping策略。

进一步地，第二损失函数定义如下：

L_T(θ,θ₁,θ₂,θ₃)＝L₁(θ,θ₁)+L₂(θ,θ₂)+L₃(θ,θ₃)

其中，θ是BERT模型中的Encoder部分的参数，L₁(θ,θ₁)、L₂(θ,θ₂)、L₃(θ,θ₃)分别对应事件类型预测任务相关的损失函数、触发词起始位置预测任务相关的损失函数以及触发词结束位置预测任务相关的损失函数

θ₁为事件类型预测任务对应的全连接层网络参数，Type为所输入事件类型的one-hot表示，是一个长度为M的向量，其中M为所有事件类型的个数，Type_i为Type的第i个元素。

是是模型预测的当前事件所属事件类型的概率，是一个长度为M的向量，

是当前事件类型被预测为第i个事件类型的概率。

其次，

θ₂为触发词起始位置预测任务对应的全连接层网络参数，L表示输入的最大长度，Start和

都是长度为L的向量，具体来说，Start是输入文本中触发词起始位置的one-hot表示，

是模型预测的当前输入各位置为触发词起始位置的概率。Start_i为向量Start中的第i个元素；

为向量

中的第i个元素。

最后，

θ₃为触发词结束位置预测任务对应的全连接层网络参数，L表示输入的最大长度，End和

都是长度为L的向量，具体来说，End是输入文本中触发词结束位置的one-hot表示，

是模型预测的当前输入各位置为触发词结束位置的概率。End_i为向量End_i中的第i个元素；

为向量

中的第i个元素。

进一步地，将司法数据文本进行分词化tokenize之后，获得每一个分词token的位置嵌入、段嵌入以及词嵌入；分词的位置嵌入即该分词在输入文本中的位置，分词的段嵌入即该分词为输入文本的所属段落，分词的词嵌入即该分词在BERT的字典中的索引位置，将三个嵌入输入到调优后得到的司法领域的BERT模型中，获得每一个分词的特征向量；

所述步骤4具体为：构建事件要素抽取模型，包括针对每一个事件要素分别构建两个专属预测网络，分别预测该事件要素的起始位置和结束位置；

其中预测起始位置的专属预测网络具体为：对于每一个事件要素，遍历所有分词，将对应分词经过调优后的BERT得到的特征向量输入到起始位置预测的全连接层中，映射为一个长度为2的低维向量，经过softmax预测当前分词是否为该事件要素的起始位置；预测结束位置的专属预测网络与预测起始位置的专属预测网络相同，用来预测每一个分词是否为对应事件要素的结束位置。

SSS1.将输入句子补零或截取到长度为max_len，获取事件元素列表和每一个事件元素的起始位置和结束位置；

SSS1.将句子输入到Bert_fine_tune中，获得特征向量

SSS1.特征向量

后接|R|个

和|R|个

分别预测每个事件要素的起始位置和结束位置；

SSS1.构建第三损失函数L＝L_s+L_e，使用Adam优化器最小化第三损失函数；

SSS1.当验证集上的loss在一定epoch内不再下降时采取early stopping策略。

进一步地，在底层使用调优后的司法领域BERT模型提取所输入事件E的特征向量，随后以如下的概率预测输入句子中的分词t是要素r的起始位置s的概率

其中，

为要素r的起始位置预测的全连接层网络参数；θ(E)为输入的事件E经过调优后的BERT所提取的特征向量。

并以如下的概率预测输入句子中的分词t是要素r的结束位置e的概率

其中，

为要素r的结束位置预测的全连接层网络参数；softmax为归一化指数函数；

对于事件要素提取的任务，第三损失函数定义如下：

L＝L_s+L_e

L_s为与起始位置相关的损失函数，具体如下：

其中，S是输入的句子，|S|是S中分词的数量，R是所有要素的集合，|R|是所有要素的个数，

是对应位置是否为要素r的起始位置s的二值化真值，

为对应位置是否为要素r的起始位置s的预测概率；CrossEntropy()为交叉熵函数。

同理，定义L_e如下：

其中，

是对应位置是否为要素r的结束位置e的二值化真值，

为对应位置是否为要素r的结束位置e的预测概率。

有益效果：

1、本发明提供了融合多任务和多标签学习的司法领域深度事件抽取方法，目前针对司法领域文本特点，提出一种基于预训练模型BERT的事件抽取模型，通过masked LM方法在领域数据上对BERT进行调优，以学习到更适合领域知识的特征表示；将触发词提取和事件分类任务联合，以multi-task的形式将两个任务统一到一个损失函数中，利用任务之间的相关性促进学习性能的提升；使用事件要素的start与end标注进行学习与预测，对于多个事件要素，分别设计对应的网络层进行抽取，减少不同要素之间的相互干扰。

2、本发明提供的使用基于预训练语言模型调优的深度学习方法，不需要手工进行特征模式的构建，节省了大量人力。BERT模型能够提取词级别和句子级别的特征，通过对语义向量进行更好的特征提取以带来更好的性能，在司法领域数据上的调优，提高了语言模型对司法领域数据的适应性与低维特征表示的准确度；联合学习触发词识别和事件类型分类这两个紧密相关的任务，利用任务之间的相关性促进学习性能的提升；以多标签分类问题的形式，对于事件的多个要素，分别设计对应的网络层进行抽取，减少不同要素之间的相互干扰，尤其是当两个要素的内容之间有重叠的情况；通过在输入数据中引入[NAT]，有效解决基于schema的事件抽取任务中，部分事件要素的角色为空(不存在)的情况，同时将不同事件类型的schema合并，每次抽取所有事件要素的合集，实现数据增强。综合以上四个方面的改进，实现了模型性能的提升，在司法领域数据上得到应用。

3、本发明提供了融合多任务和多标签学习的司法领域深度事件抽取方法，将基于BERT预训练模型与multi-task实现触发词提取与事件分类，联合学习触发词识别和事件类型分类这两个紧密相关的任务，利用任务之间的相关性促进学习性能的提升，同时还可以类似于正则化的形式缓解模型的过拟合，提高模型的泛化能力。

4、本发明提供了融合多任务和多标签学习的司法领域深度事件抽取方法，以多标签分类问题的形式，对于事件的多个要素，分别设计对应的网络层进行抽取，减少不同要素之间的相互干扰，尤其是当两个要素的内容之间有重叠的情况。通过分别预测事件要素的起始位置和结束位置，避免了使用传统BIO策略中需要额外的约束条件如“B”后面一定是“I”不是“B”和求解解码过程，真正实现端到端的学习。

5、本发明提供了融合多任务和多标签学习的司法领域深度事件抽取方法，通过在输入数据中引入[NAT](代表非文本信息，无内容)，有效解决基于schema的事件抽取任务中，部分事件要素的角色为空(不存在)的情况；同时，该方法可以将不同事件类型的schema合并，每次抽取所有事件要素的合集，在充分扩大有限数据集的情况下，还可以将[NAT]作为“负样本”，平衡数据分布，提升模型效果。

附图说明

图1为BERT预训练与微调结构图；

图2为Input embedding示意图；

图3为BERT预训练任务过程示意图；

图4为BERT预训练阶段Mask LM任务示意图；

图5为硬共享机制示意图；

图6为软共享机制示意图；

图7为基于BERT和Masked LM的领域数据调优示意图；

图8为基于BERT和multi-task的事件触发词提取流程图；

图9为基于BERT和多标签分类任务的事件要素抽取流程图；

图10为数据增强示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

一种基于BERT预训练模型与multi-task实现触发词提取与事件分类，和在增强后的数据上通过多标签分类实现事件要素提取的司法领域事件抽取技术。

本发明应用了BERT预训练模型、multi-task以及多标签分类技术，其原理如下：

BERT预训练模型：BERT模型出自论文《BERT:Pre-training of DeepBidirectional Transformers for Language Understanding》，是一种动态词向量技术，与传统的静态词向量不同，动态词向量可以根据具体的前后文信息，动态生成词向量。该模型采用双向Transformer，通过对无标记数据集进行训练，综合考虑前后文特征信息，进一步提升词向量的泛化能力。模型通过Masked LM和Next Sentence Prediction两种方法充分描述字符级、词级、句子级甚至句间的关系特征，获取更为充分的语义信息，能够更好的解决一词多义等现象。拟采取使用中文预训练语言模型BERT在司法领域数据上，以MaskedLM语言学习模型进行网络调优，以学习到更适合领域知识的网络参数，为后续处理提供与文字相对应的特征表示。本发明所针对的司法领域数据包括裁判文书。

结构：BERT模型主要利用了Transformer的Encoder结构，采用的是最原始的Transformer，但是模型结构比Transformer要深。Transformer Encoder包含6个Encoderblock，BERT-base模型包含12个Encoder block，BERT-large包含24个Encoder block。

训练：训练主要分为两个阶段：预训练阶段和Fine-tuning阶段。预训练阶段在大型数据集上根据一些预训练任务训练得到。Fine-tuning阶段是后续用于一些下游任务的时候进行微调，例如文本分类，词性标注，问答系统等，BERT无需调整结构就可以在不同的任务上进行微调。

预训练任务1：BERT的第一个预训练任务是Masked LM，在句子中随机遮盖一部分单词(也称为分词，token)，然后同时利用上下文的信息预测遮盖的单词，这样可以更好地根据全文理解单词的意思。Masked LM是BERT的重点。

预训练任务2：BERT的第二个预训练任务是Next Sentence Prediction(NSP)，下一句预测任务，这个任务主要是让模型能够更好地理解句子间的关系。

(1)BERT结构如图1所示，图1中，左侧的图表示了预训练的过程，右边的图是对于具体任务的微调过程。

BERT的输入可以包含一个句子对(句子A和句子B)，也可以是单个句子。同时BERT增加了一些有特殊作用的标志位：[CLS]标志放在第一个句子的首位，经过BERT得到的的表征向量C可以用于后续的分类任务。[SEP]标志用于分开两个输入句子，例如输入句子A和B，要在句子A，B后面增加[SEP]标志。[MASK]标志用于遮盖句子中的一些单词，将单词用[MASK]遮盖之后，再利用BERT输出的[MASK]向量预测单词是什么。例如给定两个句子"mydog is cute"和"he likes palying"作为输入样本，BERT会转为"[CLS]my dog is cute[SEP]he likes play##ing[SEP]"。BERT里面用了WordPiece方法，会将单词拆成子词单元(SubWord)，所以有的词会拆出词根，例如"palying"会变成"paly"+"##ing"。

BERT得到要输入的句子后，要将句子的单词转成Embedding，Embedding用E表示。与Transformer不同，BERT的输入Embedding由三个部分相加得到：Token Embedding，Segment Embedding，Position Embedding。

图2为Input embedding示意图。

Token Embedding：单词的Embedding，例如[CLS]dog等，通过训练学习得到。

Segment Embedding：用于区分每一个单词属于句子A还是句子B，如果只输入一个句子就只使用EA，通过训练学习得到。

Position Embedding：编码单词出现的位置，与Transformer使用固定的公式计算不同，BERT的Position Embedding也是通过学习得到的，在BERT中，假设句子最长为512。

(2)训练：

BERT输入句子中单词的Embedding之后，通过预训练方式训练模型，预训练有两个任务。

第一个是Masked LM，在句子中随机用[MASK]替换一部分单词，然后将句子传入BERT中编码每一个单词的信息，最终用[MASK]的编码信息T[MASK]预测该位置的正确单词。

第二个是下一句预测，将句子A和B输入BERT，预测B是否A的下一句，使用[CLS]的编码信息C进行预测。

BERT预训练的过程可以用图3来表示。

预训练得到的BERT模型可以在后续用于具体NLP任务的时候进行微调(Fine-tuning阶段)，BERT模型可以适用于多种不同的NLP任务。

(3)Masked LM

在预测单词时，要同时利用单词left(上文)和right(下文)信息才能最好地预测。将ELMo这种分别进行left-to-right和right-to-left的模型称为shallow bidirectionalmodel(浅层双向模型)，BERT希望在Transformer Encoder结构上训练出一种深度双向模型deep bidirectional model，因此提出了Mask LM这种方法进行训练。

Mask LM是用于防止信息泄露的，例如预测单词"自然"的时候，如果不把输入部分的"自然"Mask掉，则预测输出的地方是可以直接获得"自然"的信息。图4为BERT预训练阶段Mask LM任务示意图。

BERT在训练时只预测[Mask]位置的单词，这样就可以同时利用上下文信息。但是在后续使用的时候，句子中并不会出现[Mask]的单词，这样会影响模型的性能。因此在训练时采用如下策略，随机选择句子中15％的单词进行Mask，在选择为Mask的单词中，有80％真的使用[Mask]进行替换，10％不进行替换，剩下10％使用一个随机单词替换。

例如句子“我喜欢自然语言处理”，选择了词“自然”进行Mask，则：80％的概率，将句子“我喜欢自然语言处理”转换为句子“我喜欢[Mask]语言处理”；10％的概率，保持句子为“我喜欢自然语言处理”不变；10％的概率，将词“自然”替换成另一个随机词，例如“英语”，将句子“我喜欢自然语言处理”转换为句子“我喜欢英语语言处理”。以上是BERT的第一个预训练任务Masked LM。

(4)Next Sentence Prediction(NSP)

BERT的第二个预训练任务是Next Sentence Prediction(NSP)，即下一句预测，给定两个句子A和B，要预测句子B是否是句子A的下一个句子。

BERT使用这一预训练任务的主要原因是，很多下游任务，例如问答系统(QA)，自然语言推断(NLI)都需要模型能够理解两个句子之间的关系，但是通过训练语言模型达不到这个目的。

BERT在进行训练的时候，有50％的概率会选择相连的两个句子A、B，有50％的概率会选择不相连得到两个句子A、B，然后通过[CLS]标志位的输出C预测句子A的下一句是不是句子B。

multi-task学习

多任务学习(Multi-task learning)是和单任务学习(single-task learning)相对的一种机器学习方法。顾名思义，多任务学习是一种同时学习多个任务的机器学习方法，多任务学习同时学习了人类和狗的分类器以及男性和女性的性别分类器。

在机器学习领域，标准的算法理论是一次学习一个任务。而复杂的学习问题先被分解成理论上独立的子问题，然后分别对每个子问题进行学习，最后通过对子问题学习结果的组合建立复杂问题的数学模型。多任务学习是一种联合学习，多个任务并行学习，结果相互影响。

多任务学习有很多形式，如联合学习(Joint Learning)，自主学习(Learning toLearn)，借助辅助任务学习(Learning with Auxiliary Tasks)等，这些只是其中一些别名。概括来讲，一旦发现正在优化多于一个的目标函数，就可以通过多任务学习来有效求解。

与标准的单任务相比，在学习共享表示的同时训练多个任务有两个主要挑战：

损失函数(如何平衡不同的任务)：多任务学习的损失函数，对每个任务的损失进行权重分配，在这个过程中，必须保证所有任务同等重要，而不能让简单任务主导整个训练过程。手动的设置权重是低效而且不是最优的，因此，自动的学习这些权重或者设计一个对所有权重具有鲁棒性的网络是十分必要和重要的。

网络结构(如何实现网络参数共享)：一个高效的多任务网络结构，必须同时兼顾特征共享部分和任务特定部分，既需要学习任务间的泛化表示(避免过拟合)，也需要学习每个任务独有的特征(避免欠拟合)。在基于深度神经网络的多任务学习中常用两种方法：隐层参数的硬共享与软共享。

(1)参数的硬共享机制：如图5所示，参数的硬共享机制是神经网络的多任务学习中最常见的一种方式，一般来讲，它可以应用到所有任务的所有隐层上，而保留任务相关的输出层。硬共享机制降低了过拟合的风险，直观来将，这一点是非常有意义的。越多任务同时学习，模型就能捕捉到越多任务的同一个表示，从而使得原始任务上的过拟合风险越小。

(2)参数的软共享机制：如图6所示，软共享机制中每个任务都由自己的模型，自己的参数，通过对模型参数的距离进行正则化来保障参数的相似，如L2距离正则化，迹正则化(trace norm)等。用于深度神经网络中的软共享机制的约束很大程度上是受传统多任务学习中正则化技术的影响。

多标签分类学习

首先需要指出，多标签(multi-label)和多分类(multi-class)是不同的。multi-class是相对于binary二分类来说的，意思是需要分类的东西不止有两个类别，可能是3个类别取一个(如iris分类)，或者是10个类别取一个(如手写数字识别mnist)。而multi-label是更加普适的一种情况了，一个样本的标签可能不只有1个，图片的标签可以同时包含人和狗。在我们的应用中，多分类指的是一个司法事件中的实体需要划分到时间、地点、受害人等类别中，同时相同的描述“以非法占有为目的，多次窃取公私财物，数额较大”既可以是犯罪行为也可以是犯罪情节，即同样的文字描述可能会存在多个标签。

依据解决问题的角度，多标签分类算法可以分为两大类:一是基于问题转化的方法，二是基于算法适用的方法。基于问题转化的方法是转化问题数据，使之使用现有算法；基于算法适用的方法是指针对某一特定的算法进行扩展，从而能够处理多标记数据，改进算法，适用数据。

从策略上看，多标签分类主要的策略大致可以分为三类：一阶策略:考虑的是标签之间相互独立，那么就可以把多标签问题转换为多个普通的分类问题。二阶策略:这一类是考虑标签之间的两两相关性，结果会导致计算复杂度有显著的增加。高阶策略:这个就是考虑多标签之间的相关性，计算复杂度会更高。在本工作中，不同的标签之间语义相关性较低，如作案地点和作案时间，因此使用一阶策略即可，把多标签问题转换为多个普通的分类问题。

虽然一个两层网络在理论上可以拟合所有的分布，但是并不容易学习得到。因此在实际中，我们通常会增加神经网络的深度和广度，从而让神经网络的学习能力增强，便于拟合训练数据的分布情况。在卷积神经网络中，有人实验得到，深度比广度更重要。然而随着神经网络的加深，需要学习的参数也会随之增加，这样就会更容易导致过拟合，当数据集较小的时候，过多的参数会拟合数据集的所有特点，而非数据之间的共性。那什么是过拟合呢，之前的博客有提到，指的就是神经网络可以高度拟合训练数据的分布情况，但是对于测试数据来说准确率很低，缺乏泛化能力。因此在这种情况下，为了防止过拟合现象，数据增强应运而生。

数据增强起初在计算机视觉领域应用较多，主要是运用各种技术生成新的训练样本，可以通过对图像的平移、旋转、压缩、调整色彩等方式创造新的数据。虽然，‘新’的样本在一定程度上改变了外观，但是样本的标签保持不变。且NLP中的数据是离散的，这导致无法对输入数据进行直接简单地转换，换掉一个词就有可能改变整个句子的含义。现有NLP的Data Augmentation大致有两条思路，一个是加噪，另一个是回译，均为有监督方法。加噪即为在原数据的基础上通过替换词、删除词等方式创造和原数据相类似的新数据。回译则是将原有数据翻译为其他语言再翻译回原语言，由于语言逻辑顺序等的不同，回译的方法也往往能够得到和原数据差别较大的新数据。

几种常用的加噪的文本增强技巧，分别是同义词替换(SR:Synonyms Replace)、随机插入(RI:Randomly Insert)、随机交换(RS:Randomly Swap)、随机删除(RD:RandomlyDelete)，下面进行简单的介绍：

(1)同义词替换(SR:Synonyms Replace)：不考虑stopwords，在句子中随机抽取n个词，然后从同义词词典中随机抽取同义词，并进行替换。

Eg:“我非常喜欢这部电影”—>“我非常喜欢这个影片”，句子仍具有相同的含义，很有可能具有相同的标签。

(2)随机插入(RI:Randomly Insert)：不考虑stopwords，随机抽取一个词，然后在该词的同义词集合中随机选择一个，插入原句子中的随机位置。该过程可以重复n次。

Eg:“我非常喜欢这部电影”—>“爱我非常喜欢这部影片”。

(3)随机交换(RS:Randomly Swap)：句子中，随机选择两个词，位置交换。该过程可以重复n次。

Eg:“如何评价2017知乎看山杯机器学习比赛？”—>“2017机器学习？如何比赛知乎评价看山杯”。

(4)随机删除(RD:Randomly Delete)：句子中的每个词，以概率p随机删除。

Eg:“如何评价2017知乎看山杯机器学习比赛？"—>“如何2017看山杯机器学习”。

本发明的技术方案包括如下四个步骤：

步骤2：基于BERT和Masked LM的领域数据调优：在人工标注的盗窃罪裁判文书数据集(数据集包含有事件类型-事件元素等标签体系数据)上上使用Masked LM对BERT的参数进行调优，在训练时采用如下策略，随机选择句子中15％的单词进行Mask，在选择为Mask的单词中，有80％真的使用[Mask]进行替换，10％不进行替换，剩下10％使用一个随机单词替换。生成包含了上下文信息的字向量，为后续处理提供与文字相对应的特征表示，流程图如图7。

其损失函数定义如下：

其中，θ是BERT中Encoder部分的参数，输入经过θ得到特征向量，θ₀是在Masked LM任务中，接在θ后面的参数，|V|是被mask的词所构成词典的大小。

在训练过程中，为了防止对BERT参数造成过大扰动，在前两个epoch中，固定θ，以lr＝5e^-4的学习速率调整θ₀，在随后的epoch中，以lr＝1e^-5的学习速率同时调整θ和θ₀，直至达到停止条件。使用Masked LM技术在司法领域数据上调优BERT的过程如算法1所示。

步骤3：基于BERT和multi-task的事件触发词提取：采取BERT模型提取文本的语义信息，将其作为输入，使用multi-task定义包含事件类型预测、触发词起始位置预测、触发词结束位置预测三个任务共同定义的损失函数进行调优。流程图如图8所示。

具体来说，将司法数据文本进行分词化(tokenize)之后，获得每一个分词(token)的位置嵌入(即该分词在输入文本中的位置)、段嵌入(即该分词为输入文本的第几段，本工作中默认为第一段，即0)和词嵌入(即该分词在BERT的字典中的索引位置)，将三个嵌入输入到调优后的BERT模型中，获得每一个分词的特征向量。随后，对于任务一，将得到的[CLS]所代表的特征向量(该向量代表的是文本总体语义信息)输入到全连接层中，使之映射为一个长度为事件类型个数的向量，后接softmax来预测事件类型(如图8中task 1预测当前事件类型为Type A的概率为0.7，则认为当前事件类型为Type A)；对于任务二，则将每一个分词经过调优后的BERT所得到的特征向量，后接一个全连接层，使之映射为一个长度为2的向量，后接softmax来预测对应的分词是否为事件触发词的起始位置(如图8中task 2认为“窃”字为“盗窃事件”的触发词“窃取”的起始位置)；对于任务三，则与任务二的网络设计相同，预测每一个位置的分词是否为事件触发词的结束位置(如图8中task 3认为“取”字为“盗窃事件”的触发词“窃取”的结束位置)。

其损失函数定义如下：

L_T(θ,θ₁,θ₂,θ₃)＝L₁(θ,θ₁)+L₂(θ,θ₂)+L₃(θ,θ₃)

其中，θ是BERT模型中的Encoder部分的参数，L₁(θ,θ₁)、L₂(θ,θ₂)、L₃(θ,θ₃)分别对应事件类型预测任务相关的损失函数、触发词起始位置预测任务相关的损失函数以及触发词结束位置预测任务相关的损失函数。

其中，θ定义如前所述，另外，

θ₁为事件类型预测任务对应的全连接层网络参数，Type为所输入事件类型的one-hot表示，是一个长度为M的向量，其中M为所有事件类型的个数，Type_i为Type的第i个元素；

是模型预测的当前事件所属事件类型的概率，是一个长度为M的向量，

是当前事件类型被预测为第i个事件类型的概率。

θ₁为任务一事件类型预测特异的全连接层网络参数，

定义如下：

N表示事件类型的个数，Type是所输入事件的类型的one-hot表示，

是模型预测的当前事件属于N个事件类型的概率。

其次，

是模型预测的当前输入各位置为触发词起始位置的概率；Start_i为向量Start中的第i个元素；

为向量

中的第i个元素。

θ₂为任务二触发词起始位置预测特异的全连接层网络参数，

定义如下：

L表示输入的最大长度，Start是输入文本中触发词起始位置的one-hot表示，

是模型预测的当前输入各位置为触发词起始位置的概率。

最后，

是模型预测的当前输入各位置为触发词结束位置的概率；End_i为向量End_i中的第i个元素；

为向量

中的第i个元素。

θ₃为任务三触发词起始位置预测特异的全连接层网络参数，

定义如下：

L表示输入的最大长度，End是输入文本中触发词结束位置的one-hot表示，

是模型预测的当前输入各位置为触发词结束位置的概率。基于多任务学习的触发词提取训练过程如算法2所示。

步骤4：基于BERT和多标签分类任务的事件要素抽取方法：采取BERT模型提取文本的语义信息，将其作为输入。给每一个事件要素学习专属的网络参数，在对应网络的最后一层，对每一个token分别预测是否属于当前事件要素的起始位置或者结束位置，流程图如图9所示。

具体来说，将司法数据文本进行分词化(tokenize)之后，获得每一个分词(token)的位置嵌入(即该分词在输入文本中的位置)、段嵌入(即该分词为输入文本的第几段，本工作中默认为第一段，即0)和词嵌入(即该分词在BERT的字典中的索引位置)，将三个嵌入输入到调优后的BERT模型中，获得每一个分词的特征向量。随后，给每一个事件要素训练两个专属预测网络，分别预测该事件要素的起始位置和结束位置。以预测起始位置的专属预测网络为例，对于每一个事件要素，遍历所有分词，将对应分词经过调优后的BERT得到的特征向量输入到起始位置预测的全连接层中，映射为一个长度为2的低维向量，经过softmax预测当前分词是否为该事件要素的起始位置。预测结束位置的专属预测网络与之相同，用来预测每一个分词是否为对应事件要素的结束位置。

每种事件类型对应不同的事件要素，例如盗窃事件，事件要素包括发生时间、地点、嫌疑人以及盗窃物品；访问事件包含的事件要素为：访问时间、离开时间、访问地点、访问方、被访问方等。

在底层使用调优后的BERT模型提取所输入事件E的特征向量，随后以如下的概率预测输入句子中的分词t是要素r的起始位置s的概率：

其中，

为要素r的起始位置预测的全连接层网络参数；

并以如下的概率预测输入句子中的分词t是要素r的结束位置e的概率：

其中，

为要素r的结束位置预测的全连接层网络参数。

对于事件要素提取的任务，其损失函数定义如下：

为与起始位置相关的损失函数，具体如下：

是对应位置是否为要素r的起始位置s的二值化真值，

为对应位置是否为要素r的起始位置s的预测概率。同理，可定义

如下：

基于多标签学习的事件要素提取模型学习流程如算法3所示。

在BERT的词典中引入[NAT](代表非文本信息，无内容)，并将输入数据(即前述司法数据文本进行分词化之后，获得的每一个分词的位置嵌入、段嵌入和词嵌入)的最后一位设置为[NAT]，有效解决基于schema的事件抽取任务中，部分事件要素的角色为空(不存在)的情况；同时，该方法可以将不同事件类型的schema合并，每次抽取所有事件要素的合集，在充分扩大有限数据集的情况下，还可以将[NAT]作为“负样本”，平衡数据分布。数据增强如图10所示，

(1)将基于BERT预训练模型与multi-task实现触发词提取与事件分类，联合学习触发词识别和事件类型分类这两个紧密相关的任务，利用任务之间的相关性促进学习性能的提升，同时还可以类似于正则化的形式缓解模型的过拟合，提高模型的泛化能力。

(2)以多标签分类问题的形式，对于事件的多个要素，分别设计对应的网络层进行抽取，减少不同要素之间的相互干扰，尤其是当两个要素的内容之间有重叠的情况。通过分别预测事件要素的起始位置和结束位置，避免了使用传统BIO策略中需要额外的约束条件如“B”后面一定是“I”不是“B”和求解解码过程，真正实现端到端的学习。

(3)通过在输入数据中引入[NAT](代表非文本信息，无内容)，有效解决基于schema的事件抽取任务中，部分事件要素的角色为空(不存在)的情况；同时，该方法可以将不同事件类型的schema合并，每次抽取所有事件要素的合集，在充分扩大有限数据集的情况下，还可以将[NAT]作为“负样本”，平衡数据分布，提升模型效果。

使用基于预训练语言模型调优的深度学习方法，不需要手工进行特征模式的构建，节省了大量人力。BERT模型能够提取词级别和句子级别的特征，通过对语义向量进行更好的特征提取以带来更好的性能，在司法领域数据上的调优，提高了语言模型对司法领域数据的适应性与低维特征表示的准确度；联合学习触发词识别和事件类型分类这两个紧密相关的任务，利用任务之间的相关性促进学习性能的提升；以多标签分类问题的形式，对于事件的多个要素，分别设计对应的网络层进行抽取，减少不同要素之间的相互干扰，尤其是当两个要素的内容之间有重叠的情况；通过在输入数据中引入[NAT]，有效解决基于schema的事件抽取任务中，部分事件要素的角色为空(不存在)的情况，同时将不同事件类型的schema合并，每次抽取所有事件要素的合集，实现数据增强。综合以上四个方面的改进，实现了模型性能的提升，在司法领域数据上得到应用。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合多任务学习和多标签学习的司法领域深度事件抽取方法，其特征在于，包括如下步骤

步骤1：取司法领域数据进行人工标注，所标注的标签包括事件类型和事件元素，获得司法领域数据集；

步骤2：利用中文预训练语言模型BERT在司法领域数据集上，采用Masked LM语言学习模型进行网络调优，学习到适合司法领域知识的网络参数，从而得到司法领域BERT模型，利用所述司法领域BERT模型的输出为文本的语义信息；

步骤3：构建multi-task网络，所述multi-task网络采用所述司法领域BERT模型提取文本的语义信息作为输入，multi-task网络定义包含触发词起始位置预测、触发词结束位置预测以及事件类型预测三个任务共同定义的损失函数进行调优，multi-task网络的输出包括预测的事件类型、预测的触发词起始位置以及预测的触发词结束位置；

2.如权利要求1所述的方法，其特征在于，所述利用所述司法领域数据集针对中文预训练语言模型BERT在司法领域数据集上，采用Masked LM语言学习模型进行网络调优，具体为：

3.如权利要求1所述的方法，其特征在于，所述步骤2具体为：

司法领域事件集合E＝{E₁，...，E_N}，E₁～E_N为第1～第N个司法领域事件；司法领域事件对应的文本信息集合为S＝{S₁，...，S_N}，S₁～S_N分别为第1～第N个司法领域事件对应的文本信息；BERT模型中的epoch的最大值为Epoches，每个epoch的batch数为batch_per_epoch；BERT基础模型为Bert_base_chinese，每个句子的最大长度为max_len；

针对epoch中的每个batch，执行S1～S4：

S4使用Adam优化器最小化I1与I2之间的差异，定义为第一损失函数L(θ，θ₀)；当验证集上的第一损失函数在一定epoch内不再下降时采取early stopping策略。

4.如权利要求3所述的方法，其特征在于，所述第一损失函数L(θ，θ₀)定义如下：

其中，θ是BERT模型中的Encoder部分的参数，输入经过θ得到特征向量，θ₀是在MaskedLM任务中，接在θ后面的参数，|V|是被mask的词所构成词典的大小；m_i表示被mask的词；p(m＝m_i|θ，θ₀)表示在给定所学习到的参数θ和θ₀的情况下，预测的词m就是被mask的词m_i的概率；

5.如权利要求3所述的方法，其特征在于，所述步骤3具体为：

将司法数据文本进行分词化(tokenize)之后，获得每一个分词token的位置嵌入、段嵌入和词嵌入，将三个嵌入输入到调优后的司法领域BERT模型中，获得每一个分词的特征向量，即为文本的语义信息；

司法领域事件集合E＝{E₁，...，E_N}，E₁～E_N为第1～第N个司法领域事件；司法领域事件对应的文本信息集合为S＝{S₁，...，S_N}，S₁～S_N分别为第1～第N个司法领域事件对应的文本信息；司法领域事件对应的触发词集合为TR＝{Tr₁，...，Tr_N}与事件类型集合为TY＝{Ty₁，...，Ty_N}，Tr₁～Tr_N分别为第1～第N个司法领域事件对应的触发词，Ty₁～Ty_N分别为第1～第N个司法领域事件对应的事件类型；epoch的最大值为Epoches，每个epoch的batch数为batch_per_epoch。调优后的BERT模型Bert_fine_tune，每个句子的最大长度为max_len；

针对epoch中的每个batch，执行SS1～SS4：

SS2.将句子输入到Bert_fine_tune中，获得特征向量

SS3.特征向量

SS4.构建第二损失函数L_T(θ，θ₁，θ₂，θ₃)＝L₁(θ，θ₁)+L₂(θ，θ₂)+L₃(θ，θ₃)，使用Adam优化器最小化第二损失函数；

6.如权利要求5所述的方法，其特征在于，所述第二损失函数定义如下：

L_T(θ，θ₁，θ₂，θ₃)＝L₁(θ，θ₁)+L₂(θ，θ₂)+L₃(θ，θ₃)

其中，θ是BERT模型中的Encoder部分的参数，L₁(θ，θ₁)、L₂(θ，θ₂)、L₃(θ，θ₃)分别对应事件类型预测任务相关的损失函数、触发词起始位置预测任务相关的损失函数以及触发词结束位置预测任务相关的损失函数

是当前事件类型被预测为第i个事件类型的概率；

其次：

为向量

中的第i个元素；

最后，

为向量

中的第i个元素。

7.如权利要求6所述的方法，其特征在于，将司法数据文本进行分词化tokenize之后，获得每一个分词token的位置嵌入、段嵌入以及词嵌入；分词的位置嵌入即该分词在输入文本中的位置，分词的段嵌入即该分词为输入文本的所属段落，分词的词嵌入即该分词在BERT的字典中的索引位置，将三个嵌入输入到调优后得到的司法领域的BERT模型中，获得每一个分词的特征向量；