CN112966525A

CN112966525A - 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法

Info

Publication number: CN112966525A
Application number: CN202110349911.5A
Authority: CN
Inventors: 魏晓; 谢伟
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-06-15
Anticipated expiration: 2041-03-31
Also published as: CN112966525B

Abstract

本发明公开了一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法，使用网络爬虫爬取公开法律文本语料，对原始语料进行文本预处理，获得可用的法律文本语料数据；获取法律领域的高频动词、关键名词，对词语进行聚类；构建原始法律事件知识库IE，在此基础上利用远程监督学习的方式实现法律事件语料数据的大规模自动标注；使用获得的大规模法律事件预料数据，实现基于NEZHA预训练语料模型和DMCNN卷积神经网络模型实现法律事件抽取系统。本发明通过基于远程监督学习的方式实现法律事件语料数据的大规模自动标注，利用预训练语言模型和卷积神经网络算法挖掘法律文本数据的深层语义信息，在法律事件抽取任务上的取得了较好的效果。

Description

一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法

技术领域

本发明属于法律智能领域，特别涉及一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法。

背景技术

随着人工智能应用于越来越多的领域和场景，法律智能也成为目前热门的研究方向。一个司法案件中包含了很多要素，如实体、关系以及事件等。通过事件刻画司法案件，不仅能够将一个复杂的案件拆解，对其进行重构和表示，而且更能通过一些关键事件的抽取，从而对案件的量刑进行评估。

目前，事件抽取的方法可以大致分为两类——基于模式匹配的方法和基于机器学习的方法。早期的事件抽取大多都是基于模式匹配的方法，基于语法树或者正则表达式等方法利用人工制定大量的规则或模式。基于模式匹配的方法在特定领域可以达到较高的正确率，但召回率较低。同时可移植性很差，对于新的领域需要耗费大量的人工制定新的规则或模式。基于机器学习的方法大致分为管道抽取和联合抽取两种。管道抽取将事件抽取转化为多阶段的分类问题，顺序执行事件检测任务和事件元素识别任务；联合抽取则考虑到事件触发词与事件元素之间的相互影响，将各个分类模型整体优化，并加入全局特征，对事件类型和事件元素进行联合抽取。

到目前为止，基于机器学习的方法在事件抽取任务上取得了较好的效果。但是这种基于监督学习的事件抽取方法严重依赖于人工标注的训练数据，大多实验结果都是基于ACE2005的数据集。然而，在法律特定领域，由于数据标注成本高，没有大规模的法律事件中文语料数据。

发明内容

为了解决现有技术问题，本发明的目的在于克服已有技术存在的不足，提供一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法，能基于远程监督学习的实现法律事件语料数据的大规模自动标注，在此基础上利用预训练语言模型和卷积神经网络算法挖掘了法律文本数据的深层语义信息，在法律事件抽取任务上的取得了较好的效果，能大为减少人工定义事件的时间成本和劳动成本，提升法律事件抽取的效果。

为达到上述发明创造目的，本发明采用如下技术方案：

一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法，所述方法包括以下步骤：

A.数据获取、预处理：

使用网络爬虫爬取公开法律文本语料，对原始法律文本语料进行文本预处理，依次进行分句、分词、去噪，获得可用的法律文本语料数据；

B.法律事件模板定义：

获取法律领域的高频动词、关键名词，对这些词语进行基于距离的相近词聚类，人工根据聚类结果参考相关法律条款定义法律事件类型以及模板；

C.基于远程监督学习的大规模法律事件数据标注：

利用规则或模式的方法从半结构化的法律文本数据中获取种子法律事件，构建原始法律事件知识库IE；获取关键事件元素角色，构建动词、名词触发词集；利用开源中文近义词包对触发词集进行拓展；利用远程监督学习的方式自动标注新的语料数据并加入法律事件知识库IE中；

D.基于NEZHA预训练语言模型和DMCNN神经网络模型的法律事件抽取系统，法律事件检测任务以及法律事件论元抽取任务均使用该法律事件抽取系统，且两者的特征输入存在差别。

优选地，在所述步骤A中，获取可用的法律文本语料数据的具体步骤为：

A1.使用爬虫从法律文书网站爬取公开的法律文书数据；

A2.对获取的部分法律文书数据按照判罚的罪名进行人工分类，使用神经网络模型RCNN训练法律文书数据的罪名分类模型，对剩下的数据进行分类，获得按照罪名分类的法律文书数据；

A3.将法律文书数据的标点符号统一为中文格式，按照包括？！的中文标点断句符号对文书数据切分为句子形式，构成句子集合；

A4.使用开源分词工具对句子集合中的每个句子进行分词，得到分词结果；

A5.构建法律领域的专用停用词表，对分词结果进行修正、优化。

优选地，在所述步骤B中，法律事件模板定义方式：

B1.基于步骤A4的分词结果，使用开源词性标注工具对词语进行词性标注，使用TextRank算法获取结果最大的M个动词、N个名词；

B2.基于步骤A4的分词结果，使用Word2Vec算法获取法律文本数据的词向量；

B3.基于步骤B1的结果对名词和动词使用k-means计算语义距离进行聚类，获得语义相近的KV个动词集、KM个名词集；

B4.基于B3的结果集，人工根据经验和法条审核总结法律领域的事件类型以及模板，根据事件抽取任务定义，事件模板包括触发词和事件元素。

优选地，基于B3的结果集，人工根据经验和法条审核总结法律领域的事件类型，从而定义K个事件模板。根据事件抽取任务定义，事件模板包括事件触发词和事件元素。法律事件中包含一类关键法律事件，关键法律事件在最终量刑中具有重要影响。关键法律事件在不同的罪名语境下表现成不同形式。特别地，对于强奸罪，关键法律事件可能包含多人作案事件、未成年人事件、致死事件。

优选地，在所述步骤B4中，后续对于新增法律文本语料数据使用增量聚类的方式对动词集、名词集进行拓展，或者同时可能新增事件类型以及模板。

优选地，在所述步骤C中，基于远程监督学习的大规模法律事件数据标注方法的具体步骤：

C1.法院的判决书为半结构的法律文本数据，基于B4的事件模板，人工制定简单的规则或模式，通过正则表达式或语法树的方式抽取种子法律事件，构建原始法律事件知识库IE；

C2.关键事件元素角色定义：

对于获得的K个事件模板，计算事件类型ET_j中每个事件元素A_i的重要性，选取事件类型ET_j中RI_ij值最大的事件元素作为该事件的关键事件元素角色；

优选地，对于获得的K个事件模板，利用公式(1)计算事件类型ET_j中每个事件元素A_i的重要性，选取事件类型ET_j中RI_ij值最大的事件元素作为该事件的关键事件元素角色；

amount(A_i,ET_j)表示包含事件元素角色A_i的法律事件类型ET_j实例数，amount(ET_j)表示法律事件ET_j实例的总数，amount(ET)表示法律事件类型的总数，amount(ETCA_i)表示包含事件元素角色A_i的法律事件类型的数量；

C3.构建动词触发词集：

对于步骤B中的聚类得到的KV个动词集，计算KV_k中每个动词V_i对于事件ET_j的重要性，选取VI_ij值最大的X个动词作为事件类型ET_j的动词触发词集ETVT_j；

优选地，对于步骤B中的聚类得到的KV个动词集，利用公式(2)计算KV_k中每个动词V_i对于事件ET_j的重要性，选取VI_ij值最大的X个动词作为事件类型ET_j的动词触发词集ETVT_j：

amount(V_i,ETS_j)表示既陈述法律事件类型ET_j又包含动词V_i的句子数，amount(ETS_j)表示陈述法律事件类型ET_j的句子的总数，amount(ET)表示法律事件类型的总数，amount(ETI_i)表示包含动词V_i的法律事件类型的数量；

C4.构建名词触发词集：

对于B3中的KN个名词集，计算KN_k中每个名词N_i对于事件ET_j的重要性，选取NI_ij值大于特定阈值的名词集构成事件类型ET_j的名词触发词集ETNT_j；

优选地，对于步骤B3中的KN个名词集，计算KN_k中每个名词N_i对于事件ET_j的重要性，选取NI_ij值大于特定阈值的名词集构成事件类型ET_j的名词触发词集ETNT_j：

NI_ij＝1-log(Dist(NE_i,ENAE_j)) (3)

其中NE_i为名词N_i的词嵌入向量，ENAE_j为法律事件种子数据集中事件类型ET_j所有实例中名词的平均词嵌入向量；

C5.利用中文近义词库，对步骤C3和步骤C4构建的动词触发词集以及名词触发词集进行触发词拓展；

优选地，利用开源中文近义词包Synonyms、复旦大学中文同义词库，对C3和C4构建的动词触发词集以及名词触发词集进行触发词拓展。

C6.假使任何句子中包含事件类型ET_i的动词触发词集或名词触发词集中的任意一种触发词，则认为该语句可能包含事件类型ET_i的实例，进行自动标注；

C7.完成一个阶段的自动数据标注后，人工校验标注结果并进行更正，将校验后的合格法律文书数据加入法律事件知识库IE中。

优选地，在所述步骤C6中，如果该语句包含事件类型ET_i的关键事件元素角色，则认为该语句陈述了事件类型ET_i的实例，进行自动标注。

优选地，在所述步骤D中，基于NEZHA预训练语言模型和DMCNN神经网络模型的法律事件抽取系统的具体步骤：

D1.CNN的输入：

进行法律事件论元抽取任务时，将词语级语义特征和语句级语义特征输入了CNN中；当进行事件检测任务时，词语级语义特征更重要；而进行法律事件论元抽取任务的时候语句级语义特征更重要；

D2.词语级语义特征由候选触发词的词向量或候选事件论元的词向量、以及其左右相邻的词语的词向量首位逐个拼接得到，使用NEZHA预训练语言模型，提供的词向量获取词级语义特征；NAZHA作为中文预训练语言模型，在很多NLP任务中得到了良好的表现；

D3.语句级语义特征：

法律事件检测任务和法律事件论元抽取任务两个人物的语句级语义特征存在差别，语句特征矩阵经过卷积、动态池化操作获取；

D4.将词语级语义特征与语句级语义特征进行拼接，获取新的特征向量F，经过全连接层和softmax操作完成分类。

优选地，在所述步骤D3中，对于法律事件论元抽取任务，语句中每个词语的特征向量由三个特征向量拼接组成：词语的词向量、词语相较于事件论元的相对位置向量、事件类型编码向量，假设语句中有n个词语，语句特征为每个词语的特征向量拼接而成的矩阵。

优选地，在所述步骤D3中，对语句特征矩阵进行卷积操作，设置3个词大小的窗口，滤波器大小为3*300，步长为1，卷积操作得到3个特征序列.

优选地，在所述步骤D3中，池化操作采用动态池化策略，考虑到一个语句中可能存在多个法律事件，同一事件论元在不同法律事件中可能扮演不同的论元角色，用分段池化的方式保留更多的语句语义特征。使用候选事件论元以及触发词将特征序列分割为3个部分，对每个部分进行最大池化操作，将结果进行拼接获得语句级语义特征.

优选地，在所述步骤D3中，对于法律事件检测任务，语句中每个词语的特征向量由两个特征向量拼接组成：词语的词向量、词语相较于触发词的相对位置向量，同样进行卷积操作，但在动态池化时，候选触发词将特征序列分割为2个部分，对每个部分进行最大池化操作，将结果进行拼接获得语句级语义特征；

优选地，在所述步骤D4中，将词语级语义特征与语句级语义特征进行拼接，获取新的特征向量F，经过全连接层和softmax操作完成分类。对于法律事件检测任务，分类结果包括法律事件类型集ET＝{ET₁,ET₂,...,ET_n}。对于法律事件论元抽取任务，分类的结果包括对应法律事件类型ET_i的事件论元角色集ROLE＝{ROLE₁,ROLE₂,...,ROLE_n}和none role。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著优点：

1.本发明使用机器学习结合专家知识的方式，定义法律领域不同罪名条目的法律事件类型以及模板，大大减少了人工定义事件的时间成本和劳动成本；

2.本发明使用远程监督学习的方式，实现法律事件语料数据的大规模自动标注，填补了目前法律事件抽取领域缺少大规模语料数据的空白；

3.本发明构建词汇级语义特征以及语句级词汇特征，让基于NAZHA预训练语言模型和CNN卷积神经网络的法律事件抽取系统学习到更多潜在的语义信息，提升了法律事件抽取的效果。

附图说明

图1是本发明基于预训练模型和卷积神经网络算法的法律领域事件抽取方法流程图。

图2是本发明的DMCNN卷积神经网络的结构图。

具体实施方式

以下结合具体的实施例子对上述方案做进一步说明，本发明的优选实施例详述如下：

实施例一：

在本实施例中，参见图1，一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法，所述方法包括以下步骤：

A.数据获取、预处理：

B.法律事件模板定义：

C.基于远程监督学习的大规模法律事件数据标注：

利用规则或模式的方法从半结构化的法律文本数据中获取种子法律事件，构建原始法律事件知识库IE；获取关键事件元素角色，构建动词、名词触发词集；利用中文近义词库对触发词集进行拓展；利用远程监督学习的方式自动标注新的语料数据并加入法律事件知识库IE中；

本实施例方法能基于远程监督学习的实现法律事件语料数据的大规模自动标注，在此基础上利用预训练语言模型和卷积神经网络算法挖掘了法律文本数据的深层语义信息，在法律事件抽取任务上的取得了较好的效果，能大为减少人工定义事件的时间成本和劳动成本，提升法律事件抽取的效果。

实施例二：

本实施例与实施例一基本相同，特别之处在于：

在本实施例中，在所述步骤A中，获取可用的法律文本语料数据的具体步骤为：

A1.使用爬虫从法律文书网站爬取公开的法律文书数据；

在本实施例中，在所述步骤B中，法律事件模板定义方式：

在本实施例中，在所述步骤B4中，后续对于新增法律文本语料数据使用增量聚类的方式对动词集、名词集进行拓展，或者同时可能新增事件类型以及模板。

在本实施例中，在所述步骤C中，基于远程监督学习的大规模法律事件数据标注方法的具体步骤：

C2.关键事件元素角色定义：

C3.构建动词触发词集：

对于B中的聚类得到的KV个动词集，计算KV_k中每个动词V_i对于事件ET_j的重要性，选取VI_ij值最大的X个动词作为事件类型ET_j的动词触发词集ETVT_j；

C4.构建名词触发词集：

C5.利用开源中文近义词，对步骤C3和步骤C4构建的动词触发词集以及名词触发词集进行触发词拓展；

在本实施例中，所述步骤C6中，如果该语句包含事件类型ET_i的关键事件元素角色，则认为该语句陈述了事件类型ET_i的实例，进行自动标注。

在本实施例中，在所述步骤D中，基于NEZHA预训练语言模型和DMCNN神经网络模型的法律事件抽取系统的具体步骤：

D1.CNN的输入：

进行法律事件论元抽取任务时，将词语级语义特征和语句级语义特征输入了CNN中；

D2.词语级语义特征由候选触发词的词向量或候选事件论元的词向量、以及其左右相邻的词语的词向量首位逐个拼接得到，使用NEZHA预训练语言模型，提供的词向量获取词级语义特征；

D3.语句级语义特征：

本实施例方法使用机器学习结合专家知识的方式，定义法律领域不同罪名条目的法律事件类型以及模板，大大减少了人工定义事件的时间成本和劳动成本；本实施例方法使用远程监督学习的方式，实现法律事件语料数据的大规模自动标注，填补了目前法律事件抽取领域缺少大规模语料数据的空白；本实施例方法构建词汇级语义特征以及语句级词汇特征，让基于NAZHA预训练语言模型和CNN卷积神经网络的法律事件抽取系统学习到更多潜在的语义信息，提升了法律事件抽取的效果。

实施例三：

本实施例与上述实施例基本相同，特别之处在于：

在本实施例中，一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法，步骤

A.数据获取、预处理：使用网络爬虫爬取公开法律文本语料，采用法律文书网站的公开资料；对原始法律文本语料进行文本预处理，依次进行分句、分词、去噪，获得可用的法律文本语料数据；

A1.使用爬虫从法律文书网站爬取公开的法律文书数据；

A2.对获取的部分法律文书数据按照判罚的罪名进行人工分类，在此基础上使用神经网络模型RCNN训练法律文书数据的罪名分类模型，对剩下的数据进行分类，获得按照罪名分类的法律文书数据。以下步骤如不特殊说明都是根据某一罪名的法律文书数据进行的；

A4.使用Jieba、SnowNLP等开源分词工具对句子集合中的每个句子进行分词，得到分词结果；

A5.构建法律领域的专用停用词表，对分词结果进行修正、优化；

B.法律事件模板定义：获取法律领域的高频动词、关键名词，对这些词语进行聚类，定义法律事件类型以及模板，法律事件中包含关键法律事件；

B1.基于A4的分词结果，使用开源词性标注工具对词语进行词性标注，使用TextRank算法获取值最大的TRV个动词、TRN个名词；

B2.基于A4的分词结果，使用Word2Vec算法获取法律文本数据的词向量；

B3.基于B1的结果对名词和动词使用k-means计算语义距离进行聚类，获得语义相近的个KV个动词集、KN个名词集；

B4.基于B3的结果集，人工根据经验和法条审核总结法律领域的事件类型，从而定义K个事件模板；根据事件抽取任务定义，事件模板包括事件触发词和事件元素；法律事件中包含一类关键法律事件，关键法律事件在最终量刑中具有重要影响；关键法律事件在不同的罪名语境下表现成不同形式，例如强奸罪，关键法律事件可能包含多人作案事件、未成年人事件、致死事件；

B6.特别地，后续对于新增法律文本语料数据使用增量聚类的方式对动词集、名词集进行拓展，同时可能新增事件类型以及模板；

C.基于远程监督的法律事件抽取训练数据标注：利用规则或模式的方法从半结构化的法律文本数据中获取种子法律事件，构建原始法律事件知识库IE；获取关键事件元素角色，构建动词、名词触发词集；利用开源中文近义词包对触发词集进行拓展；利用远程监督的方式自动标注新的语料数据并加入法律事件知识库IE中；

C2.关键事件元素角色定义：对于获得的K个事件模板，利用公式(1)计算事件类型ET_j中每个事件元素A_i的重要性，选取事件类型ET_j中RI_ij值最大的事件元素作为该事件的关键事件元素角色；

C3.构建动词触发词集：对于B中的聚类得到的KV个动词集，利用公式(2)计算KV_k中每个动词V_i对于事件ET_j的重要性，选取VI_ij值最大的X个动词作为事件类型ET_j的动词触发词集ETVT_j：

C4.构建名词触发词集：对于B3中的KN个名词集，计算KN_k中每个名词N_i对于事件ET_j的重要性，选取NI_ij值大于特定阈值的名词集构成事件类型ET_j的名词触发词集ETNT_j：

NI_ij＝1-log(Dist(NE_i,ENAE_j)) (3)

C5.利用开源中文近义词包Synonyms、复旦大学中文同义词库等对C3和C4构建的动词触发词集以及名词触发词集进行触发词拓展；

C6.假使任何句子中包含事件类型ET_i的动词触发词集或名词触发词集中任一触发词，则认为该语句可能包含事件类型ET_i的实例；进一步，如果该语句包含事件类型ET_i的关键事件元素角色，则认为该语句陈述了事件类型ET_i的实例，进行自动标注；

D.基于NEZHA预训练语言模型和DMCNN神经网络模型的法律事件抽取系统，法律事件检测任务以及法律事件论元抽取任务均使用该系统，但是两者的特征输入存在一些差别；

D1.CNN的输入：当进行事件检测任务时，词语级语义特征更重要；而进行法律事件论元抽取任务的时候语句级语义特征更重要。因此，将词语级语义特征和语句级语义特征都输入了CNN中；

D2.词语级语义特征由候选触发词的词向量或候选事件论元的词向量、以及它们左右相邻的词语的词向量首位逐个拼接得到。我们的方法使用NEZHA预训练语言模型提供的词向量获取词级语义特征。NAZHA作为中文预训练语言模型，在很多NLP任务中得到了良好的表现；

D3.语句级语义特征：法律事件检测任务和法律事件论元抽取任务两个人物的语句级语义特征存在差别，下面分别说明；

对于法律事件论元抽取任务，语句中每个词语的特征向量(维度为300)由三个特征向量拼接组成：词语的词向量、词语相较于事件论元的相对位置向量、事件类型编码向量，假设语句中有n个词语，语句特征为每个词语的特征向量拼接而成的矩阵(维度为n*300)；

对语句特征矩阵进行卷积操作，设置3个词大小的窗口，滤波器大小为3*300，步长为1，卷积操作得到3个特征序列；

池化操作采用动态池化策略，考虑到一个语句中可能存在多个法律事件，同一事件论元在不同法律事件中可能扮演不同的论元角色，用分段池化的方式保留更多的语句语义特征。使用候选事件论元以及触发词将特征序列分割为3个部分，对每个部分进行最大池化操作，将结果进行拼接获得语句级语义特征；

对于法律事件检测任务，语句中每个词语的特征向量(维度为300)由两个特征向量拼接组成：词语的词向量、词语相较于触发词的相对位置向量，同样进行卷积操作，但在动态池化时，候选触发词将特征序列分割为2个部分，对每个部分进行最大池化操作，将结果进行拼接获得语句级语义特征；

D4.将词语级语义特征与语句级语义特征进行拼接，获取新的特征向量F，经过全连接层和softmax操作完成分类；对于法律事件检测任务，分类结果包括法律事件类型集ET＝{ET₁,ET₂,...,ET_n}。对于法律事件论元抽取任务，分类的结果包括对应法律事件类型ET_i的事件论元角色集ROLE＝{ROLE₁,ROLE₂,...,ROLE_n}和nonerole。

本实施例基于预训练模型和卷积神经网络算法的法律领域事件抽取方法。本方法包括以下步骤：1.使用网络爬虫爬取公开法律文本语料，对原始语料进行文本预处理，包括分类、降噪、分句、分词等操作，获得可用的法律文本语料数据；2.获取法律领域的高频动词、关键名词，对这些词语进行聚类，人工根据聚类结果参考相关法律依据定义法律事件类型以及模板；3.通过模式或规则的方式构建原始法律事件知识库IE，在此基础上利用远程监督学习的方式实现法律事件语料数据的大规模自动标注；4.使用获得的大规模法律事件预料数据，实现基于NEZHA预训练语料模型和DMCNN卷积神经网络模型实现法律事件抽取系统。本发明提出的一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法，通过基于远程监督学习的方式实现法律事件语料数据的大规模自动标注，在此基础上利用预训练语言模型和卷积神经网络算法挖掘了法律文本数据的深层语义信息，在法律事件抽取任务上的取得了较好的效果。

上面对本发明实施例结合附图进行了说明，但本发明不限于上述实施例，还可以根据本发明的发明创造的目的做出多种变化，凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化，均应为等效的置换方式，只要符合本发明的发明目的，只要不背离本发明的技术原理和发明构思，都属于本发明的保护范围。

Claims

1.一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法，其特征在于，所述方法包括以下步骤：

A.数据获取、预处理：

B.法律事件模板定义：

C.基于远程监督学习的大规模法律事件数据标注：

利用规则或模式的方法从半结构化的法律文本数据中获取种子法律事件，构建原始法律事件知识库IE；获取关键事件元素角色，构建动词、名词触发词集；利用中文近义词表对触发词集进行拓展；利用远程监督学习的方式自动标注新的语料数据并加入法律事件知识库IE中；

2.根据权利要求1所述的基于预训练模型和卷积神经网络算法的法律领域事件抽取方法，其特征在于：在所述步骤A中，获取可用的法律文本语料数据的具体步骤为：

A1.使用爬虫从法律文书网站爬取公开的法律文书数据；

3.根据权利要求1中所述的基于预训练模型和卷积神经网络算法的法律领域事件抽取方法，其特征在于：在所述步骤B中，法律事件模板定义方式：

4.根据权利要求1所述的基于预训练模型和卷积神经网络算法的法律领域事件抽取方法，其特征在于：在所述步骤B4中，后续对于新增法律文本语料数据使用增量聚类的方式对动词集、名词集进行拓展，或者同时可能新增事件类型以及模板。

5.根据权利要求1所述的基于预训练模型和卷积神经网络算法的法律领域事件抽取方法，其特征在于：在所述步骤C中，基于远程监督学习的大规模法律事件数据标注方法的具体步骤：

C2.关键事件元素角色定义：

C3.构建动词触发词集：

C4.构建名词触发词集：

C5.利用中文近义词表，对步骤C3和步骤C4构建的动词触发词集以及名词触发词集进行触发词拓展；

6.根据权利要求5所述的基于预训练模型和卷积神经网络算法的法律领域事件抽取方法，其特征在于：所述步骤C6中，如果该语句包含事件类型ET_i的关键事件元素角色，则认为该语句陈述了事件类型ET_i的实例，进行自动标注。

7.根据权利要求1所述的基于预训练模型和卷积神经网络算法的法律领域事件抽取方法，其特征在于：在所述步骤D中，基于NEZHA预训练语言模型和DMCNN神经网络模型的法律事件抽取系统的具体步骤：

D1.CNN的输入：

D2.词语级语义特征获取：

由候选触发词的词向量或候选事件论元的词向量、以及其左右相邻的词语的词向量首位逐个拼接得到，使用NEZHA预训练语言模型，提供的词向量获取词级语义特征；

D3.语句级语义特征获取：