CN116432693B

CN116432693B - 大规模预训练语言模型的构建方法、装置、存储介质及电子装置

Info

Publication number: CN116432693B
Application number: CN202310268876.3A
Authority: CN
Inventors: 肖熊锋; 杜向阳
Original assignee: Beijing Qingdun Information Technology Co ltd
Current assignee: Beijing Qingdun Information Technology Co ltd
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2024-02-09
Anticipated expiration: 2043-03-15
Also published as: CN116432693A

Abstract

本申请公开了一种大规模预训练语言模型的构建方法、装置、存储介质及电子装置。该构建方法包括：接收裁判文书；按不同法律领域对所述裁判文书进行分类；对分类结果执行预设的预处理并标注操作，得到多个类别的裁判文书训练集；针对不同法律领域维护一个独立的Prefix并基于所述裁判文书训练集对语言模型进行预训练，得到针对特定法律领域的预训练语言模型。本申请解决了由于未考虑不同法律领域的文本之间的差异性造成的预训练语言模型无法有效识别不同领域的关键信息的技术问题。

Description

大规模预训练语言模型的构建方法、装置、存储介质及电子装置

技术领域

本申请涉及法律文书处理领域，具体而言，涉及一种大规模预训练语言模型的构建方法、装置、存储介质及电子装置。

背景技术

针对法律文本的预训练语言模型，哈工大讯飞联合实验室发布了针对法律领域的ELECTRA模型，该模型使用裁判文书数据对已有通用预训练语言模型进行二次训练，并使用掩码语言模型任务作为预训练任务，在罪名预测下游任务的测试中取得了显著的提升。

清华大学则进一步考虑了法律文本通常包含数千个字符，远远超过通用文本的问题，提出了针对法律长文本的预训练语言模型Lawformer。该模型引入滑动窗口机制，有效的缓解了预训练语言模型在处理长文本时的长程依赖问题，并在多个下游任务中取得了显著的性能提升。

但是，无论哪种模型均忽略了不同法律领域的文本之间的差异性，例如：离婚领域的法律文本与借贷领域的法律文本在基本事实、引用法条等方面均不相同，将不同领域的法律文本混合在一起进行预训练将导致模型无法有效识别不同领域的关键信息。

针对相关技术中未考虑不同法律领域的文本之间的差异性造成的预训练语言模型无法有效识别不同领域的关键信息的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种大规模预训练语言模型的构建方法、装置、存储介质及电子装置，以解决未考虑不同法律领域的文本之间的差异性造成的预训练语言模型无法有效识别不同领域的关键信息的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种大规模预训练语言模型的构建方法。

根据本申请的大规模预训练语言模型的构建方法包括：接收裁判文书；按不同法律领域对所述裁判文书进行分类；对分类结果执行预设的预处理并标注操作，得到多个类别的裁判文书训练集；针对不同法律领域维护一个独立的Prefix并基于所述裁判文书训练集对语言模型进行预训练，得到针对特定法律领域的预训练语言模型。

进一步的，对分类结果执行预设的预处理操作包括：将分类后得到的多个类别的裁判文书分为当事人信息、事实描述、法庭观点和判决结果四个部分；筛选事实描述超过预设token阈值的裁判文书。

进一步的，对分类结果执行预设的标注操作，得到多个类别的裁判文书训练集包括：基于启发式规则对预处理后得到的裁判文书进行自动标注，得到多个类别的裁判文书训练集。

进一步的，对分类结果执行预设的标注操作，得到多个类别的裁判文书训练集包括：对预处理后得到的裁判文书进行至少掩码语言、段落类型和发条三种标签的标注，得到多个类别的裁判文书训练集。

进一步的，针对不同法律领域维护一个独立的Prefix并基于所述裁判文书训练集进行预训练，得到针对特定法律领域的预训练语言模型之后还包括：接收待识别裁判文书；将所述待识别裁判文书输入针对特定法律领域的预训练语言模型，得到特定法律领域的关键信息。

进一步的，所述预训练语言模型为利用Adam优化的Longformer语言模型。

为了实现上述目的，根据本申请的另一方面，提供了一种大规模预训练语言模型的构建装置。

根据本申请的大规模预训练语言模型的构建装置包括：接收模块，用于接收裁判文书；分类模块，用于按不同法律领域对所述裁判文书进行分类；执行模块，用于对分类结果执行预设的预处理并标注操作，得到多个类别的裁判文书训练集；训练模块，用于针对不同法律领域维护一个独立的Prefix并基于所述裁判文书训练集对语言模型进行预训练，得到针对特定法律领域的预训练语言模型。

进一步的，还包括：接收待识别裁判文书；将所述待识别裁判文书输入针对特定法律领域的预训练语言模型，得到特定法律领域的实体识别结果或罪名预测结果。

为了实现上述目的，根据本申请的另一方面，提供了一种计算机可读存储介质。

根据本申请的计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述的大规模预训练语言模型的构建方法。

为了实现上述目的，根据本申请的另一方面，提供了一种电子装置。

根据本申请的电子装置，包括：存储器和处理器，所述存储器中存储有计算机程序，其中，所述处理器被设置为运行所述计算机程序以执行所述的大规模预训练语言模型的构建方法。

在本申请实施例中，采用构建大规模预训练语言模型的方式，通过接收裁判文书；按不同法律领域对所述裁判文书进行分类；对分类结果执行预设的预处理并标注操作，得到多个类别的裁判文书训练集；针对不同法律领域维护一个独立的Prefix并基于所述裁判文书训练集进行预训练，得到针对特定法律领域的预训练语言模型；达到了模型训练过程中，充分考虑不同法律领域的文本之间的差异性的目的，从而实现了预训练语言模型能够有效识别不同领域的关键信息的技术效果，进而解决了由于未考虑不同法律领域的文本之间的差异性造成的预训练语言模型无法有效识别不同领域的关键信息的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的大规模预训练语言模型的构建方法的流程示意图；

图2是根据本申请实施例的大规模预训练语言模型的构建装置的结构示意图；

图3是根据本申请实施例的大规模预训练语言模型的训练示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本发明中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

根据本发明实施例，提供了一种大规模预训练语言模型的构建方法，如图1和3所示，该方法包括如下的步骤S101至步骤S104：

步骤S101、接收裁判文书；

步骤S102、按不同法律领域对所述裁判文书进行分类；

从中国裁判文书网(https://wenshu.court.gov.cn/)中收集了数千万份案件文件，并根据不同的法律领域对其进行分类。可以根据裁判文书的离婚、刑事等领域标签实现裁判文书不同法律领域的分类。本实施例中，由于下游任务主要是刑事和民事案件，此处只保留刑事案件和民事案件的文件。

步骤S103、对分类结果执行预设的预处理并标注操作，得到多个类别的裁判文书训练集；

优选的，对分类结果执行预设的预处理操作包括：

将分类后得到的多个类别的裁判文书分为当事人信息、事实描述、法庭观点和判决结果四个部分；

筛选事实描述超过预设阈值的裁判文书。

本实施例中，只保留事实描述超过50个token的文档。数据处理后，保留的数据用于预训练。能够筛除事实描述标记过少的文档，提高训练效果。

优选的，对分类结果执行预设的标注操作，得到多个类别的裁判文书训练集包括：

基于启发式规则对预处理后得到的裁判文书进行自动标注，得到多个类别的裁判文书训练集。

对预处理后得到的裁判文书进行至少掩码语言、段落类型和发条三种标签的标注，得到多个类别的裁判文书训练集。

本实施例中，将分类后的每份文件分为四个部分：当事人信息、事实描述、法庭观点和判决结果。保留事实描述超过50个token的文档。数据处理后，其余数据用于预训练，在每个文书均标注上相应的标签，针对法律领域的特定场景，设计法律文本分类、法条预测等预训练任务，并基于启发式规则，自动生成预训练任务训练标签，有效提升标注效率。标注的标签中，法律文本分类的标签就是段落的tag，法条预测的标签就是裁判文书包含的法条；引入法律文本分类和法条预测作为面向法律领域的预训练任务，使得预训练过程中模型能够充分学习到法律专业知识，提升下游任务的性能。

步骤S104、针对不同法律领域维护一个独立的Prefix并基于所述裁判文书训练集进行预训练，得到针对特定法律领域的预训练语言模型。

引入Prefix训练机制，为不同的法律领域维护一个独立的Prefix模块，使得模型能够有效识别特定法律领域的关键信息。判决预测旨在基于给定事实描述预测判决结果，CAIL2018提供了一个判决预测数据集，但是案例长度比真实案例短，且只关心刑事案件，因此提出了一个新的判决预测数据集CAIL-Long，它包含了与现实中长度分布相同的民事和刑事案件。Cail-long由1,129,053个刑事案件组成，1,099,605个的民事案件，将事实描述为输入，用正则表达式提取判决标注。具体来说，每个刑事案件都附有罪名、相关法律和刑罚期限。每个民事案件都附有案由和相关法律。

将学习率设置为5×10-5，序列长度为4,096,批量大小为32。由于法律文档的长度通常小于4、096，将不同的文档连接在一起以充分利用输入长度。预训练Law前200,000步，前3,000步用于热身。利用Adam(Kingma and Ba,2015)来优化模型。其余超参数与Longformer相同。使用8×32GNVIDIA V100 GPU对Lawformer进行预训练。

在微调阶段，选择不同的kens来进行全局注意力机制。对于分类任务，选择标记[CLS]来执行全局注意力。对于阅读理解任务和问答任务，对整个问题进行全局关注。

根据本发明实施例，优选的，针对不同法律领域维护一个独立的Prefix并基于所述裁判文书训练集进行预训练，得到针对特定法律领域的预训练语言模型之后还包括：

接收待识别裁判文书；

将所述待识别裁判文书输入针对特定法律领域的预训练语言模型，得到特定法律领域的关键信息。

经过训练的针对特定法律领域的预训练语言模型可以识别出特定法律领域的实体识别结果或罪名预测结果；比如民事领域的实体识别结果、刑事领域的罪名预测结果等。实体识别的性能从81提高到了85，罪名预测的性能从68提高到了76，从而能够表明采用Prefix训练机制的优越性。

从以上的描述中，可以看出，本发明实现了如下技术效果：

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，还提供了一种用于实施上述大规模预训练语言模型的构建方法的装置，如图2和3所示，该装置包括：

接收模块10，用于接收裁判文书；

分类模块20，用于按不同法律领域对所述裁判文书进行分类；

执行模块30，用于对分类结果执行预设的预处理并标注操作，得到多个类别的裁判文书训练集；

优选的，对分类结果执行预设的预处理操作包括：

筛选事实描述超过预设token阈值的裁判文书。

训练模块40，用于针对不同法律领域维护一个独立的Prefix并进行预训练，得到针对特定法律领域的预训练语言模型。

接收待识别裁判文书；

经过训练的针对特定法律领域的预训练语言模型可以识别出特定法律领域的关键信息；比如实体识别、罪名预测等。实体识别的性能从81提高到了85，罪名预测的性能从68提高到了76，从而能够表明采用Prefix训练机制的优越性。

从以上的描述中，可以看出，本发明实现了如下技术效果：

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种大规模预训练语言模型的构建方法，其特征在于，包括：

接收裁判文书；

按不同法律领域对所述裁判文书进行分类；

对分类结果执行预设的预处理并标注操作，得到多个类别的裁判文书训练集；

对分类结果执行预设的预处理操作包括：

筛选事实描述超过预设token阈值的裁判文书；

针对不同法律领域维护一个独立的Prefix并基于所述裁判文书训练集对语言模型进行预训练，得到针对不同法律领域文本之间的差异性的预训练语言模型，使得模型能够有效识别特定法律领域的关键信息；

所述基于所述裁判文书训练集采用新的判决预测数据集CAIL-Long，它包含了与现实中长度分布相同的民事和刑事案件，且每个刑事案件都附有罪名、相关法律和刑罚期限，每个民事案件都附有案由和相关法律。

2.根据权利要求1所述的构建方法，其特征在于，对分类结果执行预设的标注操作，得到多个类别的裁判文书训练集包括：

3.根据权利要求1所述的构建方法，其特征在于，对分类结果执行预设的标注操作，得到多个类别的裁判文书训练集包括：

4.根据权利要求1所述的构建方法，其特征在于，针对不同法律领域维护一个独立的Prefix并基于所述裁判文书训练集进行预训练，得到针对特定法律领域的预训练语言模型之后还包括：

接收待识别裁判文书；

将所述待识别裁判文书输入针对特定法律领域的预训练语言模型，得到特定法律领域的实体识别结果或罪名预测结果。

5.根据权利要求1所述的构建方法，其特征在于，所述预训练语言模型为利用Adam优化的Longformer语言模型。

6.一种大规模预训练语言模型的构建装置，其特征在于，包括：

接收模块，用于接收裁判文书；

分类模块，用于按不同法律领域对所述裁判文书进行分类；

执行模块，用于对分类结果执行预设的预处理并标注操作，得到多个类别的裁判文书训练集；

对分类结果执行预设的预处理操作包括：

筛选事实描述超过预设token阈值的裁判文书；

训练模块，用于针对不同法律领域维护一个独立的Prefix并基于所述裁判文书训练集对语言模型进行预训练，得到针对不同法律领域文本之间的差异性的预训练语言模型，使得模型能够有效识别特定法律领域的关键信息；

7.根据权利要求5所述的构建装置，其特征在于，还包括：

接收待识别裁判文书；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4中任一项所述的大规模预训练语言模型的构建方法。

9.一种电子装置，包括：存储器和处理器，其特征在于，所述存储器中存储有计算机程序，其中，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4中任一项所述的大规模预训练语言模型的构建方法。