CN115687626A

CN115687626A - 一种基于提示学习融合关键词的法律文书分类方法

Info

Publication number: CN115687626A
Application number: CN202211444816.4A
Authority: CN
Inventors: 洪榛; 朱琦; 刘涛; 傅金波; 金聪; 张明德
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2023-02-03

Abstract

一种基于提示学习融合关键词的法律文本分类方法。首先，需要对文本进行分词、去停用词等预处理，通过长截短补的方式将文本进行同一处理；然后，经过构造提示模板，让预测结果映射到类别域中，而类别域为答案空间的设定，通过同义词表查询结果的加权平均得到；同时，利用实体识别的方式将文本中的动词选取出来，一同进行分类结果的判定；最后，数据分为训练集、验证集与测试集，在训练集中利用BERT模型和掩码语言模型进行分类预测，预测结果为最大概率对应类别，考虑关键动词的提取结果，将融合值作为最终的预测结果，并在验证集对训练得到的模型进行验证。本发明节省了模型训练时间，可以直接给一个未知标签的文本进行大致类别分析。

Description

一种基于提示学习融合关键词的法律文书分类方法

技术领域

本发明应用法律文书案件文本，是一种对无标签的大量文本进行分类的方法。

背景技术

一种不需要对原预训练模型参数进行调整，不需要针对不同下游任务的大量标注数据的所谓“提示学习(prompt-based learning)”方法越来越得到研究者的关注，基于提示学习的“预训练+提示+预测(Pretrain+Promt+Predict)”在今年有逐步成为一种新的自然语言处理范式的趋势，即所谓的“第四范式”。

在提示学习中，不是通过目标工程使预训练的语言模型适应下游任务，而是重新制定下游任务，使其看起来更像是在文本提示的帮助下在原始语言模型训练期间解决的预训练任务。通过这种方式，选择适当的提示方法来利用预训练模型的行为，通过预训练的语言模型本身来预测所需的输出，有时甚至不需要任何额外的任务训练即可有不错的效果提示学习的优势是在给定一套适当的提示的情况下，以完全无监督的方式训练的单个语言模型可用于解决大量任务。相比于监督学习，为了训练网络模型需要准备大量标记好的数据。对于许多机器阅读理解任务来说，这些数据无法大量找到。而一种基于提示的学习方法试图利用预训练的语言模型来规避这个问题，预训练语言模型是在大型语料库中通过自监督学习的方式训练。提示学习将下游任务重构成预训练任务，利用模型在预训练过程中学习到的先验知识，减少或消除模型对于大型监督数据集的要求。

基于文本分类的方法大致有三种：一是基于自然语言词性规则自定义解析模板，通常需要考虑文本词语之间的相关性；二是基于机器学习的分类方法，如支持向量机、逻辑回归、多项式朴素贝叶斯分类器及K近邻算法等；三是基于深度注意力机制的网络模型，如BERT等。相对于传统神经网络层数较浅，难以获得深层次的数据特征，因此本发明提出的方法是基于BERT模型，进一步增强了该模型的自然语言理解能力。

发明内容

本发明要克服现有技术的上述缺点，提供一种基于提示学习融合关键词的法律文书分类方法。

一种利用提示模板进行类别分析的方法。利用预训练模型已学到的知识，通过上下文联系预测出模板中所掩盖的内容，根据预测结果对应于最终的类别，再与关键词识别向结合，得到一个精确度较高的分类结果。

本发明的一种基于提示学习融合关键词的法律文书分类方法，采用的技术方案为：

步骤1：对文本数据进行分词、去停用词、裁判文书特有词处理以及句子长度统一。文本预处理是将收集到的文本数据进行统一编码，然后用分词程序把文本分成一个个单词。本文数据以中文形式，因此将中文文本分割成一个个词语，最后利用停用词表去除与文本分类无关的词语。对于中文文本分词，不像英文文本单词之间有天然的空格，中文则需要对每个字进行组合得到正确的词。停用词是一类在文本中普遍出现但又没有具体含义的词语，在中文中比如：“的”、“了”、“啊”、“并且”等。由于这些词用处很小，去除这些词对文本整体含义几乎不产生影响，反而可以改善模型学习的效果。

步骤2：根据分类要求设置不同的提示模板，通过预测结果选取最优模板。提示函数能够将输入文本转换为相应的提示，从而对下游任务进行重构。模型不再是预测输入文本对应各个标签的概率来获得输出，而是计算各文本在提示中出现的概率。通过采用手动构建一个模板的方式来确定提示函数。首先对训练集中所有标记出现的次数进行了统计，在对统计结果进行分析之后，选取了一些符合任务目的，并且没有情感倾向的标记组成相应的模板，最后确定提示函数。

步骤3：根据答案空间以及特征词映射到每个类别。

答案空间是提示模型输出的所有答案集合，在答案空间中寻找最有可能的预测结果。本发明收集从[MASK]中获取前10个提示字，提示字中不一定都是对分类有增益效果的，有些会带来一定的噪声。将所有提示字进行统计，并对提示词与类别进行相关性分析，可以得到文本最有可能的分类情况。

步骤4：通过bert模型预测每个类别的概率，实现分类BERT模型的嵌入层包含词嵌入、位置嵌入和句子嵌入。训练样本经过预处理后输入到嵌入层中，经过相应的计算得到三个不同的特征向量，再将三个向量的相加之和作为嵌入层输出的特征向量。为了缓解过拟合问题、优化数据分布，模型在嵌入层输出之前，会进行Dropout和归一化处理。Dropout使得模型按照设定的概率随机丢弃部分特征，使得模型在训练过程成生成不同的网络结构，从而增强模型的泛化能力。归一化是将输出数据归一化为标准正态分布，使得数据保持稳定，避免因训练过程中参数变化而引起的内部协变量偏移问题。Transformer层是BERT模型的核心，由多个编码器端的Transformer块堆叠而成。每个Transformer块中包含一个多头注意力机制和一个前馈网络，并且中间的输出数据同样会经过Dropout和层归一化处理来保证数据的稳定。注意力机制是Transformer中一个特殊的结构，由“query-key-value”三个矩阵(W^Q，W^K，W^V)组成，用来确定不同位置之间相互影响从而得到输出数据。对于输入的序列X，首先与三个矩阵进行点积运算，得到对应的查询矩阵Q、键矩阵K和值矩阵V。其中

为输入序列的长度，d_k表示注意力矩阵的维度，注意力机制的计算过程见公式：

为了确定输入数据中所有位置对单个位置的影响，注意力机制将Q矩阵中的第i个向量与K矩阵中的所有向量进行点积，得到所有位置对第i个位置影响程度的打分。通过矩阵对Q矩阵与K矩阵转置的进行点积，即可快速计算出所有位置之间影响程度的得分。然后将得分除以

进行缩放处理，使得梯度稳定。再使用Softmax函数计算出各个位置之间影响程度的占比，从而得到注意力矩阵，其计算方式为：Softmax([z₁,z₂,…,z_n])＝[q₁,q₂,…,q_n](2)

由于在数据预处理过程中，对于长度较小的文本进行了填充处理。为了避免填充位置对结果造成影响，在计算注意力矩阵之前会根据预处理过程中得到的内容序列，将填充位置上的得分设置为负无穷。因为

经过Softmax函数计算之后其对应位置上的值为0，从而排除填充处理对结果产生影响。最后将得到的注意力矩阵与V矩阵进行点积，从而完成对输入数据的特征提取，得到更高维度的数据特征表示。从注意力机制的计算过程可以看出，注意力矩阵是根据各位置与前后所有位置之间的影响程度得出，因此得到的结果是双向的特征表示。多头注意力机制是将多个注意力机制的输出进行拼接，再使用一个线性层W转换为对应的输出维度。多头注意力机制能够增加Transformer中的注意点，有助于网络提取到更丰富的本文特征。

掩码语言模型(Mask Language Model，MLM)，通常是覆盖句子中固定百分比的词，模型期望通过句子中其它没有覆盖的词得到被覆盖的词。训练出的模型具有理解上下文语义的特性，具有根据出现的词来预测中间词的能力。BERT模型利用掩码语言模型进行训练，在句子输入到BERT前，有15％的词被[MASK]随机替换，其中具体80％的词真正被[MASK]替换，10％的词被换成别的词，10％的词不变。加上掩码机制的BERT再经过一个全连接层，用嵌入矩阵乘以输出层权重矩阵，得到转换成词汇表维度的结果，再用softmax计算词汇表中每个词的概率。损失计算只考虑预测的[MASK]，忽略其它没有覆盖的词。

本发明相比现有技术，具有以下有益效果：

1、相比于传统机器学习与深度学习模型进行分类的方法，本发明提出的基于提示学习的分类方法可以不需要大量模型训练时间，可以直接给一个未知标签的文本进行大致类别分析。

2、相比于监督学习的分类方法，本发明提出的利用提示学习可以不需要文本标签，属于无监督分类方法，在没有标签的情况下也可以用于文本分类，为大量没有标注的数据提供了一种可能。

3、本发明提出的基于提示学习的文本分类方法可以辅助某些领域进行数据标注，具有一定的实用性。

附图说明

图1是本发明的提示学习分类方法流程图；

图2是本发明的多头注意力机制结构图；

图3是本发明的基于提示学习和关键词提取的分类方法示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面结合附图和具体实施例，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明采用的技术方案为：

一种基于提示学习融合关键词的法律文书分类方法，不需要有标注的文书数据，利用提示学习的方法与文本关键词相结合，具体本发明的基于提示学习分类流程如图1所示，具体包括以下步骤：

步骤1：数据处理，对文本数据进行分词、去停用词、裁判文书特有词处理以及句子长度统一。对数据进行类别统计，案件类型包括：抢劫、交通事故、盗窃等等，发现裁判文书所属的案件类别并不只属于一类，有些包含多类别。本文将数据集中案件所包含类别数量从高到低整理排列。每个类别的案件数量非常不平衡，为了使模型有较好的分类结果，最终选取数量分布较为均匀的8个类型的文书数据进行实验。网络模型不能直接输入文本内容，需要将文字转换成数字表示。通过逐条读取数据中的“fact”中的内容，用正则匹配提取案件描述开头的某某机关指控与年月日时间部分，由于对案件分类影响不大，进而删减该部分。同时发现大量“\n”、“\r”和“×”的字符串，也一并删除。并直接去除内容长度小于10的文本数据。利用分词工具对文本进行分词，即用空格将每个字分开。随后将文字转换成模型能识别的数字。本文内容是基于BERT模型，而其通过WordPiece算法构建了词汇表，每个字对应于其词表中的编号，例如“抢”字对应词表中的数字6400，标点符号也会进行对应的编号。下图表示文本转换成序列号的示例。转换为数字之后会在句首添加“[CLS]”，结尾添加“[SEP]”。由于数据集大部分都低于400，同时为了提高模型运算效率，本文设置最大句子长度为400，当输入句子长度小于400长度时，自动添加n个“[PAD]”来补足句长，若句子超过设定句子长度时则选择截断处理。

其次，对于标签的预处理部分，本文模拟大部分无标签数据，因此将训练集以无标签的形式存储，而测试集与验证集提取“mera”中的criminals内容，作为有标签数据。标签数据也要通过数字化编号才能使模型识别，自定义0～7为每个标签的数字编号。每个类别需要考虑同义词在内的所有词语，从来提高类别的准确性。

步骤2：提示工程，根据分类要求设置不同的提示模板，通过预测结果选取最优模板。根据分类要求，希望得到案件具体类别，因此手动构造响应的提示文本，对于构造的提示文本，需要尽可能选取对文本类别倾向性较小的字组成。这里选取模板为：“[X]是[MASK]类型案件”，这里的[X]表示在该位置放上需要识别的法律案件描述，[MASK]位置则利用上文掩码语言模型的方式把具体类型进行掩盖。由于BERT模型的预训练模型是在MLM的方式下经过大量语料训练得到，因此设置一个含有掩码的模板输入给BERT来做预测更适合其训练过程。给出一个案件x_in，通过模板映射到x_prompt，然后将x_prompt输入到BERT模型中。

步骤3：模型预测，通过bert模型预测每个类别的概率，实现分类目的。数据经过预处理后输入到嵌入层中，经过相应的计算得到三个不同的特征向量，再将三个向量的相加之和作为嵌入层输出的特征向量。为了缓解过拟合问题、优化数据分布，模型在嵌入层输出之前，会进行Dropout和归一化处理。Dropout使得模型按照设定的概率随机丢弃部分特征，使得模型在训练过程成生成不同的网络结构，从而增强模型的泛化能力。归一化是将输出数据归一化为标准正态分布，使得数据保持稳定，避免因训练过程中参数变化而引起的内部协变量偏移问题。Transformer层是BERT模型的核心，由多个编码器端的Transformer块堆叠而成。每个Transformer块中包含一个多头注意力机制和一个前馈网络，并且中间的输出数据同样会经过Dropout和层归一化处理来保证数据的稳定。注意力机制是Transformer中一个特殊的结构，由“query-key-value”三个矩阵(W^Q，W^K，W^V)组成，用来确定不同位置之间相互影响从而得到输出数据。对于输入的序列X，首先与三个矩阵进行点积运算，得到对应的查询矩阵Q、键矩阵K和值矩阵V。其中

进行缩放处理，使得梯度稳定。再使用Softmax函数计算出各个位置之间影响程度的占比，从而得到注意力矩阵，其计算方式为：

Softmax([z₁,z₂,…,z_n])＝[q₁,q₂,…,q_n] (2)

经过Softmax函数计算之后其对应位置上的值为0，从而排除填充处理对结果产生影响。最后将得到的注意力矩阵与V矩阵进行点积，从而完成对输入数据的特征提取，得到更高维度的数据特征表示。从注意力机制的计算过程可以看出，注意力矩阵是根据各位置与前后所有位置之间的影响程度得出，因此得到的结果是双向的特征表示。多头注意力机制是将多个注意力机制的输出进行拼接，再使用一个线性层W转换为对应的输出维度。多头注意力机制能够增加Transformer中的注意点，有助于网络提取到更丰富的本文特征，如图2所示。

步骤4：答案工程，根据答案空间以及特征词映射到每个类别。

通过BERT得到的掩码向量经过全连接层映射到BERT模型词表上，经过softmax便可得到出现词表对应每个字的概率。利用相关字对应的加权平均概率得到每个类别的概率分布，通过取概率最大的一个类别则为该案件对应的类别。

表示为：

h_i∈class＝∑ωΡ(v) (4)

另一方面，利用法律文书自身的内容，直接从中提取关键词，具体是使用词性标注工具去得到当前文档所有词的词性，然后只选择专有动词作为结果，根据动词所对应的违法行为进行类别评估。最后将以上两种结果取平均值得到最终的类别，进一步提高了分类的精度，主要流程图3所示。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于提示学习融合关键词的法律文书分类方法，包括如下步骤：

步骤1：对文本数据进行分词、去停用词、裁判文书特有词处理以及句子长度统一；

步骤2：根据分类要求设置不同的提示模板，通过预测结果选取最优模板。提示函数能够将输入文本转换为相应的提示，从而对下游任务进行重构；

步骤3：根据答案空间以及特征词映射到每个类别；

步骤4：通过bert模型预测每个类别的概率，实现分类BERT模型的嵌入层包含词嵌入、位置嵌入和句子嵌入。

2.如权利要求1所述的一种基于提示学习融合关键词的法律文书分类方法，其特征在于：步骤1具体包括：

对文本数据进行分词、去停用词、裁判文书特有词处理以及句子长度统一；文本预处理是将收集到的文本数据进行统一编码，然后用分词程序把文本分成一个个单词；数据以中文形式，因此将中文文本分割成一个个词语，最后利用停用词表去除与文本分类无关的词语；对于中文文本分词，不像英文文本单词之间有天然的空格，中文则需要对每个字进行组合得到正确的词；停用词是一类在文本中普遍出现但又没有具体含义的词语，由于这些词用处很小，去除这些词对文本整体含义几乎不产生影响，反而可以改善模型学习的效果。

3.如权利要求1所述的一种基于提示学习融合关键词的法律文书分类方法，其特征在于：步骤2具体包括：

根据分类要求设置不同的提示模板，通过预测结果选取最优模板；提示函数能够将输入文本转换为相应的提示，从而对下游任务进行重构；模型不再是预测输入文本对应各个标签的概率来获得输出，而是计算各文本在提示中出现的概率；通过采用手动构建一个模板的方式来确定提示函数；首先对训练集中所有标记出现的次数进行了统计，在对统计结果进行分析之后，选取了一些符合任务目的，并且没有情感倾向的标记组成相应的模板，最后确定提示函数。

4.如权利要求1所述的一种基于提示学习融合关键词的法律文书分类方法，其特征在于：步骤3具体包括：根据答案空间以及特征词映射到每个类别；

答案空间是提示模型输出的所有答案集合，在答案空间中寻找最有可能的预测结果；收集从[MASK]中获取前10个提示字，提示字中不一定都是对分类有增益效果的，有些会带来一定的噪声；将所有提示字进行统计，并对提示词与类别进行相关性分析，可以得到文本最有可能的分类情况。

5.如权利要求1所述的一种基于提示学习融合关键词的法律文书分类方法，其特征在于：步骤4具体包括：

通过bert模型预测每个类别的概率，实现分类BERT模型的嵌入层包含词嵌入、位置嵌入和句子嵌入；训练样本经过预处理后输入到嵌入层中，经过相应的计算得到三个不同的特征向量，再将三个向量的相加之和作为嵌入层输出的特征向量；为了缓解过拟合问题、优化数据分布，模型在嵌入层输出之前，会进行Dropout和归一化处理；Dropout使得模型按照设定的概率随机丢弃部分特征，使得模型在训练过程成生成不同的网络结构，从而增强模型的泛化能力；归一化是将输出数据归一化为标准正态分布，使得数据保持稳定，避免因训练过程中参数变化而引起的内部协变量偏移问题；Transformer层是BERT模型的核心，由多个编码器端的Transformer块堆叠而成；每个Transformer块中包含一个多头注意力机制和一个前馈网络，并且中间的输出数据同样会经过Dropout和层归一化处理来保证数据的稳定；注意力机制是Transformer中一个特殊的结构，由“query-key-value”三个矩阵(W^Q，W^K，W^V)组成，用来确定不同位置之间相互影响从而得到输出数据；对于输入的序列X，首先与三个矩阵进行点积运算，得到对应的查询矩阵Q、键矩阵K和值矩阵V；其中

为了确定输入数据中所有位置对单个位置的影响，注意力机制将Q矩阵中的第i个向量与K矩阵中的所有向量进行点积，得到所有位置对第i个位置影响程度的打分；通过矩阵对Q矩阵与K矩阵转置的进行点积，即可快速计算出所有位置之间影响程度的得分；然后将得分除以

进行缩放处理，使得梯度稳定；再使用Softmax函数计算出各个位置之间影响程度的占比，从而得到注意力矩阵，其计算方式为：

Softmax([z₁,z₂,…,z_n])＝[q₁,q₂,…,q_n] (2)

由于在数据预处理过程中，对于长度较小的文本进行了填充处理；为了避免填充位置对结果造成影响，在计算注意力矩阵之前会根据预处理过程中得到的内容序列，将填充位置上的得分设置为负无穷；因为

经过Softmax函数计算之后其对应位置上的值为0，从而排除填充处理对结果产生影响；最后将得到的注意力矩阵与V矩阵进行点积，从而完成对输入数据的特征提取，得到更高维度的数据特征表示；从注意力机制的计算过程可以看出，注意力矩阵是根据各位置与前后所有位置之间的影响程度得出，因此得到的结果是双向的特征表示；多头注意力机制是将多个注意力机制的输出进行拼接，再使用一个线性层W转换为对应的输出维度；多头注意力机制能够增加Transformer中的注意点，有助于网络提取到更丰富的本文特征；

掩码语言模型(Mask Language Model，MLM)，通常是覆盖句子中固定百分比的词，模型期望通过句子中其它没有覆盖的词得到被覆盖的词；训练出的模型具有理解上下文语义的特性，具有根据出现的词来预测中间词的能力；BERT模型利用掩码语言模型进行训练，在句子输入到BERT前，有15％的词被[MASK]随机替换，其中具体80％的词真正被[MASK]替换，10％的词被换成别的词，10％的词不变；加上掩码机制的BERT再经过一个全连接层，用嵌入矩阵乘以输出层权重矩阵，得到转换成词汇表维度的结果，再用softmax计算词汇表中每个词的概率；损失计算只考虑预测的[MASK]，忽略其它没有覆盖的词。