CN114065760B

CN114065760B - 基于预训练语言模型的法律文本类案检索方法及系统

Info

Publication number: CN114065760B
Application number: CN202210040271.4A
Authority: CN
Inventors: 李芳芳; 苏朴真; 邓晓衡; 张健
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-06-10
Anticipated expiration: 2042-01-14
Also published as: CN114065760A

Abstract

本发明提供了一种基于预训练语言模型的法律文本类案检索方法及系统，包括：根据原始法律主句文本数据和检索池文本数据，将待检索的法律文本类案信息整理成包括有主句和被检索句的数据信息作为模型训练的输入数据；将所述输入数据中的主句和被检索句进行分词处理和无效词性筛选，基于人工构建的罪名表定位函数得到最终具有关键信息的数据；对所述具有关键信息的数据进行位置向量的计算，确定数据之间的位置关系；利用训练好的预训练语言模型，检索出与查询主句案例相关的法律文本类案。最大限度的保留了有效文本特征，又减少了文本的长度，同时也保证了文本语义信息不被破坏、强化了重点特征的占比。在数据上、本质上提高了模型的精度和性能。

Description

基于预训练语言模型的法律文本类案检索方法及系统

技术领域

本发明涉及类案检索技术领域，特别涉及一种基于预训练语言模型的法律文本类案检索方法及系统。

背景技术

类案检索，是落实司法责任制要求、推行司法制约监督、促进法律适用统一的一项重要制度。相似案件，通常指要件事实、案情事实相同或相似的案件或者对于案件中事实情节、犯罪主体、犯罪手段、犯罪目的、犯罪结果都相似的案件。类案检索是为了利用已经解决了的案例，当遇到相似的案例时可以提供给法官一些可供参考的方法。目前虽然形成了若干类案检索平台,但是其在类案智慧判断、类案检索方式、类案对象归纳与排列、类案检索服务等方面存在一定的不足。当法官进行类案检索时采用的方法绝大部分都是利用案件中的关键字对卷宗集进行检索，但这样并不精准，检索的结果往往是数量巨大的案件，下一步则需要法官人工阅读案例，逐个比对判断相似与否这就耗费了很多时间。而随着互联网时代的到来，人工智能时代的到来，通过计算机辅助法官形成智慧法院已经成为现实。

目前对于法律文本类案检索的方法主要有基于Bm25、Jaccard相似度等经典算法和基于Word2Vec、RCNN、LSTM等传统深度神经网络两个大类。但这两类方法都存在着一定的问题和不足，基于Bm25、Jaccard相似度等经典算法对于文本长度没有限制，但其检索性能相比于深度神经网络来说要逊色很多。而对基于深度神经网络的方法来说，往往需要十分充足的数据量来对模型进行训练以支撑后续的检索效果，同时模型性能也十分受限于文本长度。

发明内容

本发明提供了一种基于预训练语言模型的法律文本类案检索方法及系统，其目的是为了提高模型的精度和推理能力，提升模型的检索性能。

为了达到上述目的，本发明提供了一种基于预训练语言模型的法律文本类案检索方法，包括：

步骤1，根据原始法律主句文本数据和检索池文本数据，将待检索的法律文本类案信息整理成包括有主句和被检索句的数据信息作为模型训练的输入数据；

步骤2，将所述输入数据中的主句和被检索句进行分词处理和无效词性筛选，基于人工构建的罪名表定位函数得到最终具有关键信息的数据；

步骤3，对所述具有关键信息的数据进行位置向量的计算，确定数据之间的位置关系；

步骤4，通过对数据进行传递闭包，扩充训练数据中的正样本，并对所述正样本进行对抗训练，采用R-drop的方法提高模型的性能，使模型更好地学习到相似案例之间的关系；

步骤5，采用Roberta预训练模型结合模型进行预测，将对抗训练和R-drop的引入作为输入样本，通过Dropout来生成两次稍有不同的样本，计算出整体模型的损失，增强模型的全局特征提取能力；

步骤6，获取多个查询主句案例，对每一个查询主句案例对应的检索案例池进行筛选，利用训练好的预训练语言模型，检索出与查询主句案例相关的法律文本类案。

其中，所述步骤2包括：

步骤21，将所述输入数据中的主句和被检索句采用根据特殊标点符号作为分句函数判断依据的标准对输入数据进行初步切分；

步骤22，采用jieba词性对初步切分的法律文本句子进行进一步的分词处理，并对分词处理结果进行词性标注，再根据预设的无效词性表对分词后的文本进行词性筛选，过滤掉无效词性的文本，将有效词重组成为有效句后得到初步清洗后的法律文本数据；

步骤23，构建罪名表定位函数，根据句中是否包含罪名表内的罪名条目对初步清洗后的法律文本数据进行句子级的筛选，若当前句中包含罪名表内的罪名条目则保留当前句以及与其相邻的前后距离为2的句子作为相关句子，记录相匹配的罪名条目作为相关罪名，将相关句子重组为处理后的文本，将相关罪名拼接于文本首部得到最终具有关键信息的数据。

其中，所述步骤3具体包括：

对于位置向量的计算我们采用sin和cos函数进行计算，计算过程公式如下所示：

其中，

为位置向量的长度，

为词语的位置，

则代表词语的维度。

其中，所述步骤4包括：

所述对抗训练的公式如下所示：

（3）

其中，D为训练集，x为输入数据，y为标签，

为模型参数，

为单个数据样本的Loss，

为对抗扰动，

为对抗扰动

的扰动空间。

其中，所述步骤4中所述对抗训练的步骤具体包括：

将

注入训练数据x，其中

的目的在于使得

取到最大值；

对

加以约束使得其绝对值要小于一个常数，形式如公式：

其中，

为常数；

对于生成的对抗样本

后，以生成的(

作为训练数据来最小化Loss以更新参数

；

反复执行上述步骤。

其中，所述

的取值以及计算过程包括：

在NLP任务中为了最小化Loss采用的是梯度下降，那么反过来说为了增大单个数据样本的Loss，则需要使梯度上升，故对于

的取值为：

为了防止

过大同时满足

，将

进行标准化处理，标准化方式如以下公式所示：

。

其中，所述步骤5具体包括：

对Roberta模型加载预训练参数，使模型具有经过大量预训练后获得的语义知识，将输入序列转换为具有丰富语义信息的特征序列；

将预处理后的输入数据进行Embedding表示；

将Embedding表示的输入数据作为Roberta预训练模型的输入，经过数层的Encoder中的Attention计算后，得到了输入数据的特征序列并作为Roberta的输出；

将所述Roberta的输出中一特定特征表达作为一个简单的具有Sigmoid激活函数的全连接网络的输入，并进行相似度判断结果。

本发明还提供了一种基于预训练语言模型的法律文本类案检索系统，包括：

数据预处理模块，用于根据原始法律主句文本数据和检索池文本数据，将待检索的法律文本类案信息整理成包括有主句和被检索句的数据信息作为模型训练的输入数据；

筛选模块，用于将所述输入数据中的主句和被检索句进行分词处理和无效词性筛选，基于人工构建的罪名表定位函数得到最终具有关键信息的数据；

位置向量计算模块，用于对所述具有关键信息的数据进行位置向量的计算，确定数据之间的位置关系；

模型训练模块，用于通过对数据进行传递闭包，扩充训练数据中的正样本，并对所述正样本进行对抗训练，采用R-drop的方法提高模型的性能，使模型更好地学习到相似案例之间的关系；

模型增强模块，用于采用Roberta预训练模型结合模型进行预测，将对抗训练和R-drop的引入作为输入样本，通过Dropout来生成两次稍有不同的样本，计算出整体模型的损失，增强模型的全局特征提取能力；

数据检索模块，用于获取多个查询主句案例，对每一个查询主句案例对应的检索案例池进行筛选，利用训练好的预训练语言模型，检索出与查询主句案例相关的法律文本类案。

本发明的上述方案有如下的有益效果：

本发明的上述实施例所述的基于预训练语言模型的法律文本类案检索方法及系统引入了人工构建的罪名表，使用了特定标点符号进行分句的分句函数，同时采用jieba分词、词性标注的方法对分句结果进行处理，再经过分析构建了无效词性表以筛选、清除词性标注后的无效词，再将处理后的有效词按照句为单位进行拼接，接着根据罪名表进行相关句筛选，最后将相关罪名拼接至文本头，生成特征分布均匀且关键特征突出，长度适合的训练数据，在缩短文本长度的基础上最大程度的保留了特征信息；同时在Embedding时采用了Token、Segment、Position Embedding结合的方法融入了输入文本的词级、段落级、位置级信息，从而提高模型的精度和推理能力。其次采用了传递闭包、对抗训练、R-drop的数据增强方式，通过从数据本身扩充、Embedding层注入扰动、Dropout生成相似文本的三种方法，对训练数据进行增强，使得模型能够在小样本的情况下具有鲁棒性，充分学习相似文本的语义信息；采用了大规模预训练模型Roberta作为模型的主要结构，这样使得使得模型可以通过加载预训练参数来获得充足的语义知识，能够生成特征充分、语义信息丰富的特征表示。从而极大程度上提升了模型的检索性能。

本发明的其它有益效果将在随后的具体实施方式部分予以详细说明。

附图说明

图1为本发明的基于预训练语言模型的法律文本类案检索方法的流程图；

图2为本发明的R-drop结构图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是锁定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

如图1所示，本发明的实施例提供了一种基于预训练语言模型的法律文本类案检索方法，包括：

由于本发明是针对法律文本数据进行类案检索，而几乎所有的法律文本数据长度都超过了NLP任务中能处理的文本长度，同时在法律文本的描述有很多与罪名相关度不高的事实描述，在进行类案检索时无法给模型提供任何有用信息，甚至会干扰模型进行判断，如果不加处理就进行模型的训练，会使模型的性能大打折扣。本发明中首先分别针对输入数据<主句,被检索句>（均为法律文书文本）中的主句和被检索句采用根据特殊标点符号

作为分句函数判断依据的标准对长文本进行初步切分。

根据第一步中的分句函数将超长法律文本进行初步的切分从而减少由于单句长度过长而对jieba分词效果造成的影响，Jieba分词是一个Python库，专门应用于自然语言处理领域中，对中文文本进行分词的工具。在分句完成的基础之上，本方法采用jieba分词对经过分句之后的法律文本句子进行进一步的分词，同时对于每一个句子中分词后的结果进行词性标注，再根据人工分析后构建的无效词性表对分词后的文本进行词性筛选，将词性属于['nr','nr1','nr2','nrj','nrf','ns','nsf','nt','t','m','mq','q','nrfg','nz','r']的词过滤，剩下的词即为有效词，将有效词重组成为有效句后则得到了初步清洗后的法律文本数据。

由于法律判决文书通常长度都大于3000，所以如果仅仅是通过分句分词以及无效词性筛选操作，文本的长度问题仍然不能得到有效的解决，所以为了进一步解决文本长度问题，本发明根据步骤二中得到的初步清洗后的文本，进行基于人工构建的罪名表定位函数，根据句中是否包含罪名表内的罪名条目进行句子级的筛选，若当前句中包含罪名表内的罪名条目则保留当前句以及与其相邻的前后距离为2的句子作为相关句子，同时记录相匹配的罪名条目作为相关罪名。最后将相关句子重组为处理后的文本，并将相关罪名拼接于文本首部得到最终具有关键信息的数据。

相对于NLP任务中传统的文本预处理方式，本发明可以在避免过多冗余信息仍然保留在处理后的文本中的问题，又可以避免误将有助于模型进行相似匹配进而类案检索的关键信息截断，从而有效提升模型性能。

本发明的对所述具有关键信息的数据进行位置向量的计算，确定数据之间的位置关系的步骤是在Embedding方式上，采用了Token Embedding、Segment Embedding、Position Embedding相结合的Embedding方式，具体方式如表1所示。

表1

其中Token Embedding代表输入中以词为单位的Embedding映射，TokenEmbedding中每一个位的值都在词表中有与之唯一对应的词，[CLS]代表ClassificationToken作为最终进行判断是否相似的Token，[SEP]代表Separation Token作为输入文本之间的分隔符。Segment Embedding代表输入中文本的段落信息，如上图所示，“北京欢迎你”属于<A属于,Prediction >中的A部分，所以其Segment Embedding均为0，而“北京欢迎您”则属于<A属于,Prediction >中的B部分，所以其Segment Embedding均为1。PositionEmbedding代表输入序列的位置向量。

对于位置向量的计算我们采用sin和cos函数进行计算。计算过程如公式(1)、(2)所示：

其中

为位置向量的长度，

为词语的位置，

则代表词语的维度。其本质是将一个句子中位置为pos的词语转换成一个

维的位置向量，这个向量中第i个值为PE。使用Token、Segment、Position三种Embedding方式结合的Embedding方式使得数据的信息更为灵活同时也充分融入了词与词之间的位置关系这一重要特征。

类案检索在本质上其实是一个查询主句X以及其对应的检索案例池P中的所有数据Y_i的组合<X,Y_i,Prediction >（i=0,…N）进行相似度判断，并筛选出Prediction超过阈值的组合。而传递闭包则是根据<X,Y_i,Prediction=True>、<X,Y_k,Prediction=True>新生成一个组合<Y_i,Y_k,Prediction=True>，可以有效的对训练数据中的正样本进行扩充。在训练数据有限的情况下，通过对数据进行传递闭包的方式能够有效的扩充训练数据中的正样本，从而使得模型能够更加充分的理解相似文本中的关系，提升对于相似文本的判断性能。

为了在少量训练样本的情况下提升模型鲁棒性，本方法采用了对抗训练对模型的鲁棒性进行提升。对抗训练中的要点在于对于对抗样本的构建，而所谓对抗样本，简单来说即是在原训练样本中注入一些极其微小的扰动，这些微小的扰动是“人所察觉不到”而对模型来说其预测的结果会完全不同。对抗训练则是通过构建对抗样本并将其加入训练数据来增加模型的鲁棒性同时也能提高模型的性能。对抗训练的形式如公式(3)所示：

其中，D为训练集，x为输入数据，y为标签，

为模型参数，

为单个数据样本的Loss，

为对抗扰动，

为对抗扰动

的扰动空间。对抗训练的过程可以描述为以下步骤：

步骤一：将

注入训练数据x,其中

的目的在于使得

取到最大值。同时为了满足“人所察觉不到”而对模型的预测结果造成影响，就要对

加以约束使得其绝对值要小于一个常数，形式如公式(4)所示：

其中

为常数。

步骤二：对于生成的对抗样本

后，以生成的(

作为训练数据来最小化Loss以更新参数

。

步骤三：反复执行步骤一、二。

而对于

的取值以及计算过程可以描述为以下步骤：

步骤一：在NLP任务中为了最小化Loss采用的是梯度下降，那么反过来说为了增大单个数据样本的Loss，则需要使梯度上升，故对于

的取值可以为公式(5)所示：

步骤二：同时为了防止

过大同时满足

，我们需要将

进行标准化处理，标准化方式如公式(6)所示：

以上即是对抗训练的引入方式，而这些对抗扰动都是加在Embedding层中的。训练数据有限的情况下，通过对训练数据注入扰动，对模型训练加以干扰，这样能够有效的提升模型的鲁棒性即在小扰动下的稳健性，同时经过实验表明，引入对抗训练在模型性能上也能起到使模型性能有效提升的作用。

在法律文书文本类案检索任务的数据相对缺乏，在少样本的情况下，为了提高模型的性能，本方法在模型训练时采用了R-drop的方法来使模型能更好地学习到相似案例之间的关系。R-drop的结构如图2所示。

整个R-drop的流程可以简单描述为，将输入数据A完整的复制一份进入带有Dropout的模型中进行预测，同时由于Dropout是随机选取神经元使其暂时不参与预测，所以对于相同的输入数据A其两次进入模型的输出是不同的，我们可以认为输入数据A以及通过了两个稍有不同的模型，可以分别记为

和

。同时对于R-drop的Loss函数可以总结为两个部分，如公式(7)、(8)所示：

其中KL为对称KL散度，整体模型的Loss即为

与

的加权和，如公式(9)所示：

本发明在对抗训练在Embedding层注入扰动来增强模型鲁棒性和性能的基础上添加了R-drop的数据增强方式，利用Dropout层随机使部分神经元不参与预测的方式能够预测出与实际预测十分接近的语义表达，相比于人工添加的在人所看来“有关联”的信息来说通过R-drop的数据增强方式是在模型眼中看起来“有关联”、更加契合模型去理解相似数据之间的关系的方式，通过实验证实添加R-drop后模型的性能有显著提升。

本发明整体采用Roberta预训练模型结合进行预测时的步骤为：

步骤一：对Roberta模型加载预训练参数，使得模型具有经过大量预训练后获得的语义知识，能够将输入序列转换为具有丰富语义信息的特征序列。

步骤二：将预处理后的输入数据<查询主句A，检索池句B>，进行Embedding，对于Token Embedding部分的表示为[CLS][查询主句A][SEP][检索池句B][SEP]，其中[CLS]为融入了全局信息以后专门用于判断是否相似的Token，[SEP]为不同段之间的分割Token，[查询主句A]和[检索池句B]均为分词后每个词对应的Token Embedding，对于SegmentEmbedding部分的表示，[CLS][查询主句A][SEP]均为0，[检索池句B][SEP]均为1，而对于Position Embedding则是分别针对句A、句B来进行Position Embedding的计算。由此得到输入数据<查询主句A,检索池句B>的Embedding表示。

步骤三：将步骤二的Embedding表示作为Roberta预训练模型的输入，经过数层的Encoder中的Attention计算后，得到了输入数据的特征序列并作为Roberta的输出。

步骤四：将步骤三中Roberta输出中对应[CLS]Token的特征表达作为一个简单的具有Sigmoid激活函数的FCN（Fully Connected Network，全连接网络）的输入，进行相似度判断，并得到输出0或1，其中0代表不相似，1代表相似。

对抗训练以及R-drop均是在模型训练时采用的数据增强方式，在模型进行预测时，对抗训练与R-drop均不使用，同时对抗训练的引入是在Embedding层，而R-drop的引入是针对输入样本，将其两次输入模型，通过Dropout来生成两次稍有不同的样本，再由公式(7) 、(8)、(9)计算整体模型的Loss。

本发明从特征提取上来说，拥有自注意力机制的Roberta能够很好的获得上下文相关的双向特征表示。从下游任务上来说，经过大规模数据预训练后的Roberta能够更方便的融入到下游任务上，只需要通过简单的FCN进行少量数据的Fine-Tuning即可。从模型性能上来说，采用Roberta的方法在各项指标上都远高于传统深度学习模型以及机器学习方法。

待上述的模型训练好之后，使用基于预训练语言模型进行法律文本类案检索，具体流程为：给定多个查询主句案例，每一个查询主句案例都有一个检索案例池，对检索案例池进行筛选，检索出每个与查询主句案例相关的类案。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。