CN111651566A

CN111651566A - 基于多任务的小样本学习的裁判文书争议焦点提取方法

Info

Publication number: CN111651566A
Application number: CN202010792816.8A
Authority: CN
Inventors: 不公告发明人
Original assignee: Sichuan University; Chengdu Shuzhilian Technology Co Ltd
Current assignee: Sichuan University; Chengdu Shuzhilian Technology Co Ltd
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-09-11
Anticipated expiration: 2040-08-10
Also published as: CN111651566B

Abstract

本发明公开了基于多任务的小样本学习的裁判文书争议焦点提取方法，解决了有争议的问题被分配到许多类中，而每个类中包含的争议焦点问题的数量的巨大差异导致类的不平衡，从而导致文本聚类的性能下降，且目前的大部分算法模型对数据的要求都较高，需要实现大量的数据标注工作的问题。本发明通过聚类之后得到一定量的有标签的数据，使用LDA自动获取集群标签，数据增强处理后进行模型训练、模型剪裁、争议焦点分类匹配提取司法争议焦点，本发明能够更好的为律师法官去检索类案提供帮助。

Description

基于多任务的小样本学习的裁判文书争议焦点提取方法

技术领域

本发明涉及司法领域争议焦点领域的文本分类匹配，具体涉及基于多任务的小样本学习的裁判文书争议焦点提取方法。

背景技术

随着我国社会发展的不断进步，司法改革必将进一步推进。改革从人民群众对公正的要求出发，以加强对权力的监督和制约为重点。随着信息技术的高速发展，网络判决的发布对于促进司法公开起到了至关重要的作用。随着新诉讼制度的逐步形成，中国法院围绕有争议的问题组织辩论。

事实争议性问题有助于在法庭审判中集中事实调查，而法律争议性问题有助于法庭辩论组织和法律适用。判决书体现了法律论证的过程，判决书中所包含的争议问题在庭审过程中被整理、调查和辩论。因此，争议性问题在审判现场的恢复和法官的决策中起着关键的作用。

然而，有效地识别海量数据中的关键信息将是一个巨大的挑战。同类争议问题的分类成为案例分类的基础。然而，由于语料库庞大、表达式多样、门类繁多，手工地识别外生争议性问题是很费钱的。使用机器学习算法来提取这些争议焦点是解决这一问题的有效方法。

由于行政法官的自由裁量权和法外因素，加之事实和法律的确定性，法官的描述缺乏格式。由于人类语言表达的复杂性，在对有争议的问题进行分类时产生了歧义。准确地对争议焦点问题进行分类成为一项具有挑战性的自然语言处理(NLP)任务。

通过研究数据集的结构，发现争议焦点数据遵循幂律分布，这表明，其中少数类是常见的，而大多数类是罕见的。因此，有争议的问题被分配到许多类中，而每个类中包含的争议焦点问题的数量的巨大差异导致了类的不平衡，从而导致文本聚类的性能下降。文本分类技术已成功应用于多种应用，如垃圾邮件识别、情绪分析和舆论监测。但是，目前的大部分算法模型对数据的要求都较高，需要实现大量的数据标注工作。数据标注的任务是计算出总共有多少类有争议的问题，以及每个类包含哪些有争议的问题。

发明内容

本发明所要解决的技术问题是：有争议的问题被分配到许多类中，而每个类中包含的争议焦点问题的数量的巨大差异导致了类的不平衡，从而导致文本聚类的性能下降；目前的大部分算法模型对数据的要求都较高，需要实现大量的数据标注工作。

本发明提供了解决上述类的数量差异导致的不平衡问题和算法模型对数据要求大量标注的问题的基于多任务的小样本学习的裁判文书争议焦点提取方法。

本发明通过下述技术方案实现：

基于多任务的小样本学习的裁判文书争议焦点提取方法，包括以下步骤：

S1、依据n个案由数据中有争议的判断问题进行分类，将所述有争议的判断问题分类为争议性问题重复诉讼事由组(G1)、一般程序法争议问题组(G2)、一般实体法争议问题组(G3)和非一般性法律争议问题及事实争议问题组；

S2、对G4文本数据进行争议焦点处理如下：整理非一般性法律争议问题及事实争议问题组并对其中的与案件事实相关的争议性问题数据（G4）文本数据做如下处理：

步骤S2A、采用bert模型向量化G4文本数据，使用GMM（高斯混合模型）聚合向量化后的G4文本数据得到k个类别数据；

步骤S2B、对聚合G4文本数据后的k个类别数据生成k个类别标签数据，对k个类别标签数据采用LDA自动获取得到c个集群标签数据；

步骤S2C、标注操作：依据得到的c个集群标签数据进行判断操作，判断操作具体为：删除不属于当前集群标签数据的类别标签数据；

计算集群标签数据之间的数据相似度，确定相似集群，搜索具有相似集群标签数据的集群，判断是否合并所述集群，依据判断结果操作后得到标注争议焦点的集群标签数据。

进一步地，步骤S2A还包括详细步骤如下：

向量化的具体过程为：对多条G4文本数据转换成对应的数字id输入bert模型，取bert模型第12层CLF位置的向量作为所述文本数据的向量表示；

向量化后的文本聚类具体操作为：高斯混合模型由K个高斯模型组成，数据包含K个类；

GMM的概率密度函数如下：

其中，p(x∣k)=N(x∣u _k ,Σk)是第k个高斯混合模型的概率密度函数，当选定第k个高斯混合模型，所述高斯混合模型产生x的概率；p(k)=πk是第k个高斯混合模型的权重，p(k)=πk是选择第k个高斯混合模型的先验概率。

进一步地，所述步骤S2C中还包括搜索相似集群标签的方法：使用编辑距离算法确定不同集群标签数据之间的重合度，同时采用word2vec的方法确定不相同的集群标签数据的相似度，从而确定具有相似集群标签数据的集群，向后输出至判断是否合并所述集群。

进一步地，应用上述方法的裁判文书争议焦点提取分类的小样本学习方法，应用上述方法得到的标注数据采用数据增强扩充所述标注数据的样本数量。

进一步地，还包括解决小样本问题的方法如下：包括采用同义词替换，随机插入，随机交互，随机删除，回译的方式将标注数据的样本从一条数据扩展为10条数据，扩展后的标注数据进行如下操作：

构建bert模型，所述模型的底层采用bert模型构建作为句子的表征，所述bert模型采用千万级别的文本进行训练；

应用所述模型结合扩展后的标注数据，得到bert的表征层，bert模型的表征层为所述模型中bert模型的第12层对应的CLF位置的向量，所述表征层后为n个分类层，每个案由数据占据一个分类层；

采用多任务学习的方式训练n个案由数据，n个分类层共享了bert模型的第十二层之前的bert模型结构，bert模型的第十二层之前的bert模型结构为n个分类层的共享层，训练过程中通过神经网络反向传播来优化所述共享层的参数，使得所述表征层能够融合n个案由数据；

多任务学习后对得到的优化共享层后的bert模型进行模型剪裁，删除n个分类层数据，仅保留bert模型的前十二层数据；

将得到的所述标注数据输入上述剪裁后的bert模型，剪裁后的bert模型依据所述标注数据的争议焦点种类输出向量数据，将多组向量数据进行向量平均后计算欧式距离，每组向量数据表示一类标注数据，得到欧式距离最小的类向量所对应的类别为标注数据的类别。

本发明具有如下的优点和有益效果：

本发明是针对司法领域争议焦点进行文本分类匹配的，能够有效提取争议焦点及划分类别；

本发明通过bert+GMM的聚类方式大大减少了标注的工作量；

本发明使用LDA进行关键词抽取，省去了对标签的定义；

本发明使用的BMTC的深度学习模型，能够解决小样本问题，拥有很好的普适性；

本发明提供的司法争议焦点能够更好的为律师法官去检索类案提供帮助。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明的流程图。

图2为本发明的模型结构图。

具体实施方式

在对本发明的任意实施例进行详细的描述之前，应该理解本发明的应用不局限于下面的说明或附图中所示的结构的细节。本发明可采用其它的实施例，并且可以以各种方式被实施或被执行。基于本发明中的实施例，本领域普通技术人员在没有做出创造性改进前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例1：分析技术问题和方案：

为了解决标注效率低、标注数据质量高的问题，采用聚类算法和主题模型。使用的聚类方法是GMM。

文本聚类将聚类分析应用于文本，文本使用机器学习和NLP来理解和分类非结构化的文本数据；聚类算法被定义为一种无监督的技术，通过对多个特征定量比较发现种群中的个体是否属于不同的群体。

在集群阶段之后，绝大多数同构的有争议的问题都被适当地合并到同一个集群中。但由于法律文本的语义复杂性和无格式性，许多有争议的问题仍然存在。在这种情况下，需要手动删除或合并有争议的问题及其集群。对于每个集群，与其手动确定争议焦点问题的主要信息，不如使用几个词(称之为集群标签)来概括这个集群的主题。使用LDA自动获取集群标签，专家可以通过集群标签快速判断每个集群中是否有不属于这个类别的数据，并搜索（使用编辑距离算法确定标签之间的重合度以及采用word2vec的方法确定不相同的集群标签的相似度，从而确定相似的集群）具有相似集群标签的集群，判断是否合并，从而有效实现数据标注。

在获取高质量标注数据后小样本问题依然存在，现在几乎所有模型包括bert和小样本学习模型实际上都不能有效的解决这个问题，因为争议焦点问题是法律专业问题，而普通的bert不能够很好的适应场景，现有的小样本学习的方法做不到普适性；

为了解决这个问题，首先采用数据增强的方式扩充样本，然后构建bert+多任务学习的模型BMTC（bert multitasking text classify）充分学习争议焦点的语义表示，最后在采用表征层（表征层为模型BMTC模型的倒数第二层向量表示）作为语义向量，增加普适性。

依据上述分析实施例1操作如下：

首先将有争议的判断问题分为四类。

在争议性问题重复诉讼事由组(G1)中，经双方当事人请求，法官认为争议性问题实际上是案件中所涉及的诉讼事由。

一般程序法争议问题组(G2)总结了在不同诉讼事由下可能存在的程序性争议问题。

一般实体法争议问题组(G3)的特点是法官需要根据法律的明文规定，对小前提(案件事实)是否符合大前提(法律规定)做出价值判断。

非一般性法律争议问题和事实争议问题组(G4文本数据)归纳出与案件事实相关的争议性问题，具有重要的参考意义。

然而，G3和G4文本数据占大多数。

它表明，大多数有争议的问题都与它们所属于的行动原因的事实和法律规定密切相关。由于不同的成因之间存在着争议性的差异，有必要单独研究。它不仅实现了对诉讼中各种原因引起的争议问题的法律知识建构，而且为法官检索争议问题提供了便利。因为G1,G2,G3的文本表达都有较为固定的表达方式，和具体哪个案由的关联性不强；

例如：

G1的通常表达为：原、被告在本案中是否存在过错原告本诉请求是否支持被告反诉请求是否支持；

G2的通常表达为：原审法院判决上诉人对于被上诉人的损失承担赔偿责任是否正确；

G3的通常表达为：原、被告三方是否要承担责任且需承担多少责任是本案的主要争议焦点；能够使用规则的方式将这部分内容提取出来，剩余部分就是G4文本数据的内容。

在不同案由之下，G1,G2,G3的内容并不会有特别大的出入，因此采用统一的规则来将G1,G2,G3进行分类。

而G4文本数据的部分每个案由处理的问题都完全不一样，因此重点在处理G4文本数据部分的争议焦点。在法律场景下的案由有好几千个，明显不能由专家人工分析每个案由总结争议焦点，本发明采用下列方法对G4文本数据的争议焦点进行处理。

如图1所示；

文本向量化：首先采用bert模型向量化G4文本数据的文本，通过对应的词典（词典也是bert模型对应的）转换成对应的数字id输入bert模型，取bert模型第12层的CLF位置的向量作为这句话的向量表示。

文本聚类：使用GMM（高斯混合模型）聚合向量化的数据得到k个类别，假设高斯混合模型由K个高斯模型组成（即数据包含K个类），则GMM的概率密度函数如下：

其中，p(x∣k)=N(x∣u _k ,Σk)是第k个高斯混合模型的概率密度函数，当选定第k个高斯混合模型，所述高斯混合模型产生x的概率；p(k)=πk是第k个高斯混合模型的权重，p(k)=πk是选择第k个高斯混合模型的先验概率，选择合适的k值来作为的最后需要聚合成的类别。

生成类别标签并核验：对于每个聚类产生的集群，使用LDA自动获取集群标签，用几个词(称之为集群标签)概括这个集群的主题；

聚类之后得到一定量的有标签的数据，专家通过集群标签快速判断每个集群中是否有不属于该类别的数据，然后使用编辑距离算法确定标签之间的重合度以及采用word2vec的方法确定不相同的集群标签的相似度，从而确定相似的集群，而从搜索具有相似集群标签的集群，判断是否合并，从而有效实现数据标注，得到了高质量的标注数据。

数据增强处理：通过上面得到的标注数据发现每个类中包含的争议焦点问题的数量的巨大差异导致了类的不平衡，大部分类别的样本数量极小，只有几条数据，因此采用数据增强的方式扩充数据样本，具体使用同义词替换，随机插入，随机交互，随机删除，回译等方式对标注数据进行数据样本扩充得到数据集更大的标注数据，能够将一条数据扩展为10条数据，但是通过数据增强的方式没有完全解决小样本中表达单一的问题，只是部分解决了小样本的问题。

模型训练：如图2所示，构建基于bert+多任务学习的文本分类模型BMTC（bertmultitaski300g text classify）。模型底层采用bert模型来构建作为句子的表征，由于bert是采用了千万级的文本进行训练的，包含了表达上的多样性，这同样也一定程度上解决了小样本的问题，结合上面的数据增强处理方法，就基本能够解决小样本问题了。在bert的表征层（即bert的第12层对应的CLF位置的向量）之后跟上300个分类层（本次采用了300个民事案由来做争议焦点分类，即每个分类层对应一个案由），采用多任务学习的方式训练每个案由，可见后面具体的BMTC模型图，后面的300个分类层共享了下面的bert结构，训练过程中通过神经网络反向传播来优化共享层的参数，使得底层的表征层能够融合所有案由的信息。

模型裁剪：裁剪模型训练得到的模型，舍去分类层信息，只取共享层bert作为最后的句子表征层（即BMTC模型结构图中CLS位置的向量）。

争议焦点分类匹配：将每个争议焦点通过上面剪裁之后的模型进行向量化（根据上面裁剪的模型，将争议焦点文本输入模型，得到一个向量，即为文本的向量化），然后将每个类别的样本数据对应的向量平均得到类别向量（将每个样本对应的向量进行对位相加，然后处于样本量，例如：样本1对应的向量：[1.0, 0, 1.0]，样本2对应的向量：[0, 1.0,0]，那么对应的类别向量为：[0.5, 0.5, 0.5]）。在实际使用过程中，新的争议焦点先通过裁剪的模型向量化，然后计算和这些类向量的欧式距离，得到欧式距离最小的类向量所对应的类别，就是新的争议焦点所属的类别。

通过上述的步骤，就能够将G4文本数据的数据都对应的分类匹配到相应的争议焦点上，以便后续争议焦点的查询搜索

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多任务的小样本学习的裁判文书争议焦点提取方法，其特征在于，包括以下步骤：

S2、整理非一般性法律争议问题及事实争议问题组并对其中的与案件事实相关的争议性问题数据（G4）文本数据做如下处理：

2.根据权利要求1所述的基于多任务的小样本学习的裁判文书争议焦点提取方法，其特征在于，步骤S2A还包括详细步骤如下：

GMM的概率密度函数如下：

3.根据权利要求2所述的基于多任务的小样本学习的裁判文书争议焦点提取方法，其特征在于，所述步骤S2C中还包括搜索相似集群标签的方法：使用编辑距离算法确定不同集群标签数据之间的重合度，同时采用word2vec的方法确定不相同的集群标签数据的相似度，从而确定具有相似集群标签数据的集群，向后输出至判断是否合并所述集群。

4.根据权利要求3所述的基于多任务的小样本学习的裁判文书争议焦点提取方法，其特征在于，应用所述方法得到的标注数据采用数据增强扩充所述标注数据的样本数量。

5.根据权利要求4所述的基于多任务的小样本学习的裁判文书争议焦点提取方法，其特征在于，还包括解决小样本问题的方法如下：包括采用同义词替换，随机插入，随机交互，随机删除，回译的方式将标注数据的样本从一条数据扩展为10条数据，扩展后的标注数据进行如下操作：

多任务学习后对优化共享层后的bert模型进行模型剪裁，删除n个分类层数据，仅保留bert模型的前十二层数据；

将得到的所述标注数据输入上述剪裁后的bert模型，剪裁后的bert模型依据所述标注数据的争议焦点种类输出向量数据，将多组向量数据进行向量平均后计算欧式距离，每组向量数据表示一类标注数据，得到欧式距离最小的类向量所对应的类别为所对应的标注数据的类别。