CN116304019A

CN116304019A - 一种争议焦点体系构建与识别方法

Info

Publication number: CN116304019A
Application number: CN202310028014.3A
Authority: CN
Inventors: 魏芸菲; 吴正午; 胡亚谦; 刘贤艳; 孙晓锐; 谭晓颖
Original assignee: China Judicial Big Data Research Institute Co ltd
Current assignee: China Judicial Big Data Research Institute Co ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-06-23
Anticipated expiration: 2043-01-09
Also published as: CN116304019B

Abstract

本发明公开了一种争议焦点体系构建与识别方法。本方法步骤包括：1)对裁判文书集中的每一裁判文书进行分段处理，得到裁判文书的事实认定段和裁判说理段集合D；2)从集合D中筛选出蕴含争议焦点的事实认定段和裁判说理段，得到蕴含争议焦点的数据集D₁；从数据集D₁中提取争议焦点语句，得到争议焦点数据集D₂；3)对数据集D₂进行聚类，形成争议焦点语句聚类簇；4)结合相关法律知识对聚类结果进行归纳总结，形成多层级争议焦点知识体系；5)结合知识体系对裁判文书集中的裁判文书进行标注，得到争议焦点知识体系识别模型；6)当给定一篇裁判文书A，提取裁判文书A中的争议焦点语句并将其输入该模型，识别出裁判文书A的争议焦点。

Description

一种争议焦点体系构建与识别方法

技术领域

本发明涉及自然语言处理领域和裁判文书中有关争议焦点的研究领域，主要是涉及争议焦点知识体系构建，及在小样本情况下快速、精准地实现争议焦点识别。

背景技术

较早的争议焦点知识体系主要依赖于法律专家从大量的裁判文书中归纳总结争议焦点知识体系。虽然取得了阶段性的成果，但是它必须依靠纯人工的方式来梳理争议焦点知识体系，需要耗费大量法律专家和知识工程师的参与，具有梳理的争议焦点知识体系不全面，时间周期较长，成本较高的缺点。随着机器学习技术的发展，出现了一些基于无监督聚类加法律专家归纳总结的方法，可以辅助法律专家归纳总结争议焦点知识体系，从而减少争议焦点知识体系构建的人力和时间成本。但是单纯的无监督聚类的效果不太理想，对法律专家梳理知识体系的辅助能力有限。因此，如何提升无监督聚类的效果，更好的辅助法律专家归纳争议焦点知识体系成为争议焦点知识体系构建的重要研究方向。

在争议焦点识别方面。较早的争议焦点识别主要依赖法律专家和知识工程师人工制定识别规则，即当文本内容满足了一定的条件，则认为存在相应的争议焦点。虽然取得了阶段性的成果，但是它必须依靠人工的方式来制定争议焦点提取规则，需要大量法律专家和知识工程师的参与。随着机器学习技术的发展，出现了一些基于有监督分类和无监督聚类的案件特征提取方法。作为分类方法的两大分支，有监督分类和无监督聚类都有各自的优缺点。对于有监督分类来说，因为存在大量有类别标记的样本作为监督学习信息，训练得到的分类模型对于未标注样本的预测准确性较高。但在司法领域中，有类别标记的数据却不多，手工对无类别标记的数据进行人工标定需要耗费大量的人力与物力。对无监督聚类来说，它不需要知道数据的类别标签，然而，由于缺少先验信息的指导，其性能还有待于进一步提高。在这种情况下，基于少量标注数据和大量未标记数据的半监督学习应运而生。

因此，在本发明中，我们利用基于解语知识标注的文本聚类方法及半监督文本聚类方式，分别实现争议焦点知识体系构建和争议焦点识别，克服了传统争议焦点知识体系构建存在人工量较大问题，实现了在较少标注数据情况下争议焦点的精准识别。

发明内容

本发明是一种基于解语知识标注和半监督聚类的争议焦点体系构建与识别方法，包括争议焦点文本内容提取与拆分，并利用解语知识标注实现争议焦点聚类，法律专家基于聚类结果实现各个案由下争议焦点标签体系的构建。基于构建的争议焦点知识体系，利用半监督聚类方法，构建争议焦点识别模型，实现争议焦点标签地精准识别。

基于上述所述，本发明提供了一种基于解语知识标注和半监督聚类的争议焦点体系构建与识别方法，主要包含：

S1：对公开裁判文书集进行分段处理，得到裁判文书的事实认定段和裁判说理段集合；

S2：利用争议焦点识别规则，对S1中的事实认定段和裁判说理段集合进行判断，筛选出蕴含争议焦点的事实认定段和裁判说理段，并利用争议焦点拆分规则，得到裁判文书中的争议焦点语句集合，形成事实认定和裁判说理端的争议焦点库；

S3:利用解语知识标注和聚类方法，对S2中形成的争议焦点语句进行聚类，形成争议焦点语句聚类簇；

S4:法律专家和知识工程师结合相关法律知识，对S3输出的聚类结果进行归纳总结，形成多层级争议焦点知识体系；

S5:对S4中形成的争议焦点知识体系进行少量样本标注，并采用解语知识标注和半监督聚类方法，生成争议焦点标签的中心向量，构建争议焦点知识体系识别模型；

S6:当给定一篇裁判文书，采用S2中所述的争议焦点方法和S5中构建的争议焦点知识体系识别模型，实现文书中争议焦点标签地精准识别。争议焦点知识体系识别模型为一个标注文本集合；对于一裁判文书A，提取其中的争议焦点语句，若返回结果为空，则表示不含争议焦点；若返回结果不为空，则将返回结果输入所述争议焦点知识体系识别模型，计算该返回结果与所述争议焦点知识体系识别模型中每一标注文本的相似度，将相似度最大的标注文本的标签作为该裁判文书A的争议焦点。

进一步的，所述S1中，对公开的裁判文书集采用如下表所示的分段规则进行分段处理：

抽取文书中事实认定段和裁判说理段，由此构造出数据集：

其中X_i表示第i篇文书对应的事实认定段和裁判说理段，其中i＝1,…,N，N为样本总数。事实认定段表示在文书中法院审理查明部分，裁判说理段表示文书中本院认为段，并去除最后的裁判结果部分。

进一步的，所述S2中具体包含如下步骤：

根据法官描述争议焦点常用词，构建争议焦点识别规则，并根据此规则对数据集D进行识别，筛选出只蕴含争议焦点的数据集D₁；

对数据集D₁，利用下表中的争议焦点拆分规则，构建蕴含争议焦点语句集合D₂。

进一步的，所述S3中，具体包含如下的步骤：

对S2中的争议焦点数据集D₂，利用jieba分词工具对数据集D₂进行分词，并使用Ernie方法生成争议焦点内容的表示向量集合D₃；

利用解语知识标注对争议焦点向量集合D₃进行权重调整，即对于人物类实体、时间类实体、场景事件类实体、数量词、肯定词、否定词等无用干扰实体降低权重，而对于人物类概念实体、药物类实体等重点实体提高权重，并利用BOW句向量生成模型，构建包含解语知识增强的争议焦点向量集合D₄；

从集合D₄中选取m个争议焦点向量，根据争议焦点的数量m自动生成聚类簇数，其中聚类簇数的设置为：

其中

表示向下取整；

基于m个表示向量以及聚类簇数n_clusters，通过k均值聚类算法对争议焦点进行聚类，输出每个案由下争议焦点的聚类结果。

进一步的，S3中所述的解语知识标注是拥有可描述所有中文词汇的词类体系、中文知识标注工具集，以及更适用于中文挖掘任务的预训练语言模型，并能够有效地利用知识增强机器学习模型效果；

进一步的，所述S4中，首先将S3步骤中生成的聚类结果导入到标注平台中，法律专家结合相关法律知识，利用标注平台更加快捷、方便、完备地进行归纳、总结、梳理争议焦点知识体系。

进一步的，所述S5中具体包含如下步骤：

根据S4中的争议焦点知识体系，标注少量样本数据，标注的数据集记为A^k，其中k代表案由编号。

根据小样本标注数据集A^k及Ernie预训练模型生成争议焦点中心向量，具体的扩展步骤如下：

采用Ernie预训练模型生成每个标签的表示向量。基于法律专家提供的小样本标注数据集，对每个标签l,其中l＝1,…,L，假设对应的争议焦点标注数据有p_kl个，其对应的争议焦点内容记为

A^k由C^k1,…,C^kL组成。利用Ernie预训练模型对C^kl数据集中的样本生成表示向量，其中样本中的每个字会转换为768维的向量，最终得到一个维度为(p_kl,768)的向量组合。通过对向量组合求均值，获得此标签的中心点向量表示/>

具体计算如下：

其中

表示针对案由k，在第l个标签下，争议焦点内容/>

对应的向量表示。通过计算向量/>

到该标签下所有争议焦点向量/>

的距离，取最大值作为此标签的阈值λ_kl，即：

对未标注的争议焦点数据集记为

其中/>

表示案由k下，第i个未标注的争议焦点，n_k表示未标注的争议焦点总数。利用粗标注和精标注对未标注数据集进行标注。首先通过Ernie预训练模型将未标注的争议焦点转化为(768,1)的向量表示，争议焦点文本数据/>

对应的向量记为/>

然后计算向量/>

和该案由下所有标签的中心向量

的余弦距离，按距离进行排序，筛选距离最小的前n个中心向量对应的标签作为第一轮标签识别，距离记作d₁,…,d_n，对应的标签记为l₁,…,l_n，此过程记作粗标注；最后基于粗标注的结果进行精标注，对于选中的n个标签，通过计算n个标签对应的阀值

与粗标注中计算得到的距离d₁,…,d_n做差并除以阀值进行标签筛选，具体计算如下：

若θ_j小于0，则认为当前争议焦点文本数据

不蕴含标签l_j，若θ_j大于或等于0，从中选取θ_j最大的所对应的标签作为当前争议焦点文本数据/>

的标签；最终争议焦点数据集F^k中的文本被打上0个或者1个标签，由此每个争议焦点语句都被打上争议焦点标签。

基于上述已完成标注的数据集F^k进行校验，扩大标注数据集A^k，在大样本下重新生成各个标签的中心点向量

及其阈值λ_kl，采用S5中粗标注和精标注方式，实现对新增争议焦点文本的知识体系识别。

进一步的，所述S6中，实现了给定文书，对争议焦点标签的识别，具体如下：

当给定一篇裁判文书，采用S1中文书分段技术进行分段。采用S2中拆分争议焦点的能力对选取的文本进行处理，若返回结果不为空则认为蕴含争议焦点，若返回结果为空，则表示此文书不含争议焦点标签；对于蕴含争议焦点的文书，采用S5中该案由下对应的争议焦点知识体系识别模型，实现争议焦点标签识别。

本发明还提供一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上述方法中各步骤的指令。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明相对于现有技术具有以下有益效果：

本发明提供了一种基于解语知识标注和半监督聚类的争议焦点体系构建与识别方法，该方法采用基于解语知识标注的聚类算法，帮助法律专家快速地梳理、归纳争议焦点知识体系，并利用半监督聚类方法，构建争议焦点识别模型，克服了传统争议焦点知识体系构建存在人工量较大问题，实现了在较少标注数据情况下争议焦点的精准识别。

附图说明

图1为争议焦点体系构建与识别方法的流程图。

图2为案件争议焦点标签体系图。

具体实施方式

为进一步阐述本发明的技术解决方案，下面将结合本发明具体实施例及相应的附图对本发明的技术方案进行清晰、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，下面通过具体实施例详细说明一种基于解语知识标注和半监督聚类的争议焦点体系构建与识别方法：

S1：获取裁判文书数据集，对文书进行分段处理，抽取文书中事实认定段和裁判说理段；对公开裁判文书，通过篇章级文书分段技术(见下表)，从文书中抽取事实认定段和裁判说理段，将事实认定段和裁判说理段内容按照“\n”进行拼接，由此构造出数据集：

其中X_i表示第i篇文书对应的事实认定段和的裁判说理段，其中i＝1,…,1000000。

S2：利用争议焦点识别规则，对S1步骤的事实认定段和裁判说理段集合进行判断，筛选出蕴含争议焦点的事实认定段和裁判说理段，并利用争议焦点拆分规则，得到裁判文书中的争议焦点语句集合D₂；

根据法官在文书中的描述习惯，我们采用规则“争议|焦点”对数据集D进行过滤，最终筛选出蕴含争议焦点的数据集约7万篇，记为D₁；

根据数据集D₁，人工梳理争议焦点在文书中存在的情形，主要分为存在单个争议焦点和存在多个争议焦点的情形，通过设置三种场景类(其中一种是单个争议焦点，另外两个为多个争议焦点情形)，构建逻辑规则(见下表)，实现对文书中争议焦点的提取及其拆分，得到裁判文书中的争议焦点语句集合D₂。

S3:利用解语知识标注和聚类方法，对S2步骤形成的争议焦点语句进行聚类，形成争议焦点语句聚类簇；

对S2中的争议焦点数据集D₂，利用jieba分词工具对数据集D₂进行分词，并使用Ernie预训练模型生成争议焦点内容的表示向量D₃；

利用解语知识标注对争议焦点向量集合D₃进行权重调整，即对于人物类实体、时间类实体、场景事件类实体、数量词、肯定词、否定词等无用干扰实体降低权重，而对于人物类概念实体、药物类实体等重点实体提高权重，并利用BOW句向量生成模型，形成包含解语知识增强的争议焦点向量D₄；

从争议焦点向量D₄中选取2000个不重复的争议焦点数据集，根据下述聚类簇数设置公式，确定本次的聚类簇数为200。

其中

表示向下取整；

基于2000个表示向量，设置聚类簇数为200，通过k均值聚类算法对争议焦点进行聚类，输出争议焦点的聚类结果，聚类结果示意内容如下表所示。

首先将S3步骤中2000条样本的聚类结果导入到标注平台中，法律专家结合案件对应的法律知识，利用标注平台更加快捷、方便、完备地对其进行归纳、总结、梳理，构建案件争议焦点的多层级标签体系，如图2所示。

S5:对S4步骤形成的争议焦点知识体系进行少量样本标注，并采用解语知识标注和半监督聚类方法，生成争议焦点标签的中心向量，构建争议焦点知识体系识别模型；

根据S4中的争议焦点知识体系，标注少量样本数据(标注数据示意如下表所示)：

本发明结合标注的346条数据集A¹及其Ernie预训练模型进行词汇扩展，具体的扩展步骤如下：

基于标注的346条数据集A¹，对每个标签设定序号l,其中l＝1,…,76，选择标签“抵押合同效力争议”记作l，其对应的标注数据有5个，其对应的争议焦点内容为案涉房产的抵押是否有效、为涉案借款提供房产抵押担保的约定是否生效、主要是:原审被告N与被上诉人N的抵押合同是否生效、主要是房屋抵押登记是否有效、二原告与被告N的抵押合同是否有效。

利用Ernie预训练模型对上述5条样本生成表示向量，最终得到一个维度为(5,768)的向量组合。通过对向量组合求均值，获得此标签的中心点向量表示v₀，其维度为(768,)。通过计算向量v₀到该标签下5个样本向量

的距离，取最大值作为此标签的阈值λ_1l，即：

对案件剩余75个标签重复上述计算过程，获得每个标签的中心点向量和阈值。

对未标注的争议焦点数据集F¹，共8000条争议焦点内容进行标注，分为粗标注和精标注。首先通过Ernie预训练模型将8000条未标注文本转化为(768,1)的向量表示，计算每个向量和该案由下所有标签的中心向量

的余弦距离，按距离进行排序，筛选距离最小的前5个中心向量对应的标签作为第一轮标签识别，距离记作d₁,…,d₅，对应的标签记为l₁,…,l₅，此过程记作粗标注；最后基于粗标注的结果进行精标注，对于选中的5个标签，通过计算5个标签对应的阀值/>

与粗标注中计算得到的距离d₁,…,d₅做差并除以阀值进行标签筛选，具体计算如下：

若θ_j小于0，则认为当前争议焦点文本数据不蕴含标签l_j，若θ_j大于0，从中选取θ_j最大的所对应的标签作为当前争议焦点文本数据的标签；最终8000条争议焦点数据集中的文本被打上0个或者1个标签。通过对已完成标注的8000条争议焦点数据集进行校验，重新生成各个标签的中心点向量v₀及其阈值λ_1l，采取粗标注和精标注方式，实现对新增争议焦点文本的知识体系识别。

S6:当给定一篇裁判文书及其案由，采用S2中拆分争议焦点的能力和S5中该案由的争议焦点知识体系识别模型，实现文书中争议焦点标签地精准识别。

当给定一篇裁判文书及其案由名称，采用篇章级文书分段技术进行分段，若分段成功，从中选取事实认定段和裁判说理段，若分段失败，则使用全文进行后续处理。采用S2中拆分争议焦点的能力对选取的文本进行处理，若返回结果不为空则认为蕴含争议焦点，若返回结果为空，则表示此文书不含争议焦点标签；对于蕴含争议焦点的文书，采用S5中对应的争议焦点标签识别模型，实现争议焦点标签识别。

需要说明的是，以上所述仅为本发明的实施例和附图，其目的是为了更好地理解本发明的内容，并不用于限制本发明。对于本领域技术人员来说，本发明可以进行各种实施。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种争议焦点体系构建与识别方法，其步骤包括：

1)对裁判文书集中的每一裁判文书进行分段处理，得到裁判文书的事实认定段和裁判说理段集合D；

2)从所述事实认定段和裁判说理段集合D中筛选出蕴含争议焦点的事实认定段和裁判说理段，得到蕴含争议焦点的数据集D₁；从所述数据集D₁中提取争议焦点语句，得到争议焦点数据集D₂；

3)对所述争议焦点数据集D₂进行聚类，形成争议焦点语句聚类簇；

4)结合相关法律知识对聚类结果进行归纳总结，形成多层级争议焦点知识体系；

5)结合所述多层级争议焦点知识体系对裁判文书集中的裁判文书进行标注，得到争议焦点知识体系识别模型；

6)当给定一篇裁判文书A，提取该裁判文书A中的争议焦点语句并将其输入所述争议焦点知识体系识别模型，识别出该裁判文书A的争议焦点。

2.根据权利要求1所述的方法，其特征在于，构建争议焦点知识体系识别模型的方法为：

51)结合所述多层级争议焦点知识体系对裁判文书集中的一部分裁判文书进行标注，标注的数据集记为A^k；

52)根据数据集A^k及Ernie预训练模型生成争议焦点中心向量：对第l个标签，获取数据集A^k中具有该第l了标签的p_kl个争议焦点标注数据，对应的争议焦点内容集合记为

L为标签总数；利用Ernie预训练模型对C^kl数据集中的样本生成表示向量并求均值，获得第l个标签的中心点向量/>

计算中心向量/>

到第l个标签下各争议焦点向量的距离，取最大值作为第l个标签的阈值λ_kl；

53)对未标注的争议焦点数据集

进行标注，分为粗标注和精标注：首先通过Ernie预训练模型将未标注文本转化为向量，争议焦点文本数据/>

对应的向量记为/>

然后计算向量/>

和案由k下所有标签的中心向量/>

的余弦距离，按距离进行排序，筛选距离最小的前n个中心向量对应的标签作为第一轮标签识别，距离记作d₁,…,d_n，对应的标签记为l₁,…,l_n，此过程记作粗标注；然后基于粗标注的结果进行精标注，对于选中的n个标签，通过计算n个标签对应的阀值/>

与粗标注中计算得到的距离d₁,…,d_n做差并除以阀值，得到/>

若θ_j均小于0，则认为当前争议焦点文本数据/>

不蕴含标签l_j，若存在θ_j大于或等于0，则选取θ_j最大值所对应的标签作为当前争议焦点文本数据/>

的标签；最终争议焦点数据集F^k中的文本被打上0个或者1个标签；

54)通过对步骤53)得到的标注数据进行校验，重新生成各个标签的中心点向量及其阈值，采用53)中粗标注和精标注方式，对新增争议焦点文本进行标注，得到争议焦点知识体系识别模型。

3.根据权利要求1或2所述的方法，其特征在于，按照设定的分段规则每一裁判文书进行分段处理；其中，事实认定段的分段规则包括：“经.{0,20}(审查|审理|侦查)(查明|认定)[:：，、。]”、“本院经(审查|审理|侦查).*？(认定|确认).{0,10}事实[:：，、。]”、“当事人.*？证据.*？本院.*？组织.*？质证.*？(审查|审理|侦查)查明”、“(据此|根据|综合).*？本院(经)？(审查|审理|侦查)？查明并确认((以|如)下事实|事实如下)[:：，、。]”、“(据此|根据|综合).*？(证据|陈述).*？审理查明.{0,10}事实(为|如下)[:：，、。]”和“.{0,5}本院认定.{0,20}(证据|陈述).{0,20}确认.{0,20}事实”；裁判说理段的分段规则包括“本院认为”。

4.根据权利要求3所述的方法，其特征在于，所述事实认定段和裁判说理段集合

其中，X_i表示第i篇裁判文书对应的事实认定段和裁判说理段，i＝1,…,N，N为裁判文书集中的裁判文书总数。

5.根据权利要求1所述的方法，其特征在于，根据法官描述争议焦点常用词，构建争议焦点识别规则；利用所述争议焦点识别规则，从所述事实认定段和裁判说理段集合D中筛选出蕴含争议焦点的事实认定段和裁判说理段，得到蕴含争议焦点的数据集D₁。

6.根据权利要求1所述的方法，其特征在于，利用争议焦点拆分规则，从所述数据集D₁中提取争议焦点语句，得到争议焦点数据集D₂；所述争议焦点拆分规则包括：“((关于)？第[一二三四五六七八九十1-9]个？(争议焦点|焦点|争议))([是为]？[，：]？)。？”和“((本案)？(争议|关于)[\u4e00-\u9fa5]{0,5}焦点之？[1-9一二三四五六七八九十][，。：]？|(争议|关于)[\u4e00-\u9fa5]{0,5}(本案)？另[\u4e00-\u9fa5]{0,5}焦点)”。

7.根据权利要求1所述的方法，其特征在于，步骤3)中，形成争议焦点语句聚类簇的方法为：利用jieba分词工具对所述争议焦点数据集D₂进行分词，并使用Ernie方法生成争议焦点内容的表示向量集合D₃；然后利用解语知识标注对争议焦点向量集合D₃进行权重调整并利用BOW句向量生成模型，构建包含解语知识增强的争议焦点向量集合D₄；根据筛选出的m个争议焦点向量及其自动生成的聚类簇数对争议焦点向量集合D₄进行聚类，输出每个案由下争议焦点的聚类结果。

8.根据权利要求1所述的方法，其特征在于，步骤6)中，首先对该裁判文书A进行分段，然后提取该裁判文书A中的争议焦点语句，若返回结果为空，则表示不含争议焦点；若返回结果不为空，则将返回结果输入所述争议焦点知识体系识别模型，计算该返回结果与所述争议焦点知识体系识别模型中每一标注文本的相似度，将相似度最大的标注文本的标签作为该裁判文书A的争议焦点。

9.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至8任一所述方法中各步骤的指令。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一所述方法的步骤。