CN112651853A

CN112651853A - 一种基于裁判文书的论辩观点挖掘方法及系统

Info

Publication number: CN112651853A
Application number: CN202011287899.1A
Authority: CN
Inventors: 李鑫; 王竹; 翁洋; 其他发明人请求不公开姓名
Original assignee: Sichuan University; Chengdu Shuzhilian Technology Co Ltd
Current assignee: Sichuan University; Chengdu Shuzhilian Technology Co Ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-04-13

Abstract

本发明公开了一种基于裁判文书的论辩观点挖掘方法及系统，本发明的方法包括：分段裁判文书，得到原告诉称的段落内容和被告辩称的段落内容；分别将原告诉称的段落内容和被告辩称的段落内容分句；一一匹配原告诉称的分句内容与被告辩称的分句内容，判断原告诉称和被告辩称的两个分句内容是否能够组成辩论对。本发明借助计算机技术以及自然语言处理技术自动识别提取裁判文书中的争议焦点，利用机器学习算法提取裁判文书中的辩论对。

Description

一种基于裁判文书的论辩观点挖掘方法及系统

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于裁判文书的论辩观点挖掘方法及系统。

背景技术

随着新诉讼制度的逐步形成，中国法院围绕有争议的问题组织辩论。有争议的问题是双方冲突的核心。而找出围绕原告和被告对有争议问题展开的辩论对，能够更加清晰明了的找出问题的核心所在。这些论辩对有助于在法庭审判中集中事实调查，而法律争议性问题有助于法庭辩论组织和法律适用。判决书体现了法律论证的过程，判决书中所包含的争议问题在庭审过程中被整理、调查和辩论。因此，针对有争议性问题的双方论辩在审判现场的恢复和法官的决策中起着关键的作用。

到目前为止，网上公布的判决数量超过了8000万。然而，有效地识别海量数据中的关键信息将是一个巨大的挑战。同时在数量有限的情况下,由于访问权限的限制,法官很难利用其他法官的经验总结争议性问题并进行试验,这极大地阻碍了经验的传播和法律知识的积累。然而，由于语料库庞大、表达式多样、门类繁多，人为识别提取论辩对效率低，且成本高。

发明内容

为了解决现有人为识别提取辩论对效率低、成本高的技术问题，本发明提供了一种基于裁判文书的论辩观点挖掘方法及系统。本发明能够自动处理并识别裁判文书的辩论观点。

本发明通过下述技术方案实现：

一种基于裁判文书的论辩观点挖掘方法，该方法包括以下步骤：

分段裁判文书得到原告诉称的段落内容和被告辩称的段落内容；

分别将原告诉称的段落内容和被告辩称的段落内容进行分句；

一一匹配原告诉称的分句内容与被告辩称的分句内容，判断原告诉称和被告辩称的两个分句内容是否能够组成辩论对。

优选的，本发明的对裁判文书进行分段的步骤具体为：

通过裁判文书结构化的方法对裁判文书进行分段。

优选的，本发明的分别将原告诉称的段落内容和被告辩称的段落内容进行分句的步骤具体包括：

对段落内容进行基础分句；

采用Bert模型对相邻两个基础分句进行二分类，确定两个基础分句是否在对同一个问题进行辩论。

优选的，本发明的一一匹配原告诉称的分句内容与被告辩称的分句内容，判断原告诉称和被告辩称的两个分句内容是否能够组成辩论对的步骤具体为：

采用Bert模型对一一匹配的原告诉称的分句内容与被告辩称的分句进行二分类，确定两个分句是否在对同一问题进行辩论。

优选的，本发明的Bert模型训练过程包括以下步骤：

将输入数据输入Bert预训练模型；其中，所述输入数据结构为(sentence1，sentence2， label)，sentence1和sentence2分别表示需要分类的两个句子，label为标签，用于表示两个句子是否在对同一个问题进行辩论；

提取Bert模型的CLS位置的输出向量作为句子向量表示；

在得到的句子向量表示后面增加一个softmax层进行分类。

另一方面，本发明还提出了一种基于裁判文书的论辩观点挖掘系统，该系统包括分段模块、分句模块和识别模块；

所述分段模块用于分段裁判文书进得到原告诉称的段落内容和被告辩称的段落内容；

所述分句模块用于分别将原告诉称的段落内容和被告辩称的段落内容进行分句；

所述识别模块用于一一匹配原告诉称的分句内容与被告辩称的分句内容，判断原告诉称和被告辩称的两个分句内容是否能够组成辩论对。

优选的，本发明的分段模块具体通过裁判文书结构化的方法分段裁判文书。

优选的，本发明的分句模块包括基础分句单元和二分类单元；

所述基础分句单元用于对段落内容进行基础分句；

所述二分类单元采用Bert模型对相邻两个基础分句进行二分类，确定两个基础分句是否在对同一个问题进行辩论。

优选的，本发明的识别模块采用Bert模型对一一匹配的原告诉称的分句内容与被告辩称的分句进行二分类，确定两个分句是否在对同一问题进行辩论。

优选的，本发明的Bert模型的训练过程包括：

提取Bert模型的CLS位置的输出向量作为句子向量表示；

在得到的句子向量表示后面增加一个softmax层进行分类。

本发明具有如下的优点和有益效果：

本发明利用计算机技术以及自然语言处理技术自动化识别提取裁判文书的争议核心。同时结合机器学习算法提取辩论对，能够有效克服现有通过人为识别提取存在的耗时长、效率低和成本高的问题。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明的方法流程示意图。

图2为本发明的系统原理框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

在法院的庭审过程中，裁判文书起着记录辩、诉双方观点证据的重要作用。而诉方与辩方由于立场观点的不同，或是对于事实陈述上的不一致，便形成了庭审过程中双方的争议焦点，是整场庭审的关键，也是裁判文书中的精髓。由于行政法官的自由裁量权和法外因素，加之事实和法律的确定性，法官的描述缺乏格式。由于人类语言表达的复杂性，原被告双方并不会按照严格的意义来对某个问题进行具体的论述。比如在一篇裁判文书中原告的诉称是：自诉人苏某某诉称：被告人康某的父亲马某与自诉人的母亲苏某是夫妻。因两人离婚后仍同住一栋房屋，在日常生活中常为琐事发生争吵，产生矛盾......11时许，被告人康某骑一辆自行车来到现场，与我发生吵闹后上前揪住我的头发，用拳头打伤我的右眼，眼镜也被打掉在地并摔碎，眼皮也被打破，右眼流血不止，后我们被人拉开，我也及时向派出所报警......；被告的辩称是：被告人康某辩称:我的行为不构成故意伤害罪，不应当承担刑事责任，请求法庭依法驳回自诉人对我的刑事控诉。自诉人的伤并不是我造成的，她的伤是她自己雨伞造成的，与我没有关系。自诉人在诉状中关于伤情的描述是虚假的，她陈述“我揪住她头发打她”与她在XX县公安局所作的陈述“我抓住她的头发，用雨伞打在她的额头”相互矛盾，两次陈述打击的部位不同，当时没有出现自诉人所说“流血不止”的情形，因此，我不应当承担刑事责任。民事赔偿上，由于我没有对自诉人进行打击，不应当由我承担赔偿责任，但我愿意承担自诉人的验光配镜支出的费用......。原被告对案情和诉求以及辩论的陈述都在一段话中表达完成了，没有形成关于争议问题的论辩对，需要从原被告的陈述中将论辩对提取出来，准确的提取论辩对成为一项具有挑战性的自然语言处理(NLP)任务。

通过研究数据集的结构，发现原被告的论辩焦点问题数据遵循幂律分布，一小部分常见的论辩问题聚集在分布的顶部，占据了整个争议焦点问题的绝大部分，而大部分问题是罕见的。由于这类社会问题大多是由遵循幂律分布的复杂网络构成，因此，论辩焦点问题的数据结构具有类似性质也就不足为奇了。争议焦点问题的幂律分布表明，其中少数类是常见的，而大多数类是罕见的。但是由于论辩焦点问题都是原被告双方都是对同一个问题(或者说争议焦点)进行辩论，本质上是在说同一件事情，因而将这个问题转换一个思路来判断原被告是否是在对同一个问题进行陈述辩解，对原被告的陈述和辩解进行分句判断来确定能否形成辩论对。

因此本实施例提出了一种基于裁判文书的论辩观点挖掘方法，借助计算机技术以及自然语言处理技术自动识别提取裁判文书中的争议焦点，并利用机器学习模型识别裁判文书中的辩论对。

具体如图1所示，本实施例的方法包括以下步骤：

步骤一、分段裁判文书，确定哪些段落是原告诉称，哪些段落是被告辩称。

本实施例采用裁判文书结构化的方法(具体采用申请号为2019108930641，发明名称为“一种裁判文书相似争议焦点合并方法及系统”的中国专利申请披露的技术实现)分段处理裁判文书，找出“原告诉称”和“被告辩称”的内容。

步骤二、对原告诉称的段落内容和被告辩称的段落内容进行分句。

本实施例首先根据裁判文书中的符号(句号)进行基础分句，然后在判断前后相邻的两个句子，是否是讲的同一件事情，将这些句子重新分句。例如：诉讼请求为这个：“自诉人苏某诉称：被告人康某的父亲马某与自诉人的母亲苏某是夫妻。因两人离婚后仍同住一栋房屋，在日常生活中常为琐事发生争吵，产生矛盾。本案发生前，马某与苏某因琐事发生争吵。某年某月某日，我回到家中处理两人的矛盾，但由于言语不合双方发生口角纠纷，我便去社区找社区工作人员协调，后来我在XX社区门口与马某相遇，两人发生争吵。11时许，被告人康某骑一辆自行车来到现场，与我发生吵闹后上前揪住我的头发，用拳头打伤我的右眼，眼镜也被打掉在地并摔碎，眼皮也被打破，右眼流血不止，后我们被人拉开，我也及时向派出所报警。事后我先后在XX县人民医院、XX市中医医院住院治疗，在XX学院附属医院、XX医科大学第一附属医院、省红会医院检查治疗。出院后，经XX县公安局委托，XX医科大学司法鉴定中心对我的伤情进行司法鉴定结论为轻伤二级。特请求：依法判决被告人犯故意伤害罪，并追究其刑事责任；判令被告人向我赔偿经济损失452312元(医疗费137218元，误工费87100元，护理费25794元，住院伙食补助费23000元，交通费25000元，住宿费10000 元，营养费23000元，鉴定费14000元，精神抚慰金100000元，财产损失费7200元)。诉讼代理人石某支持自诉人的诉讼请求，并提供了相关证据，证明本案事实清楚、证据确实充分。”先按照句号将上面一段话分为9句，通过模型判断1，2，3是讲同一个事情；4，5是讲同一件事情；6，7讲一个事情；8单独讲一个事情，9单独讲一个事情。这样就将上面9句话，重新分成了5句话的内容。使用的模型为Bert模型，将前后两个句子组合起来输入Bert模型，进行二分类，确定两个句子是否在讲述同一件事情。

步骤三、一一匹配分句后的原告诉称的内容和被告辩称的内容(例如：原告诉称有3个句子Y1,Y2,Y3，被告辩称有2个句子B1和B2；一一匹配就是将他们进行组合形成 (Y1,B1),(Y1,B2),(Y2,B1),(Y2,B2),(Y3,B1),(Y3,B2)这样6个句子对)，判断是否能够组成论辩对。从而提取出裁判文书中的辩论对。

本实施例采用Bert模型，将“原告诉称”和“被告辩称”分句的两个句子组合起来输入Bert模型，进行二分类，确定两个句子是否在对同一件事情进行辩论。

本实施例中采用的Bert模型训练过程如下：

模型训练的输入数据结构为(sentence1，sentence2，label)。备注：sentence1：句子(步骤2中的前后句中的前句，步骤3中的“原告诉称”内容)，sentence2：句子(步骤2中的前后句中的后句，步骤3中的“被告辩称”内容)，label：标签(0或者1，表示步骤2中的前后句是否讲同一件事情，步骤3中的“原告诉称”内容与“被告辩称”内容是否对同一个问题进行辩论)。

将输入数据处理成预训练模型bert需要的输入格式。

训练过程分为以下几步：

1、将输入数据输入Bert预训练模型。

2、提取Bert模型的CLS位置的输出向量作为sentence的sentenceEmbedding(句子向量表示，表示句子的含义)。

3、在得到的向量sentenceEmbedding后面加上一个softmax层进行分类。

本实施例的方法是专门针对司法领域裁判文书中论辩对的提取进行文本分类匹配的，能够有效的提取原被告的论辩对。

实施例2

基于上述实施例，本实施例提出了一种基于裁判文书的论辩观点挖掘系统，如图2所示，本实施例的系统包括分段模块、分句模块和识别模块；

本实施例的分段模块用于分段裁判文书得到原告诉称的段落内容和被告辩称的段落内容。

本实施例通过采用上述实施例1所述的专利申请技术对裁判文书进行结构化处理，实现裁判文书的分段。

本实施例的分句模块用于分别将原告诉称的段落内容和被告辩称的段落内容进行分句。

本实施例的分句模块具体包括基础分句单元和二分类单元；

基础分句单元用于对段落内容进行基础分句；

二分类单元采用Bert模型对相邻两个基础分句进行二分类，确定两个基础分句是否在对同一个问题进行辩论。

本实施例的识别模块用于一一匹配原告诉称的分句内容与被告辩称的分句内容，判断原告诉称和被告辩称的两个分句内容是否能够组成辩论对。

本实施例的识别模块具体采用Bert模型对一一匹配的原告诉称的分句内容与被告辩称的分句进行二分类，确定两个分句是否在对同一问题进行辩论。

本实施例的Bert模型采用上述实施例1所述的模型训练方法训练得到。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和 /或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于裁判文书的论辩观点挖掘方法，其特征在于，该方法包括以下步骤：

分段裁判文书，得到原告诉称的段落内容和被告辩称的段落内容；

分别将原告诉称的段落内容和被告辩称的段落内容分句；

2.根据权利要求1所述的一种基于裁判文书的论辩观点挖掘方法，其特征在于，所述对裁判文书进行分段的步骤具体为：

通过裁判文书结构化的方法分段裁判文书。

3.根据权利要求1所述的一种基于裁判文书的论辩观点挖掘方法，其特征在于，所述分别将原告诉称的段落内容和被告辩称的段落内容分句的步骤具体包括：

对段落内容进行基础分句；

4.根据权利要求1所述的一种基于裁判文书的论辩观点挖掘方法，其特征在于，所述一一匹配原告诉称的分句内容与被告辩称的分句内容，判断原告诉称和被告辩称的两个分句内容是否能够组成辩论对的步骤具体为：

5.根据权利要求3或4所述的一种基于裁判文书的论辩观点挖掘方法，其特征在于，所述Bert模型训练过程包括以下步骤：

将输入数据输入Bert预训练模型；其中，所述输入数据结构为(sentence1，sentence2，label)，sentence1和sentence2分别表示需要分类的两个句子，label为标签，用于表示两个句子是否在对同一个问题进行辩论；

提取Bert模型的CLS位置的输出向量作为句子向量表示；

在得到的句子向量表示后面增加一个softmax层进行分类。

6.一种基于裁判文书的论辩观点挖掘系统，其特征在于，该系统包括分段模块、分句模块和识别模块；

所述分段模块用于分段裁判文书，得到原告诉称的段落内容和被告辩称的段落内容；

所述分句模块用于分别将原告诉称的段落内容和被告辩称的段落内容分句；

7.根据权利要求6所述的一种基于裁判文书的论辩观点挖掘系统，其特征在于，所述分段模块具体通过裁判文书结构化的方法分段裁判文书。

8.根据权利要求6所述的一种基于裁判文书的论辩观点挖掘系统，其特征在于，所述分句模块包括基础分句单元和二分类单元；

所述基础分句单元用于对段落内容进行基础分句；

9.根据权利要求6所述的一种基于裁判文书的论辩观点挖掘系统，其特征在于，所述识别模块采用Bert模型对一一匹配的原告诉称的分句内容与被告辩称的分句进行二分类，确定两个分句是否在对同一问题进行辩论。

10.根据权利要求8或9所述的一种基于裁判文书的论辩观点挖掘系统，其特征在于，所述Bert模型的训练过程包括：

提取Bert模型的CLS位置的输出向量作为句子向量表示；

在得到的句子向量表示后面增加一个softmax层进行分类。