CN116304035B

CN116304035B - 一种复杂案件中的多被告多罪名关系抽取方法及装置

Info

Publication number: CN116304035B
Application number: CN202310176690.5A
Authority: CN
Inventors: 崔世琦; 孙晓锐; 徐斌; 刘贤艳; 谭晓颖; 毛小龙; 洪通亮
Original assignee: China Judicial Big Data Research Institute Co ltd
Current assignee: China Judicial Big Data Research Institute Co ltd
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-11-03
Anticipated expiration: 2043-02-28
Also published as: CN116304035A

Abstract

本发明公开了一种复杂案件中的多被告多罪名关系抽取方法及装置。本方法为：1)获取多个案件的刑事判决书，并从每一刑事判决书中抽取出本院认为段落、审理经过段落和裁判结果段落；2)对于每一裁判结果段落，从中抽取出当事人姓名和罪名，得到多人多罪的文书集合M；3)从集合M中的各审理经过段落中抽取出各刑事判决书对应的前审关联案号，找到对应的起诉书；4)根据各起诉书和集合M生成训练集训练串联模型，其包括BERT+CRF命名体识别模型和BERT分类模型；5)对训练后的BERT分类模型训练，得到一预测模型；6)对于一案件，从该案件的起诉书中提取本院认为段落并将其输入到预测模型，得到该案件中人名与罪名的对应关系。

Description

一种复杂案件中的多被告多罪名关系抽取方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种复杂案件中多个被告人多个罪名关系挂靠方法、装置。

背景技术

被告人和罪名作为案件的关键要素在法官审理中具有重要的意义。而往往法官在审理案件过程中，梳理复杂案件中多个被告人和多个罪名的挂靠关系，占据了法官案件审理过程中的大量时间和精力。所以，辅助法官快速梳理复杂案件中多人多罪的挂靠关系，能大大减少法官的审理时间、提升办案效率，有利于缓解案多人少矛盾。

目前缺乏多被告多罪名关系抽取技术，用于辅助法官快速梳理复杂案件中多人多罪的挂靠关系，因此如何实现多被告多罪名关系抽取是目前亟待解决的技术问题。

发明内容

本发明是一种解决复杂案件中的多被告多罪名关系抽取的方法及装置，其中包括基于起诉书和判决书互相校验的训练样本自动标注方法，利用了两种文书之间的各种关系，完成训练样本的自动生生成；基于pipeline结构的命名体识别模型和分类模型的关系抽取方法，基于领域内其他知识迁移学习的方法，基于伪标签的模型压缩方法等等，具体流程如图1所示。

一种复杂案件中的多被告多罪名关系抽取方法，包括以下步骤：

步骤(1)获取初始数据集:首先收集大量的刑事判决书，并对刑事判决书进行分段，抽取出本院认为段落和审理经过段落和裁判结果段落。

步骤(2)裁判结果段中每个被告人的犯罪过程都会详细描述，并且会用换行符“\n”切分开每个被告人的罪行。首先基于“\n”切分更小粒度的文本，然后利用正则表达式和hanlp等模型从上述文本中抽取出当事人姓名和罪名，进而可以将每个被告人和罪名挂靠上关系，最后选择去重后人数和罪名数都大于2的文书，作为多人多罪的文书集合M＝{M₁,M₂,…,M_i}。该集合中元素中包含案号、本院认为段落、审理经过段落、裁判结果段落、被告人和罪名的实体以及关系信息。

步骤(3)从上述集合M获取审理经过段落集合M_sljg＝{M_sljg1,M_sljg2,…,M_sljgi}；根据集合M_sljg＝{M_sljg1,M_sljg2,…,M_sljgi}去审理经过段落匹配对应的前审案号。

步骤(4)根据筛选出的前审案号找到对应的起诉书。

步骤(5)根据所述起诉书的特点，首先对起诉书进行分段，抽取出本院认为段落。

步骤(6)基于起诉书的本院认为段落利用hanlp等模型和正则表达式的方式继续抽取人名和罪名，得到起诉书的人名集合和罪名集合并去重得到Q_name＝{Q_name1,Q_name2,…,Q_namei}和Q_crime＝{Q_crime1,Q_crime2,…,Q_crimei}。

步骤(7)将上述判决书集合M＝{M₁,M₂,…,M_i}中被告人姓名集合M_name＝{M_name1,M_name2,…,M_namei}和罪名集合M_crime＝{M_crime1,M_crime2,…,M_crimei}与Q_name＝{Q_name1,Q_name2,…,Q_namei}和Q_crime＝{Q_crime1,Q_crime2,…,Q_crimei}进行匹配，若M_name＝Q_name&&M_crime＝Q_crime，则认为是标准的多人多罪样本，进而到起诉书的本院认为段落进行反标，自动生成训练集。因为起诉书中没有关系信息，需要借助判决书中案号、被告人姓名、罪名等信息去起诉书中反标。

步骤(8)将训练集带入基于领域内数据预训练的BERT+CRF命名体识别模型进行训练，完成人名和罪名的精细化抽取。

步骤(9)将训练集带入基于领域内数据预训练的BERT分类模型进行训练，进而抽取出人名和罪名之间的关系。

步骤(10)基于步骤(8)和步骤(9)完成两个模型训练并形成串联模型，进而实现一站式的抽取。并保存最优的训练模型。即利用所述训练集中的样本数据训练串联模型；所述串联模型包括BERT+CRF命名体识别模型和BERT分类模型；所述BERT+CRF命名体识别模型用于从输入的样本数据中抽取人名和罪名并将其输入BERT分类模型，得到每一样本数据中的人名和罪名之间的关系。

步骤(11)基于迁移学习的思想，将最优的模型迁移到起诉书对应的判决书中的本院认为段进行预测，发现可以直接预测出判决书中多人多罪的答案。进一步的，利用所述文书集合M中每一样本对应的被告人和罪名之间的关系，对该样本对应的判决书中本院认为段落信息进行反向标注，将标注的判决书作为训练集结合上述最优模型进行二段训练，直至在K折验证下的准确率上达到稳定，并保存新的最优模型。

步骤(12)上述过程在一定程度上实现了迁移学习，将二段训练后最优模型和一段最优模型在起诉书上进行对比验证，发现二段模型有较大提升，进而使用最优的二段模型作为最佳预测模型。

步骤(13)选择基于模型剪枝蒸馏思想压缩的ALBERT_TINY模型，即将训练后的BERT分类模型作为ALBERT_TINY模型，结合上述起诉书和判决书混合的训练集继续训练，发现准确率相较基于BERT训练的模型还有一定差距。

步骤(14)进一步的基于主动学习建立伪标签的思想，结合判决书数量多易标注的特点，将大量无标住的判决书作为预测集结合二段模型预测的方式生成伪标签数据，并通过裁判结果段落反向验证的方式得到大量准确的伪标签样本，形成伪标注数据，之后带入ALBERT_TINY模型进行训练。

对于一待提取的案件，从该案件的起诉书中提取本院认为段并将其输入到训练后的ALBERT_TINY模型，得到该案件中人名与罪名的对应关系。

进一步的发现通过伪标签标注数据训练的模型可以在起诉书中的预测准确率达到91.5％，相较于上述基于BERT训练的模型准确率仅下降1.5％,但是显存占用可由400多兆降到70多兆，预测速度也提升到毫秒级。

基于本发明构思，还提供一种多被告多罪名关系抽取的装置，其包括：

数据集构造模块，用于判决书和起诉书互相标注的方式完成大数量训练样本的构造。

模型训练模块，用于基于pipeline式的命名体识别和关系抽取训练方法，训练基于多被告人多罪名关系挂靠的提取模型，并通过伪标签结合压缩模型albert_tiny的方式提升推理速度；

预测模块，用于采用上述深度学习方法训练好的模型，预测目标文书中多被告人多罪名的挂靠关系。

本发明相对于现有技术具有以下有益效果：

本发明提供了一种复杂案件中的多被告多罪名关系抽取方法，该方法利用自标注生成训练样本的方式，结合命名体识别和关系分类模型的方法，结合伪标签和模型压缩的方法，克服了传统正则抽取容易出错的问题，解决较少人力成本的情况下标注多人多罪的关系挂靠问题。

附图说明

图1为本发明的方法流程图。

图2为BERT+CRF模型结构图。

具体实施方式

为进一步阐述本发明的技术解决方案，下面通过附图和具体实例来详细说明上述各步骤，但所举实施例不作为对本发明的限定：

(1)从法信智推平台收集完整的100000篇公开一审刑事判决书集合W＝{W₁,W₂,…,W₁₀₀₀₀₀}，并采用正则表达式对W集合中的文书进行分段，得到本院认为段落集合V＝{V₁,V₂,…,V₁₀₀₀₀₀}，审理经过段落集合S＝{S₁,S₂,…,S₁₀₀₀₀₀}，裁判结果段落集合C＝{C₁,C₂,…,C₁₀₀₀₀₀}。正则表达式如下表所示：

(2)裁判结果段中每个被告人的犯罪过程都会详细描述，并且会用换行符“\n”切分开每个被告人的罪行。具体格式样例如下所示：

(3)将上述裁判结果段落用“\n”切分，切成一行一行的短文本，利用关键词取犯罪信息相关文本，然后根据hanlp和foolnltk多个命名体模型识别校验的方式的抽取出被告人姓名，为了提高数据集的质量，具体的分别用hanlp和foolnltk抽取到的名字一致则认为抽取的名字正确，由于hanlp抽取不到罪名实体，根据法律人员专业领域知识生成的罪名列表，以正则的方式去上述匹配罪名，遍历上述的“\n”切分的结合，祛重后记录姓名和罪名的结果集合数量，筛选出被告人姓名和罪名数量都大于2的文书集合M＝{M₁,M₂,…,M_i}，该集合中元素中包含案号M_ah、本院认为段落M_byrw、审理经过段落M_sljg、裁判结果段落M_cpjg、当事人姓名M_name和罪名M_crime以及关系信息M_relation。

(4)由于刑事判决书中的审理经过蕴含着前审案号，基于上述集合M，利用正则表达式的方式在审理经过段落M_sljg＝{M_sljg1,M_sljg2,…,M_sljgi}抽取出前审的关联案号集合。审理经过段落和正则表达式如下所示：

(5)基于前审关联案号从12309检察网去匹配出对应的刑事起诉书集合Q＝{Q₁,Q₂,…,Q_i}。。

(6)将起诉书进行分段，抽取出本院认为段落，但是起诉书的本院认为段没有“\n”这种特征将被告人和罪名切分短文本，所以，直接利用基于(3)的思想利用hanlp和foolnltk多个命名体模型识别校验的方式的抽取出被告人姓名，正则表达式的方式抽取出罪名，将抽取的人名集合和罪名集合祛重，进而可以获取新的人名集合Q_name＝{Q_name1,Q_name2,…,Q_namei}和新的罪名集合Q_crime＝{Q_crime1,Q_crime2,…,Q_crimei}，若M_name＝Q_name&&M_crime＝Q_crime，则认为是标准的多人多罪样本，进而将从判决书中得到的关系带入起诉书中进行反标，生成训练集。因为起诉书中没有关系信息，需要借助判决书中案号、被告人姓名、罪名等信息去起诉书中反标。

(7)首先基于上述训练集的命名实体数据，结合BERT预训练模型将数据进行向量化。

(8)然后利用CRF条件随机场模型学习标签之间的约束关系，完成命名体识别，基于上述逻辑，进行命名体识别训练，调整参数，保存最优的modelA。此模型可以解决hanlp等通用模型不能抽取罪实体的缺陷，并借助领域内语料完成更精准的被告人姓名抽取。具体的模型结构如图2所示。

(9)然后继续基于上述训练集的实体关系数据利用BERT分类模型进行关系模型的训练。首先将训练集带入BERT进行向量化，然后利用softmax函数计算出概率，此模型只有两个关系，有犯罪(罪行)，没有犯罪(N)。经过多轮测试后保存最优的关系模型modelB。

(10)将上述步骤(9)和步骤(10)训练好的模型进行串联，结合成一站式的抽取模型modelC，modelC在人工标注的起诉书本院认为段的测试集上准确率可达87％。

(11)基于迁移学习的思想，将起诉书训练好的模型modelC迁移到基于案号关联的判决书中本院认为段预测，可以直接预测出判决书中的多人多罪的挂靠关系。

(12)进一步根据集合M＝{M₁,M₂,…,M_i}中的信息对判决书的本院认为段落进行标注，生成基于判决书的训练集。

(13)将上述训练集带入训练好的模型modelC进行二段训练，得到最优模型modelD。通过验证发现modelD相较于modelC的在起诉书测试集中的准确率可由87％上升至93％。

(14)为了提高推理速度，达到工业级的上线目标。选择蒸馏剪枝后的ALBERT_TINY模型，结合上述起诉书和判决书混合的训练集继续训练，并保存最优模型tiny_modelD，但准确率只能达到80％左右。

(15)基于主动学习建立伪标签的思想，将10000篇新无标住的判决书作为预测集利用modelD进行预测，进而生成伪标签数据，并通过裁判结果段落中的人名罪名关系信息反向验证得到准确的伪标签样本。之后带入ALBERT_TINY模型进行训练。

(16)进一步的利用伪标签训练的模型可以在起诉书中的预测准确率达到91.5％，相较于上述modelD模型的准确率仅下降1.5％,但是显存占用可由400多兆降到70多兆，并且预测速度得到提升，响应时间达到毫秒级。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

需要明确，以上公开的本发明的具体实施例和附图，其目的在于帮助理解本发明的内容，本领域的普通技术人员可以理解，并据以实施。当前的实施例是示例性而非局限性，在不脱离本发明的精神和范围内，各种替换、变化和修改都被包括在本发明的范围中，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种复杂案件中的多被告多罪名关系抽取方法，其步骤包括：

1)获取多个案件的刑事判决书，并从每一所述刑事判决书中抽取出本院认为段落、审理经过段落和裁判结果段落；

2)对于每一所述裁判结果段落，从中抽取出当事人姓名和罪名，生成被告人与对应罪名的挂靠关系；对所抽取信息进行去重后，筛选出包含多人、多罪名的裁判结果段落对应的刑事判决书，得到多人多罪的文书集合M；文书集合M中的每个文本包含刑事判决书的案号、本院认为段落、审理经过段落、裁判结果段落、被告人、罪名、被告人与对应罪名挂靠关系；

3)从所述文书集合M中的各审理经过段落中抽取出各刑事判决书对应的前审关联案号；

4)根据筛选出的前审关联案号找到对应的起诉书；

5)从各所述起诉书中抽取出本院认为段落；

6)从所述起诉书的本院认为段落中抽取人名和罪名并去重，得到起诉书的人名集合Q_name和罪名集合Q_crime；

7)将所述文书集合M中被告人姓名集合M_name、罪名集合M_crime与人名集合Q_name、罪名集合Q_crime分别进行匹配，若M_name＝Q_name且M_crime＝Q_crime，则判定所述文书集合M中每一案号对应的刑事判决书为一多人多罪样本，对每一多人多罪样本对应的所述起诉书的本院认为段落进行反标，生成训练集；

8)利用所述训练集中的样本数据训练串联模型；所述串联模型包括BERT+CRF命名体识别模型和BERT分类模型；所述BERT+CRF命名体识别模型用于从输入的样本数据中抽取人名和罪名并将其输入BERT分类模型，得到每一样本数据中的人名和罪名之间的关系；

9)利用所述文书集合M中样本对应的被告人和罪名之间的关系，对所述训练集内各样本对应的判决书中本院认为段落信息进行标注，将标注的判决书作为训练集训练步骤8)训练后的串联模型，得到一预测模型；

10)将训练后的BERT分类模型作为ALBERT_TINY模型；将大量无标注的判决书输入所述预测模型，将输出结果作为对应判决书的伪标签数据，得到伪标签样本；利用判决书的裁判结果段落对对应的伪标签样本进行验证，筛选出准确的伪标签样本，然后利用准确的伪标签样本训练蒸馏剪枝的ALBERT_TINY模型，得到一新的预测模型；

11)对于一待提取的案件，从该案件的起诉书中提取本院认为段落并将其输入到训练后的ALBERT_TINY模型，得到该案件中人名与罪名的对应关系。

2.根据权利要求1所述的方法，其特征在于，所述BERT+CRF命名体识别模型为基于领域内数据预训练的BERT+CRF命名体识别模型。

3.根据权利要求1所述的方法，其特征在于，所述BERT分类模型为基于领域内数据预训练的BERT分类模型。

4.根据权利要求1或2或3所述的方法，其特征在于，首先基于裁判结果段落中的换行符“\n”对裁判结果段落进行切分，然后利用正则表达式从切分所得文本中抽取出当事人姓名和罪名，生成被告人与对应罪名的挂靠关系；然后对所抽取信息进行去重后，筛选出包含多人、多罪名的裁判结果段落对应的刑事判决书，得到多人多罪的文书集合M。

5.根据权利要求1或2或3所述的方法，其特征在于，筛选出人数、罪名数都大于2的裁判结果段落对应的刑事判决书，得到多人多罪的文书集合M。

6.一种复杂案件中的多被告多罪名关系抽取装置，其特征在于，包括

数据集构造模块，用于构造训练集，其方法为：1)对刑事判决书集合中的每一刑事判决书中抽取出本院认为段落、审理经过段落和裁判结果段落；2)对于每一所述裁判结果段落，从中抽取出当事人姓名和罪名，生成被告人与对应罪名的挂靠关系；对所抽取信息进行去重后，筛选出包含多人、多罪名的裁判结果段落对应的刑事判决书，得到多人多罪的文书集合M；文书集合M中的每个文本包含刑事判决书的案号、本院认为段落、审理经过段落、裁判结果段落、被告人、罪名、被告人与对应罪名挂靠关系；3)从所述文书集合M中的各审理经过段落中抽取出各刑事判决书对应的前审关联案号；4)根据筛选出的前审关联案号找到对应的起诉书；5)从各所述起诉书中抽取出本院认为段落；6)从所述起诉书的本院认为段落中抽取人名和罪名并去重，得到起诉书的人名集合Q_name和罪名集合Q_crime；7)将所述文书集合M中被告人姓名集合M_name、罪名集合M_crime与人名集合Q_name、罪名集合Q_crime分别进行匹配，若M_name＝Q_name且M_crime＝Q_crime，则判定所述文书集合M中每一案号对应的刑事判决书为一多人多罪样本，对每一多人多罪样本对应的所述起诉书的本院认为段落进行反标，生成训练集；

模型训练模块，用于利用所述训练集中的样本数据训练串联模型；所述串联模型包括BERT+CRF命名体识别模型和BERT分类模型；所述BERT+CRF命名体识别模型用于从输入的样本数据中抽取人名和罪名并将其输入BERT分类模型，得到每一样本数据中的人名和罪名之间的关系；以及利用所述文书集合M中样本对应的被告人和罪名之间的关系，对所述训练集内各样本对应的判决书中本院认为段落信息进行标注，将标注的判决书作为训练集训练上述训练后的串联模型，得到一预测模型；然后将训练后的BERT分类模型作为ALBERT_TINY模型；然后将大量无标注的判决书输入所述预测模型，将输出结果作为对应判决书的伪标签数据，得到伪标签样本；利用判决书的裁判结果段落对对应的伪标签样本进行验证，筛选出准确的伪标签样本，然后利用准确的大量伪标签样本训练蒸馏剪枝的ALBERT_TINY模型；

预测模块，用于对于一目标案件，从该目标案件的起诉书中提取本院认为段落并将其输入到训练后的ALBERT_TINY模型，得到该目标案件中人名与罪名的对应关系。

7.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至5任一所述方法中各步骤的指令。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5任一所述方法的步骤。