CN111861806B

CN111861806B - 一种复杂案件下多被告涉案金额提取方法及装置

Info

Publication number: CN111861806B
Application number: CN202010560019.7A
Authority: CN
Inventors: 贾高峰; 艾中良
Original assignee: China Judicial Big Data Research Institute Co ltd
Current assignee: China Judicial Big Data Research Institute Co ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2022-04-01
Anticipated expiration: 2040-06-18
Also published as: CN111861806A

Abstract

本发明公开了一种复杂案件下多被告涉案金额提取方法及装置，属于深度学习技术在量刑业务上的具体应用。该方法将含有涉案金额的描述文本输入训练完成的深度学习模型；通过所述深度学习模型判断涉案金额中对应某一被告人的有效金额和无效金额；将所有有效金额进行叠加求和，得到对应某一被告人的涉案总金额。本发明对BERT模型进行改进，改进后的模型包括输入层、中间层和输出层三部分，不仅能够结合上下文语义，而且能够抽取涉案金额的归属关系。本发明还提出提出枚举组合求和算法，能够迅速批量生成可供训练使用的标注数据，不依赖人工标注，生成训练数据速度快，并且生成的训练数据质量高、纯净。

Description

一种复杂案件下多被告涉案金额提取方法及装置

技术领域

本发明涉及自然语言处理技术领域，具体为一种复杂案件下多被告涉案金额提取方法及装置。

背景技术

在过去几年中，司法领域的数据量迅速增长，随之越来越多的人工智能和数据挖掘技术也被应用于司法实践，包括法条推荐、类案推荐、智能量刑辅助等。特别值得一提的是，精准的智能量刑辅助既能够提高法律从业人员的工作效率，又能够达到同案同判，捍卫司法公正的目的。涉案金额提取作为智能量刑辅助最底层的技术，无疑是最重要的，同时也是最具有挑战性的。

在已有的某些司法智能辅助系统中，针对涉案金额的提取，多采用简单的正则表达式匹配的方法。上述方法可以处理简单的情形，但如果某一涉案金额被反复描述，或者无效金额的描述太过复杂，则误判率过高。在多人同时犯罪的案件中，上述方法也很难区分不同被告人所涉及到的金钱。

发明内容

本发明的目的在于提供一种复杂案件下多被告涉案金额提取方法及装置，以解决上述背景技术中提出的问题，既能处理语义复杂的情形，又能区分不同被告人涉及的不同的金钱。

为实现上述目的，本发明提供如下技术方案：

一种复杂案件下多被告涉案金额提取方法，包括以下步骤：

将含有涉案金额的描述文本输入训练完成的深度学习模型；

通过所述深度学习模型判断涉案金额中对应某一被告人的有效金额和无效金额；

将所有有效金额进行叠加求和，得到对应某一被告人的涉案总金额。

进一步地，所述深度学习模型为改进的BERT模型，包括输入层、中间层和输出层。

进一步地，输入层由四部分构成，分别为input_ids、input_mask、segment_ids、input_mask_money；input_ids由两部分拼接，分别为犯罪事实的文本描述和正欲提取涉案金额的被告人名字；segment_ids为二值向量，0对应input_ids中的犯罪事实的文本描述，1对应被告人名字；input_mask同为二值向量，input_ids中所有金钱描述的文本在input_mask中对应的值是1，input_ids中非金钱描述的文本在input_mask中对应的值是0；input_mask_money与input_mask对应，将input_mask中的非0值替换为具体的金额数值。

进一步地，input_ids的生成步骤包括：

用正则表达式提取犯罪事实文本描述中的所有金额描述，并将所有金额描述统一替换成字符串“[MASK]”；

将犯罪事实文本描述和被告人名字进行拼接，先将犯罪事实文本描述首尾拼接“[CLS]”和“[SEP]”，再将被告人名字末尾拼接“[SEP]”，最后再将处理过的犯罪事实文本描述和被告人名字进行拼接，如果长度不够，再在末尾拼接字符“[PAD]”；

利用事先准备好的词典，完成从文本向索引的映射，从而得到input_ids。

进一步地，中间层为transformer结构，其中隐藏层的值为12，注意力头的值为12，隐藏层神经元的值为768。

进一步地，输出层是以完形填空的形式对犯罪犯罪事实中的所有金钱描述进行二分类，包括gather层和激活函数层；gather层用来过滤中间层的输出，只对金额描述部分进行操作和处理，激活函数层用于判断有效金额和无效金额。

进一步地，采用枚举组合求和算法生成供训练所述深度学习模型使用的标注数据，所述枚举组合求和算法包括以下步骤：

如果在裁判文书的本院认为段明确指出被告人的涉案数额的具体值，则枚举案情描述段的金额的所有组合，遍历所有组合并对当前组合中的所有元素求和；

如果求和值和本院认为段中的认为值相等，则认为当前组合中的金额为有效金额，案情描述中的其他金额全部为无效金额；

在枚举案情描述中的所有金额的组合之前，要判断金额数值是否重复，只有在不重复的情况下才进行组合；

只有当上述方式得到的有效金额组合个数有且只有一个时，才认为结果是有效的。

一种采用上述方法的复杂案件下多被告涉案金额提取装置，其包括：

有效金额获取模块，用于将含有涉案金额的描述文本输入训练完成的深度学习模型，通过所述深度学习模型判断涉案金额中对应某一被告人的有效金额和无效金额；

求和模块，用于将所有有效金额进行叠加求和，得到对应某一被告人的涉案总金额；

模型训练模块，用于训练所述深度学习模型。

本发明相对于现有技术具有以下有益效果：

本发明提供了一种基于改进的BERT模型的涉案金额提取方法，该方法先将原始输入中的所有金额描述替换为同一字符串，然后使用改进的BERT模型对所有被替换掉的金额进行二分类形式的预测，能够实现对涉案金额的深度语义理解；该方法将被告人名字拼接到了输入中，能够处理多人同时犯罪时，不同涉案金额的划分问题；本发明还提出了组合求和算法用来迅速生成训练数据，可以大量减少人工成本。

附图说明

图1为被告人的涉案金额提取模型结构图；

图2为枚举组合求和算法流程图；

图3为input_ids生成步骤图。

具体实施方式

下面将结合附图说明对本发明的最佳的实施例进行详细的描述，通过该描述，将会从原理上对本发明所能解决的针对背景技术中提出的问题有一个更加深刻的认识，当然本实施例并不是全部的实施例，基于本发明原理之下的其他所有实施例，都属于本发明保护的范围。

本发明提出的一种复杂案件下多被告涉案金额提取方法，包括以下步骤：

步骤1：对BERT模型进行改进，形成能够实现被告人的涉案金额提取的深度学习模型。

本发明对现有的BERT(Bidirectional Encoder Representations fromTransformers)模型进行了改进，包括：

首先，改进BERT模型的输入层。将输入层变成句子对的形式，句子对中第一句是犯罪事实的文本描述，句子对中第二句是被告人姓名。改进后的输入层接受四个输入，分别是input_ids(输入编码)、input_mask(掩藏标记)、segment_ids(段标记)和input_mask_money(被掩藏金额具体数值)，前三个输入只在训练阶段使用，input_mask_money在涉案金额提取时候使用。

其次，保留BERT中transformer结构作为本模型的中间层。具体的，transformer结构中隐藏层(num_hidden_layers)的值为12，注意力头(num_attention_heads)的值为12，隐藏层神经元(hidden_size)的值为768。

最后，添加输出层，该层对犯罪事实中的所有金钱描述进行二分类。具体的，首先是gather层(过滤层)，用来过滤中间层的输出，只对金额描述部分进行操作和处理，其次是激活函数层(本模型中采用sigmoid激活，趋近于0代表无效金额，趋近于1代表有效金额)。

改进后的模型由三部分构成，分别是输入层，中间层和输出层，具体的模型结构如图1所示。图1中，中间层的Feed Forward表示前馈网络；Multi-Head Attention表示多头注意力网络。

步骤2：提出枚举组合求和算法，能够迅速批量生成可供训练使用的标注数据，本算法不依赖人工标注，生成训练数据速度快，并且生成的训练数据质量高、纯净。

具体地，如果在裁判文书的本院认为段明确指出被告人的涉案数额的具体值，那么就枚举案情描述段的金额的所有组合，遍历所有组合并对当前组合中的所有元素求和，如果求和值和本院认为段中的认为值相等，则认为当前组合中的金额为有效金额，案情描述中的其他金额全部为无效金额。特别地，在枚举案情描述中的所有金额的组合之前，要判断金额数值是否重复，只有在不重复的情况下才进行组合；只有当上述方式得到的有效金额组合个数有且只有一个时，才认为结果是有效的。枚举组合求和法的具体过程如图2中流程图所示。

本发明一实施例的一种复杂案件下多被告涉案金额提取方法，包括以下步骤：

步骤1：文书分段预处理

一篇完成的裁判文书依次包含首部、被告人以及辩护人段段、审理流程段、公诉机关指控段、经审理查明段、证据段、本院认为段、尾部段。本发明中需要用到被告人姓名、案情描述和本院认为信息，依次对应裁判文书中的被告人以及辩护人段段、经审理查明段和本院认为段。采用正则表达式匹配上述有用段落的起始标志与结束标志，将起始标志和结束标志之间的所有段落进行拼接就是所对应的有用段落。

步骤2：处理模型输入

输入由4部分构成，分别为input_ids、input_mask、segment_ids、input_mask_money。input_ids中数值类型是整数型，有两部分拼接，分别为犯罪事实对应词表中的id(包含多个被告人的形式)和正欲提取涉案金额的被告人名字对应词表中的id，由原始文本向input_ids的转换是一个数值化的过程，如图3所示，可分为三个步骤：

第1步，替换金额描述为特殊字符：用正则表达式提取犯罪事实文本描述中的所有金额描述，并将所有金额描述统一替换成字符串“[MASK]”；

第2步，拼接操作：将犯罪事实文本描述和被告人名字进行拼接，拼接时会用到“[PAD]”、“[SEP]”、“[CLS]”、和“[PAD]”四个特殊字符，先将犯罪事实文本描述首尾拼接“[CLS]”和“[SEP]”，再将被告人名字末尾拼接“[SEP]”，最后再将处理过的犯罪事实文本描述和被告人名字进行拼接，如果长度不够512，再在末尾拼接字符“[PAD]”，保证拼接后的长度是512；

第3步，以词典为基础索引化：利用事先准备好的词典，完成从文本(犯罪事实文本描述和被告人名字)向索引(对应词表中的id)的映射，从而得到input_ids。

segment_ids是二值向量，0对应input_ids中的犯罪事实的文本描述，1对应被告人名字；input_mask同为二值向量，input_ids中所有金钱描述的文本，在input_mask中对应的值是1，input_ids中非金钱描述的文本，input_mask中对应的值是0；input_mask_money与input_mask对应，将input_mask中的非0值替换为具体的金额数值；label是某一被告人的真实的涉案金额。

步骤3：有监督训练和离线金额提取

在有监督训练时，使用本发明中提出的枚举组合求和算法生成的标注数据训练金额提取模型。

在离线金额提取时，使用训练生成的模型，对输入中所有金额描述进行二分类形式的预测，即预测是有效金额还是无效金额，然后将所有预测为有效金额的金额进行叠加求和，即为对应某一被告人的涉案总金额。具体的，先将原始文本先按步骤2中的方式生成input_ids、input_mask和segment_ids，并输入已训练好的模型，此时模型的输出(out_put)会是一个二值向量，将此向量点乘input_mask_money，然后进行叠加求和，最后的值即是对应某一被告人的涉案总金额。

基于同一发明构思，本发明的另一个实施例提供一种复杂案件下多被告涉案金额提取装置，其包括：

模型训练模块，用于训练所述深度学习模型。

其中各模块的具体实施过程参见前文对本发明方法的描述。

基于同一发明构思，本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种复杂案件下多被告涉案金额提取方法，其特征在于，包括以下步骤：

将含有涉案金额的描述文本输入训练完成的深度学习模型；

将所有有效金额进行叠加求和，得到对应某一被告人的涉案总金额；

所述深度学习模型为改进的BERT模型，包括输入层、中间层和输出层；

输入层由四部分构成，分别为input_ids、input_mask、segment_ids、input_mask_money；input_ids由两部分拼接，分别为犯罪事实的文本描述和正欲提取涉案金额的被告人名字；segment_ids为二值向量，0对应input_ids中的犯罪事实的文本描述，1对应被告人名字；input_mask同为二值向量，input_ids中所有金钱描述的文本在input_mask中对应的值是1，input_ids中非金钱描述的文本在input_mask中对应的值是0；input_mask_money与input_mask对应，将input_mask中的非0值替换为具体的金额数值；

input_ids的生成步骤包括：

2.根据权利要求1所述的方法，其特征在于：中间层为transformer结构，其中隐藏层的值为12，注意力头的值为12，隐藏层神经元的值为768。

3.根据权利要求1所述的方法，其特征在于：输出层是以完形填空的形式对犯罪事实中的所有金钱描述进行二分类，包括gather层和激活函数层；gather层用来过滤中间层的输出，只对金额描述部分进行操作和处理，激活函数层用于判断有效金额和无效金额。

4.根据权利要求1所述的方法，其特征在于，采用枚举组合求和算法生成供训练所述深度学习模型使用的标注数据，所述枚举组合求和算法包括以下步骤：

只有当得到的有效金额组合个数有且只有一个时，才认为结果是有效的。

5.一种采用权利要求1～4中任一权利要求所述方法的复杂案件下多被告涉案金额提取装置，其特征在于，包括：

模型训练模块，用于训练所述深度学习模型。

6.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～4中任一权利要求所述方法的指令。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～4中任一权利要求所述的方法。