CN111104798B

CN111104798B - 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质

Info

Publication number: CN111104798B
Application number: CN201811262752.XA
Authority: CN
Inventors: 于蛟
Original assignee: Beijing Smart Security Technology Co ltd
Current assignee: Beijing Smart Security Technology Co ltd
Priority date: 2018-10-27
Filing date: 2018-10-27
Publication date: 2023-04-21
Anticipated expiration: 2038-10-27
Also published as: CN111104798A

Abstract

本发明公开一种法律文书中的量刑情节的解析方法，包括读取量刑情节的法律文本；解析法律文本并分割成文本单元，所述文本单元包括开头、案号、当事人、由来、事实、证据、司法机关或承办人意见、判决结果及结尾信息；抽取含有量刑情节的文本单元；将含有量刑情节的文本单元与预设的关键词通过正则表达式进行匹配过滤，得出情节集合A，使用结巴分词对含有量刑情节的文本单元进行分词，并输入预设的序列标注模型进行预测分类，得出情节集合B；将情节集合A和情节集合B进行去重合并，得到情节集合C。本发明可提高司法工作人员的工作效率，减少认定量刑情节时由人为主观因素产生的偏差，提高其精确度和便利性。

Description

法律文书中的量刑情节的解析方法、系统及计算机可读存储介质

技术领域

本发明涉及法律文书解析技术领域，特别涉及一种法律文书中的量刑情节的解析方法、系统及计算机可读存储介质。

背景技术

目前，公检法机关的司法工作人员在认定被告人的量刑情节的过程中，需要查阅卷宗，对于复杂一些的案件，卷宗数量非常多，因而查阅卷宗并从中找到相关的量刑情节是一件费时费力的过程，影响司法工作人员的工作效率，并且由于人为主观因素的存在，导致对量刑情节的认定可能存在偏差，造成量刑的精确度低。

发明内容

本发明的主要目的是提供一种法律文书中的量刑情节的解析方法，旨在提高司法工作人员的工作效率，减少认定量刑情节时由人为主观因素产生的偏差，提高其精确度和便利性。

为实现上述目的，本发明提出一种法律文书中的量刑情节的解析方法，该法律文书中的量刑情节的解析方法包括以下步骤：

S10：读取量刑情节的法律文本；

S20：解析法律文本并分割成文本单元，所述文本单元包括开头、案号、当事人、由来、事实、证据、司法机关或承办人意见、判决结果及结尾信息；

S30：抽取含有量刑情节的文本单元；

S40：将含有量刑情节的文本单元与预设的关键词通过正则表达式进行匹配过滤，得出情节集合A，

S50：使用结巴分词对含有量刑情节的文本单元进行分词，并输入预设的序列标注模型进行预测分类，得出情节集合B；

S70：将情节集合A和情节集合B进行去重合并，得到情节集合C。

优选地，步骤S10具体包括以下步骤：

S11：通过Apache Tika工具读取对应的量刑情节的法律文本初始信息；

S12：通过增加换行符将量刑情节的法律文本初始信息分割成段落列表。

优选地，步骤S20具体包括以下步骤：

S21：根据标题和内容关键字总结的正则表达式规则与法律文本内容进行匹配过滤，识别出该法律文本类型，所述法律文本类型包括判决书、起诉书、起诉意见书、审理报告、审查报告、上诉书、抗诉书、裁定书、量刑建议书、辩护词或庭审笔录；

S22：按照对应的法律文本类型的段落划分规则将法律文本内容进行分割成文本单元。

优选地，含有量刑情节的文本单元包括事实、证据、司法机关及承办人意见段落。

优选地，步骤S50之后还包括以下步骤：

S60：记录情节集合A的文本单元的每一个元素对应的段落顺序号和句子顺序号和/或记录情节集合B的文本单元的每一个元素对应的段落顺序号和句子顺序号。

优选地，步骤S70具体包括以下步骤：

S71：创建情节集合C的存储单元，

S72：存储情节集合A于情节集合C的存储单元内，

S73：读取情节集合B中每一个元素，并依次判断与情节集合A中的元素是否相同，若否，将情节集合B中对应元素的段落存储至存储单元内的情节集合A对应的位置。

优选地，步骤S70之后还包括以下步骤：

S80：过滤掉情节集合C的存储单元内具有否定情节的信息。

优选地，步骤S80具体包括以下步骤：

S81：读取情节集合C中的信息和预设的否定词规则表中的正则表达式，所述否定词规则表中的正则表达式包括“不构成”、“不成立”、“不予认定”中的至少一个；

S82：判断情节集合C中的信息是否有与否定词规则表中的正则表达式相匹配的情节信息，若是，删除该相匹配的情节信息的段落。

本发明还提出一种法律文书中的量刑情节的解析系统，所述法律文书中的量刑情节的解析系统包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的法律文书中的量刑情节的解析程序，其中：

所述法律文书中的量刑情节的解析程序被所述处理器执行时实现上述所述的法律文书中的量刑情节的解析方法的步骤。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有法律文书中的量刑情节的解析程序，所述法律文书中的量刑情节的解析程序被处理器执行时实现如上述所述的法律文书中的量刑情节的解析方法的步骤。

本发明技术方案通过读取量刑情节的法律文本；解析法律文本并分割成文本单元，所述文本单元包括开头、案号、当事人、由来、事实、证据、司法机关或承办人意见、判决结果及结尾信息；抽取含有量刑情节的文本单元；将含有量刑情节的文本单元与预设的关键词通过正则表达式进行匹配过滤，得出情节集合A，使用结巴分词对含有量刑情节的文本单元进行分词，并输入预设的序列标注模型进行预测分类，得出情节集合B；将情节集合A和情节集合B进行去重合并，得到情节集合C。以此可得到更加精炼的法律信息供司法工作人员快速参考，以提高司法工作人员的工作效率，减少认定量刑情节时由人为主观因素产生的偏差，提高其精确度和便利性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明法律文书中的量刑情节的解析方法一实施例的流程结构示意图；

图2为本发明法律文书中的量刑情节的解析方法的另一实施例的流程结构示意图；

图3为图1或图2中的步骤S10的细化流程结构示意图；

图4为图1或图2中的步骤S20的细化流程结构示意图；

图5为图1或图2中的步骤S70的细化流程结构示意图；

图6为图2中的步骤S80的细化流程结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提出一种法律文书中的量刑情节的解析系统。所述法律文书中的量刑情节的解析系统可以是移动电话、智能电话、笔记本电脑、PAD(平板电脑)等可移动设备，以及诸如台式计算机、服务器等固定终端。所述法律文书中的量刑情节的解析系统包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的法律文书中的量刑情节的解析程序。

其中，所述存储器至少包括一种类型的可读存储介质，用于存储安装于所述法律文书中的量刑情节的解析系统的操作系统和各类应用软件，例如法律文书中的量刑情节的解析程序的程序代码等。此外，所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述法律文书中的量刑情节的解析系统的总体操作。本实施例中，所述处理器用于运行所述存储器中存储的程序代码或者处理数据，例如运行所述法律文书中的量刑情节的解析程序等。

参照图1，所述法律文书中的量刑情节的解析程序被所述处理器执行时，实现如下步骤：

S10：读取量刑情节的法律文本；

S30：抽取含有量刑情节的文本单元；

其中的步骤S40具体为对含有量刑情节的文本单元中的句子与业务人员梳理的规则库中的正则表达式规则和关键词进行匹配，得到一组情节集合A，以自首情节为例，当某句匹配到(情节：|、)自首[、和；；]”、“(？<！(没|不))(具？有|系|应？以|投案|属于|构成|是|应认定为)自首(情节)？”等规则时，认定含有自首情节。

其中的步骤S50具体为使用结巴分词对段落中的句子进行分词，每个词初始化类别为0，如：“本院认为0：0被告人0吴某0以0非法占有0为0目的0，0虚构0事实0，0隐瞒0真相0，0诈骗0他人0 1.2 0万元0，0数额较大0，0其0行为0构成0诈骗罪0。0被告人0吴某0在0被0公安机关0传唤0后0到案0，0并0如实0供述0了0自己0的0犯罪事实0，0是0自首0，0依法0可以0从轻0处罚0。0”。输入到预先训练好的序列标注模型进行预测分类，如：“本院认为0：0被告人0吴某0以0非法占有0为0目的0，0虚构0事实0，0隐瞒0真相0，0诈骗0他人0 None 0万元0，0数额较大0，0其0行为0构成0诈骗罪0。0被告人0吴某0在B-zs被M-zs公安机关M-zs传唤M-zs后M-zs到案M-zs，M-zs并M-zs如实M-zs供述M-zs了M-zs自己M-zs的M-zs犯罪事实M-zs，M-zs是M-zs自首E-zs，0依法0可以0从轻0处罚0。0”，输出一组情节集合b，并记录情节所在的段落号和该段所在句子顺序号。如："zs":[["在被公安机关传唤后到案，并如实供述了自己的犯罪事实，是自首",18,2,5]]。

以此通过步骤S40和步骤S50两种方式使分析处理的信息更加精炼，使用时只需导入文书或输入相关文书的关键词即可解析出文书中含有的量刑情节，司法工作人员只需根据结果进行确认即可，而不必查阅整篇文书。对于卷宗很多的案件，可大大缩减工作量，提高工作效率。且先由程序识别量刑情节，可减少不同的人由于主观因素对于同一案件认定为不同情节的可能性可供司法工作人员快速参考，以提高司法工作人员的工作效率，减少认定量刑情节时由人为主观因素产生的偏差，提高其精确度和便利性。

具体地，参照图3，其中步骤S10包括以下步骤：S11：通过Apache Tika工具读取对应的量刑情节的法律文本初始信息，具体为通过接收用户查找请求，通过Apache Tika工具在连接的服务器端的数据库内或互联网上的资料进行抓取所要搜索的同类型的法律文本。再执行步骤S12：通过自动判断为一句完整的话进行增加换行符将量刑情节的法律文本初始信息分割成段落列表。以使用户收集法律文本资料时直接输入检索关键词即可自动抽取对应的文本单元，使用更方便快捷。

进一步地，参考图4，步骤S20具体包括以下步骤：

具体为通过根据标题和内容关键字总结的正则表达式规则当识别到与对应法律文本类型中相同的关键词后即可确认对应的法律文本类型，并且每一个法律文本类型可设置不同的文本模板，其中的段落划分规则是熟悉业务的开发人员通过阅读大量的文书，根据每一个法律文本类型的行文特点，总结出对应的正则表达式规则。以起诉书的开头规则[".*刑诉.{1,15}号.{0,2}"]为例：从文书开始部分，逐段匹配，当匹配成功时，认为从开始到该段之前的段落都属于开头部分。以此使文本识别的信息更精准。

参照图1，其中，含有量刑情节的文本单元包括事实、证据、司法机关及承办人意见段落，通过步骤S20后，再识别对应的事实、证据、司法机关及承办人意见段落，再进行执行步骤S60：记录情节集合A的文本单元的每一个元素对应的段落顺序号和句子顺序号和/或记录情节集合B的文本单元的每一个元素对应的段落顺序号和句子顺序号，以便于对情节集合A和情节集合B的后续的信息处理和排版，使其使用更方便。

参照图5，步骤S70具体包括以下步骤：

S71：创建情节集合C的存储单元，

S72：存储情节集合A于情节集合C的存储单元内，

S73：读取情节集合B中每一个元素，并依次判断与情节集合A中的元素是否相同，若否，将情节集合B中对应元素的段落存储至存储单元内的情节集合A对应的位置，若是，不进行处理，继续读取情节集合B中的下一个元素，直到情节集合B中元素读取完后结束判断，进行下一步骤。以此进一步精炼分析后的信息，使其精确度和便利性更高。

参照图6，优选地，步骤S70之后还包括以下步骤：

S80：过滤掉情节集合C的存储单元内具有否定情节的信息。

具体地，步骤S80一实施例为：

S82：判断情节集合C中的信息是否有与否定词规则表中的正则表达式相匹配的情节信息，若是，删除该相匹配的情节信息的段落。以便于更进一步精炼分析后的信息，去除不需要的信息，使其分析后的内容的精确度和便利性进一步提高。

一具体的解析实施例如下：

海南省海口市龙华区人民检察院

起诉书

海龙检公诉刑诉〔2017〕993号

被告人***，男，1982年**月**日出生，居民身份证号码4601031982********，汉族，初中文化，无业，海南省海口市人，家住海南省海口市龙华区**西路**号。2003年2月18日因犯抢夺罪被海口市龙华区人民法院判处有期徒刑二年六个月，2005年4月7日刑满释放；2009年5月25因犯抢夺罪被海口市龙华区人民法院判处有期徒刑三年，2012年1月6日刑满释放；2013年4月15日因犯抢夺罪被海口市龙华区人民法院判处有期徒刑二年十个月，2015年2月13日刑满释放；2015年8月25日因犯贩卖毒品罪被海口市龙华区人民法院判处有期徒刑一年，2016年6月5日刑满释放。因贩卖毒品嫌疑，于2017年10月9日被海口市公安局龙华分局刑事拘留；因涉嫌犯有贩卖毒品罪，经本院批准，于2017年10月19日由海口市公安局龙华分局依法执行逮捕。

本案由海口市公安局龙华分局侦查终结，以被告人***涉嫌贩卖毒品罪，于2017年11月23日向本院移送审查起诉。本院受理后，已告知被告人有权委托辩护人，依法讯问了被告人，审查了全部案件材料。

经依法审查查明：

2017年10月8日19时许，经事先电话联系，被告人***在海口市龙华区玉河路工商行政管理局办事中心门前处，以人民币200元的价格将一小包毒品贩卖给购毒人员林某某，双方交易完成后被公安民警抓获。民警当场从***身上缴获毒资人民币200元、扣押到作案工具手机一部,从林某某身上扣押到被告人***贩卖的毒品一小包(经鉴定含海洛因成分，净重0.09克)。

认定上述事实的证据如下：

1.到案经过、扣押物品清单及照片、称量笔录及照片、常住人口信息、刑事判决书、释放证明等书证；

2.证人林某某的证言；

3.被告人***的供述；

4.毒品检验报告；

5.辨认笔录及照片。

本院认为，被告人***违反国家对毒品的管理规定，非法贩卖毒品海洛因0.09克，其行为已触犯《中华人民共和国刑法》第三百四十七条第四款之规定，犯罪事实清楚，证据确实、充分，应当以贩卖毒品罪追究其刑事责任。被告人***曾因犯贩卖毒品罪被判处有期徒刑，刑罚执行完毕后五年内，又犯应当判处有期徒刑的贩卖毒品罪，系累犯、毒品再犯，依法应当从重处罚。根据《中华人民共和国刑事诉讼法》第一百七十二条的规定，提起公诉，请依法判处。

此致

海口市龙华区人民法院

检察员：***

**年**月**日

附：

1.被告人***现羁押于海口市第一看守所；

2.随案移送全部案卷材料；

3.涉案款物现扣押于海口市公安局大同派出所。

解析过程：

1.使用Apache tika读取文书内容，根据换行符划分为段落列表。以前三段为例[‘海南省海口市龙华区人民检察院’,‘起诉书’,‘海龙检公诉刑诉〔2017〕993号’]。

2.依次读取文书段落列表，和文书类型正则表达式匹配，识别出该文书是起诉书，使用起诉书的段落划分规则将文书内容主要划分为开头[0,1]、案号[2]、当事人信息[3]、由来[4]、事实和证据[5,6,7,8,9,10,11,12]、检察院意见[13]、结尾[14,15,16,17,18,19,20,21]。

3.将事实和证据段落、检察院意见段落的每一句话和情节规则库中的正则表达式规则和关键词进行匹配，得到的情节集合A中元素有：

"犯罪前科":[13,1,"曾因犯贩卖毒品罪被判处有期徒刑"]、"毒品再犯":[13,1,"毒品再犯"]、"累犯":[13,1,"系累犯"]。(冒号前面是情节名称，冒号后面是情节所在段落序号、句子序号和匹配的描述，以下同)

4.将事实证据段落和检察院意见段落的句子经结巴分词处理后，输入预先训练好的序列标注模型进行计算，得到的情节集合B中元素有：

"累犯":[13,1,"因犯贩卖毒品罪被判处有期徒刑，刑罚执行完毕后五年内，又犯应当判处有期徒刑的贩卖毒品罪，系累犯"]。

5.集合A和B根据元素名称，对相同元素进行去重，得到集合C:

"犯罪前科":[13,1,"曾因犯贩卖毒品罪被判处有期徒刑"]、"毒品再犯":[13,1,"毒品再犯"]、"累犯":[13,1,"系累犯"]。

6.使用预先整理的否定词规则表对集合C中元素所在句子进行过滤，本例中三个元素所在句子均不包含停用词。结果仍为集合C。

最后将集合C作为最终结果返回。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种法律文书中的量刑情节的解析方法，其特征在于，包括以下步骤：

S10：读取量刑情节的法律文本；

S30：抽取含有量刑情节的文本单元；

2.如权利要求1所述的法律文书中的量刑情节的解析方法，其特征在于，步骤S10具体包括以下步骤：

3.如权利要求1所述的法律文书中的量刑情节的解析方法，其特征在于，步骤S20具体包括以下步骤：

4.如权利要求1所述的法律文书中的量刑情节的解析方法，其特征在于：

含有量刑情节的文本单元包括事实、证据、司法机关及承办人意见段落。

5.如权利要求1所述的法律文书中的量刑情节的解析方法，其特征在于，步骤S50之后还包括以下步骤：

6.如权利要求5所述的法律文书中的量刑情节的解析方法，其特征在于，步骤S70具体包括以下步骤：

S71：创建情节集合C的存储单元，

S72：存储情节集合A于情节集合C的存储单元内，

7.如权利要求1-6任一项所述的法律文书中的量刑情节的解析方法，其特征在于，步骤S70之后还包括以下步骤：

S80：过滤掉情节集合C的存储单元内具有否定情节的信息。

8.如权利要求7所述的法律文书中的量刑情节的解析方法，其特征在于，步骤S80具体包括以下步骤：

9.一种法律文书中的量刑情节的解析系统，其特征在于，所述法律文书中的量刑情节的解析系统包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的法律文书中的量刑情节的解析程序，其中：

所述法律文书中的量刑情节的解析程序被所述处理器执行时实现如权利要求1至8中任一项所述的法律文书中的量刑情节的解析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有法律文书中的量刑情节的解析程序，所述法律文书中的量刑情节的解析程序被处理器执行时实现如权利要求1至8中任一项所述的法律文书中的量刑情节的解析方法的步骤。