CN110046259A

CN110046259A - 一种基于判决书文本的涉毒案件深度分析方法

Info

Publication number: CN110046259A
Application number: CN201910196636.0A
Authority: CN
Inventors: 孔德桢; 金苍宏; 富涛涛; 金忆琳; 吴明晖
Original assignee: Zhejiang University City College ZUCC
Current assignee: Zhejiang University City College ZUCC
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-07-23

Abstract

本发明提供一种基于判决书文本的涉毒案件深度分析方法，包括如下步骤：S1）提取毒品犯罪案件的主要信息；S2）统计分析提取的信息；S3）根据主要信息建立预测模型；S4）使用模型预测判刑结果。本发明的优点为：从毒品犯罪案件的刑事判决书中提取主要信息并进行统计，帮助整理案卷，分析毒品犯罪的趋势和因素，针对毒品犯罪的相关行为进行判决结果预测，便于禁毒教育宣传。

Description

一种基于判决书文本的涉毒案件深度分析方法

技术领域

本发明涉及文本提取和机器学习技术领域，具体涉及一种基于判决书文本的涉毒案件深度分析方法。

背景技术

毒品犯罪是涉及毒品的犯罪。尽管我国针对毒品犯罪的打击力度一直很强，但由于毒品贩卖具有高额利润的特点，绝大多数人并不了解我国法律针对毒品犯罪的判决条例，很多人还是会铤而走险，走上毒品犯罪的道路。因此须要加强毒品犯罪的教育宣传工作，对于有贩毒意向的潜在罪犯，告知他们怎样的行为会产生怎样的判决结果能够起到有力的警醒作用。

我国刑法对于毒品犯罪的量刑标准有一个具体的阐述，但是大多数人并没有耐心阅读法律法规，因此，一个直观的量刑结果预测显得尤为重要。利用法律知识进行逻辑判断，给定量刑的基准范围，并从实际案件中提取与量刑相关的特征参数进行机器学习从而获得辅助参数，就可以根据毒品犯罪相关行为作出预判结果。

发明内容

本发明的目的是提供一种可根据毒品犯罪相关行为作出预判结果的基于判决书文本的涉毒案件深度分析方法。

为了达到上述目的，本发明通过以下技术方案来实现：

一种基于判决书文本的涉毒案件深度分析方法，包括如下步骤：

S1)提取毒品犯罪案件的主要信息

系统导入毒品犯罪刑事判决书，采用句式分析、关键字抓取和正则表达式匹配的方法提取毒品犯罪刑事判决书中的主要信息，包括案件基本信息、毒品交易相关信息和涉案人员基本信息，导出上述信息；

S2)统计分析提取的信息

对涉案人员根据性别、年龄、地域等因素进行统计分析，作出人员关系的知识图谱；

S3)根据主要信息建立预测模型

首先采用主成分分析方法保留99％的主要信息，将保留的主要信息用二进制向量表示作为训练数据，涉案人数实际判刑年数作为标签数据；

根据法律量刑将所有数据分为四个类别，分别在各个类别上建立监督学习的回归预测模型xgboost模型，建立100棵CART树进行加法训练，优化目标函数，选取的误差函数为MSE；

S4)使用模型预测判刑结果

在模型中输入相关毒品犯罪信息，预测判刑结果。

进一步地，案件基本信息包括案件号、法院、审判长、人民陪审员、书记员、日期、毒品交易联系方式、毒品交易支付方式、毒品交易运输方式、涉案车牌号、毒品交易详情；毒品交易相关信息包括交易时间、地点、毒品种类、数量、金额、单价；涉案人员基本信息包括姓名、性别、身份证号码、生日、出生地、民族、户籍、家庭住址、文化程度、就业情况、犯罪过往、现羁押于、辩护人、辩护人律师事务所、刑罚种类、刑期、财产刑种类、财产刑金额。

本发明与现有技术相比，具有以下优点：

本发明一种基于判决书文本的涉毒案件深度分析方法，从毒品犯罪案件的刑事判决书中提取主要信息并进行统计，帮助整理案卷，分析毒品犯罪的趋势和因素，针对毒品犯罪的相关行为进行判决结果预测，便于禁毒教育宣传。

附图说明

图1是本发明一种基于判决书文本的涉毒案件深度分析方法的流程示意图。

图2是本发明一种基于判决书文本的涉毒案件深度分析方法的系统信息展示界面图。

图3是本发明一种基于判决书文本的涉毒案件深度分析方法的预测判刑结果界面图。

具体实施方式

下面结合附图，对本发明的实施例作进一步详细的描述。

如图1所示，一种基于判决书文本的涉毒案件深度分析方法，包括如下步骤：

S1)提取毒品犯罪案件的主要信息

系统导入毒品犯罪刑事判决书，采用句式分析、关键字抓取和正则表达式匹配的方法提取毒品犯罪刑事判决书中的主要信息，包括案件基本信息、毒品交易相关信息和涉案人员基本信息，导出上述信息。

其中，案件基本信息包括案件号、法院、审判长、人民陪审员、书记员、日期、毒品交易联系方式、毒品交易支付方式、毒品交易运输方式、涉案车牌号、毒品交易详情；毒品交易相关信息包括交易时间、地点、毒品种类、数量、金额、单价；涉案人员基本信息包括姓名、性别、身份证号码、生日、出生地、民族、户籍、家庭住址、文化程度、就业情况、犯罪过往、现羁押于、辩护人、辩护人律师事务所、刑罚种类、刑期、财产刑种类、财产刑金额。

S2)统计分析提取的信息

如图2所示，对涉案人员根据性别、年龄、地域等因素进行统计分析，作出人员关系的知识图谱。

S3)根据主要信息建立预测模型

首先采用主成分分析方法保留99％的主要信息，将保留的主要信息用二进制向量表示作为训练数据，涉案人数实际判刑年数作为标签数据。根据法律量刑将所有数据分为四个类别，分别在各个类别上建立监督学习的回归预测模型xgboost模型，建立100棵CART树进行加法训练，优化目标函数，选取的误差函数为MSE。

具体操作如下：

首先对提出重要信息使用独热编码转化为二进制向量，对于缺失值采用别的记录的中位数来填充，对提出的重要信息进行主成分分析，具体算法如下：

将所有样本进行均值归一化，即

计算协方差矩阵：

对协方差进行奇异值分解；

选取最大的k个特征值对应的特征向量；

选取不同的k值，然后用下面的式子不断计算，选取能满足下列式子条件的最小k：

输出降维后的数据集。

然后将所有数据根据法律量刑分为四个类别：三年以下、三年到七年、七年到十五年、十五年以上及无期和死刑。在各个类别上分别建立监督学习的预测模型。

建立100棵CART树，对其进行加法训练，分步骤优化目标函数，首先优化第一棵树，完了之后优化第二颗树，直至优化完第100棵。在现有的t-1棵树的基础上，使得目标函数最小的那棵CART树即为第t棵。目标函数定义为：

目标函数由两部分构成，第一部分用来衡量预测分数和真实分数的差距，另一部分则是正则化项。正则化项同样包含两部分，T表示叶子结点的个数，w表示叶子节点的分数，γ可以控制叶子结点的个数，λ可以控制叶子节点的分数不会过大，防止过拟合。当生成t棵树后，

预测分数可以写成：

目标函数改写为：

利用f_t＝0处的泰勒二阶展开近似它。

由于前t-1棵树的预测分数与y的残差对目标函数优化不影响，可以直接去掉，简化的目标函数为：

将所有同一个叶子节点的样本重组起来，将目标函数改写成关于叶子节点分数w的一个一元二次函数，用顶点公式求解最优的w和目标函数值分别为：

遍历所有特征的所有特征划分点，是分裂后的目标函数值比单个叶子节点的目标函数值有增益，同时增加一个阈值来防止树生长过深导致的过拟合。至此，模型建立完毕。

S4)使用模型预测判刑结果

如图3所示，在模型中输入相关毒品犯罪信息，点击提交后系统会自动分析，给出预测的判刑结果以及相关的法律条例。

本发明根据现有的法律条例，对用户输入的被告人的行为进行分析，推算出一个大致的量纲范围，然后利用实际案件中部分对量刑有影响的信息进行机器学习之后的训练结果，作为参数，对量纲范围进行一个精确化的修正，得到最终的预测结果，并呈现给用户。

以上所述仅是本发明优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.一种基于判决书文本的涉毒案件深度分析方法，其特征在于包括如下步骤：

S1）提取毒品犯罪案件的主要信息

S2）统计分析提取的信息

S3）根据主要信息建立预测模型

首先采用主成分分析方法保留99%的主要信息，将保留的主要信息用二进制向量表示作为训练数据，涉案人数实际判刑年数作为标签数据；

S4）使用模型预测判刑结果

在模型中输入相关毒品犯罪信息，预测判刑结果。

2.根据权利要求1所述的一种基于判决书文本的涉毒案件深度分析方法，其特征在于：案件基本信息包括案件号、法院、审判长、人民陪审员、书记员、日期、毒品交易联系方式、毒品交易支付方式、毒品交易运输方式、涉案车牌号、毒品交易详情；毒品交易相关信息包括交易时间、地点、毒品种类、数量、金额、单价；涉案人员基本信息包括姓名、性别、身份证号码、生日、出生地、民族、户籍、家庭住址、文化程度、就业情况、犯罪过往、现羁押于、辩护人、辩护人律师事务所、刑罚种类、刑期、财产刑种类、财产刑金额。