CN108596386A

CN108596386A - 一种预测犯人重复犯罪概率的方法及系统

Info

Publication number: CN108596386A
Application number: CN201810358611.1A
Authority: CN
Inventors: 王翔; 金涌涛; 陈涛; 李建元
Original assignee: Shanghai Municipal Judicial Bureau; Enjoyor Co Ltd
Current assignee: Shanghai Municipal Judicial Bureau; Enjoyor Co Ltd
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2018-09-28

Abstract

本发明涉及一种预测犯人重复犯罪概率的方法及系统，本系统主包括数据获取模块、数据清洗模块、特征提取模块、重复犯罪标注模块、样本选择模块、重复犯罪预测模块，结构简单，方便使用；本发明方法采用了随机森林算法模型与人户分离的特征构建策略，具备可行性强、预测准确性高、灵活性强的特点。

Description

一种预测犯人重复犯罪概率的方法及系统

技术领域

本发明涉及数据挖掘及分析领域，尤其涉及一种预测犯人重复犯罪概率的方法及系统。

背景技术

中国近几年犯罪总量变化不大，犯罪态势平稳，但是，关于刑释人员出狱后重新犯罪的问题却愈发严重，已经严重危害到国民经济发展和社会安定团结。根据我国相关部门的统计，我国重新犯罪的概率在6％～15.98％之间波动。相对于一般人，有过犯罪记录的人有更大的概率犯罪，对于那些重复犯罪率高的人群，如果在刑满释放后不严加监督和教育，必然会再次对社会治安造成不利的影响。所以对刑满释放的人员进行是否会再次犯罪尤其重要，其能够有效地节约警力资源，针对再次犯罪率高的人员进行重点把控；能够对再次犯罪率高的罪犯加强狱中教育，降低其刑满释放后再次犯罪的可能性。

目前针对预测罪犯是否会重新犯罪的方法并不成熟，刑满释放的人员基本上处于无人管理的状态，特别是对外来人员、本地流出人员中的刑释人员失控较多，以致其成为再犯罪的高发群体。对于刑释人员的监管也做的不够到位，只对少数刑释人员进行监督，漏掉了大量具有高再次犯罪可能性的刑释人员。监管的不利与其低准确性造成了犯人重复犯罪概率的不断走高，所以，监管的准确性成为了解决这一个问题的关键。

预测在押人员在刑满释放后的再次犯罪率，再根据得到的再次犯罪率，对刑释人员进行重点的监管。目前大多数犯罪预测都是针对未犯罪人员的犯罪预警，在应用的层面上，能够帮助分配警力，提高警力的有效利用率，减少警察到场时间，能够更好地制止犯罪和抓住罪犯。但是在预测犯罪人员再次犯罪这块领域上，并没有发现存在对应的专利，而现有的技术还存在几点不足：(1)孙菲菲,曹卓.面向重复犯罪人的再犯罪预测方法[J].湖北警官学院学报,2015, 28(4):130-132.该论文中采集了14个样本，样本过于稀少；而且采用了决策树算法，决策树的生成算法决定了其不能保证返回全局最优决策树，因此得到的结果没有足够的准确性和说服力；该作者在对于特征的筛选并不重视，没有考虑每个特征的重要性差异，进而分配权重。 (2)曾赟.服刑人员刑满释放前重新犯罪风险预测研究[J].法学评论, 2011(6):131-137.该论文采用多因素方差分析与逻辑回归分析在SPSS 上对1238个随机押犯样本进了统计与分析。多因素方差分析在面对大数据以及多因素的样本时，计算量呈指数增加，计算时间过长，效率很慢；在筛选特征的时候，该论文通过二元逻辑回归分析检验结果，但文中表明，所用模型拟合优度极差，其筛选的特征的可靠性有待考证。

发明内容

本发明为克服上述的不足之处，目的在于提供一种预测犯人重复犯罪概率的方法及系统，本系统主包括数据获取模块、数据清洗模块、特征提取模块、重复犯罪标注模块、样本选择模块、重复犯罪预测模块，结构简单，方便使用；本发明方法采用了随机森林算法模型，具备可行性强、预测准确性高、灵活性强的特点。

本发明是通过以下技术方案达到上述目的：一种预测犯人重复犯罪概率的方法，包括如下步骤：

(1)从数据库中提取犯人的数据，其中数据包括犯人的个人档案、犯罪记录及重复犯罪关联的影响因子；

(2)将提取到的数据进行清洗，得到有效数据和现有特征变量；

(3)基于有效数据进行特征构建得到构建特征变量；

(4)挑选数据平衡的样本集；

(5)对样本集的现有特征变量和构建特征变量进行筛选得到显著特征变量；

(6)将样本集的显著特征变量和有效数据代入分类器算法进行拟合得到分类器模型；

(7)将犯人的数据输入到分类器模型，计算犯人的重复犯罪概率。

作为优选，所述步骤(2)的数据清洗包括如下步骤：

(2.1)对数据进行去重：根据每行的数据去除重复记录的数据；

(2.2)分析缺失比高于预设阈值的字段数据，确认无用后将其移除；

(2.3)分析剩余的字段数据，根据分析结果移除对分析无用的变量数据，保留未确定其含义或不能确定是否对预测起作用的变量数据；

(2.4)对保留的变量数据进行字典匹配，对含义相同格式不同的数据进行统一；并对保留的数据进行缺失性填充和结构化处理。

作为优选，所述的构建特征变量包括重犯标签，还包括但不限于：释放年龄、是否为本地户籍、是否属于人户分离状态、惩罚长度、重新分组变量、犯罪次数；其中重新分组变量指将有多个水平且频数较少的变量重组为分组少且频数较大的数据组合。

作为优选，所述人户分离状态的判断方法为：提取犯人户籍所在地和居住地址，计算户籍所在地文本和居住地址文本的相似度，判定犯罪人员是否属于人户分离的状态，当相似度满足预设的阈值条件时则判定为人户分离状态，否则判定为非人户分离状态。

作为优选，所述文本的相似度计算采用Levenshtein Distance算法，该算法采用动态规划的算法策略，该策略具备最优子结构，最小编辑距离包含子最小编辑距离，如下式所示:

其中，d_[i,j]表示完成转换需要执行的操作的次数，即最小编辑距离，x_i表示规定在x轴的字符串，空间表示为[i,0]，y_j表示规定在y轴的字符串,空间表示为[0,j]，d_[i-1,j]+1代表字符串插入一个字母，d_[i,j-1]+1 代表另一个字符串删除一个字母；若当x_i＝y_j时，不需要代价，即与上一步d_[i-1,j-1]代价相同，否则+1；d_[i,j]为以上三者中最小的一项。

作为优选，所述重犯标签的具体计算如下：

(I)将m个犯人按照姓名和出生日期分组为m个数据框，每个数据框含有K[n]条犯人的犯罪信息，其中n表示犯人的标识,n＝0,1,2,…,m-1；

(II)将数据分成两个部分，一部分为K[n]＝1,剩余部分为K[n]＞1；

(III)分别对K[n]＝1和K[n]＞1这两部分数据进行分析：

(A)K[n]＝1所对应的犯人只有一条犯罪记录，将重犯次数标记为0；

(B)对K[n]＞1的分析为：判断已释放时长是否满足阈值条件，若是，则标签为未重复犯罪，否则标签为重复犯罪，并将犯罪次数加1后继续循环执行上述判断操作直至发现最后一条犯罪记录；其中，该阈值是预设的，可为固定的时间年限或者与犯罪记录相映射的时间年限。

作为优选，所述步骤(4)采用Borderline-SMOTE算法对数据进行处理从而达到数据平衡的目的，公式如下所示：

其中，S_maj表示集合S的多数类，S_{l_knn}表示对少数类样本的每个样本x_l求k近邻，其中l表示为每个样本的标识，且S_{l_knn}属于整个样本集合S而不再是少数类样本，则将样本x_l加入接近分类边界的样本，将接近分类边界的样本当作SMOTE种子样本的输入生成新样本。

作为优选，所述步骤(5)的具体如下：

(5.1)变量转化：将因子型的变量转化为数值型使计算机能够识别；

(5.2)数据分割：将样本集分割为训练集、检验集、测试集；

(5.3)以随机森林算法返回的属性重要性表为基础，筛选属性变量性高的特征变量作为显著特征变量。

作为优选，所述步骤(6)的分类器算法采用随机森林算法，具体如下：

(6.1)利用随机森林算法的投票算法公式进行投票，经投票生成混淆表CM，混淆表CM是一个n_c×n_c表，表中元素cm(i,j)(i≠j)表示类型i被分类为j的次数，仅当i＝j时，cm(i,j)表示类型i被分类正确的个数；其中，随机森林算法的投票算法公式如下所示：

其中，C_p为最终投票结果，n_tree表示决策树的序号，n_C为类别的总个数；

(6.2)将样本集的有效数据和显著特征变量代入拟合得到随机森林模型。

一种预测犯人重复犯罪概率的系统，包括数据获取模块、数据清洗模块、特征提取模块、重复犯罪标注模块、样本选择模块、重复犯罪预测模块；其中，数据获取模块用于获取所有与犯人相关的原始数据；数据清洗模块用于对原始数据进行一种或多种清洗操作，从而获取有效数据，清洗操作包括但不限于：对同一属性的数据进行合并、去除重复的数据、去除缺失数据、某一属性的数据缺失程度高于阈值时去除该属性的数据、某一属性为不关联属性时去除该属性的数据、对含义相同格式不同的数据进行统一、缺失值填充、将数据进行结构化处理；特征提取模块用于对有效数据进行提取、换算、变形，获得表征犯人的特征向量；重复犯罪标注模块用于根据犯人的特征向量为犯人添加重复犯罪标签；样本选择模块用于从不同重复犯罪标签的数据集中选择样本数据，不同重复犯罪标签的样本数据满足数据平衡条件；重复犯罪预测模块用于以特征向量为变量、重复犯罪标签为因变量，构建变量和因变量的关系模型，以样本数据对该模型进行训练、测试、验证，输入犯人的特征向量，利用训练后的模型对犯人重复犯罪概率进行预测。

作为优选，所述的特征提取模块提取的特征向量包括但不限于释放年龄、是否为本地户籍、是否属于人户分离状态、惩罚长度、重新分组变量、犯罪次数；其中重新分组变量指将有多个水平且频数较少的变量重组为分组少且频数较大的数据组合；人户分离状态指提取犯人户籍所在地和居住地址，计算户籍所在地文本和居住地址文本的相似度，当相似度满足阈值条件时，判定为人户分离状态。

本发明的有益效果在于：(1)可行性强，该预测重复犯罪率模型主要基于监狱的历史数据对犯人释放后重新犯罪的情况进行预测，成本低，速度快；(2)预测准确性高，使用了具有极好的准确率的随机森林模型，且训练集数量丰富，能够准确地预测重复犯罪的概率，精度还高；(3)灵活性强，根据预测出的重复犯罪概率，灵活地为犯人安排合适的教育

附图说明

图1是本发明方法的流程示意图；

图2是本发明的数据清洗流程示意图；

图3是本发明的构建特征变量流程示意图；

图4是本发明的特征变量筛选流程示意图；

图5是本发明实施例的特征变量筛选结果部分示意图；

图6是本发明实施例的部分具有代表性的结果示意图；

图7是本发明实施例的用于对比的4种算法的结果示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：一种预测犯人重复犯罪的系统，包括如下模块：

1、数据获取模块，从一个或多个系统中获取所有与犯人相关的原始数据。其中，系统包括劳教所、矫正局、看守所等系统，相关原始数据包括姓名、性别、出生日期等数据。

2、数据清洗模块，对原始数据进行一种或多种清洗操作获取有效数据。清洗操作包括但不限于：对同一属性的数据进行合并、去除重复的数据、去除缺失数据、某一属性的数据缺失程度高于阈值时去除该属性的数据、某一属性为不关联属性时去除该属性的数据、对含义相同格式不同的数据进行统一、缺失值填充、将数据进行结构化处理。其中，属性表示一个数据集合的某种特性，举例：性别、出生日期。

3、特征提取模块，对有效数据进行提取、换算、变形，获得表征犯人的特征向量。特征向量可以是一种或多种，包括但不限于：释放年龄、人户分离、关押时长、罪因、健康状况、释放方式、工作情况、政治面貌、犯罪次数、已释放时长。

4、重复犯罪标注模块，根据犯人的特征向量为犯人添加重复犯罪标签。

5、样本选择模块，从不同重复犯罪标签的数据集中选择样本数据，不同重复犯罪标签的样本数据满足数据平衡条件。

6、重复犯罪预测模块，以特征向量为变量、重复犯罪标签为因变量，构建变量和因变量的关系模型，以样本数据对该模型进行训练、测试、验证，输入犯人的特征向量，利用训练后的模型对犯人重复犯罪概率进行预测。

其中，该系统下各模块具体用途，包括：

数据清洗模块的功能：

(1)数据合并：“对同一属性的数据进行合并”，具体操作，识别从不同系统获取的数据是否存在属性相同的数据，进行合并。在本系统中具体实施如下：劳教所系统含犯人出生日期的数据、矫正局系统含犯人出生日期的数据，将这2个数据合并，如果2个数据格式、含义相同，可以通过“去除重复的数据”进行清洗，如果2个数据含义相同格式不同，可以通过“对含义相同格式不同的数据进行统一” 进行清洗，如果1个数据缺失，1个数据不缺失，可以通过“去除缺失数据”进行清洗。

(2)去除高缺失率数据：“某一属性的数据缺失程度高于阈值时去除该属性的数据”，具体操作，统计某一属性下数据缺失的数量和数据总量的比值，当比值高于阈值时，去除该属性的数据。

在本系统中具体实施如下：获取M个犯人的相关原始数据，其中属性为“健康状况”的数据中，有N个犯人没有健康状况数据，属性为“健康状况”的数据缺失程度N/M>阈值Y，去除所有“健康状况”数据。

(3)去除无用数据：“某一属性为不关联属性时去除该属性的数据”，具体操作，设置关联属性目录，不在关联属性目录内的属性为不关联属性。

在本系统中具体实施如下：“街道”、“创建日期”不在关联属性目录内，去除所有“街道”、“创建日期”的数据。

(4)统一数据水平名称：“对含义相同格式不同的数据进行统一”，具体是指，过频数统计观察数据中存在的水平名称，然后通过字典将含义相同的字段进行替换。在本系统中具体实施如下：文化程度的标准编码为数字1-7，数据内文化程度属性含有“大学本科”、“技校” 等非标准数据名称，通过标准编码字典将文化程度属性统一格式。

(5)填充数据缺失值：“缺失值填充”，具体操作，设置关联属性缺失值填充目录，当某一关联属性的数据缺失，且数据缺失程度不高于阈值时，用关联属性缺失值填充目录中的对应项填充缺失的数据。在本系统中具体实施如下：在关联属性缺失值填充目录中，“政治面貌”属性对应项为“群众”，“政治面貌”的数据缺失程度小余阈值时，用“群众”填充“政治面貌”的缺失数据。

特征提取模块的功能：

(1)人户分离特征：“人户分离”，具体是指，提取犯人户籍所在地和居住地址，计算户籍所在地文本和居住地址文本的相似度，判定犯罪人员是否属于人户分离的状态，当相似度满足阈值条件时，判定为人户分离状态，当相似度不满足阈值条件时，判定为非人户分离状态。

(2)特征向量具体计算：

释放年龄：Age＝L-B；

人户分离：Jieba分词后再进行Levenshtein Distance算法或利用余弦相似度将文本向量化计算文本距离；

关押时长：Time＝Y*12+M；

罪因、健康、释放方式、工作情况、政治面貌：多水平变量重新分组；

犯罪次数：包含K[n]条犯人的犯罪信息，犯罪次数为K[n]；

已释放时长：前日期与释放日期的年份差值。

重复犯罪标注模块的功能：

重复犯罪标签：“添加重复犯罪标签”，具体是指，当犯罪次数为 1时，标签为未重复犯罪；当犯罪次数大于1时，判断已释放时长是否满足阈值条件，当已释放时长超出阈值时长时，标签为未重复犯罪，否则，标签为重复犯罪。该阈值可以为固定的时间年限，如5年，也可以是与犯罪记录相映射的时间年限，如1次犯罪记录对应5年、2 次犯罪次数对应6年。

样本选择模块的功能：

采用SMOTE算法。若采用随机过采样可能会导致分类器学习出现过拟合现象，对于同一个样本的多个复本产生多个规则条例，这就使得规则过于具体化；虽然在这种情况下，分类器的训练精度会很高，但在位置样本的分类性能就会非常不理想。

重复犯罪预测模块的功能：

采用随机森林模型，本系统以每个罪犯的特征向量为变量、重复犯罪标签为因变量，构建变量和因变量的随机森林模型，以样本数据对该模型进行训练、测试、验证，最终返回其重复犯罪的概率。

如图1所示，一种预测犯人重复犯罪概率的方法，主要包含7个大步骤：

步骤一：数据获取，提取数据库中犯人的个人档案和犯罪记录以及一切能够和罪犯重复犯罪产生关联的影响因子，其中这些因子包括但不局限于发出时间，姓名，别名，性别，出生日期，释放时间，户口所在区县，户口所在街道，详细地址，住所地址，解禁类型，数据来源，重点人员标识，身份证号码，处罚类型，监禁年数，监禁月数，罪名，罪名2，监禁开始时间，监禁结束时间，剥夺任期，执行监狱，监禁态度，加刑，减刑(以天为单位)，释放类型，监外执行类型，犯罪时效，技能培训，文化程度，健康状况，婚姻状况，是否有工作标识，工作单位，职业，专业技能，民族，政治面貌，派出所，法院判决令时间，个人简介，文书号，通知人，审判单位，犯罪详细信息，奖励信息，自我评价，团队评价，中期意见，意见信息，刑罚意见信息，其他信息，实施开始时间，实施开始时间，实施剥夺时期，提供信息年月，缓刑年份，缓刑月份，创建日期。

步骤二：将获取的数据进行清洗得到有效数据和现有特征变量，流程如图2所示，包括如下步骤：

Step2.1：去重，根据每行的数据去除重复记录的数据

Step2.2：分析缺失比高于70％的字段，在确认无用后将其移除。本次实施移除了别名，户口所在街道，罪名2，监禁态度，加刑，监外执行类型，技能培训，工作单位，专业技能，文书号，通知人，审判单位，犯罪详细信息，奖励信息，自我评价，团队评价，中期意见，意见信息，刑罚意见信息，其他信息，实施开始时间，实施开始时间，实施剥夺时期，缓刑年份，缓刑月份。

Step2.3：分析剩余字段，据分析结果移除对分析无用的数据，如：街道，创建日期等。对未确定其含义或不能确定是否对预测起作用的变量保留，如警察局，个人简介等。

Step2.4：字典匹配步骤包括，由于数据是从多个系统中抽取的，相同含义的变量表达式不同(有时用字符，有时用文字)，需要根据字典匹配并替换每个字段，使相同含义的字段表达名称相同。该方法的主要方法是通过频数统计观察数据中存在的水平名称，然后通过字典将含义相同的字段进行替换。例如“大学”与“大学本科”含义相同，用“大学本科”替代“大学”。

步骤三：根据有效数据进行特征构建得到构建特征变量，构建特征变量包括重犯标签，还包括但不限于：释放年龄、是否为本地户籍、是否属于人户分离状态、惩罚长度、重新分组变量、犯罪次数；其中重新分组变量指将有多个水平且频数较少的变量重组为分组少且频数较大的数据组合；具体计算如下：

释放年龄：

Age＝L-B (1)

其中，L为释放时间，B为出生日期，Age为释放年龄。根据释放时间L和出生日期B的年份差计算释放时的年龄Age做为预测释放后是否会再犯的因素之一。如释放日期为2005-05-16，出生日期为 1973-12-16，则年龄Age为32。

是否为本地：据区域信息统计发现，犯罪人员来自于200余各地区。部分犯罪人员为本地户籍。比如是本地户籍的均以“XX市”作为 “区县”字段的开头，所以，以开头前三个字作为判断依据。经统计发现，99％的犯罪人员为本地户口，仅有1％左右是外地户。故将字段“区县”重组为仅有两个值的新变量“是否本地人”。

是否属于人户分离状态：根据户籍所在地和居住地址，判定犯罪人员是否属于人户分离的状态。由于数据录入的质量不同，经分析发现，某个户籍地址为某市某区某街道某市，在居住地址只写明某街某室，实际状态是未人户分离，或在句子间因输入错误增加或遗漏了某字。因此，需要比较文本相似度来确定。经字段长度判定，大部分数据字段长度大于12，若相似度大于50(即6个以上的字)，则为未人户分离，否则视为人户分离。比如刘某户口在A镇B村824号，但是目前居住地址在C村43幢137梯602室，相似度小于50，则视刘某为人户分离。

文本的相似度计算可以采用Levenshtein Diste算法或者余弦相似度算法，这里优选Levenshtein Diste算法。

文本的相似度计算通过Levenshtein Diste算法，其目的是找出两个字符串之间需要改动多少个字符后变成一致。该算法使用了动态规划的算法策略，该策略具备最优子结构，最小编辑距离包含子最小编辑距离，有下列的式(2):

其中，d_[i,j]表示完成转换需要执行的操作的次数，即最小编辑距离，x_i表示规定在x轴的字符串，空间表示为[i,0]，y_j表示规定在y轴的字符串,空间表示为[0,j]，d_[i-1,j]+1代表字符串(如A街道B村108 号227室)插入一个字母，d_[i,j-1]+1代表另一个字符串(如C街道D 村117号1室)删除一个字母，然后当x_i＝y_j时，不需要代价，所以和上一步d_[i-1,j-1]代价相同，否则+1，接着d_[i,j]是以上三者中最小的一项。

惩罚长度：

Time＝Y*12+M (3)

其中Time为惩罚长度，Y为关押时长(年)，M为关押时长(月)。惩罚长度Time由关押时长(年)Y×12加关押时长(月)M获得，获取后移除计算使用的变量。如陈三的关押时长(年)为1，关押时长 (月)为5，则陈三的惩罚长度为15。

重新分组变量：多水平重新分组，将有多个水平且贫数较少的重组为分组少，频数较大的数据组合。例如通过关键字和对罪因频数统计分析对罪因进行划分，含有毒的罪名：吸毒、注射毒品、贩毒、走私毒品归为涉毒，最后近千种罪因被划分为十三大类：涉毒、涉盗窃、涉抢、涉淫、涉贪、涉赌、涉诈、涉奸、涉职、涉杀、涉伤、涉斗、涉走私和其它。

同理以类似方法处理的变量还有健康状况、释放方式、工作情况和政治面貌。

重犯标签和犯罪次数:此步骤是特征构建中最重要的一部分，一方面为了确定标签即因变量(重复犯罪)。一方面构建犯罪次数这一重要变量。具体方法如下：

按照姓名和出生日期将犯人分组为73116个数据框，表示一共有 73116个犯人。每个数据框含有K[n]条犯人的犯罪信息，其中 n＝0,1,2,…,73115表示犯人的标识。如犯人标识为4的王五犯罪一次，则王五的犯罪信息条数K[4]为1；再如犯人标识为3的李四犯罪5次，则李四的犯罪信息条数K[3]为5。将数据分成两个部分，一部分K[n]＝1, 一部分K[n]＞1。

先对K[n]＝1的情况分析：因为只有该人物的一条犯罪记录，将重犯次数标记为0。

再对K[n]＞1的情况分析：求当前日期与释放日期的年份差值，若大于五年，则定重犯标识为0(未重犯)，若在五年之内，则还需进一步观察一段时间，标记为不确定其是否重犯。如李四2005年犯罪，2007年放出，2012年之前再次犯罪，李四的重犯标识为1；若2012年之后再次犯罪，则李四的重犯标识为0。按释放日期给数据框内的数据排序，除了最后一条数据的重犯标识待定外，在之前的数据后都有犯罪记录，说明该犯罪人员之后再次犯罪，最后一条记录重犯标识的确定方法跟K[n]＝1时相同。重犯次数则等于数据框的索引，第一条记录，视为首次犯罪，非重犯，所以重犯次数为0，第二条记录已重犯1次，以此类推......。由于重犯标识为未确定的数据，在模型构建阶段将其移除。

缺失值填充：由于缺失值得存在会对机器学习造成影响，因此因子型变量用未知来替代缺失值，将其单独作为一类。具体如下，性别的缺失值先同步曾经记录过的性别，再根据姓名判断缺失的性别；罪因的缺失值判断为其他；文化的缺失判断为未知；职业的缺失判断为未知；健康水平的缺失判断为未知；婚姻情况的缺失判断为未知；释放类型的缺失判断为未知；政治面貌的缺失判断为群众。

步骤四：挑选数据平衡的样本集。经初步分析可得，获取的数据是不平衡的，即未重犯的人数占据82％远大于重犯人数所占据的 18％。挑选数据平衡的样本集可以采用采样方法、Borderline-SMOTE 算法、加权方法来实现。这里优选采取Borderline-SMOTE算法。

采取Borderline-SMOTE算法对数据进行处理。若满足下式(4)

其中S_maj表示集合S的多数类，S_{l_knn}表示对少数类样本的每个样本x_l求k近邻，其中l表示为每个样本的标识，且S_{l_knn}属于整个样本集合S而不再是少数类样本，则将样本x_l加入接近分类边界的样本，将接近分类边界的样本当作SMOTE种子样本的输入生成新样本。在实施中，k取5，得到共计117942条数据样本。

步骤五：对样本集的现有特征变量和构建特征变量进行筛选得到显著特征变量；特征变量筛选可以采用目标优化矩阵、专家意见等方法。

这里优选，利用随机森林模型来推导相关性进而进行变量筛选，对现有特征变量和构建特征变量进行筛选获得显著特征变量，流程如图4所示，具体如下：

变量转化，将因子型的变量转化为数值型使计算机能够识别。如性别的分类，男＝1，女＝0；再如帮教机构的分类，监狱局＝1,劳教所＝2,看守所＝3,矫正局＝4。

数据分割。将其中70765条数据用于训练集，23589条数据用于检验集，23588条数据用于测试集。

其运行结果的部分截图如图5，以随机森林算法返回的属性重要性表为基础，通过变量筛选发现，年龄，文化程度，处罚时间，释放年份，罪因，释放方式，重犯次数，数据来源，健康状况，婚姻状况，工作状况，人户分离，政治面貌，性别的重要性比较高。通过特征选择，减少特征数量、降维，使模型泛化能力更强，减少过拟合，增强对特征和特征值之间的理解，使得结果更加精准。

步骤六：将样本集的显著特征变量和有效数据代入分类器算法进行拟合得到分类器模型。分类器算法可以采用决策树、KNN、Bayes 等方法，这里优选采用随机森林算法。

将有效数据和显著特征变量代入随机森林算法进行拟合得到随机森林模型，包括如下步骤：

决策树模型做为一个分类器，分类效果并不是很强，随机森林模型将很多个决策树这样的弱分类器组合起来，成为一个强分类器。随机森林有众多优点，如下：在当前所有算法中，具有极好的准确率；能够有效地运行在大数据集上；能够处理具有高维特征的输入样本，而且不需要降维；能够评估各个特征在分类问题上的重要性；在生成过程中，能够获取到内部生成误差的一种无偏估计；对于缺省值问题也能够获得很好得结果等等。

随机森林模型的投票算法公式如下：

C_p为最终投票结果，n_tree表示决策树的序号，n_C为类别的总个数。

经投票后生成混淆表CM，它是一个n_c×n_c表，表中元素 cm(i,j)(i≠j)表示类型i被分类为j的次数，仅当i＝j时，cm(i,j)表示类型i被分类正确的个数。

然后，将有效数据和显著特征变量代入拟合，得到随机森林模型。

步骤七：将犯人的数据输入模型，计算重复犯罪概率。后续可根据计算得到的重复犯罪概率，设定阈值重复犯罪率大于50％即为判定会重复犯罪；其中，阈值是自由设置的，判断哪些刑满释放的人群需要进行重点监管，哪些在押人群需要加强狱中教育。其中，步骤七中的部分且具有代表性的结果呈现如图6所示，呈现的内容已去除身份信息。

为了体现本发明的优势，下面与决策树、KNN、Bayes等方法进行比较。Accuracy，Precision，Recall，F1等4种算法的每一种算法的呈现如如图7所示；其中，随机森林算法具有最高的Accuracy为 89％和Precision为85％，且Recall也高达94％，该模型能识别94％的重复犯罪人员，仅15％的未重犯人员会被识别成重犯人员。由于得到的结果并不是为了抓捕而是为了加强释放后的监控和加强狱中教育，存在15％的误判造成的损失很微小；93％的重复犯罪识别率则大大提高了安置帮教的效率，证明了该模型极高的准确性，节省了大量警力和监狱资源。在构建特征时，接近于全面地涵盖了犯人年龄，文化，婚姻，健康，工作，政治面貌，性别等重要影响重复犯罪的因子，使得该模型能够高准确率地得出重复犯罪的概率。

综上所述，本发明具备如下创新点：

(1)采用了随机森林算法模型，在当前的很多数据集上，相对其他算法有着很大的优势，表现良好；在训练完后，它能够给出哪些特征比较重要；在创建随机森林的时候，对泛化误差使用的是无偏估计，模型泛化能力强；训练速度快，容易做成并行化方法；在训练过程中，能够检测到特征间的互相影响；实现比较简单；对于不平衡的数据集来说，它可以平衡误差；如果有很大一部分的特征遗失，仍可以维持准确度。

(2)在特征变量的构建上，人户分离的特征构建是本发明的创新点，该特征区分了犯人的居住地点是与户口所示相同，在是否本地人对预测结果不重要的情况下，人户分离深度剖析了稳定居住环境对重复犯罪的影响；重犯标签的特征构建也是本发明的创新点，在本发明中，没有直接将有过重复犯罪记录的样本直接打上重犯标签，而是设定了一个时间段，在这一时间段内犯罪才认定为重复犯罪，这符合中国对于重复犯罪的定义，更加具备实际意义。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种预测犯人重复犯罪概率的方法，其特征在于，包括如下步骤：

(3)基于有效数据进行特征构建得到构建特征变量；

(4)挑选数据平衡的样本集；

2.根据权利要求1所述的一种预测犯人重复犯罪概率的方法，其特征在于：所述步骤(2)的数据清洗包括如下步骤：

3.根据权利要求1所述的一种预测犯人重复犯罪概率的方法，其特征在于：所述的构建特征变量包括重犯标签，还包括但不限于：释放年龄、是否为本地户籍、是否属于人户分离状态、惩罚长度、重新分组变量、犯罪次数；其中重新分组变量指将有多个水平且频数较少的变量重组为分组少且频数较大的数据组合。

4.根据权利要求3所述的一种预测犯人重复犯罪概率的方法，其特征在于：所述人户分离状态的判断方法为：提取犯人户籍所在地和居住地址，计算户籍所在地文本和居住地址文本的相似度，判定犯罪人员是否属于人户分离的状态，当相似度满足预设的阈值条件时则判定为人户分离状态，否则判定为非人户分离状态。

5.根据权利要求4所述的一种预测犯人重复犯罪概率的方法，其特征在于：所述文本的相似度计算采用Levenshtein Distance算法，该算法采用动态规划的算法策略，该策略具备最优子结构，最小编辑距离包含子最小编辑距离，如下式所示:

其中，d_[i,j]表示完成转换需要执行的操作的次数，即最小编辑距离，x_i表示规定在x轴的字符串，空间表示为[i,0]，y_j表示规定在y轴的字符串,空间表示为[0,j]，d_[i-1,j]+1代表字符串插入一个字母，d_[i,j-1]+1代表另一个字符串删除一个字母；若当x_i＝y_j时，不需要代价，即与上一步d_[i-1,j-1]代价相同，否则+1；d_[i,j]为以上三者中最小的一项。

6.根据权利要求3所述的一种预测犯人重复犯罪概率的方法，其特征在于：所述重犯标签的具体计算如下：

(III)分别对K[n]＝1和K[n]＞1这两部分数据进行分析：

7.根据权利要求1所述的一种预测犯人重复犯罪概率的方法，其特征在于：所述步骤(4)采用Borderline-SMOTE算法对数据进行处理从而达到数据平衡的目的，公式如下所示：

8.根据权利要求1所述的一种预测犯人重复犯罪概率的方法，其特征在于：所述步骤(5)的具体如下：

(5.2)数据分割：将样本集分割为训练集、检验集、测试集；

9.根据权利要求1所述的一种预测犯人重复犯罪概率的方法，其特征在于：所述步骤(6)的分类器算法采用随机森林算法，具体如下：

10.一种预测犯人重复犯罪概率的系统，其特征在于，包括：数据获取模块、数据清洗模块、特征提取模块、重复犯罪标注模块、样本选择模块、重复犯罪预测模块；其中，数据获取模块用于获取所有与犯人相关的原始数据；数据清洗模块用于对原始数据进行一种或多种清洗操作，从而获取有效数据，清洗操作包括但不限于：对同一属性的数据进行合并、去除重复的数据、去除缺失数据、某一属性的数据缺失程度高于阈值时去除该属性的数据、某一属性为不关联属性时去除该属性的数据、对含义相同格式不同的数据进行统一、缺失值填充、将数据进行结构化处理；特征提取模块用于对有效数据进行提取、换算、变形，获得表征犯人的特征向量；重复犯罪标注模块用于根据犯人的特征向量为犯人添加重复犯罪标签；样本选择模块用于从不同重复犯罪标签的数据集中选择样本数据，不同重复犯罪标签的样本数据满足数据平衡条件；重复犯罪预测模块用于以特征向量为变量、重复犯罪标签为因变量，构建变量和因变量的关系模型，以样本数据对该模型进行训练、测试、验证，输入犯人的特征向量，利用训练后的模型对犯人重复犯罪概率进行预测。

11.根据权利要求10所述的一种预测犯人重复犯罪概率的系统，其特征在于：所述的特征提取模块提取的特征向量包括但不限于释放年龄、是否为本地户籍、是否属于人户分离状态、惩罚长度、重新分组变量、犯罪次数；其中重新分组变量指将有多个水平且频数较少的变量重组为分组少且频数较大的数据组合；人户分离状态指提取犯人户籍所在地和居住地址，计算户籍所在地文本和居住地址文本的相似度，当相似度满足阈值条件时，判定为人户分离状态。