CN108596386A - 一种预测犯人重复犯罪概率的方法及系统 - Google Patents
一种预测犯人重复犯罪概率的方法及系统 Download PDFInfo
- Publication number
- CN108596386A CN108596386A CN201810358611.1A CN201810358611A CN108596386A CN 108596386 A CN108596386 A CN 108596386A CN 201810358611 A CN201810358611 A CN 201810358611A CN 108596386 A CN108596386 A CN 108596386A
- Authority
- CN
- China
- Prior art keywords
- data
- crime
- convict
- variable
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Abstract
本发明涉及一种预测犯人重复犯罪概率的方法及系统,本系统主包括数据获取模块、数据清洗模块、特征提取模块、重复犯罪标注模块、样本选择模块、重复犯罪预测模块,结构简单,方便使用;本发明方法采用了随机森林算法模型与人户分离的特征构建策略,具备可行性强、预测准确性高、灵活性强的特点。
Description
技术领域
本发明涉及数据挖掘及分析领域,尤其涉及一种预测犯人重复犯 罪概率的方法及系统。
背景技术
中国近几年犯罪总量变化不大,犯罪态势平稳,但是,关于刑释 人员出狱后重新犯罪的问题却愈发严重,已经严重危害到国民经济发 展和社会安定团结。根据我国相关部门的统计,我国重新犯罪的概率 在6%~15.98%之间波动。相对于一般人,有过犯罪记录的人有更大 的概率犯罪,对于那些重复犯罪率高的人群,如果在刑满释放后不严 加监督和教育,必然会再次对社会治安造成不利的影响。所以对刑满 释放的人员进行是否会再次犯罪尤其重要,其能够有效地节约警力资 源,针对再次犯罪率高的人员进行重点把控;能够对再次犯罪率高的 罪犯加强狱中教育,降低其刑满释放后再次犯罪的可能性。
目前针对预测罪犯是否会重新犯罪的方法并不成熟,刑满释放的 人员基本上处于无人管理的状态,特别是对外来人员、本地流出人员 中的刑释人员失控较多,以致其成为再犯罪的高发群体。对于刑释人 员的监管也做的不够到位,只对少数刑释人员进行监督,漏掉了大量 具有高再次犯罪可能性的刑释人员。监管的不利与其低准确性造成了 犯人重复犯罪概率的不断走高,所以,监管的准确性成为了解决这一 个问题的关键。
预测在押人员在刑满释放后的再次犯罪率,再根据得到的再次犯 罪率,对刑释人员进行重点的监管。目前大多数犯罪预测都是针对未 犯罪人员的犯罪预警,在应用的层面上,能够帮助分配警力,提高警 力的有效利用率,减少警察到场时间,能够更好地制止犯罪和抓住罪 犯。但是在预测犯罪人员再次犯罪这块领域上,并没有发现存在对应 的专利,而现有的技术还存在几点不足:(1)孙菲菲,曹卓.面向重 复犯罪人的再犯罪预测方法[J].湖北警官学院学报,2015, 28(4):130-132.该论文中采集了14个样本,样本过于稀少;而且采用 了决策树算法,决策树的生成算法决定了其不能保证返回全局最优决 策树,因此得到的结果没有足够的准确性和说服力;该作者在对于特 征的筛选并不重视,没有考虑每个特征的重要性差异,进而分配权重。 (2)曾赟.服刑人员刑满释放前重新犯罪风险预测研究[J].法学评论, 2011(6):131-137.该论文采用多因素方差分析与逻辑回归分析在SPSS 上对1238个随机押犯样本进了统计与分析。多因素方差分析在面对 大数据以及多因素的样本时,计算量呈指数增加,计算时间过长,效 率很慢;在筛选特征的时候,该论文通过二元逻辑回归分析检验结果, 但文中表明,所用模型拟合优度极差,其筛选的特征的可靠性有待考 证。
发明内容
本发明为克服上述的不足之处,目的在于提供一种预测犯人重复 犯罪概率的方法及系统,本系统主包括数据获取模块、数据清洗模块、 特征提取模块、重复犯罪标注模块、样本选择模块、重复犯罪预测模 块,结构简单,方便使用;本发明方法采用了随机森林算法模型,具 备可行性强、预测准确性高、灵活性强的特点。
本发明是通过以下技术方案达到上述目的:一种预测犯人重复犯 罪概率的方法,包括如下步骤:
(1)从数据库中提取犯人的数据,其中数据包括犯人的个人档案、 犯罪记录及重复犯罪关联的影响因子;
(2)将提取到的数据进行清洗,得到有效数据和现有特征变量;
(3)基于有效数据进行特征构建得到构建特征变量;
(4)挑选数据平衡的样本集;
(5)对样本集的现有特征变量和构建特征变量进行筛选得到显著特 征变量;
(6)将样本集的显著特征变量和有效数据代入分类器算法进行拟合 得到分类器模型;
(7)将犯人的数据输入到分类器模型,计算犯人的重复犯罪概率。
作为优选,所述步骤(2)的数据清洗包括如下步骤:
(2.1)对数据进行去重:根据每行的数据去除重复记录的数据;
(2.2)分析缺失比高于预设阈值的字段数据,确认无用后将其移除;
(2.3)分析剩余的字段数据,根据分析结果移除对分析无用的变量 数据,保留未确定其含义或不能确定是否对预测起作用的变量数据;
(2.4)对保留的变量数据进行字典匹配,对含义相同格式不同的数 据进行统一;并对保留的数据进行缺失性填充和结构化处理。
作为优选,所述的构建特征变量包括重犯标签,还包括但不限于: 释放年龄、是否为本地户籍、是否属于人户分离状态、惩罚长度、重 新分组变量、犯罪次数;其中重新分组变量指将有多个水平且频数较 少的变量重组为分组少且频数较大的数据组合。
作为优选,所述人户分离状态的判断方法为:提取犯人户籍所在 地和居住地址,计算户籍所在地文本和居住地址文本的相似度,判定 犯罪人员是否属于人户分离的状态,当相似度满足预设的阈值条件时 则判定为人户分离状态,否则判定为非人户分离状态。
作为优选,所述文本的相似度计算采用Levenshtein Distance算 法,该算法采用动态规划的算法策略,该策略具备最优子结构,最小 编辑距离包含子最小编辑距离,如下式所示:
其中,d[i,j]表示完成转换需要执行的操作的次数,即最小编辑距 离,xi表示规定在x轴的字符串,空间表示为[i,0],yj表示规定在y轴 的字符串,空间表示为[0,j],d[i-1,j]+1代表字符串插入一个字母,d[i,j-1]+1 代表另一个字符串删除一个字母;若当xi=yj时,不需要代价,即与 上一步d[i-1,j-1]代价相同,否则+1;d[i,j]为以上三者中最小的一项。
作为优选,所述重犯标签的具体计算如下:
(I)将m个犯人按照姓名和出生日期分组为m个数据框,每个数据 框含有K[n]条犯人的犯罪信息,其中n表示犯人的标 识,n=0,1,2,…,m-1;
(II)将数据分成两个部分,一部分为K[n]=1,剩余部分为K[n]>1;
(III)分别对K[n]=1和K[n]>1这两部分数据进行分析:
(A)K[n]=1所对应的犯人只有一条犯罪记录,将重犯次数标记为0;
(B)对K[n]>1的分析为:判断已释放时长是否满足阈值条件,若是, 则标签为未重复犯罪,否则标签为重复犯罪,并将犯罪次数加1后继 续循环执行上述判断操作直至发现最后一条犯罪记录;其中,该阈值 是预设的,可为固定的时间年限或者与犯罪记录相映射的时间年限。
作为优选,所述步骤(4)采用Borderline-SMOTE算法对数据进 行处理从而达到数据平衡的目的,公式如下所示:
其中,Smaj表示集合S的多数类,Sl_knn表示对少数类样本的每个 样本xl求k近邻,其中l表示为每个样本的标识,且Sl_knn属于整个样本 集合S而不再是少数类样本,则将样本xl加入接近分类边界的样本, 将接近分类边界的样本当作SMOTE种子样本的输入生成新样本。
作为优选,所述步骤(5)的具体如下:
(5.1)变量转化:将因子型的变量转化为数值型使计算机能够识别;
(5.2)数据分割:将样本集分割为训练集、检验集、测试集;
(5.3)以随机森林算法返回的属性重要性表为基础,筛选属性变量 性高的特征变量作为显著特征变量。
作为优选,所述步骤(6)的分类器算法采用随机森林算法,具 体如下:
(6.1)利用随机森林算法的投票算法公式进行投票,经投票生成混 淆表CM,混淆表CM是一个nc×nc表,表中元素cm(i,j)(i≠j)表示类 型i被分类为j的次数,仅当i=j时,cm(i,j)表示类型i被分类正确的 个数;其中,随机森林算法的投票算法公式如下所示:
其中,Cp为最终投票结果,ntree表示决策树的序号,nC为类别 的总个数;
(6.2)将样本集的有效数据和显著特征变量代入拟合得到随机 森林模型。
一种预测犯人重复犯罪概率的系统,包括数据获取模块、数据清 洗模块、特征提取模块、重复犯罪标注模块、样本选择模块、重复犯 罪预测模块;其中,数据获取模块用于获取所有与犯人相关的原始数 据;数据清洗模块用于对原始数据进行一种或多种清洗操作,从而获 取有效数据,清洗操作包括但不限于:对同一属性的数据进行合并、 去除重复的数据、去除缺失数据、某一属性的数据缺失程度高于阈值 时去除该属性的数据、某一属性为不关联属性时去除该属性的数据、 对含义相同格式不同的数据进行统一、缺失值填充、将数据进行结构 化处理;特征提取模块用于对有效数据进行提取、换算、变形,获得 表征犯人的特征向量;重复犯罪标注模块用于根据犯人的特征向量为 犯人添加重复犯罪标签;样本选择模块用于从不同重复犯罪标签的数 据集中选择样本数据,不同重复犯罪标签的样本数据满足数据平衡条 件;重复犯罪预测模块用于以特征向量为变量、重复犯罪标签为因变 量,构建变量和因变量的关系模型,以样本数据对该模型进行训练、 测试、验证,输入犯人的特征向量,利用训练后的模型对犯人重复犯 罪概率进行预测。
作为优选,所述的特征提取模块提取的特征向量包括但不限于释 放年龄、是否为本地户籍、是否属于人户分离状态、惩罚长度、重新 分组变量、犯罪次数;其中重新分组变量指将有多个水平且频数较少 的变量重组为分组少且频数较大的数据组合;人户分离状态指提取犯 人户籍所在地和居住地址,计算户籍所在地文本和居住地址文本的相 似度,当相似度满足阈值条件时,判定为人户分离状态。
本发明的有益效果在于:(1)可行性强,该预测重复犯罪率模型 主要基于监狱的历史数据对犯人释放后重新犯罪的情况进行预测,成 本低,速度快;(2)预测准确性高,使用了具有极好的准确率的随机 森林模型,且训练集数量丰富,能够准确地预测重复犯罪的概率,精 度还高;(3)灵活性强,根据预测出的重复犯罪概率,灵活地为犯人 安排合适的教育
附图说明
图1是本发明方法的流程示意图;
图2是本发明的数据清洗流程示意图;
图3是本发明的构建特征变量流程示意图;
图4是本发明的特征变量筛选流程示意图;
图5是本发明实施例的特征变量筛选结果部分示意图;
图6是本发明实施例的部分具有代表性的结果示意图;
图7是本发明实施例的用于对比的4种算法的结果示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护 范围并不仅限于此:
实施例:一种预测犯人重复犯罪的系统,包括如下模块:
1、数据获取模块,从一个或多个系统中获取所有与犯人相关的原始 数据。其中,系统包括劳教所、矫正局、看守所等系统,相关原始数 据包括姓名、性别、出生日期等数据。
2、数据清洗模块,对原始数据进行一种或多种清洗操作获取有效数 据。清洗操作包括但不限于:对同一属性的数据进行合并、去除重复 的数据、去除缺失数据、某一属性的数据缺失程度高于阈值时去除该 属性的数据、某一属性为不关联属性时去除该属性的数据、对含义相 同格式不同的数据进行统一、缺失值填充、将数据进行结构化处理。 其中,属性表示一个数据集合的某种特性,举例:性别、出生日期。
3、特征提取模块,对有效数据进行提取、换算、变形,获得表征犯 人的特征向量。特征向量可以是一种或多种,包括但不限于:释放年 龄、人户分离、关押时长、罪因、健康状况、释放方式、工作情况、 政治面貌、犯罪次数、已释放时长。
4、重复犯罪标注模块,根据犯人的特征向量为犯人添加重复犯罪标 签。
5、样本选择模块,从不同重复犯罪标签的数据集中选择样本数据, 不同重复犯罪标签的样本数据满足数据平衡条件。
6、重复犯罪预测模块,以特征向量为变量、重复犯罪标签为因变量, 构建变量和因变量的关系模型,以样本数据对该模型进行训练、测试、 验证,输入犯人的特征向量,利用训练后的模型对犯人重复犯罪概率 进行预测。
其中,该系统下各模块具体用途,包括:
数据清洗模块的功能:
(1)数据合并:“对同一属性的数据进行合并”,具体操作,识 别从不同系统获取的数据是否存在属性相同的数据,进行合并。在本 系统中具体实施如下:劳教所系统含犯人出生日期的数据、矫正局系 统含犯人出生日期的数据,将这2个数据合并,如果2个数据格式、 含义相同,可以通过“去除重复的数据”进行清洗,如果2个数据含 义相同格式不同,可以通过“对含义相同格式不同的数据进行统一” 进行清洗,如果1个数据缺失,1个数据不缺失,可以通过“去除缺 失数据”进行清洗。
(2)去除高缺失率数据:“某一属性的数据缺失程度高于阈值时 去除该属性的数据”,具体操作,统计某一属性下数据缺失的数量和 数据总量的比值,当比值高于阈值时,去除该属性的数据。
在本系统中具体实施如下:获取M个犯人的相关原始数据,其中 属性为“健康状况”的数据中,有N个犯人没有健康状况数据,属 性为“健康状况”的数据缺失程度N/M>阈值Y,去除所有“健康状 况”数据。
(3)去除无用数据:“某一属性为不关联属性时去除该属性的数 据”,具体操作,设置关联属性目录,不在关联属性目录内的属性为 不关联属性。
在本系统中具体实施如下:“街道”、“创建日期”不在关联属性 目录内,去除所有“街道”、“创建日期”的数据。
(4)统一数据水平名称:“对含义相同格式不同的数据进行统一”, 具体是指,过频数统计观察数据中存在的水平名称,然后通过字典将 含义相同的字段进行替换。在本系统中具体实施如下:文化程度的标 准编码为数字1-7,数据内文化程度属性含有“大学本科”、“技校” 等非标准数据名称,通过标准编码字典将文化程度属性统一格式。
(5)填充数据缺失值:“缺失值填充”,具体操作,设置关联属性 缺失值填充目录,当某一关联属性的数据缺失,且数据缺失程度不高 于阈值时,用关联属性缺失值填充目录中的对应项填充缺失的数据。 在本系统中具体实施如下:在关联属性缺失值填充目录中,“政治面 貌”属性对应项为“群众”,“政治面貌”的数据缺失程度小余阈值时, 用“群众”填充“政治面貌”的缺失数据。
特征提取模块的功能:
(1)人户分离特征:“人户分离”,具体是指,提取犯人户籍所在 地和居住地址,计算户籍所在地文本和居住地址文本的相似度,判定 犯罪人员是否属于人户分离的状态,当相似度满足阈值条件时,判定 为人户分离状态,当相似度不满足阈值条件时,判定为非人户分离状 态。
(2)特征向量具体计算:
释放年龄:Age=L-B;
人户分离:Jieba分词后再进行Levenshtein Distance算法或利用 余弦相似度将文本向量化计算文本距离;
关押时长:Time=Y*12+M;
罪因、健康、释放方式、工作情况、政治面貌:多水平变量重新 分组;
犯罪次数:包含K[n]条犯人的犯罪信息,犯罪次数为K[n];
已释放时长:前日期与释放日期的年份差值。
重复犯罪标注模块的功能:
重复犯罪标签:“添加重复犯罪标签”,具体是指,当犯罪次数为 1时,标签为未重复犯罪;当犯罪次数大于1时,判断已释放时长是 否满足阈值条件,当已释放时长超出阈值时长时,标签为未重复犯罪, 否则,标签为重复犯罪。该阈值可以为固定的时间年限,如5年,也 可以是与犯罪记录相映射的时间年限,如1次犯罪记录对应5年、2 次犯罪次数对应6年。
样本选择模块的功能:
采用SMOTE算法。若采用随机过采样可能会导致分类器学习出 现过拟合现象,对于同一个样本的多个复本产生多个规则条例,这就 使得规则过于具体化;虽然在这种情况下,分类器的训练精度会很高, 但在位置样本的分类性能就会非常不理想。
重复犯罪预测模块的功能:
采用随机森林模型,本系统以每个罪犯的特征向量为变量、重复 犯罪标签为因变量,构建变量和因变量的随机森林模型,以样本数据 对该模型进行训练、测试、验证,最终返回其重复犯罪的概率。
如图1所示,一种预测犯人重复犯罪概率的方法,主要包含7个 大步骤:
步骤一:数据获取,提取数据库中犯人的个人档案和犯罪记录以 及一切能够和罪犯重复犯罪产生关联的影响因子,其中这些因子包括 但不局限于发出时间,姓名,别名,性别,出生日期,释放时间,户 口所在区县,户口所在街道,详细地址,住所地址,解禁类型,数据 来源,重点人员标识,身份证号码,处罚类型,监禁年数,监禁月数, 罪名,罪名2,监禁开始时间,监禁结束时间,剥夺任期,执行监狱, 监禁态度,加刑,减刑(以天为单位),释放类型,监外执行类型, 犯罪时效,技能培训,文化程度,健康状况,婚姻状况,是否有工作 标识,工作单位,职业,专业技能,民族,政治面貌,派出所,法院 判决令时间,个人简介,文书号,通知人,审判单位,犯罪详细信息, 奖励信息,自我评价,团队评价,中期意见,意见信息,刑罚意见信 息,其他信息,实施开始时间,实施开始时间,实施剥夺时期,提供 信息年月,缓刑年份,缓刑月份,创建日期。
步骤二:将获取的数据进行清洗得到有效数据和现有特征变量, 流程如图2所示,包括如下步骤:
Step2.1:去重,根据每行的数据去除重复记录的数据
Step2.2:分析缺失比高于70%的字段,在确认无用后将其移除。 本次实施移除了别名,户口所在街道,罪名2,监禁态度,加刑,监 外执行类型,技能培训,工作单位,专业技能,文书号,通知人,审 判单位,犯罪详细信息,奖励信息,自我评价,团队评价,中期意见,意见信息,刑罚意见信息,其他信息,实施开始时间,实施开始时间, 实施剥夺时期,缓刑年份,缓刑月份。
Step2.3:分析剩余字段,据分析结果移除对分析无用的数据,如: 街道,创建日期等。对未确定其含义或不能确定是否对预测起作用的 变量保留,如警察局,个人简介等。
Step2.4:字典匹配步骤包括,由于数据是从多个系统中抽取的, 相同含义的变量表达式不同(有时用字符,有时用文字),需要根据 字典匹配并替换每个字段,使相同含义的字段表达名称相同。该方法 的主要方法是通过频数统计观察数据中存在的水平名称,然后通过字 典将含义相同的字段进行替换。例如“大学”与“大学本科”含义相同, 用“大学本科”替代“大学”。
步骤三:根据有效数据进行特征构建得到构建特征变量,构建特 征变量包括重犯标签,还包括但不限于:释放年龄、是否为本地户籍、 是否属于人户分离状态、惩罚长度、重新分组变量、犯罪次数;其中 重新分组变量指将有多个水平且频数较少的变量重组为分组少且频 数较大的数据组合;具体计算如下:
释放年龄:
Age=L-B (1)
其中,L为释放时间,B为出生日期,Age为释放年龄。根据释 放时间L和出生日期B的年份差计算释放时的年龄Age做为预测释放 后是否会再犯的因素之一。如释放日期为2005-05-16,出生日期为 1973-12-16,则年龄Age为32。
是否为本地:据区域信息统计发现,犯罪人员来自于200余各地 区。部分犯罪人员为本地户籍。比如是本地户籍的均以“XX市”作为 “区县”字段的开头,所以,以开头前三个字作为判断依据。经统计发 现,99%的犯罪人员为本地户口,仅有1%左右是外地户。故将字段“区 县”重组为仅有两个值的新变量“是否本地人”。
是否属于人户分离状态:根据户籍所在地和居住地址,判定犯罪 人员是否属于人户分离的状态。由于数据录入的质量不同,经分析发 现,某个户籍地址为某市某区某街道某市,在居住地址只写明某街某 室,实际状态是未人户分离,或在句子间因输入错误增加或遗漏了某 字。因此,需要比较文本相似度来确定。经字段长度判定,大部分数 据字段长度大于12,若相似度大于50(即6个以上的字),则为未人 户分离,否则视为人户分离。比如刘某户口在A镇B村824号,但 是目前居住地址在C村43幢137梯602室,相似度小于50,则视刘 某为人户分离。
文本的相似度计算可以采用Levenshtein Diste算法或者余弦相似 度算法,这里优选Levenshtein Diste算法。
文本的相似度计算通过Levenshtein Diste算法,其目的是找出两 个字符串之间需要改动多少个字符后变成一致。该算法使用了动态规 划的算法策略,该策略具备最优子结构,最小编辑距离包含子最小编 辑距离,有下列的式(2):
其中,d[i,j]表示完成转换需要执行的操作的次数,即最小编辑距 离,xi表示规定在x轴的字符串,空间表示为[i,0],yj表示规定在y轴 的字符串,空间表示为[0,j],d[i-1,j]+1代表字符串(如A街道B村108 号227室)插入一个字母,d[i,j-1]+1代表另一个字符串(如C街道D 村117号1室)删除一个字母,然后当xi=yj时,不需要代价,所以 和上一步d[i-1,j-1]代价相同,否则+1,接着d[i,j]是以上三者中最小的一 项。
惩罚长度:
Time=Y*12+M (3)
其中Time为惩罚长度,Y为关押时长(年),M为关押时长(月)。 惩罚长度Time由关押时长(年)Y×12加关押时长(月)M获得,获 取后移除计算使用的变量。如陈三的关押时长(年)为1,关押时长 (月)为5,则陈三的惩罚长度为15。
重新分组变量:多水平重新分组,将有多个水平且贫数较少的重 组为分组少,频数较大的数据组合。例如通过关键字和对罪因频数统 计分析对罪因进行划分,含有毒的罪名:吸毒、注射毒品、贩毒、走 私毒品归为涉毒,最后近千种罪因被划分为十三大类:涉毒、涉盗窃、 涉抢、涉淫、涉贪、涉赌、涉诈、涉奸、涉职、涉杀、涉伤、涉斗、 涉走私和其它。
同理以类似方法处理的变量还有健康状况、释放方式、工作情况 和政治面貌。
重犯标签和犯罪次数:此步骤是特征构建中最重要的一部分,一 方面为了确定标签即因变量(重复犯罪)。一方面构建犯罪次数这一 重要变量。具体方法如下:
按照姓名和出生日期将犯人分组为73116个数据框,表示一共有 73116个犯人。每个数据框含有K[n]条犯人的犯罪信息,其中 n=0,1,2,…,73115表示犯人的标识。如犯人标识为4的王五犯罪一次, 则王五的犯罪信息条数K[4]为1;再如犯人标识为3的李四犯罪5次, 则李四的犯罪信息条数K[3]为5。将数据分成两个部分,一部分K[n]=1, 一部分K[n]>1。
先对K[n]=1的情况分析:因为只有该人物的一条犯罪记录,将重 犯次数标记为0。
再对K[n]>1的情况分析:求当前日期与释放日期的年份差值, 若大于五年,则定重犯标识为0(未重犯),若在五年之内,则还需 进一步观察一段时间,标记为不确定其是否重犯。如李四2005年犯 罪,2007年放出,2012年之前再次犯罪,李四的重犯标识为1;若2012年之后再次犯罪,则李四的重犯标识为0。按释放日期给数据框 内的数据排序,除了最后一条数据的重犯标识待定外,在之前的数据 后都有犯罪记录,说明该犯罪人员之后再次犯罪,最后一条记录重犯 标识的确定方法跟K[n]=1时相同。重犯次数则等于数据框的索引,第 一条记录,视为首次犯罪,非重犯,所以重犯次数为0,第二条记录 已重犯1次,以此类推......。由于重犯标识为未确定的数据,在模型 构建阶段将其移除。
缺失值填充:由于缺失值得存在会对机器学习造成影响,因此因 子型变量用未知来替代缺失值,将其单独作为一类。具体如下,性别 的缺失值先同步曾经记录过的性别,再根据姓名判断缺失的性别;罪 因的缺失值判断为其他;文化的缺失判断为未知;职业的缺失判断为 未知;健康水平的缺失判断为未知;婚姻情况的缺失判断为未知;释 放类型的缺失判断为未知;政治面貌的缺失判断为群众。
步骤四:挑选数据平衡的样本集。经初步分析可得,获取的数据 是不平衡的,即未重犯的人数占据82%远大于重犯人数所占据的 18%。挑选数据平衡的样本集可以采用采样方法、Borderline-SMOTE 算法、加权方法来实现。这里优选采取Borderline-SMOTE算法。
采取Borderline-SMOTE算法对数据进行处理。若满足下式(4)
其中Smaj表示集合S的多数类,Sl_knn表示对少数类样本的每个样 本xl求k近邻,其中l表示为每个样本的标识,且Sl_knn属于整个样本集 合S而不再是少数类样本,则将样本xl加入接近分类边界的样本,将 接近分类边界的样本当作SMOTE种子样本的输入生成新样本。在实 施中,k取5,得到共计117942条数据样本。
步骤五:对样本集的现有特征变量和构建特征变量进行筛选得到 显著特征变量;特征变量筛选可以采用目标优化矩阵、专家意见等方 法。
这里优选,利用随机森林模型来推导相关性进而进行变量筛选, 对现有特征变量和构建特征变量进行筛选获得显著特征变量,流程如 图4所示,具体如下:
变量转化,将因子型的变量转化为数值型使计算机能够识别。如 性别的分类,男=1,女=0;再如帮教机构的分类,监狱局=1,劳教所 =2,看守所=3,矫正局=4。
数据分割。将其中70765条数据用于训练集,23589条数据用于 检验集,23588条数据用于测试集。
其运行结果的部分截图如图5,以随机森林算法返回的属性重要 性表为基础,通过变量筛选发现,年龄,文化程度,处罚时间,释放 年份,罪因,释放方式,重犯次数,数据来源,健康状况,婚姻状况, 工作状况,人户分离,政治面貌,性别的重要性比较高。通过特征选 择,减少特征数量、降维,使模型泛化能力更强,减少过拟合,增强 对特征和特征值之间的理解,使得结果更加精准。
步骤六:将样本集的显著特征变量和有效数据代入分类器算法进 行拟合得到分类器模型。分类器算法可以采用决策树、KNN、Bayes 等方法,这里优选采用随机森林算法。
将有效数据和显著特征变量代入随机森林算法进行拟合得到随 机森林模型,包括如下步骤:
决策树模型做为一个分类器,分类效果并不是很强,随机森林模 型将很多个决策树这样的弱分类器组合起来,成为一个强分类器。随 机森林有众多优点,如下:在当前所有算法中,具有极好的准确率; 能够有效地运行在大数据集上;能够处理具有高维特征的输入样本, 而且不需要降维;能够评估各个特征在分类问题上的重要性;在生成 过程中,能够获取到内部生成误差的一种无偏估计;对于缺省值问题 也能够获得很好得结果等等。
随机森林模型的投票算法公式如下:
Cp为最终投票结果,ntree表示决策树的序号,nC为类别的总个数。
经投票后生成混淆表CM,它是一个nc×nc表,表中元素 cm(i,j)(i≠j)表示类型i被分类为j的次数,仅当i=j时,cm(i,j)表示类 型i被分类正确的个数。
然后,将有效数据和显著特征变量代入拟合,得到随机森林模型。
步骤七:将犯人的数据输入模型,计算重复犯罪概率。后续可根 据计算得到的重复犯罪概率,设定阈值重复犯罪率大于50%即为判定 会重复犯罪;其中,阈值是自由设置的,判断哪些刑满释放的人群需 要进行重点监管,哪些在押人群需要加强狱中教育。其中,步骤七中 的部分且具有代表性的结果呈现如图6所示,呈现的内容已去除身份 信息。
为了体现本发明的优势,下面与决策树、KNN、Bayes等方法进 行比较。Accuracy,Precision,Recall,F1等4种算法的每一种算法 的呈现如如图7所示;其中,随机森林算法具有最高的Accuracy为 89%和Precision为85%,且Recall也高达94%,该模型能识别94% 的重复犯罪人员,仅15%的未重犯人员会被识别成重犯人员。由于得 到的结果并不是为了抓捕而是为了加强释放后的监控和加强狱中教 育,存在15%的误判造成的损失很微小;93%的重复犯罪识别率则大 大提高了安置帮教的效率,证明了该模型极高的准确性,节省了大量 警力和监狱资源。在构建特征时,接近于全面地涵盖了犯人年龄,文 化,婚姻,健康,工作,政治面貌,性别等重要影响重复犯罪的因子, 使得该模型能够高准确率地得出重复犯罪的概率。
综上所述,本发明具备如下创新点:
(1)采用了随机森林算法模型,在当前的很多数据集上,相对 其他算法有着很大的优势,表现良好;在训练完后,它能够给出哪些 特征比较重要;在创建随机森林的时候,对泛化误差使用的是无偏估 计,模型泛化能力强;训练速度快,容易做成并行化方法;在训练过 程中,能够检测到特征间的互相影响;实现比较简单;对于不平衡的 数据集来说,它可以平衡误差;如果有很大一部分的特征遗失,仍可 以维持准确度。
(2)在特征变量的构建上,人户分离的特征构建是本发明的创 新点,该特征区分了犯人的居住地点是与户口所示相同,在是否本地 人对预测结果不重要的情况下,人户分离深度剖析了稳定居住环境对 重复犯罪的影响;重犯标签的特征构建也是本发明的创新点,在本发 明中,没有直接将有过重复犯罪记录的样本直接打上重犯标签,而是 设定了一个时间段,在这一时间段内犯罪才认定为重复犯罪,这符合 中国对于重复犯罪的定义,更加具备实际意义。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依 本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附 图所涵盖的精神时,仍应属本发明的保护范围。
Claims (11)
1.一种预测犯人重复犯罪概率的方法,其特征在于,包括如下步骤:
(1)从数据库中提取犯人的数据,其中数据包括犯人的个人档案、犯罪记录及重复犯罪关联的影响因子;
(2)将提取到的数据进行清洗,得到有效数据和现有特征变量;
(3)基于有效数据进行特征构建得到构建特征变量;
(4)挑选数据平衡的样本集;
(5)对样本集的现有特征变量和构建特征变量进行筛选得到显著特征变量;
(6)将样本集的显著特征变量和有效数据代入分类器算法进行拟合得到分类器模型;
(7)将犯人的数据输入到分类器模型,计算犯人的重复犯罪概率。
2.根据权利要求1所述的一种预测犯人重复犯罪概率的方法,其特征在于:所述步骤(2)的数据清洗包括如下步骤:
(2.1)对数据进行去重:根据每行的数据去除重复记录的数据;
(2.2)分析缺失比高于预设阈值的字段数据,确认无用后将其移除;
(2.3)分析剩余的字段数据,根据分析结果移除对分析无用的变量数据,保留未确定其含义或不能确定是否对预测起作用的变量数据;
(2.4)对保留的变量数据进行字典匹配,对含义相同格式不同的数据进行统一;并对保留的数据进行缺失性填充和结构化处理。
3.根据权利要求1所述的一种预测犯人重复犯罪概率的方法,其特征在于:所述的构建特征变量包括重犯标签,还包括但不限于:释放年龄、是否为本地户籍、是否属于人户分离状态、惩罚长度、重新分组变量、犯罪次数;其中重新分组变量指将有多个水平且频数较少的变量重组为分组少且频数较大的数据组合。
4.根据权利要求3所述的一种预测犯人重复犯罪概率的方法,其特征在于:所述人户分离状态的判断方法为:提取犯人户籍所在地和居住地址,计算户籍所在地文本和居住地址文本的相似度,判定犯罪人员是否属于人户分离的状态,当相似度满足预设的阈值条件时则判定为人户分离状态,否则判定为非人户分离状态。
5.根据权利要求4所述的一种预测犯人重复犯罪概率的方法,其特征在于:所述文本的相似度计算采用Levenshtein Distance算法,该算法采用动态规划的算法策略,该策略具备最优子结构,最小编辑距离包含子最小编辑距离,如下式所示:
其中,d[i,j]表示完成转换需要执行的操作的次数,即最小编辑距离,xi表示规定在x轴的字符串,空间表示为[i,0],yj表示规定在y轴的字符串,空间表示为[0,j],d[i-1,j]+1代表字符串插入一个字母,d[i,j-1]+1代表另一个字符串删除一个字母;若当xi=yj时,不需要代价,即与上一步d[i-1,j-1]代价相同,否则+1;d[i,j]为以上三者中最小的一项。
6.根据权利要求3所述的一种预测犯人重复犯罪概率的方法,其特征在于:所述重犯标签的具体计算如下:
(I)将m个犯人按照姓名和出生日期分组为m个数据框,每个数据框含有K[n]条犯人的犯罪信息,其中n表示犯人的标识,n=0,1,2,…,m-1;
(II)将数据分成两个部分,一部分为K[n]=1,剩余部分为K[n]>1;
(III)分别对K[n]=1和K[n]>1这两部分数据进行分析:
(A)K[n]=1所对应的犯人只有一条犯罪记录,将重犯次数标记为0;
(B)对K[n]>1的分析为:判断已释放时长是否满足阈值条件,若是,则标签为未重复犯罪,否则标签为重复犯罪,并将犯罪次数加1后继续循环执行上述判断操作直至发现最后一条犯罪记录;其中,该阈值是预设的,可为固定的时间年限或者与犯罪记录相映射的时间年限。
7.根据权利要求1所述的一种预测犯人重复犯罪概率的方法,其特征在于:所述步骤(4)采用Borderline-SMOTE算法对数据进行处理从而达到数据平衡的目的,公式如下所示:
其中,Smaj表示集合S的多数类,Sl_knn表示对少数类样本的每个样本xl求k近邻,其中l表示为每个样本的标识,且Sl_knn属于整个样本集合S而不再是少数类样本,则将样本xl加入接近分类边界的样本,将接近分类边界的样本当作SMOTE种子样本的输入生成新样本。
8.根据权利要求1所述的一种预测犯人重复犯罪概率的方法,其特征在于:所述步骤(5)的具体如下:
(5.1)变量转化:将因子型的变量转化为数值型使计算机能够识别;
(5.2)数据分割:将样本集分割为训练集、检验集、测试集;
(5.3)以随机森林算法返回的属性重要性表为基础,筛选属性变量性高的特征变量作为显著特征变量。
9.根据权利要求1所述的一种预测犯人重复犯罪概率的方法,其特征在于:所述步骤(6)的分类器算法采用随机森林算法,具体如下:
(6.1)利用随机森林算法的投票算法公式进行投票,经投票生成混淆表CM,混淆表CM是一个nc×nc表,表中元素cm(i,j)(i≠j)表示类型i被分类为j的次数,仅当i=j时,cm(i,j)表示类型i被分类正确的个数;其中,随机森林算法的投票算法公式如下所示:
其中,Cp为最终投票结果,ntree表示决策树的序号,nC为类别的总个数;
(6.2)将样本集的有效数据和显著特征变量代入拟合得到随机森林模型。
10.一种预测犯人重复犯罪概率的系统,其特征在于,包括:数据获取模块、数据清洗模块、特征提取模块、重复犯罪标注模块、样本选择模块、重复犯罪预测模块;其中,数据获取模块用于获取所有与犯人相关的原始数据;数据清洗模块用于对原始数据进行一种或多种清洗操作,从而获取有效数据,清洗操作包括但不限于:对同一属性的数据进行合并、去除重复的数据、去除缺失数据、某一属性的数据缺失程度高于阈值时去除该属性的数据、某一属性为不关联属性时去除该属性的数据、对含义相同格式不同的数据进行统一、缺失值填充、将数据进行结构化处理;特征提取模块用于对有效数据进行提取、换算、变形,获得表征犯人的特征向量;重复犯罪标注模块用于根据犯人的特征向量为犯人添加重复犯罪标签;样本选择模块用于从不同重复犯罪标签的数据集中选择样本数据,不同重复犯罪标签的样本数据满足数据平衡条件;重复犯罪预测模块用于以特征向量为变量、重复犯罪标签为因变量,构建变量和因变量的关系模型,以样本数据对该模型进行训练、测试、验证,输入犯人的特征向量,利用训练后的模型对犯人重复犯罪概率进行预测。
11.根据权利要求10所述的一种预测犯人重复犯罪概率的系统,其特征在于:所述的特征提取模块提取的特征向量包括但不限于释放年龄、是否为本地户籍、是否属于人户分离状态、惩罚长度、重新分组变量、犯罪次数;其中重新分组变量指将有多个水平且频数较少的变量重组为分组少且频数较大的数据组合;人户分离状态指提取犯人户籍所在地和居住地址,计算户籍所在地文本和居住地址文本的相似度,当相似度满足阈值条件时,判定为人户分离状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810358611.1A CN108596386A (zh) | 2018-04-20 | 2018-04-20 | 一种预测犯人重复犯罪概率的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810358611.1A CN108596386A (zh) | 2018-04-20 | 2018-04-20 | 一种预测犯人重复犯罪概率的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108596386A true CN108596386A (zh) | 2018-09-28 |
Family
ID=63614162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810358611.1A Pending CN108596386A (zh) | 2018-04-20 | 2018-04-20 | 一种预测犯人重复犯罪概率的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108596386A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410109A (zh) * | 2018-10-19 | 2019-03-01 | 智器云南京信息科技有限公司 | 一种基于大数据的伴随事件分析方法及系统 |
CN109492821A (zh) * | 2018-11-20 | 2019-03-19 | 北京荣之联科技股份有限公司 | 一种维稳预警方法及系统、电子设备 |
CN109583950A (zh) * | 2018-11-26 | 2019-04-05 | 万菊仙 | 一种两融账户客户的挖掘平台 |
CN110162519A (zh) * | 2019-04-17 | 2019-08-23 | 苏宁易购集团股份有限公司 | 数据清理方法 |
CN110351523A (zh) * | 2019-07-22 | 2019-10-18 | 常州机电职业技术学院 | 一种楼宇视频监控系统与视频监控调整方法 |
CN111222784A (zh) * | 2020-01-03 | 2020-06-02 | 重庆特斯联智慧科技股份有限公司 | 一种基于人口大数据的安防监控方法和系统 |
CN111311056A (zh) * | 2020-01-06 | 2020-06-19 | 北京中天锋安全防护技术有限公司 | 吸毒人员风险监测方法 |
CN111597301A (zh) * | 2020-04-24 | 2020-08-28 | 北京百度网讯科技有限公司 | 文本预测方法、装置以及电子设备 |
CN111784180A (zh) * | 2020-07-13 | 2020-10-16 | 南京大学 | 一种罪犯改造质量评估系统评估结果分析解释方法 |
CN113159445A (zh) * | 2021-05-07 | 2021-07-23 | 朱小波 | 犯罪信息预测方法、装置和电子设备 |
CN113761230A (zh) * | 2021-09-08 | 2021-12-07 | 深圳市大数据研究院 | 一种测算全国各地文书公开率的方法 |
CN113886670A (zh) * | 2021-12-06 | 2022-01-04 | 中国电子科技集团公司第三十研究所 | 一种基于标注体系的暗网站点用户画像方法 |
CN114091844A (zh) * | 2021-11-01 | 2022-02-25 | 山东心法科技有限公司 | 一种暴力类人员重新犯罪的预警方法、装置及存储介质 |
CN115936431A (zh) * | 2022-11-28 | 2023-04-07 | 四川大学华西医院 | 再犯罪风险评估方法、装置、计算机设备及可读存储介质 |
CN116205350A (zh) * | 2023-01-12 | 2023-06-02 | 深圳市大数据研究院 | 基于法律文书的再犯人身危险性分析预测系统和方法 |
CN117352002A (zh) * | 2023-10-08 | 2024-01-05 | 广州点子信息科技有限公司 | 一种远程智能语音分析监管方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678428A (zh) * | 2016-01-28 | 2016-06-15 | 温州职业技术学院 | 一种犯罪嫌疑概率预测的方法和系统 |
CN106096623A (zh) * | 2016-05-25 | 2016-11-09 | 中山大学 | 一种犯罪识别与预测方法 |
-
2018
- 2018-04-20 CN CN201810358611.1A patent/CN108596386A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678428A (zh) * | 2016-01-28 | 2016-06-15 | 温州职业技术学院 | 一种犯罪嫌疑概率预测的方法和系统 |
CN106096623A (zh) * | 2016-05-25 | 2016-11-09 | 中山大学 | 一种犯罪识别与预测方法 |
Non-Patent Citations (5)
Title |
---|
VERIKAS A,GELZINIS A,BACAUSKIENE M: "Mining data with random forests", 《PATTERN RECOGNITION》 * |
李勇男,梅建明,秦广军: "反恐情报分析中的数据预处理研究", 《情报科学》 * |
王雨晨,过仲阳,王媛媛: "基于随机森林的犯罪风险预测模型研究", 《华东师范大学学报》 * |
许鹏: "调查报告:影响犯罪人再犯的因素-以句容监狱为样本的实证分析", 《中国优秀硕士论文电子期刊网 社会科学I辑》 * |
马国富,王子贤,马胜利: "基于大数据的服刑人员危险性预测", 《河北大学学报》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410109B (zh) * | 2018-10-19 | 2020-10-16 | 智器云南京信息科技有限公司 | 一种基于大数据的伴随事件分析方法及系统 |
CN109410109A (zh) * | 2018-10-19 | 2019-03-01 | 智器云南京信息科技有限公司 | 一种基于大数据的伴随事件分析方法及系统 |
CN109492821A (zh) * | 2018-11-20 | 2019-03-19 | 北京荣之联科技股份有限公司 | 一种维稳预警方法及系统、电子设备 |
CN109583950A (zh) * | 2018-11-26 | 2019-04-05 | 万菊仙 | 一种两融账户客户的挖掘平台 |
CN109583950B (zh) * | 2018-11-26 | 2023-10-17 | 万菊仙 | 一种两融账户客户的挖掘平台 |
CN110162519A (zh) * | 2019-04-17 | 2019-08-23 | 苏宁易购集团股份有限公司 | 数据清理方法 |
CN110351523A (zh) * | 2019-07-22 | 2019-10-18 | 常州机电职业技术学院 | 一种楼宇视频监控系统与视频监控调整方法 |
CN110351523B (zh) * | 2019-07-22 | 2020-10-16 | 常州机电职业技术学院 | 一种楼宇视频监控系统与视频监控调整方法 |
CN111222784A (zh) * | 2020-01-03 | 2020-06-02 | 重庆特斯联智慧科技股份有限公司 | 一种基于人口大数据的安防监控方法和系统 |
CN111311056A (zh) * | 2020-01-06 | 2020-06-19 | 北京中天锋安全防护技术有限公司 | 吸毒人员风险监测方法 |
CN111597301A (zh) * | 2020-04-24 | 2020-08-28 | 北京百度网讯科技有限公司 | 文本预测方法、装置以及电子设备 |
CN111784180A (zh) * | 2020-07-13 | 2020-10-16 | 南京大学 | 一种罪犯改造质量评估系统评估结果分析解释方法 |
CN111784180B (zh) * | 2020-07-13 | 2024-04-09 | 南京大学 | 一种罪犯改造质量评估系统评估结果分析解释方法 |
CN113159445A (zh) * | 2021-05-07 | 2021-07-23 | 朱小波 | 犯罪信息预测方法、装置和电子设备 |
CN113761230A (zh) * | 2021-09-08 | 2021-12-07 | 深圳市大数据研究院 | 一种测算全国各地文书公开率的方法 |
CN113761230B (zh) * | 2021-09-08 | 2023-08-15 | 深圳市大数据研究院 | 一种测算全国各地文书公开率的方法 |
CN114091844A (zh) * | 2021-11-01 | 2022-02-25 | 山东心法科技有限公司 | 一种暴力类人员重新犯罪的预警方法、装置及存储介质 |
CN113886670A (zh) * | 2021-12-06 | 2022-01-04 | 中国电子科技集团公司第三十研究所 | 一种基于标注体系的暗网站点用户画像方法 |
CN115936431A (zh) * | 2022-11-28 | 2023-04-07 | 四川大学华西医院 | 再犯罪风险评估方法、装置、计算机设备及可读存储介质 |
CN115936431B (zh) * | 2022-11-28 | 2023-10-20 | 四川大学华西医院 | 再犯罪风险评估方法、装置、计算机设备及可读存储介质 |
CN116205350A (zh) * | 2023-01-12 | 2023-06-02 | 深圳市大数据研究院 | 基于法律文书的再犯人身危险性分析预测系统和方法 |
CN117352002A (zh) * | 2023-10-08 | 2024-01-05 | 广州点子信息科技有限公司 | 一种远程智能语音分析监管方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108596386A (zh) | 一种预测犯人重复犯罪概率的方法及系统 | |
CN104182805B (zh) | 基于服刑人员行为特征集成学习模型的危险倾向预测方法 | |
CN104572958B (zh) | 一种基于事件抽取的敏感信息监控方法 | |
CN103632168B (zh) | 一种机器学习中的分类器集成方法 | |
CN105897714A (zh) | 基于dns流量特征的僵尸网络检测方法 | |
CN105975984B (zh) | 基于证据理论的网络质量评价方法 | |
CN110188192B (zh) | 一种多任务网络构建与多尺度的罪名法条联合预测方法 | |
CN104050361B (zh) | 一种监狱服刑人员危险性倾向的智能分析预警方法 | |
CN109872162A (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN106650273A (zh) | 一种行为预测方法和装置 | |
CN108388929A (zh) | 基于代价敏感和半监督分类的客户分类方法及装置 | |
CN110059079A (zh) | 一种基于大数据建模分析的人员违法犯罪预测方法和系统 | |
CN110245693B (zh) | 结合混合随机森林的关键信息基础设施资产识别方法 | |
CN110909542B (zh) | 智能语义串并分析方法及系统 | |
CN101957913A (zh) | 一种基于信息融合技术的指纹识别方法及装置 | |
CN106682236A (zh) | 基于机器学习的专利数据处理方法及其处理系统 | |
CN110084493A (zh) | 基于人工智能的企业诊断、预测方法及装置、服务器 | |
CN108764302A (zh) | 一种基于颜色特征和词袋特征的票据图像分类方法 | |
CN103324758A (zh) | 一种新闻分类方法和系统 | |
Rabbi et al. | An Approximation For Monitoring The Efficiency Of Cooperative Across Diverse Network Aspects | |
CN106355537A (zh) | 一种智能串并案分析方法及系统 | |
CN110659365A (zh) | 一种基于多层次结构词典的畜产品安全事件文本分类方法 | |
Sun et al. | Detecting Crime Types Using Classification Algorithms. | |
CN109685133A (zh) | 基于构建的预测模型低成本、高区分度的数据分类方法 | |
CN106161458A (zh) | 基于双加权在线极限学习机的网络入侵检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180928 |