CN108805142A

CN108805142A - 一种犯罪高危人员研判方法及系统

Info

Publication number: CN108805142A
Application number: CN201810551347.3A
Authority: CN
Inventors: 张镇; 伊文超; 史云飞; 梁波; 赵国强
Original assignee: China Huarong Technology Group Ltd
Current assignee: China Huarong Technology Group Ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2018-11-13

Abstract

本发明涉及一种犯罪高危人员研判方法及系统，其中方法包括以下步骤：步骤1，根据获取的人员特征生成高危犯罪人员的深度特征集；步骤2，对所述深度特征集进行预处理和降维以得到关键特征；步骤3，通过所述关键特征建立犯罪高危人员的研判模型；步骤4,对步骤3中的所述研判模型进行优化；步骤5，通过优化后的研判模型，对目标人员进行研判，判断出所述目标人员是否为犯罪高危人员。通过上述方法自动推理合成犯罪高危人员的特征集，用以增强特征对人员高危性的表示深度，基于深度特征集，针对不同的犯罪类型采用针对性的建模方式，实现精准研判。

Description

一种犯罪高危人员研判方法及系统

技术领域

本发明涉及公共安全大数据分析领域，具体的说是一种犯罪高危人员研判方法及系统。

背景技术

犯罪高危人员研判在公共安全领域具有重要意义，旨在通过对人员特征进行分析归纳，建立研判模型，达到识别犯罪高危人员的目的。在大数据背景下，海量信息的存储极大拓展了人员的信息深度，涵盖了社交、出行、金融交易等领域，为犯罪高危人员的研判提供了多方位、深层次的信息支持，但信息的分散、孤立使得其利用率较低，无法充分发挥信息的价值。

现有的高危人员研判技术主要基于机器学习，依据特征对目标人员进行分类，达到识别犯罪高危人员的目的。该过程存在一个显著瓶颈：特征工程，即最大限度地从原始数据中提取研判模型的特征。目前特征工程主要由专业人员手工进行，存在以下问题：

1.特征的选择依赖于人的直觉，增加了建模的不确定因素，直接影响研判效果。

2.数据处理过程繁琐耗时，在大数据背景下，对海量、异构、分散的数据处理尤为显著。

发明内容

本发明为了解决上述技术问题提供一种犯罪高危人员研判方法。自动推理合成犯罪高危人员的特征集，用以增强特征对人员高危性的表示深度。基于合成的深度特征集，针对不同的犯罪类型采用针对性的建模方式，实现精准研判。

本发明解决上述技术问题的技术方案如下：一种犯罪高危人员研判方法，包括以下几个步骤：

步骤1，根据获取的人员特征生成高危犯罪人员的深度特征集；

步骤2，对所述深度特征集进行预处理和降维以得到关键特征；

步骤3，通过所述关键特征建立犯罪高危人员的研判模型；

步骤4,对步骤3中的所述研判模型进行优化；

步骤5，通过优化后的研判模型，对目标人员进行研判，判断出所述目标人员是否为犯罪高危人员。

本发明的有益效果是：通过将分散的人员特征利用自组织推理方法进行加工合成，合成后的深度特征集对目标人员的刻画具有更广的深度。再使用该深度特征集，应用随机森林算法建立研判模型，利用该研判模型对犯罪高危人员进行研判，可在保持较高的准确率的前提下，显著减少时间成本。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，当所述人员特征包括多个特征样本时，则所述步骤1具体包括以下步骤：

步骤11，将每个所述特征样本均通过单向映射关系进行关联，再通过单向映射关系推理模型进行处理，得到多个第一关联特征；

步骤12，将每个所述特征样本均通过多向映射关系进行关联，再通过多向映射关系推理模型进行处理，得到多个第二关联特征；

步骤13，将每个所述第一关联特征和每个所述第二关联特征均添加到所述人员特征中形成新的人员特征，以便根据所述新的人员特征生成所述深度特征集；

其中，所述第一关联特征和第二关联特征的数量均与所述特征样本的数量相同。

采用上述进一步方案的有益效果是针对犯罪领域数据量大、数据集类别多、数据集分散、独立的特点，通过特征样本的关联关系进行自组织推理，使特征集对目标人员的描述更加丰富、全面，充分发挥大数据的作用，最大化利用社会数据的价值。

进一步，所述步骤2包括以下步骤：

步骤21，依次通过独热编码方法和归一化方法对所述深度特征集进行处理，得到特征数据；

步骤22，采用了TSVD算法将步骤21中的所述特征数据进行初步的降维，再通过F检验方法，对特征数据的重要性进行排序并按比例选择出关键特征。

采用上述进一步方案的有益效果是利用独热编码将离散特征扩充到欧式空间，解决了传统建模难以处理属性数据的问题。由于算法部分过程使用欧氏距离作为度量方式，特征集中数据的量纲不同，将使计算结果失去意义，所以需要采用数据归一化方法对犯罪数据进行去量纲处理。

通过TSVD对犯罪高危人员特征集进行正交分解变换，用于消除冗余，提高模型的泛化能力，这对于高危人员研判具有积极的意义。同时我们对TSVD筛选后的特征集与人员高危性进行F检验，F检验衡量了单个犯罪特征与研判目标的显著相关性，与目标越相关的特征对研判分析越有意义，通过F值对筛选后的特征进行排序，选择排序靠前的特征作为研判模型的最终输入，至此数据预处理过程结束，犯罪研判模型输入特征集也得到了确定。

进一步，所述步骤3包括以下步骤：

步骤31,采用k-means算法，对所述关键特征进行聚类，得到多个类簇；

步骤32，采用RF算法，分别对每个所述类簇进行建模，形成研判模型。

采用上述进一步方案的有益效果是针对高危人员研判过程中高危人员的犯罪类型多样的特性，如高危人员可能涵盖经济犯罪高危人员、刑事犯罪高危人员等，如果不做区分，统一建模将使结果失去意义。因此采用均值聚类算法，对犯罪特征进行聚类，聚类所产生的不同类簇对应某一类型的犯罪团伙或特定的犯罪类型增加建立模型的针对性和准确性。而且采用使用RF算法对进行建模具有以下优势：训练速度快，容易做成并行化方法，在大数据背景下有着速度的优势，能够处理高维度、多特征数据，模型泛化能力强，在存在特征遗失的情况下，仍可以维持准确性。

进一步，所述步骤4的具体方法为：采用GCP方法，对步骤S32中的所述研判模型进行优化。

采用上述进一步方案的有益效果是采用了GCP方法，对步骤2到步骤3中涉及到的参数进行寻优，可优化研判模型，显著研判速度和研判准确性。

本发明解决上述技术问题的另一种技术方案如下:一种犯罪高危人员研判系统，包括：

深度特征集生成模块，用于根据获取的人员特征生成高危犯罪人员的深度特征集；

深度特征集预处理和降维模块，用于对所述深度特征集进行预处理和降维以得到关键特征；

研判模型建立模块，用于通过所述关键特征建立犯罪高危人员的研判模型；

研判模型优化模块，用于对所述研判模型进行优化；

犯罪高危人员判断模块，用于通过优化后的研判模型，对目标人员进行研判，判断出所述目标人员是否为犯罪高危人员。

进一步，当所述人员特征包括多个特征样本时，所述深度特征集生成模块还包括：

单向映射关联模块，用于将每个所述特征样本均通过单向映射关系进行关联，再通过单向映射关系推理模型进行处理，得到多个第一关联特征；

多向映射关联模块，用于将每个所述特征样本均通过多向映射关系进行关联，再通过多向映射关系推理模型进行处理，得到多个第二关联特征；

特征合并模块，用于将每个所述第一关联特征和每个所述第二关联特征均添加到所述人员特征中形成新的人员特征，以便根据所述新的人员特征生成所述深度特征集；

进一步，所述深度特征集预处理和降维模块还包括：

特征数据生成模块，用于依次通过独热编码方法和归一化方法对所述深度特征集进行处理，得到特征数据；

关键特征生成模块，用于采用了TSVD算法将步骤21中的所述特征数据进行初步的降维，再通过F检验方法，对特征数据的重要性进行排序并按比例选择出关键特征。

进一步，所述研判模型建立模块还包括：

聚类模块，用于采用k-means算法，对所述关键特征进行聚类，以得到多个类簇；

模型生成模块，用于采用RF算法，分别对每个所述类簇进行建模，形成研判模型。

进一步，所述研判模型优化模块还用于采用GCP方法，对所述研判模型进行优化。

附图说明

图1为本发明的方法流程图；

图2为本发明自组织特征推理与合成流程图；

图3为本发明犯罪高危人员研判模型建立流程图；

图4为本发明的系统原理框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，本实施例中的一种犯罪高危人员研判方法，包括以下几个步骤：

步骤2，对深度特征集进行预处理和降维以得到关键特征；

步骤3，通过关键特征建立犯罪高危人员的研判模型；

步骤4,对步骤3中的研判模型进行优化；

步骤5，通过优化后的研判模型，对目标人员进行研判，判断出目标人员是否为犯罪高危人员。

其中，当人员特征包括多个特征样本时，则步骤1具体包括以下步骤：

步骤11，将每个特征样本均通过单向映射关系进行关联，再通过单向映射关系推理模型进行处理，得到多个第一关联特征；

步骤12，将每个特征样本均通过多向映射关系进行关联，再通过多向映射关系推理模型进行处理，得到多个第二关联特征；

步骤13，将每个第一关联特征和每个第二关联特征均添加到人员特征中形成新的人员特征，以便根据新的人员特征生成深度特征集。

其中，第一关联特征和第二关联特征的数量均与特征样本的数量相同。

在实际应用场景中，首先对其人员特征进行获取，人员特征中包含了多个特征样本，特征样本按照类型可以分为人员基本信息特征、人员动态信息特征以及人员关联信息特征。

具体的，人员基本信息特征涵盖了户籍信息，前科信息、车辆信息等。人员动态信息特征涵盖了人员轨迹信息、号牌转让信息等。人员关联信息特征涵盖了人员的案件信息、足迹信息、通讯信息等。

除此之外，由于孤立的信息使得对犯罪高危人员的挖掘缺乏广度，难以达到理想的效果。所以我们将这些信息以孤立的形式从“轨迹”、“案件”、“行为”、“情报”四个角度对犯罪信息进行表示。

在通过上述四个角度对犯罪信息进行表示时，由于犯罪行为的主体是人，所以自组织推理过程首先从人员基本信息中的特征出发，依据特征集合之间是否存在共有属性，依次判断其与“轨迹”、“案件”、“行为”、“情报”四个层面中其他特征的关联关系。两个特征间的关联关系分为两种：单向映射关系与多向映射关系，其定于如下：

单向映射关系：特征1中的样本与特征2中的样本存在一对一的对应关系，例如犯罪人员的姓名特征与犯罪人员的性别特征是一种单向映射关系，每个犯罪人员都有一一对应的性别。

多向映射关系：特征1中的样本与特征2中的样本存在一对多的对应关系，例如性别(男或女)与犯罪人员姓名是一种多向映射关系，性别为男的犯罪人员包含多个姓名。

以人员的“轨迹”推理进行具体说明：在原始数据集中，犯罪人员基本信息中包含人员的姓名、单位信息、人员的机动车注册信息等特征，其中对于人员的单位信息，通过单向映射关系可以与“轨迹”要素中地域公司注册信息进行推理关联，对于人员的机动车注册信息，通过多向映射关系可以与机动车的位置轨迹信息进行推理关联。

其次，如图2所示：依据特征间的关联关系进行特征的推理合成，具体的推理合成定义如下：

单向映射关系的推理模型：

采用直接级联模型，即直接将关联特征添加入原始特征集。

多向映射关系的推理模型：

将关联特征通过以下推理模型进行处理，加入原始特征集

最大值模型：Modelmax＝max(info1,info2,…,infon)

最小值模型：Modelmin＝min(info1,info2,…,infon)

累积模型：Modelsum＝sum(info1,info2,…,infon)

上式中，info＝{info1,info2,…,infon}表示特征1中单个样本通过多向映射关系对应的特征2中的多个样本，如在人员出行信息中，info表示某高危人员(特征1)的出行信息(特征2)，info1可以表示去青岛的次数(特征2的第一样本)，info2可以表示去济南的次数(特征2的第二样本)。

从人员“轨迹”角度对特征加工合成过程进行说明：人员基本信息中的机动车注册信息特征与机动车的轨迹信息特征是多向映射关系，通过最大值模型，机动车轨迹信息被推理为常去位置特征，添加到人员基本信息中，通过累积模型，机动车轨迹信息被推理为成当月外出次数特征，添加到人员基本信息中。直至所有特征样本都完成上述的自组织推理过程，此时深度特征集的生成过程结束。

在深度特征集生成以后，已经将目标人员的特征在深度上进行了加强，但是在此过程中，不可避免的引入了冗余的特征，它对高危人员的研判建模结果有不利影响，因此需要通过步骤2进行深度特征集的预处理和降维。

其中，步骤2具体包括：

步骤21，依次通过独热编码方法和归一化方法对深度特征集进行处理，得到特征数据。

具体的，利用独热编码(one-hot encoding)方法对离散特征进行处理，在原始的犯罪信息数据集中，诸如籍贯、性别、爱好、购物商品等特征都是离散的，不能直接作为机器学习的输入，独热编码将离散特征扩充到欧式空间，解决了传统建模难以处理属性数据的问题。由于算法部分过程使用欧氏距离作为度量方式，特征集中数据的量纲不同，将使计算结果失去意义，采用数据归一化方法对犯罪数据进行去量纲处理。

数据归一化的数学表达式如下：

其中，x表示特征，x_min表示该特征的最小值，x_max表示该特征的最大值。

步骤22，采用了TSVD算法将步骤21中的特征数据进行初步的降维，再通过F检验方法，对特征数据的重要性进行排序并按比例选择出关键特征。

具体的，采用了截断奇异值分解(Truncated singular value decomposition，TSVD)算法将特征数据进行初步的降维，其次结合F检验(方差齐性检验)方法，以F检验的F值作为标准，对特征重要性进行排序并按比例选择关键特征，TSVD保留的特征维度以及关键特征选择比例将在参数寻优过程中确定。

通过TSVD，对犯罪高危人员特征集进行正交分解变换，本算法用最大的前P个奇异值对原始犯罪信息进行描述，用于消除冗余，提高模型的泛化能力，这对于高危人员研判具有积极的意义。同时我们对TSVD筛选后的特征集与人员高危性进行F检验，F检验衡量了单个犯罪特征与研判目标的显著相关性，与目标越相关的特征对研判分析越有意义，通过F值对筛选后的特征进行排序，选择前R％的特征作为研判模型的最终输入，至此数据预处理过程结束，犯罪研判模型的输入特征集也得到了确定，其输入特征集即由筛选出的关键特征组成。

在深度特征集经过预处理和降维，则可以利用上述得到的关键特征通过步骤3建立犯罪高危人员的研判模型。针对高危人员研判过程中高危人员的犯罪类型多样的特性，如高危人员可能涵盖经济犯罪高危人员、刑事犯罪高危人员等，如果不做区分，统一建模将使结果失去意义。

针对这一情况，如图3所示：具体建模步骤如下：

步骤31,采用k-means算法，对关键特征进行聚类，得到多个类簇。

具体的，对关键特征进行聚类，采用均值聚类(k-means)算法，对关键特征进行聚类，聚类所产生的不同类簇对应某一类型的犯罪团伙或特定的犯罪类型，k-means聚类的参数选择如下：

聚类距离度量采用欧式距离；

其中：x和y分别表示不同犯罪人员，xi和yi表示不同犯罪人员的具体特征。

步骤32，采用RF算法，分别对每个类簇进行建模，形成研判模型。

具体的，采用随机森林(Random Forest，简称RF)算法，针对步骤31中产生的多个类簇，使用RF算法对其进行一一建模，所有的模型添加入研判模型库,根据每个类簇对应的模型确定研判模型。

在公共安全大数据背景下，RF算法具有以下优势：训练速度快，容易做成并行化方法，在大数据背景下有着速度的优势，能够处理高维度、多特征数据，模型泛化能力强，在存在特征遗失的情况下，仍可以维持准确性。

在确定研判模型后，再通过步骤S4对研判模型进行优化。

优选地，采用了GCP(Gaussian Copula Process)方法，对步骤2和步骤3中涉及到的参数进行寻优，优化研判模型。

其中，参数说明及寻优范围如表1所示：

表1参数说明及寻优范围

参数	寻优范围	功能
			P	[10,500]	奇异值分解维度
R	[10,100]	特征选择的比例
			K	[1,10]	聚类的初始类簇数
Dn	[50,500]	随机森林决策树个数
			Dd	[1,20]	决策树的深度
Fn	[1,100]	参与决策的特征数比例
			W	[1,10]	不平衡数据的权重比

具体的，通过Gaussian Copula模型估计犯罪研判准确率与7个参数之间的关系函数。

需要说明的是，上述过程中6参数以及训练数据存在正负比例不均衡现象时，需设置的权重参数W。

通过对关系函数的求解确定最优的参数值，其中参数寻优的范围可依据实际情况进行相应调整。

初始聚类类簇数K：可依据数据集中犯罪类型的种类进行粗略设置，后续的模型优化会对该值进行寻优。

其中，随机森林决策树个数dn、决策树的深度dd、参与决策的特征数比例fn通过参数寻优算法确定。

在实际应用中，首先将犯罪高危人员训练数据按照7:3的比例划分为训练集和测试集，采用训练集按照上述步骤建立研判模型，模型参数按照寻优范围随机抽样，使用测试集数据通过模型进行研判，计算其准确率(记为Per)。

其次通过高斯copula模型，估计参数与模型准确率之间的相关关系函数。其函数描述为：

其中，u_d表示寻优参数，φ_p表示d元标准正态分布，由Per来估计。φ^-1表示标准正态分布分布的逆，由各个参数进行估计。

再通过相关关系函数，求解模型表现最优时的7个参数值作为最终模型的参数值，从而实现研判模型的优化。

最终，通过优化后的研判模型，对目标人员进行研判，判断出目标人员是否为犯罪高危人员。

综上所述,本实施例中的一种犯罪高危人员研判方法包括以下步骤：根据获取的人员特征生成高危犯罪人员的深度特征集；对深度特征集进行预处理和降维以得到关键特征；通过关键特征建立犯罪高危人员的研判模型；对研判模型进行优化；通过优化后的研判模型，对目标人员进行研判，判断出目标人员是否为犯罪高危人员。

其中，深度特征集的生成过程，针对犯罪领域数据量大、数据集类别多、数据集分散、独立的特点，通过特征的关联关系进行自组织推理，使特征集对目标人员的描述更加丰富、全面，充分发挥大数据的作用，最大化利用社会数据的价值；针对大数据背景下重复、相似信息的引入所导致的冗余现象，进行特征的预处理与降维，实现特征集的去冗余；模型建立与参数优化过程最终确定研判模型，并针对建模过程涉及到的参数进行高效快速的寻优，提高研判的精度；最后使用建立好的研判模型识别犯罪高危人员。

如图4所示：本实施例提供一种犯罪高危人员研判系统，包括：

深度特征集预处理和降维模块，用于对深度特征集进行预处理和降维以得到关键特征；

研判模型建立模块，用于通过关键特征建立犯罪高危人员的研判模型；

研判模型优化模块，用于对研判模型进行优化；

犯罪高危人员判断模块，用于通过优化后的研判模型，对目标人员进行研判，判断出目标人员是否为犯罪高危人员。

优选地，当人员特征包括多个特征样本时，深度特征集生成模块还包括：

单向映射关联模块，用于将每个特征样本均通过单向映射关系进行关联，再通过单向映射关系推理模型进行处理，得到多个第一关联特征；

多向映射关联模块，用于将每个特征样本均通过多向映射关系进行关联，再通过多向映射关系推理模型进行处理，得到多个第二关联特征；

特征合并模块，用于将每个第一关联特征和每个第二关联特征均添加到人员特征中形成新的人员特征，以便根据新的人员特征生成深度特征集；

优选地，深度特征集预处理和降维模块还包括：

特征数据生成模块，用于依次通过独热编码方法和归一化方法对深度特征集进行处理，得到特征数据；通过特征数据生成模块对离散特征样本进行处理，在原始的犯罪信息数据集中，诸如籍贯、性别、爱好、购物商品等特征都是离散的，不能直接作为机器学习的输入，独热编码将离散特征扩充到欧式空间，解决了传统建模难以处理属性数据的问题。由于算法部分过程使用欧氏距离作为度量方式，特征集中数据的量纲不同，将使计算结果失去意义，因此还需采用数据归一化方法对犯罪数据进行去量纲处理。

关键特征生成模块，用于采用了TSVD算法将步骤21中的特征数据进行初步的降维，再通过F检验方法，对特征数据的重要性进行排序并按比例选择出关键特征。通过关键特征生成模块利用TSVD算法对犯罪高危人员特征集进行正交分解变换，用于消除冗余，提高模型的泛化能力。并通过F检验衡量了单个犯罪特征与研判目标的显著相关性，与目标越相关的特征对研判分析越有意义，以此筛选出关键特征以便后续建模。

优选地，研判模型建立模块还包括：

聚类模块，用于采用k-means算法，对关键特征进行聚类，以得到多个类簇；通过聚类模块采用均值聚类算法，对犯罪特征进行聚类，聚类所产生的不同类簇对应某一类型的犯罪团伙或特定的犯罪类型增加建立模型的针对性和准确性，避免了高危人员研判过程中高危人员的犯罪类型多样的特性，如高危人员可能涵盖经济犯罪高危人员、刑事犯罪高危人员等，如果不做区分，统一建模将使结果失去意义的缺陷。

模型生成模块，用于采用RF算法，分别对每个类簇进行建模，形成研判模型。通过模型生成模块使用RF算法对进行建模具有以下优势：训练速度快，容易做成并行化方法，在大数据背景下有着速度的优势，能够处理高维度、多特征数据，模型泛化能力强，在存在特征遗失的情况下，仍可以维持准确性。

优选地，研判模型优化模块还用于采用GCP方法，对研判模型进行优化。通过采用了研判模型优化模块，对深度特征集预处理和降维模块中和研判模型建立模块中涉及到的参数进行寻优，可优化研判模型，显著研判速度和研判准确性。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种犯罪高危人员研判方法，其特征在于，包括以下几个步骤：

步骤3，通过所述关键特征建立犯罪高危人员的研判模型；

步骤4,对步骤3中的所述研判模型进行优化；

2.根据权利要求1所述一种犯罪高危人员研判方法，其特征在于，当所述人员特征包括多个特征样本时，则所述步骤1具体包括以下步骤：

3.根据权利要求2所述一种犯罪高危人员研判方法，其特征在于,所述步骤2包括以下步骤：

4.根据权利要求3所述一种犯罪高危人员研判方法，其特征在于，所述步骤3包括以下步骤：

5.根据权利要求4所述一种犯罪高危人员研判方法，其特征在于，所述步骤4的具体方法为：采用GCP方法，对步骤S32中的所述研判模型进行优化。

6.一种犯罪高危人员研判系统，其特征在于，包括：

研判模型优化模块，用于对所述研判模型进行优化；

7.根据权利要求6所述一种犯罪高危人员研判系统，其特征在于，当所述人员特征包括多个特征样本时，所述深度特征集生成模块还包括：

8.根据权利要求7所述一种犯罪高危人员研判系统，其特征在于，所述深度特征集预处理和降维模块还包括：

9.根据权利要求8所述一种犯罪高危人员研判系统，其特征在于，所述研判模型建立模块还包括：

10.根据权利要求9所述一种犯罪高危人员研判系统，其特征在于，所述研判模型优化模块还用于采用GCP方法，对所述研判模型进行优化。