CN110059079A

CN110059079A - 一种基于大数据建模分析的人员违法犯罪预测方法和系统

Info

Publication number: CN110059079A
Application number: CN201910350143.8A
Authority: CN
Inventors: 袁培江; 李毅彬; 董敬医; 汪斌; 赖利锋; 宋博; 郭军令; 马兴江; 郝文峰; 王忠孝; 袁金鑫
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2019-07-26

Abstract

本发明公开了一种基于大数据建模分析的人员违法犯罪预测方法和系统，方法包括获取数据；分组和量化数据，自动提取其与正常人显著的区别特征字段；基于区别特征字段，输出预判模型和研判模型；实时分析多路抓拍信息，进行预判预警；对于预警消息进行二次过滤，输出告警信息。本发明具有非常灵活的可扩展性，具体体现在：数据接口可灵活扩展；针对一类案件或嫌疑人，自动提取相关字段，依靠算法进行相关性计算，进而自动筛选关联字段；新增一类案件或嫌疑人，或环境、条件改变时，只需重新运行相关字段自动提取程序和模型训练程序，无需多余人工干预和人力投入；系统决策通过两级判断，优化资源配置，不损失判断可靠性的前提下优化系统性能。

Description

一种基于大数据建模分析的人员违法犯罪预测方法和系统

技术领域

本发明涉及人员违法犯罪预测技术领域，具体涉及一种基于大数据建模分析的人员违法犯罪预测方法和系统。

背景技术

随着信息化建设的不断完善，公安系统可以获取越来越多的数据，数据种类涵盖了生活的方方面面。通过有效利用这些数据，可以提高办案和处理问题的效率，降低违法犯罪率。大数据分析可以反映数据的整体性、相关性特征，进而用于预测和判断违法犯罪行为。基于大数据分析的结果，更具有客观性；基于数据和分析做出的决策，比基于经验和直觉的判断要可靠的多。在海量的数据中，数据的关联性往往不会十分直观。例如，事件A与结果C的关联，往往需要依靠条件B或其他若干条件作为前提，直观的分析A与C的关联往往得不到理想的结果。

传统的数据分析方法，其客观规律和一般流程为：首先进行数据获取，在积累到一定量后，做数据分析人后进行数据清洗，将收集得到的数据转换为机器可以识别的数据类型，根据模型需要和目标的相关性设计计算维度，再对数据进行维度标注。建立模型分析分过程一般要经过模型训练和模型验证两个阶段，将整理的数据划分为训练集和测试集，针对数据情况和复杂程度来选用合适的算法建立模型。

传统的数据分析方法主要依靠经验总结数据的逻辑特征或相互关联，再根据具体的数值特征，建立模型分析；而大数据分析方法，依靠强大的算力和数据基础，可以自主发掘数据关联关系，没有主观性(或主观性影响较弱)。

大数据的价值不在于数据量的规模多么巨大，而在于对这些数据进行专业化处理。大数据已经被广泛应用在各个很多领域。麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。在刑侦领域，基于大数据分析来获取线索，并实现破案的案例非常多。通过建模分析，预测违法犯罪行为，就是其中的一个典型样例。从应用角度看，预报预警类的模型实战意义较大。利用建模的方法将侦查思维转换为计算机能理解的方式，用电脑代替人脑，用所有前端设备作为感知器官，及时接受数据，迅速反应发现违法行为，可以做到24小时不间断值守，极大解放警力，做到早发现、早出动、早抓获。

依靠模型分析手段和计算机处理技术，可以在成千上万的数据字段中，发掘其中深层次的逻辑关系，针对特殊问题，提供传统分析方法很难发现的视角。

传统模型分析在预测违法犯罪行为时，需要总结嫌疑人的特征规律。在信息字段较少的时候，比如对于医院盗窃案件，只记录嫌疑人年龄、性别、是否有前科记录等几个信息，那么可以根据嫌疑人年龄集中的区段、性别类型、前科次数，设置一些简单的阈值和权重，可以基于这些指标对嫌疑人进行“打分”。例如，年龄在25－30这一区间，违法犯罪概率最高，设置5分；年龄在30－35，设置4分……男性违法犯罪概率高，设置4分；女性设置1分。对于有违法犯罪前科的次数不超过3次的，每出现一次记1分；大于3次，每多一次，增加2分。当在医院设置的人脸抓拍机，捕捉到人像后，对人像进行比对，确定身份和得分，得分超过设定的阈值，则认为是重点关注人群，违法犯罪概率会非常高。

在这类传统分析方法中，需要人为设定各个信息字段的权重和阈值，需要依靠经验去主观设置。当字段非常多的时候，例如成百上千乃至上万字段的时候，工作量会非常巨大；设置的合理性虽然可以随着模型验证不断调整，但是不够灵活，每次都需要人工介入修改参数；由于人思维的惯性或思维定式，往往会忽略一些关联关系或者很难发现间接关联关系；此外，非常重要的一点是：针对不同的案件类别和嫌疑人类别，往往需要的字段是不同的，这就需要从新建立模型进行分析和验证。当某个环境或条件改变后，例如网络普及、手机普及、智能手机普及等等，都会极大改变违法犯罪的方式、犯案类型，犯案人群的类型和特征也会随之改变，那么之前建立的模型都无法再使用。

由于程序的运行机制，任何逻辑判断都要转化为二值化的判断，因此现有模型大部分基于数值输入计算。对于字符串类型的字段，需要量化处理后才能使用。量化粒度过细，会导致分类过多，每种类型样本量减少，不易于共性的提取；而分类粗糙，又会导致特征不明显。数据量化需要灵活设置，才能实现较好的效果。

综上所述，现有技术的问题在于：

数据类型不够丰富：多数模型只能支持数字类型的字段，例如年龄、次数、身份证号等等，而对于字符串类型的字段无法处理，或量化效果不好。但是系统中，很多重要信息都是字符串类型的字段；

数据利用率不高：在数据库中，往往一个人有成千上万个相关字段，但是依靠人工分析，往往只能利用其中很少的数据进行建模，无法提炼出和事件最相关的字段；

模型不灵活：一旦环境或条件变化，旧模型不再适用，新模型调参或重新练成本较高；

模型普适性差：准对每个场景、案件类型，都要独立建模分析。模型没有很好的复用性和可扩展性。

发明内容

本发明的目的在于提供一种基于大数据建模分析的人员违法犯罪预测方法和系统，通过建模分析，从海量的数据中，自动提取有效信息，用于分析和预测重点人员违法犯罪的行为。

为实现上述目的，本发明采用如下技术方案：

一种基于大数据建模分析的人员违法犯罪预测方法，包括：

获取数据；

分组和量化各类型数据，基于案件和嫌疑人类型对数据进行分类，对每一类的数据，建立正常人的对抗集数据，自动提取其与正常人显著的区别特征字段；

基于所述的区别特征字段，输出预判模型和研判模型；

实时分析多路抓拍信息，进行预判预警；

对于预判推送的预警消息进行二次过滤，输出告警信息。

优选的，上述数据来源为本地数据库中存储的数据或通过接口调用获取的数据，通过接口调用获取的数据需要与本地数据库中的人员进行关联。

优选的，上述分组和量化各类型数据，基于案件和嫌疑人类型对数据进行分类，对每一类的数据，建立正常人的对抗集数据，自动提取其与正常人显著的区别特征字段，具体为：

基于数据特征，对数据进行分组和量化；

基于卡方值，提取和案件或嫌疑人最相关的特征字段。

优选的，上述分组方法为：

对于数值型的字段，按照数值范围分组；

对于字符串类型的字段，优先转为为数值型的字段处理；

对于无法数值化但字符集有限的字段，按照不同的字符类型分组；

对于既不能数值化，也无法按照有限字符集分组的字段，按照其字符特征，使用KMEANS聚类的方法，将数据分成有限个组别。

优选的，上述量化方法为对于分组后的结果，每一组分配一个对应的量化数值。

优选的，上述基于卡方值，提取和案件或嫌疑人最相关的特征字段，具体为：

在将某一字段分组量化后，计算该字段对应某类案件或某类嫌疑人的卡方值，选取卡方值最高的方式，作为该类型的最终分组方案；

针对某一类案件或某类嫌疑人，将全部字段分组量化计算卡方值后，选取其中卡方值最高的若干字段，作为该类案件或该类嫌疑人的特征。

优选的，上述实时分析多路抓拍信息，进行预判预警，具体包括：

抓拍的人像数据或人工检索操作触发比对服务；

对于人员身份和数据信息量化后，输入训练好的模型中进行判断并返回判断结果；

根据返回结果，如果超过预警阈值，对于预判推送的预警消息进行二次过滤，否则更新人员信息后，不在做其他操作处理。

优选的，上述对于预判推送的预警消息进行二次过滤，输出告警信息，具体包括：

预判推送的的人像信息或人工检索操作，触发判断逻辑；

对人员信息量化后输入到训练好的模型内进行分析，并返回研判结果；

根据返回结果，如果超过告警阈值，则推送告警信息，并入库保存，更新人员信息；否则，直接入库并更新人员信息。

优选的，上述数据包括人员基本信息、案件或前科信息、入所人员信息、车辆房产信息、户籍登记信息、常住人口信息、暂住或流动人口信息、配偶和家庭成员信息、从业和工作单位信息、参军或服役信息、旅店住宿信息、人脸人像抓拍信息、出行信息、出入境信息、手机通讯信息、手机短信信息、社交网络通讯信息、上网记录、下载记录、浏览器cookies记录、就医信息、银行和信用卡信息、个人资产信息、网络资产信息、网络消费交易记录、快递信息和贷款还款记录等。

一种基于大数据建模分析的人员违法犯罪预测系统，包括数据层、特征提取层、算法驱动层、预判模型层和研判模型层；

所述数据层，用于获取数据；

所述特征提取层，用于分组和量化各类型数据，基于案件和嫌疑人类型对数据进行分类，对每一类的数据，建立正常人的对抗集数据，自动提取其与正常人显著的区别特征；

所述算法驱动层，分为预判模型训练器和研判模型训练器，用于基于所述的区别特征字段，分别输出预判模型和研判模型；

所述预判模型层，用于实时分析多路抓拍信息，进行预判预警；

所述研判模型层，用于对预判推送的预警消息进行二次过滤，输出告警信息。

优选的，上述预判模型训练器为Kmeans模型训练器，所述研判模型训练器为决策树模型训练器。

本发明具有非常灵活的可扩展性，具体体现在：

1.数据接口可灵活扩展，数据字段和类型可以灵活多变，可以新增字段或类型；

2.针对一类案件或嫌疑人，自动提取相关字段，无需人工选择相关字段，而是依靠算法进行相关性计算，进而自动筛选关联字段；

3.新增一类案件或嫌疑人，或环境、条件改变时，需重新调整模型，但只需重新运行相关字段自动提取程序和模型训练程序即可，无需多余人工干预和人力投入；

4.系统决策分为预判和研判两个层次；预判基于较少的资源，可以实现快速、实时响应，对大范围的数据进行筛选和判断；对于预判认为风险较高的人员，推送到研判层进行更加复杂的判断。通过两级判断，优化资源配置，不损失判断可靠性的前提下优化系统性能。

附图说明

图1为本发明一种基于大数据建模分析的人员违法犯罪预测方法流程图；

图2为本发明一种基于大数据建模分析的人员违法犯罪预测系统框图；

图3为本发明一种基于大数据建模分析的人员违法犯罪系统实施例中数据层结构示意图；

图4为本发明一种基于大数据建模分析的人员违法犯罪预测系统实施例中特征提取层工作流程图；

图5为本发明一种基于大数据建模分析的人员违法犯罪预测系统实施例中预判模型层工作流程图；

图6为本发明一种基于大数据建模分析的人员违法犯罪预测系统实施例中研判模型层工作流程图；

图7为本发明一种基于大数据建模分析的人员违法犯罪系统实施例框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、右”、“中间”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

如图1所示，一种基于大数据建模分析的人员违法犯罪预测方法，包括：

S101，获取数据；

实施例中，所述数据来源为本地数据库中存储的数据或通过接口调用获取的数据。通过接口调用获取的数据需要与本地数据库中的人员进行关联。

所述数据包括人员基本信息、案件或前科信息、入所人员信息、车辆房产信息、户籍登记信息、常住人口信息、暂住或流动人口信息、配偶和家庭成员信息、从业和工作单位信息、参军或服役信息、旅店住宿信息、人脸人像抓拍信息、出行信息、出入境信息、手机通讯信息、手机短信信息、社交网络通讯信息、上网记录、下载记录、浏览器cookies记录、就医信息、银行和信用卡信息、个人资产信息、网络资产信息、网络消费交易记录、快递信息和贷款还款记录等。

S102，分组和量化各类型数据，基于案件和嫌疑人类型对数据进行分类，对每一类的数据，建立正常人的对抗集数据，自动提取其与正常人显著的区别特征字段；

S103，基于所述的区别特征字段，输出预判模型和研判模型；

S104，实时分析多路抓拍信息，进行预判预警；

S105，对于预判推送的预警消息进行二次过滤，输出告警信息。

如图2所示，一种基于大数据建模分析的人员违法犯罪预测系统，包括数据层21、特征提取层22、算法驱动层23、预判模型层24和研判模型层25；

所述数据层21，用于获取数据；

如图3所示，实施例中，常口库、环境数据、其他库数据是基于本地数据库中的数据。路人库数据通过HTTP接口，访问其他服务器获取。

所述特征提取层22，用于分组和量化各类型数据，基于案件和嫌疑人类型对数据进行分类，对每一类的数据，建立正常人的对抗集数据，自动提取其与正常人显著的区别特征；

如图4所示，特征提取层22工作流程具体为：

基于数据特征，对数据进行分组和量化；

基于卡方值，提取和案件或嫌疑人最相关的特征字段。

实施例中，所述分组方法为：

对于数值型的字段，按照数值范围分组。例如，对于年龄，按照每5岁一组，即0－5岁一组，6－10岁一组，以此类推；

对于字符串类型的字段，优先转为为数值型的字段，例如对于地址类信息，可以提取其行政区划，转化成为国家行政区划代码；

对于无法数值化但字符集有限的字段，按照不同的字符类型分组，例如案件种类，可以按照盗窃、嫖娼、赌博等等有限个字符集划分；

数据分组时，考虑算法的运行效率和分类合理性，尽量将类别设置在10－20个之间。具体的分组数量，根据量化后特征提取算法的结果择优确定。

所述量化方法为对于分组后的结果，每一组分配一个对应的量化数值。

所述基于卡方值，提取和案件或嫌疑人最相关的特征字段，具体为：

在将某一字段分组量化后，可以计算该字段对应某类案件或某类嫌疑人的卡方值。可以选取卡方值最高的方式，作为该类型的最终分组方案。

针对某一类案件或某类嫌疑人，将全部字段分组量化计算卡方值后，选取其中卡方值最高的若干字段，作为该类案件或该类嫌疑人的特征。特征字段数量的选择，可以根据计算条件和计算资源可以允许的范围确定。在下述实施例中，选取了20个字段。

例如在判断性别和盗窃人关系时，有如下样本数据：

	盗窃人	正常人	小计
				男	95(75)	55(75)	150
女	5(25)	45(25)	50
				小计	100	100	200

其中括号内为极大似然估计结果。应用卡方检验的拟合度公式计算

卡方值k与作此推论犯错的概率如下表所示：

可以看到，显著相关，作此推论犯错的概率p＜0.001，即0.01％。

所述算法驱动层23，分为预判模型训练器和研判模型训练器，用于基于所述的区别特征字段，分别输出预判模型和研判模型；

所述预判模型层24为轻量级的判断模型层，用于实时分析多路抓拍信息，进行预判预警；

如图5所示，预判模型层24工作流程包括：

抓拍的人像数据或人工检索操作触发比对服务；

根据返回结果，如果超过预警阈值，推送到上层研判模型层25进行二次判断，否则更新人员信息后，不在做其他操作处理。

所述研判模型层25为复杂的判断模型层，用于对预判推送的预警消息进行二次过滤，输出告警信息。

如图6所示，研判模型层25工作流程包括：

推送到上层研判的人像信息或人工检索操作触发判断逻辑；

如图7所示，实施例中，所述预判模型训练器为Kmeans模型训练器，对于两个目标人，首先定义其“距离”。距离为零的两个人，认为是同一个人，距离越近的两个人，认为其相似度越高。

对于第i个人，将全部的c个指标/属性量化处理：

·与目标库比中得分：s_i∈{0～100}

·年龄(6类)：m_i，1∈{0，1，2，3，4，5}，也可连续化使用真实年龄

·性别(2类)：m_i，2∈{0，1}

·少数民族(2类)：m_i，3∈{0，1，...}，根据算法可检测数量

·户籍地：m_i，4∈{身份证号前六位命名规则}

·文化程度：m_i，5∈{0，1，...}，对应不同学历、学位

·……

·人员i与人员j距离定义

·其中s^*和为各个属性权重，k＝1，2，...，c

基于Kmeans聚类的过程如下：

输入：全部带标记、量化后的数据D＝x(1)，x(2)，...，x(m)，聚类簇数c；

过程：函数kMeans(D，c).

输出：当前“簇中心”向量(μ(i))′和d_total

各类型案件或各类嫌疑人，往往都具有某些共性，可以分成若干类。比如，嫖娼类嫌疑人，多为年轻少女或中年妇女(担当“妈妈”的角色，负责联络、开房等)。如果预先了解人员类型的种类或数量，可以在Kmeans训练器聚类开始前，人为设定聚类数量c；如果人员类型不确定，可以按照聚类效果，寻找合适的聚类数量c。

寻找合适聚类数量c的方法为：设定不同聚类数量c的值，根据算法得出的d_total值，选择该值最小的聚类方式。

实施例中，所述研判模型训练器为决策树模型训练器，对于某一类的案件或嫌疑人，提取全部字段，建立决策树模型，C4.5(R,C,s)具体算法步骤如下；

综上所述，本发明的可扩展性主要体现在以下三方面：

1、底层数据可扩展。底层数据接入非常灵活，既可以是存储在本地的数据库中，也可以远程通过HTTP协议访问获取；既可以是数字数值类的字段，也可以是字符串类型。每当进行模型训练时，可以通过规定范围，自动对字段进行量化处理，提取最优字段进行特征提取。

2、预判和研判的技战法模型可扩展。对于新一类的案件或嫌疑人在标注好案件类型或嫌疑人类型后，可以自动提取该类案件或嫌疑人特征，生成预判或研判的模型。

3、模型训练器可扩展。由于模型训练器集成在系统中，当数据发生变化时，可以很灵活的重新训练模型，生成适应新数据的判断参数。同时，也可以根据计算存储资源，很方便的调整训练器，增加其他算法，实现基于多种模型的判断分类依据。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于大数据建模分析的人员违法犯罪预测方法，其特征在于：包括：

获取数据；

基于所述的区别特征字段，输出预判模型和研判模型；

实时分析多路抓拍信息，进行预判预警；

对于预判推送的预警消息进行二次过滤，输出告警信息。

2.根据权利要求1所述的一种基于大数据建模分析的人员违法犯罪预测方法，其特征在于：所述数据来源为本地数据库中存储的数据或通过接口调用获取的数据，通过接口调用获取的数据需要与本地数据库中的人员进行关联。

3.根据权利要求1所述的一种基于大数据建模分析的人员违法犯罪预测方法，其特征在于：所述分组和量化各类型数据，基于案件和嫌疑人类型对数据进行分类，对每一类的数据，建立正常人的对抗集数据，自动提取其与正常人显著的区别特征字段，具体为：

基于数据特征，对数据进行分组和量化；

基于卡方值，提取和案件或嫌疑人最相关的特征字段。

4.根据权利要求3所述的一种基于大数据建模分析的人员违法犯罪预测方法，其特征在于：所述分组方法为：

对于数值型的字段，按照数值范围分组；

对于字符串类型的字段，优先转为为数值型的字段处理；

5.根据权利要求4所述的一种基于大数据建模分析的人员违法犯罪预测方法，其特征在于：所述量化方法为对于分组后的结果，每一组分配一个对应的量化数值。

6.根据权利要求3所述的一种基于大数据建模分析的人员违法犯罪预测方法，其特征在于：基于卡方值，提取和案件或嫌疑人最相关的特征字段，具体为：

7.根据权利要求1所述的一种基于大数据建模分析的人员违法犯罪预测方法，其特征在于：所述实时分析多路抓拍信息，进行预判预警，具体包括：

抓拍的人像数据或人工检索操作触发比对服务；

8.根据权利要求7所述的一种基于大数据建模分析的人员违法犯罪预测方法，其特征在于：所述对于预判推送的预警消息进行二次过滤，输出告警信息，具体包括：

预判推送的的人像信息或人工检索操作，触发判断逻辑；

9.根据权利要求1－8任一所述的一种基于大数据建模分析的人员违法犯罪预测方法，其特征在于：所述数据包括人员基本信息、案件或前科信息、入所人员信息、车辆房产信息、户籍登记信息、常住人口信息、暂住或流动人口信息、配偶和家庭成员信息、从业和工作单位信息、参军或服役信息、旅店住宿信息、人脸人像抓拍信息、出行信息、出入境信息、手机通讯信息、手机短信信息、社交网络通讯信息、上网记录、下载记录、浏览器cookies记录、就医信息、银行和信用卡信息、个人资产信息、网络资产信息、网络消费交易记录、快递信息和贷款还款记录。

10.一种基于大数据建模分析的人员违法犯罪预测系统，其特征在于：包括数据层、特征提取层、算法驱动层、预判模型层和研判模型层；

所述数据层，用于获取数据；

11.根据权利要求10所述的一种基于大数据建模分析的人员违法犯罪预测系统，其特征在于：所述预判模型训练器为Kmeans模型训练器，所述研判模型训练器为决策树模型训练器。