CN110059079A - 一种基于大数据建模分析的人员违法犯罪预测方法和系统 - Google Patents
一种基于大数据建模分析的人员违法犯罪预测方法和系统 Download PDFInfo
- Publication number
- CN110059079A CN110059079A CN201910350143.8A CN201910350143A CN110059079A CN 110059079 A CN110059079 A CN 110059079A CN 201910350143 A CN201910350143 A CN 201910350143A CN 110059079 A CN110059079 A CN 110059079A
- Authority
- CN
- China
- Prior art keywords
- information
- data
- model
- field
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000000284 extract Substances 0.000 claims abstract description 15
- 238000013139 quantization Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 235000014510 cooky Nutrition 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000007667 floating Methods 0.000 claims description 3
- 238000004321 preservation Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 7
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000012216 screening Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000007405 data analysis Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000011002 quantification Methods 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 208000001613 Gambling Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009415 formwork Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000009394 selective breeding Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000013316 zoning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Tourism & Hospitality (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于大数据建模分析的人员违法犯罪预测方法和系统,方法包括获取数据;分组和量化数据,自动提取其与正常人显著的区别特征字段;基于区别特征字段,输出预判模型和研判模型;实时分析多路抓拍信息,进行预判预警;对于预警消息进行二次过滤,输出告警信息。本发明具有非常灵活的可扩展性,具体体现在:数据接口可灵活扩展;针对一类案件或嫌疑人,自动提取相关字段,依靠算法进行相关性计算,进而自动筛选关联字段;新增一类案件或嫌疑人,或环境、条件改变时,只需重新运行相关字段自动提取程序和模型训练程序,无需多余人工干预和人力投入;系统决策通过两级判断,优化资源配置,不损失判断可靠性的前提下优化系统性能。
Description
技术领域
本发明涉及人员违法犯罪预测技术领域,具体涉及一种基于大数据建模分析的人员违法犯罪预测方法和系统。
背景技术
随着信息化建设的不断完善,公安系统可以获取越来越多的数据,数据种类涵盖了生活的方方面面。通过有效利用这些数据,可以提高办案和处理问题的效率,降低违法犯罪率。大数据分析可以反映数据的整体性、相关性特征,进而用于预测和判断违法犯罪行为。基于大数据分析的结果,更具有客观性;基于数据和分析做出的决策,比基于经验和直觉的判断要可靠的多。在海量的数据中,数据的关联性往往不会十分直观。例如,事件A与结果C的关联,往往需要依靠条件B或其他若干条件作为前提,直观的分析A与C的关联往往得不到理想的结果。
传统的数据分析方法,其客观规律和一般流程为:首先进行数据获取,在积累到一定量后,做数据分析人后进行数据清洗,将收集得到的数据转换为机器可以识别的数据类型,根据模型需要和目标的相关性设计计算维度,再对数据进行维度标注。建立模型分析分过程一般要经过模型训练和模型验证两个阶段,将整理的数据划分为训练集和测试集,针对数据情况和复杂程度来选用合适的算法建立模型。
传统的数据分析方法主要依靠经验总结数据的逻辑特征或相互关联,再根据具体的数值特征,建立模型分析;而大数据分析方法,依靠强大的算力和数据基础,可以自主发掘数据关联关系,没有主观性(或主观性影响较弱)。
大数据的价值不在于数据量的规模多么巨大,而在于对这些数据进行专业化处理。大数据已经被广泛应用在各个很多领域。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。在刑侦领域,基于大数据分析来获取线索,并实现破案的案例非常多。通过建模分析,预测违法犯罪行为,就是其中的一个典型样例。从应用角度看,预报预警类的模型实战意义较大。利用建模的方法将侦查思维转换为计算机能理解的方式,用电脑代替人脑,用所有前端设备作为感知器官,及时接受数据,迅速反应发现违法行为,可以做到24小时不间断值守,极大解放警力,做到早发现、早出动、早抓获。
依靠模型分析手段和计算机处理技术,可以在成千上万的数据字段中,发掘其中深层次的逻辑关系,针对特殊问题,提供传统分析方法很难发现的视角。
传统模型分析在预测违法犯罪行为时,需要总结嫌疑人的特征规律。在信息字段较少的时候,比如对于医院盗窃案件,只记录嫌疑人年龄、性别、是否有前科记录等几个信息,那么可以根据嫌疑人年龄集中的区段、性别类型、前科次数,设置一些简单的阈值和权重,可以基于这些指标对嫌疑人进行“打分”。例如,年龄在25-30这一区间,违法犯罪概率最高,设置5分;年龄在30-35,设置4分……男性违法犯罪概率高,设置4分;女性设置1分。对于有违法犯罪前科的次数不超过3次的,每出现一次记1分;大于3次,每多一次,增加2分。当在医院设置的人脸抓拍机,捕捉到人像后,对人像进行比对,确定身份和得分,得分超过设定的阈值,则认为是重点关注人群,违法犯罪概率会非常高。
在这类传统分析方法中,需要人为设定各个信息字段的权重和阈值,需要依靠经验去主观设置。当字段非常多的时候,例如成百上千乃至上万字段的时候,工作量会非常巨大;设置的合理性虽然可以随着模型验证不断调整,但是不够灵活,每次都需要人工介入修改参数;由于人思维的惯性或思维定式,往往会忽略一些关联关系或者很难发现间接关联关系;此外,非常重要的一点是:针对不同的案件类别和嫌疑人类别,往往需要的字段是不同的,这就需要从新建立模型进行分析和验证。当某个环境或条件改变后,例如网络普及、手机普及、智能手机普及等等,都会极大改变违法犯罪的方式、犯案类型,犯案人群的类型和特征也会随之改变,那么之前建立的模型都无法再使用。
由于程序的运行机制,任何逻辑判断都要转化为二值化的判断,因此现有模型大部分基于数值输入计算。对于字符串类型的字段,需要量化处理后才能使用。量化粒度过细,会导致分类过多,每种类型样本量减少,不易于共性的提取;而分类粗糙,又会导致特征不明显。数据量化需要灵活设置,才能实现较好的效果。
综上所述,现有技术的问题在于:
数据类型不够丰富:多数模型只能支持数字类型的字段,例如年龄、次数、身份证号等等,而对于字符串类型的字段无法处理,或量化效果不好。但是系统中,很多重要信息都是字符串类型的字段;
数据利用率不高:在数据库中,往往一个人有成千上万个相关字段,但是依靠人工分析,往往只能利用其中很少的数据进行建模,无法提炼出和事件最相关的字段;
模型不灵活:一旦环境或条件变化,旧模型不再适用,新模型调参或重新练成本较高;
模型普适性差:准对每个场景、案件类型,都要独立建模分析。模型没有很好的复用性和可扩展性。
发明内容
本发明的目的在于提供一种基于大数据建模分析的人员违法犯罪预测方法和系统,通过建模分析,从海量的数据中,自动提取有效信息,用于分析和预测重点人员违法犯罪的行为。
为实现上述目的,本发明采用如下技术方案:
一种基于大数据建模分析的人员违法犯罪预测方法,包括:
获取数据;
分组和量化各类型数据,基于案件和嫌疑人类型对数据进行分类,对每一类的数据,建立正常人的对抗集数据,自动提取其与正常人显著的区别特征字段;
基于所述的区别特征字段,输出预判模型和研判模型;
实时分析多路抓拍信息,进行预判预警;
对于预判推送的预警消息进行二次过滤,输出告警信息。
优选的,上述数据来源为本地数据库中存储的数据或通过接口调用获取的数据,通过接口调用获取的数据需要与本地数据库中的人员进行关联。
优选的,上述分组和量化各类型数据,基于案件和嫌疑人类型对数据进行分类,对每一类的数据,建立正常人的对抗集数据,自动提取其与正常人显著的区别特征字段,具体为:
基于数据特征,对数据进行分组和量化;
基于卡方值,提取和案件或嫌疑人最相关的特征字段。
优选的,上述分组方法为:
对于数值型的字段,按照数值范围分组;
对于字符串类型的字段,优先转为为数值型的字段处理;
对于无法数值化但字符集有限的字段,按照不同的字符类型分组;
对于既不能数值化,也无法按照有限字符集分组的字段,按照其字符特征,使用KMEANS聚类的方法,将数据分成有限个组别。
优选的,上述量化方法为对于分组后的结果,每一组分配一个对应的量化数值。
优选的,上述基于卡方值,提取和案件或嫌疑人最相关的特征字段,具体为:
在将某一字段分组量化后,计算该字段对应某类案件或某类嫌疑人的卡方值,选取卡方值最高的方式,作为该类型的最终分组方案;
针对某一类案件或某类嫌疑人,将全部字段分组量化计算卡方值后,选取其中卡方值最高的若干字段,作为该类案件或该类嫌疑人的特征。
优选的,上述实时分析多路抓拍信息,进行预判预警,具体包括:
抓拍的人像数据或人工检索操作触发比对服务;
对于人员身份和数据信息量化后,输入训练好的模型中进行判断并返回判断结果;
根据返回结果,如果超过预警阈值,对于预判推送的预警消息进行二次过滤,否则更新人员信息后,不在做其他操作处理。
优选的,上述对于预判推送的预警消息进行二次过滤,输出告警信息,具体包括:
预判推送的的人像信息或人工检索操作,触发判断逻辑;
对人员信息量化后输入到训练好的模型内进行分析,并返回研判结果;
根据返回结果,如果超过告警阈值,则推送告警信息,并入库保存,更新人员信息;否则,直接入库并更新人员信息。
优选的,上述数据包括人员基本信息、案件或前科信息、入所人员信息、车辆房产信息、户籍登记信息、常住人口信息、暂住或流动人口信息、配偶和家庭成员信息、从业和工作单位信息、参军或服役信息、旅店住宿信息、人脸人像抓拍信息、出行信息、出入境信息、手机通讯信息、手机短信信息、社交网络通讯信息、上网记录、下载记录、浏览器cookies记录、就医信息、银行和信用卡信息、个人资产信息、网络资产信息、网络消费交易记录、快递信息和贷款还款记录等。
一种基于大数据建模分析的人员违法犯罪预测系统,包括数据层、特征提取层、算法驱动层、预判模型层和研判模型层;
所述数据层,用于获取数据;
所述特征提取层,用于分组和量化各类型数据,基于案件和嫌疑人类型对数据进行分类,对每一类的数据,建立正常人的对抗集数据,自动提取其与正常人显著的区别特征;
所述算法驱动层,分为预判模型训练器和研判模型训练器,用于基于所述的区别特征字段,分别输出预判模型和研判模型;
所述预判模型层,用于实时分析多路抓拍信息,进行预判预警;
所述研判模型层,用于对预判推送的预警消息进行二次过滤,输出告警信息。
优选的,上述预判模型训练器为Kmeans模型训练器,所述研判模型训练器为决策树模型训练器。
本发明具有非常灵活的可扩展性,具体体现在:
1.数据接口可灵活扩展,数据字段和类型可以灵活多变,可以新增字段或类型;
2.针对一类案件或嫌疑人,自动提取相关字段,无需人工选择相关字段,而是依靠算法进行相关性计算,进而自动筛选关联字段;
3.新增一类案件或嫌疑人,或环境、条件改变时,需重新调整模型,但只需重新运行相关字段自动提取程序和模型训练程序即可,无需多余人工干预和人力投入;
4.系统决策分为预判和研判两个层次;预判基于较少的资源,可以实现快速、实时响应,对大范围的数据进行筛选和判断;对于预判认为风险较高的人员,推送到研判层进行更加复杂的判断。通过两级判断,优化资源配置,不损失判断可靠性的前提下优化系统性能。
附图说明
图1为本发明一种基于大数据建模分析的人员违法犯罪预测方法流程图;
图2为本发明一种基于大数据建模分析的人员违法犯罪预测系统框图;
图3为本发明一种基于大数据建模分析的人员违法犯罪系统实施例中数据层结构示意图;
图4为本发明一种基于大数据建模分析的人员违法犯罪预测系统实施例中特征提取层工作流程图;
图5为本发明一种基于大数据建模分析的人员违法犯罪预测系统实施例中预判模型层工作流程图;
图6为本发明一种基于大数据建模分析的人员违法犯罪预测系统实施例中研判模型层工作流程图;
图7为本发明一种基于大数据建模分析的人员违法犯罪系统实施例框图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、右”、“中间”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
如图1所示,一种基于大数据建模分析的人员违法犯罪预测方法,包括:
S101,获取数据;
实施例中,所述数据来源为本地数据库中存储的数据或通过接口调用获取的数据。通过接口调用获取的数据需要与本地数据库中的人员进行关联。
所述数据包括人员基本信息、案件或前科信息、入所人员信息、车辆房产信息、户籍登记信息、常住人口信息、暂住或流动人口信息、配偶和家庭成员信息、从业和工作单位信息、参军或服役信息、旅店住宿信息、人脸人像抓拍信息、出行信息、出入境信息、手机通讯信息、手机短信信息、社交网络通讯信息、上网记录、下载记录、浏览器cookies记录、就医信息、银行和信用卡信息、个人资产信息、网络资产信息、网络消费交易记录、快递信息和贷款还款记录等。
S102,分组和量化各类型数据,基于案件和嫌疑人类型对数据进行分类,对每一类的数据,建立正常人的对抗集数据,自动提取其与正常人显著的区别特征字段;
S103,基于所述的区别特征字段,输出预判模型和研判模型;
S104,实时分析多路抓拍信息,进行预判预警;
S105,对于预判推送的预警消息进行二次过滤,输出告警信息。
如图2所示,一种基于大数据建模分析的人员违法犯罪预测系统,包括数据层21、特征提取层22、算法驱动层23、预判模型层24和研判模型层25;
所述数据层21,用于获取数据;
如图3所示,实施例中,常口库、环境数据、其他库数据是基于本地数据库中的数据。路人库数据通过HTTP接口,访问其他服务器获取。
所述特征提取层22,用于分组和量化各类型数据,基于案件和嫌疑人类型对数据进行分类,对每一类的数据,建立正常人的对抗集数据,自动提取其与正常人显著的区别特征;
如图4所示,特征提取层22工作流程具体为:
基于数据特征,对数据进行分组和量化;
基于卡方值,提取和案件或嫌疑人最相关的特征字段。
实施例中,所述分组方法为:
对于数值型的字段,按照数值范围分组。例如,对于年龄,按照每5岁一组,即0-5岁一组,6-10岁一组,以此类推;
对于字符串类型的字段,优先转为为数值型的字段,例如对于地址类信息,可以提取其行政区划,转化成为国家行政区划代码;
对于无法数值化但字符集有限的字段,按照不同的字符类型分组,例如案件种类,可以按照盗窃、嫖娼、赌博等等有限个字符集划分;
对于既不能数值化,也无法按照有限字符集分组的字段,按照其字符特征,使用KMEANS聚类的方法,将数据分成有限个组别。
数据分组时,考虑算法的运行效率和分类合理性,尽量将类别设置在10-20个之间。具体的分组数量,根据量化后特征提取算法的结果择优确定。
所述量化方法为对于分组后的结果,每一组分配一个对应的量化数值。
所述基于卡方值,提取和案件或嫌疑人最相关的特征字段,具体为:
在将某一字段分组量化后,可以计算该字段对应某类案件或某类嫌疑人的卡方值。可以选取卡方值最高的方式,作为该类型的最终分组方案。
针对某一类案件或某类嫌疑人,将全部字段分组量化计算卡方值后,选取其中卡方值最高的若干字段,作为该类案件或该类嫌疑人的特征。特征字段数量的选择,可以根据计算条件和计算资源可以允许的范围确定。在下述实施例中,选取了20个字段。
例如在判断性别和盗窃人关系时,有如下样本数据:
盗窃人 | 正常人 | 小计 | |
男 | 95(75) | 55(75) | 150 |
女 | 5(25) | 45(25) | 50 |
小计 | 100 | 100 | 200 |
其中括号内为极大似然估计结果。应用卡方检验的拟合度公式计算
卡方值k与作此推论犯错的概率如下表所示:
可以看到,显著相关,作此推论犯错的概率p<0.001,即0.01%。
所述算法驱动层23,分为预判模型训练器和研判模型训练器,用于基于所述的区别特征字段,分别输出预判模型和研判模型;
所述预判模型层24为轻量级的判断模型层,用于实时分析多路抓拍信息,进行预判预警;
如图5所示,预判模型层24工作流程包括:
抓拍的人像数据或人工检索操作触发比对服务;
对于人员身份和数据信息量化后,输入训练好的模型中进行判断并返回判断结果;
根据返回结果,如果超过预警阈值,推送到上层研判模型层25进行二次判断,否则更新人员信息后,不在做其他操作处理。
所述研判模型层25为复杂的判断模型层,用于对预判推送的预警消息进行二次过滤,输出告警信息。
如图6所示,研判模型层25工作流程包括:
推送到上层研判的人像信息或人工检索操作触发判断逻辑;
对人员信息量化后输入到训练好的模型内进行分析,并返回研判结果;
根据返回结果,如果超过告警阈值,则推送告警信息,并入库保存,更新人员信息;否则,直接入库并更新人员信息。
如图7所示,实施例中,所述预判模型训练器为Kmeans模型训练器,对于两个目标人,首先定义其“距离”。距离为零的两个人,认为是同一个人,距离越近的两个人,认为其相似度越高。
对于第i个人,将全部的c个指标/属性量化处理:
·与目标库比中得分:si∈{0~100}
·年龄(6类):mi,1∈{0,1,2,3,4,5},也可连续化使用真实年龄
·性别(2类):mi,2∈{0,1}
·少数民族(2类):mi,3∈{0,1,...},根据算法可检测数量
·户籍地:mi,4∈{身份证号前六位命名规则}
·文化程度:mi,5∈{0,1,...},对应不同学历、学位
·……
·人员i与人员j距离定义
·其中s*和为各个属性权重,k=1,2,...,c
基于Kmeans聚类的过程如下:
输入:全部带标记、量化后的数据D=x(1),x(2),...,x(m),聚类簇数c;
过程:函数kMeans(D,c).
输出:当前“簇中心”向量(μ(i))′和dtotal
各类型案件或各类嫌疑人,往往都具有某些共性,可以分成若干类。比如,嫖娼类嫌疑人,多为年轻少女或中年妇女(担当“妈妈”的角色,负责联络、开房等)。如果预先了解人员类型的种类或数量,可以在Kmeans训练器聚类开始前,人为设定聚类数量c;如果人员类型不确定,可以按照聚类效果,寻找合适的聚类数量c。
寻找合适聚类数量c的方法为:设定不同聚类数量c的值,根据算法得出的dtotal值,选择该值最小的聚类方式。
实施例中,所述研判模型训练器为决策树模型训练器,对于某一类的案件或嫌疑人,提取全部字段,建立决策树模型,C4.5(R,C,s)具体算法步骤如下;
综上所述,本发明的可扩展性主要体现在以下三方面:
1、底层数据可扩展。底层数据接入非常灵活,既可以是存储在本地的数据库中,也可以远程通过HTTP协议访问获取;既可以是数字数值类的字段,也可以是字符串类型。每当进行模型训练时,可以通过规定范围,自动对字段进行量化处理,提取最优字段进行特征提取。
2、预判和研判的技战法模型可扩展。对于新一类的案件或嫌疑人在标注好案件类型或嫌疑人类型后,可以自动提取该类案件或嫌疑人特征,生成预判或研判的模型。
3、模型训练器可扩展。由于模型训练器集成在系统中,当数据发生变化时,可以很灵活的重新训练模型,生成适应新数据的判断参数。同时,也可以根据计算存储资源,很方便的调整训练器,增加其他算法,实现基于多种模型的判断分类依据。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (11)
1.一种基于大数据建模分析的人员违法犯罪预测方法,其特征在于:包括:
获取数据;
分组和量化各类型数据,基于案件和嫌疑人类型对数据进行分类,对每一类的数据,建立正常人的对抗集数据,自动提取其与正常人显著的区别特征字段;
基于所述的区别特征字段,输出预判模型和研判模型;
实时分析多路抓拍信息,进行预判预警;
对于预判推送的预警消息进行二次过滤,输出告警信息。
2.根据权利要求1所述的一种基于大数据建模分析的人员违法犯罪预测方法,其特征在于:所述数据来源为本地数据库中存储的数据或通过接口调用获取的数据,通过接口调用获取的数据需要与本地数据库中的人员进行关联。
3.根据权利要求1所述的一种基于大数据建模分析的人员违法犯罪预测方法,其特征在于:所述分组和量化各类型数据,基于案件和嫌疑人类型对数据进行分类,对每一类的数据,建立正常人的对抗集数据,自动提取其与正常人显著的区别特征字段,具体为:
基于数据特征,对数据进行分组和量化;
基于卡方值,提取和案件或嫌疑人最相关的特征字段。
4.根据权利要求3所述的一种基于大数据建模分析的人员违法犯罪预测方法,其特征在于:所述分组方法为:
对于数值型的字段,按照数值范围分组;
对于字符串类型的字段,优先转为为数值型的字段处理;
对于无法数值化但字符集有限的字段,按照不同的字符类型分组;
对于既不能数值化,也无法按照有限字符集分组的字段,按照其字符特征,使用KMEANS聚类的方法,将数据分成有限个组别。
5.根据权利要求4所述的一种基于大数据建模分析的人员违法犯罪预测方法,其特征在于:所述量化方法为对于分组后的结果,每一组分配一个对应的量化数值。
6.根据权利要求3所述的一种基于大数据建模分析的人员违法犯罪预测方法,其特征在于:基于卡方值,提取和案件或嫌疑人最相关的特征字段,具体为:
在将某一字段分组量化后,计算该字段对应某类案件或某类嫌疑人的卡方值,选取卡方值最高的方式,作为该类型的最终分组方案;
针对某一类案件或某类嫌疑人,将全部字段分组量化计算卡方值后,选取其中卡方值最高的若干字段,作为该类案件或该类嫌疑人的特征。
7.根据权利要求1所述的一种基于大数据建模分析的人员违法犯罪预测方法,其特征在于:所述实时分析多路抓拍信息,进行预判预警,具体包括:
抓拍的人像数据或人工检索操作触发比对服务;
对于人员身份和数据信息量化后,输入训练好的模型中进行判断并返回判断结果;
根据返回结果,如果超过预警阈值,对于预判推送的预警消息进行二次过滤,否则更新人员信息后,不在做其他操作处理。
8.根据权利要求7所述的一种基于大数据建模分析的人员违法犯罪预测方法,其特征在于:所述对于预判推送的预警消息进行二次过滤,输出告警信息,具体包括:
预判推送的的人像信息或人工检索操作,触发判断逻辑;
对人员信息量化后输入到训练好的模型内进行分析,并返回研判结果;
根据返回结果,如果超过告警阈值,则推送告警信息,并入库保存,更新人员信息;否则,直接入库并更新人员信息。
9.根据权利要求1-8任一所述的一种基于大数据建模分析的人员违法犯罪预测方法,其特征在于:所述数据包括人员基本信息、案件或前科信息、入所人员信息、车辆房产信息、户籍登记信息、常住人口信息、暂住或流动人口信息、配偶和家庭成员信息、从业和工作单位信息、参军或服役信息、旅店住宿信息、人脸人像抓拍信息、出行信息、出入境信息、手机通讯信息、手机短信信息、社交网络通讯信息、上网记录、下载记录、浏览器cookies记录、就医信息、银行和信用卡信息、个人资产信息、网络资产信息、网络消费交易记录、快递信息和贷款还款记录。
10.一种基于大数据建模分析的人员违法犯罪预测系统,其特征在于:包括数据层、特征提取层、算法驱动层、预判模型层和研判模型层;
所述数据层,用于获取数据;
所述特征提取层,用于分组和量化各类型数据,基于案件和嫌疑人类型对数据进行分类,对每一类的数据,建立正常人的对抗集数据,自动提取其与正常人显著的区别特征;
所述算法驱动层,分为预判模型训练器和研判模型训练器,用于基于所述的区别特征字段,分别输出预判模型和研判模型;
所述预判模型层,用于实时分析多路抓拍信息,进行预判预警;
所述研判模型层,用于对预判推送的预警消息进行二次过滤,输出告警信息。
11.根据权利要求10所述的一种基于大数据建模分析的人员违法犯罪预测系统,其特征在于:所述预判模型训练器为Kmeans模型训练器,所述研判模型训练器为决策树模型训练器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910350143.8A CN110059079A (zh) | 2019-04-28 | 2019-04-28 | 一种基于大数据建模分析的人员违法犯罪预测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910350143.8A CN110059079A (zh) | 2019-04-28 | 2019-04-28 | 一种基于大数据建模分析的人员违法犯罪预测方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110059079A true CN110059079A (zh) | 2019-07-26 |
Family
ID=67321333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910350143.8A Pending CN110059079A (zh) | 2019-04-28 | 2019-04-28 | 一种基于大数据建模分析的人员违法犯罪预测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110059079A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414827A (zh) * | 2019-07-23 | 2019-11-05 | 郭俊雄 | 基于大数据的学生行为预警分析方法及系统 |
CN110634093A (zh) * | 2019-09-26 | 2019-12-31 | 四川科瑞软件有限责任公司 | 针对涉毒人员的出行分析方法 |
CN110688469A (zh) * | 2019-09-27 | 2020-01-14 | 厦门市美亚柏科信息股份有限公司 | 一种自动分析相似行为特征的方法和装置 |
CN111950937A (zh) * | 2020-09-01 | 2020-11-17 | 上海海事大学 | 一种基于融合时空轨迹的重点人员风险评估方法 |
CN112270599A (zh) * | 2020-12-25 | 2021-01-26 | 北京泛钛客科技有限公司 | 一种用于金融场景中存贷用户特征数据的计算方法及装置 |
CN112862645A (zh) * | 2019-11-27 | 2021-05-28 | 山东万博科技股份有限公司 | 建立多维度服刑人员状态信息模型的方法 |
CN112949172A (zh) * | 2021-02-24 | 2021-06-11 | 重庆中科云从科技有限公司 | 一种数据处理方法、装置、机器可读介质及设备 |
CN113642820A (zh) * | 2020-12-18 | 2021-11-12 | 航天信息股份有限公司广州航天软件分公司 | 一种基于大数据对人员数据信息评估管理的方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512995A (zh) * | 2016-01-11 | 2016-04-20 | 浪潮集团有限公司 | 通过大数据降低社会犯罪率的方法 |
CN106295565A (zh) * | 2016-08-10 | 2017-01-04 | 中用环保科技有限公司 | 基于大数据的监控事件识别及实时犯罪预测方法 |
CN107818175A (zh) * | 2017-11-17 | 2018-03-20 | 厦门能见易判信息科技有限公司 | 一种法律类案问题智能预判系统及方法 |
CN108320256A (zh) * | 2017-12-08 | 2018-07-24 | 中国电子科技集团公司电子科学研究院 | 基于大数据的社会安全事件识别方法、设备及存储介质 |
CN108805142A (zh) * | 2018-05-31 | 2018-11-13 | 中国华戎科技集团有限公司 | 一种犯罪高危人员研判方法及系统 |
-
2019
- 2019-04-28 CN CN201910350143.8A patent/CN110059079A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512995A (zh) * | 2016-01-11 | 2016-04-20 | 浪潮集团有限公司 | 通过大数据降低社会犯罪率的方法 |
CN106295565A (zh) * | 2016-08-10 | 2017-01-04 | 中用环保科技有限公司 | 基于大数据的监控事件识别及实时犯罪预测方法 |
CN107818175A (zh) * | 2017-11-17 | 2018-03-20 | 厦门能见易判信息科技有限公司 | 一种法律类案问题智能预判系统及方法 |
CN108320256A (zh) * | 2017-12-08 | 2018-07-24 | 中国电子科技集团公司电子科学研究院 | 基于大数据的社会安全事件识别方法、设备及存储介质 |
CN108805142A (zh) * | 2018-05-31 | 2018-11-13 | 中国华戎科技集团有限公司 | 一种犯罪高危人员研判方法及系统 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414827A (zh) * | 2019-07-23 | 2019-11-05 | 郭俊雄 | 基于大数据的学生行为预警分析方法及系统 |
CN110634093A (zh) * | 2019-09-26 | 2019-12-31 | 四川科瑞软件有限责任公司 | 针对涉毒人员的出行分析方法 |
CN110688469A (zh) * | 2019-09-27 | 2020-01-14 | 厦门市美亚柏科信息股份有限公司 | 一种自动分析相似行为特征的方法和装置 |
CN112862645A (zh) * | 2019-11-27 | 2021-05-28 | 山东万博科技股份有限公司 | 建立多维度服刑人员状态信息模型的方法 |
CN111950937A (zh) * | 2020-09-01 | 2020-11-17 | 上海海事大学 | 一种基于融合时空轨迹的重点人员风险评估方法 |
CN111950937B (zh) * | 2020-09-01 | 2023-12-01 | 上海海事大学 | 一种基于融合时空轨迹的重点人员风险评估方法 |
CN113642820A (zh) * | 2020-12-18 | 2021-11-12 | 航天信息股份有限公司广州航天软件分公司 | 一种基于大数据对人员数据信息评估管理的方法及系统 |
CN113642820B (zh) * | 2020-12-18 | 2024-05-28 | 航天信息股份有限公司广州航天软件分公司 | 一种基于大数据对人员数据信息评估管理的方法及系统 |
CN112270599A (zh) * | 2020-12-25 | 2021-01-26 | 北京泛钛客科技有限公司 | 一种用于金融场景中存贷用户特征数据的计算方法及装置 |
CN112949172A (zh) * | 2021-02-24 | 2021-06-11 | 重庆中科云从科技有限公司 | 一种数据处理方法、装置、机器可读介质及设备 |
CN112949172B (zh) * | 2021-02-24 | 2023-07-04 | 重庆中科云从科技有限公司 | 一种数据处理方法、装置、机器可读介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059079A (zh) | 一种基于大数据建模分析的人员违法犯罪预测方法和系统 | |
CN111914256B (zh) | 一种机器学习训练数据受投毒攻击的防御方法 | |
CN110380896A (zh) | 基于攻击图的网络安全态势感知模型和方法 | |
Baboo | An enhanced algorithm to predict a future crime using data mining | |
US20050043961A1 (en) | System and method for identification, detection and investigation of maleficent acts | |
CN109461078A (zh) | 一种基于资金交易网络的异常交易识别方法及系统 | |
CN112132233A (zh) | 一种基于有效影响因子的服刑人员危险行为预测方法及系统 | |
CN111930868A (zh) | 一种基于多维数据采集的大数据行为轨迹分析方法 | |
Adderley et al. | Use of data mining techniques to model crime scene investigator performance | |
CN111368926B (zh) | 图像筛选方法、装置和计算机可读存储介质 | |
Malathi et al. | Evolving data mining algorithms on the prevailing crime trend–an intelligent crime prediction model | |
CN109829721A (zh) | 基于异质网络表征学习的线上交易多主体行为建模方法 | |
CN113239792A (zh) | 一种大数据分析处理系统和方法 | |
CN111831715A (zh) | 一种基于人工智能大数据智慧接访及存证系统及方法 | |
Andersson et al. | Towards predicting dengue fever rates using convolutional neural networks and street-level images | |
CN106355537A (zh) | 一种智能串并案分析方法及系统 | |
CN109271859A (zh) | 串并案方法和装置、电子设备、计算机存储介质 | |
Ogunde et al. | A decision tree algorithm based system for predicting crime in the university | |
Malathi et al. | Enhanced algorithms to identify change in crime patterns | |
CN115619245A (zh) | 一种基于数据降维方法的画像构建和分类方法及系统 | |
CN115829073A (zh) | 对象识别方法、装置、设备及可读存储介质、程序产品 | |
Tao et al. | A proposed Bi-layer crime prevention framework using big data analytics | |
CN117275156B (zh) | 无人值守共享棋牌室预定系统 | |
KR102473115B1 (ko) | 신고 데이터 분석 시스템 및 방법 | |
Corcoran et al. | Data clustering and rule abduction to facilitate crime hot spot prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190726 |