CN110009224A - 嫌疑人违规概率预测方法、装置、计算机设备及存储介质 - Google Patents
嫌疑人违规概率预测方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110009224A CN110009224A CN201910263216.XA CN201910263216A CN110009224A CN 110009224 A CN110009224 A CN 110009224A CN 201910263216 A CN201910263216 A CN 201910263216A CN 110009224 A CN110009224 A CN 110009224A
- Authority
- CN
- China
- Prior art keywords
- data
- violation probability
- suspect
- suspicion
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 92
- 238000010801 machine learning Methods 0.000 claims abstract description 31
- 208000035473 Communicable disease Diseases 0.000 claims abstract description 15
- 230000036760 body temperature Effects 0.000 claims abstract description 15
- 208000015181 infectious disease Diseases 0.000 claims abstract description 15
- 238000004590 computer program Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 11
- 238000007619 statistical method Methods 0.000 claims description 8
- 230000037396 body weight Effects 0.000 claims description 4
- 238000013481 data capture Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 15
- 230000000875 corresponding effect Effects 0.000 description 9
- 230000033228 biological regulation Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 206010010144 Completed suicide Diseases 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
Abstract
本发明涉及嫌疑人违规概率预测方法、装置、计算机设备及存储介质,该方法包括获取待预测的犯罪嫌疑人数据;将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到违规概率;输出违规概率;其中,预测模型是通过带有违规概率标签的犯罪嫌疑人数据训练机器学习模型所得的;待预测的犯罪嫌疑人数据包括住址代码、特殊身份代码、身份代码、身高、体重、足长、风险等级、办案环节代码、脸型代码、体温、传染病类型代码以及法律文书数据。本发明实现可以预测看守所犯罪嫌疑人的违规概率,并对违规概率高的看守所犯罪嫌疑人进行提示,降低看守所的风险,提高看守所的安全系数。
Description
技术领域
本发明涉及风险控制方法,更具体地说是指嫌疑人违规概率预测方法、装置、计算机设备及存储介质。
背景技术
看守所是羁押依法被逮捕、刑事拘留的犯罪嫌疑人、被告人的机关。被判处有期徒刑一年以下或者剩余刑期在一年以下不便送往劳动改造场所执行的罪犯,也可以由看守所监管。检察机关驻所检察的主要任务是对看守所的执法活动实行监督。在崇尚法治、保障人权的今天,如何确保被羁押、监管的犯罪嫌疑人、被告人的合法权益,特别是对看守所使用械具等一系列管理手段是否合法、规范,就显得尤为重要。使用械具的违规行为有:不服从管理、多次违反监规、打架、欺骗、不值班、撞墙自杀、上厕所不冲水、不听管教、偷窃、起哄闹仓等。
传统的方法是靠看守所监管人员通过视频、谈话、人工来对犯人的异常进行侦查后再进行防范,从而减少看守所里的犯罪嫌疑人的违规风险进而减少械具使用次数。随着社会经济和科技的不断发展,暴力犯罪、团伙犯罪、高科技犯罪不断增多,看守所关押对象日益复杂。犯罪嫌疑人被羁押后,由于人身自由受到限制以及环境与法律的双重压力导致的焦虑、抑等心理变化,大多犯罪嫌疑人会具有一定的社会危险性,有的主观恶意程度和人身危险性都较大,这导致犯罪嫌疑人的违规风险越来越复杂,越来越难控制,传统的方法不仅效率低且费事费力,且由于通过人工方式进行违规概率预测,存在准确率低且不科学的问题。
因此,有必要设计一种方法,实现高效率和高准确率地预测违规概率,提高看守所的安全系数。
发明内容
本发明的目的在于克服现有技术的缺陷,提供嫌疑人违规概率预测方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:嫌疑人违规概率预测方法,包括:
获取待预测的犯罪嫌疑人数据;
将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到违规概率;
输出违规概率;
其中,所述预测模型是通过带有违规概率标签的犯罪嫌疑人数据训练机器学习模型所得的;
所述待预测的犯罪嫌疑人数据包括住址代码、特殊身份代码、身份代码、身高、体重、足长、风险等级、办案环节代码、脸型代码、体温、传染病类型代码以及法律文书数据。
其进一步技术方案为:所述预测模型是通过带有违规概率标签的犯罪嫌疑人数据训练机器学习模型所得的,包括:
获取机器学习模型;
构建损失函数;
获取看守所数据库内的数据,以得到初始数据;
对初始数据进行整理,以得到预训练样本;
对预训练样本进行处理,以得到带有违规概率标签的犯罪嫌疑人数据;
利用带有违规概率标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签;
将带有违规概率标签的犯罪嫌疑人数据以及预测标签输入损失函数,以得到损失值;
判断所述损失值是否符合设定条件;
若是,则输出所述机器学习模型,以形成预测模型;
若否,则调整机器学习模型的参数,并返回所述利用带有违规概率标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签。
其进一步技术方案为:所述对初始数据进行整理,以得到预训练样本,包括:
对初始数据按照特征类型分类,以得到预训练样本;其中,所述特征类型包括数值类型以及文本类型,所述数字类型的初始数据包括住址代码、特殊身份代码、身份代码、身高、体重、足长、风险等级、办案环节代码、脸型代码、体温以及传染病类型代码;所述文本类型的初始数据包括法律文书数据。
其进一步技术方案为:所述对预训练样本进行处理,以得到带有违规概率标签的犯罪嫌疑人数据,包括:
对预训练样本中的文本类型数据进行特征提取,以得到文本特征;
对文本特征进行统计,以得到统计值;
对预训练样本中的数值类型数据进行缺失值处理,以得到第一数据;
对第一数据进行离群值剔除,以得到第二数据;
对第二数据中的连续型数据和离散型数据进行统计分析,以得到第三数据;
对文本特征、统计值以及第三数据进行合并,以得到训练数据;
对训练数据进行拆分,以得到带违规概率标签的犯罪嫌疑人数据。
其进一步技术方案为:所述对预训练样本中的文本类型数据进行特征提取,以得到文本特征,包括:
对法律文书数据中的罪名进行提取,以得到文本特征。
其进一步技术方案为:所述对训练数据进行拆分,以得到带违规概率标签的犯罪嫌疑人数据,包括:
将训练数据拆分为特征数据以及标签信息,以得到带违规概率标签的犯罪嫌疑人数据。
其进一步技术方案为:所述输出违规概率之后,包括:
对所述违规概率进行排序,以得到排序结果;
根据排序结果挑取满足要求的犯罪嫌疑人数据,以得到预警对象;
发送预警信息至预警对象。
本发明还提供了嫌疑人违规概率预测装置,包括:
待预测数据获取单元,用于获取待预测的犯罪嫌疑人数据,所述待预测的犯罪嫌疑人数据包括住址代码、特殊身份代码、身份代码、身高、体重、足长、风险等级、办案环节代码、脸型代码、体温、传染病类型代码以及法律文书数据;
预测单元,用于将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到违规概率;
概率输出单元,用于输出违规概率。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过大量的犯罪嫌疑人数据进行处理后,形成带有违规概率标签的犯罪嫌疑人数据,对带有违规概率标签的犯罪嫌疑人数据作为样本数据训练xgboost模型,使其能够准确的预测犯罪嫌疑人的违规概率,实现可以预测看守所犯罪嫌疑人的违规概率,并对违规概率高的看守所犯罪嫌疑人进行提示,降低看守所的风险,提高看守所的安全系数。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的违规概率预测方法的应用场景示意图;
图2为本发明实施例提供的违规概率预测方法的流程示意图;
图3为本发明实施例提供的违规概率预测方法的子流程示意图;
图4为本发明实施例提供的违规概率预测方法的子流程示意图;
图5为本发明实施例提供的预测模型预测结果的示意图;
图6为本发明另一实施例提供的违规概率预测方法的流程示意图;
图7为本发明实施例提供的违规概率预测装置的示意性框图;
图8为本发明另一实施例提供的违规概率预测装置的示意性框图;
图9为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的违规概率预测方法的应用场景示意图。图2为本发明实施例提供的违规概率预测方法的示意性流程图。该违规概率预测方法应用于服务器中,服务器利用数据库内的犯罪嫌疑人数据训练预测模型,利用预测模型对待预测的犯罪嫌疑人数据进行违规概率的预测,并将概率输出至终端,以便于对概率高者进行预警。
图2是本发明实施例提供的违规概率预测方法的流程示意图。如图2所示,该方法包括以下步骤S110至S130。
S110、获取待预测的犯罪嫌疑人数据。
在本实施例中,待预测的犯罪嫌疑人数据是指看守所内的犯罪嫌疑人所登记的数据,可以从看守所的数据内获取,也可以通过终端实时输入;待预测的犯罪嫌疑人数据包括住址代码、特殊身份代码、身份代码、身高、体重、足长、风险等级、办案环节代码、脸型代码、体温、传染病类型代码以及法律文书数据。
S120、将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到违规概率。
在本实施例中,违规概率是指犯罪嫌疑人在看守所内出现违规风险的概率。
上述的预测模型是通过带有违规概率标签的犯罪嫌疑人数据训练机器学习模型所得的。
在一实施例中,请参阅图3,预测模型是通过带有标签的犯罪嫌疑人数据训练机器学习模型所得的,可包括以下步骤S12a~S12j。
S12a、获取机器学习模型。
在本实施例中,获取的是xgboost模型。xgboost模型是一个监督模型,xgboost对应的模型是一堆CART树,利用xgboost模型即是将CART树的预测值综合作为该模型的输出值。
S12b、构建损失函数。
在机器学习模型进行训练时,需要构建一损失函数进行计算损失值,以获取预测结果与实际结果的差距,当损失函数的输出值越小,则该差距越小,对应的机器学习模型越贴近于符合要求的预测模型。
S12c、获取看守所数据库内的数据,以得到初始数据。
在本实施例中,初始数据是指来自与看守所数据内的相关犯罪嫌疑人的数据。
根据数据库中表的相关特征提取相关犯罪嫌疑人的数据,形成初始数据,该初始数据一般包括数值类数据以及文本类数据,数值类数据包括年住址代码、特殊身份代码、身份代码、身高、体重、足长、风险等级、办案环节代码、脸型代码、体温、传染病类型代码等,文本类数据包括法律文书等。
S12d、对初始数据进行整理,以得到预训练样本。
在本实施例中,预训练样本是指已分类的数值类数据以及文本类数据。
具体是对初始数据按照特征类型分类,以得到预训练样本;其中,所述特征类型包括数值类型以及文本类型。所述数字类型的初始数据包括住址代码、特殊身份代码、身份代码、身高、体重、足长、风险等级、办案环节代码、脸型代码、体温以及传染病类型代码;所述文本类型的初始数据包括法律文书数据。
S12e、对预训练样本进行处理,以得到带有违规概率标签的犯罪嫌疑人数据。
在本实施例中,带有违规概率标签的犯罪嫌疑人数据是指带有违规概率标签的犯罪嫌疑人数据,即包括犯罪嫌疑人的数值类数据以及文本类数据,还包括该犯罪嫌疑人的违规概率,将违规概率作为标签标记在数据内。
在一实施例中,请参阅图4,上述的步骤S12e可包括步骤S12e1~S12e7。
S12e1、对预训练样本中的文本类型数据进行特征提取,以得到文本特征。
在本实施例中,文本特征是指与违规相关的文字,比如抢劫、故意损坏公物等词语,可采用自然语言分析技术进行特征提取,具体是进行词语分析等。
具体地,在本实施例中,上述的步骤S12e1可包括:对法律文书数据中的罪名进行提取,以得到文本特征。
从罪名确定该文本特征,可以更加科学的预测违规概率。
S12e2、对文本特征进行统计,以得到统计值。
对提取的文本特征进行统计,统计文本特征出现的次数。该统计值可以用于衡量违规概率。
S12e3、对预训练样本中的数值类型数据进行缺失值处理,以得到第一数据。
在本实施例中,第一数据是指对存在缺失值的变量进行对应设定以及对不存在缺失值的变量进行对应设定的数值类型数据。具体地,如果某变量缺失值过多,就将缺失值取0,其余取1,如果缺失值小于所有变量数值的二分之一,缺失值取该变量没有出现过的数字。
S12e4、对第一数据进行离群值剔除,以得到第二数据。
在本实施例中,第二数据是指剔除离群值的第一数据,比如剔除体重大于150公斤的犯罪嫌疑人等所剩下的数据。
S12e5、对第二数据中的连续型数据和离散型数据进行统计分析,以得到第三数据。
在本实施例中,第三数据是指第二数据中的连续型数据和离散型数据的统计值。
具体地,分别对连续型数据和离散类数据进行统计分析处理。例如对连续型数据提取其方差、均值作为特征,对于离散型数据进行分箱处理。
S12e6、对文本特征、统计值以及第三数据进行合并,以得到训练数据。
对处理好后的数据进行合并准备用xgboost模型进行训练。
S12e7、对训练数据进行拆分,以得到带违规概率标签的犯罪嫌疑人数据。
将训练数据拆分为特征数据以及标签信息,以得到带违规概率标签的犯罪嫌疑人数据。
S12f、利用带有违规概率标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签;
S12g、将带有违规概率标签的犯罪嫌疑人数据以及预测标签输入损失函数,以得到损失值;
S12h、判断所述损失值是否符合设定条件;
S12i、若是,则输出所述机器学习模型,以形成预测模型;
S12j、若否,则调整机器学习模型的参数,并返回所述步骤S12f。
将训练数据拆分分为特征部分和标签部分,xgboost模型会初始给一组参数来根据数据预测标签,之后与真实标签对比算出损失值,根据损失值再更新参数,不断循环往复这个过程,直到损失值为最小。
对于训练过程而言,可以进行实验,实验一是在历史数据中验证模型准确性:
从数据库中提取出2010-2017年的数据,其中百分之70用于模型的训练,百分之30用于验证模型,其中总体数据为10万。具体验证步骤如下:
从数据库中抽取10万犯罪嫌疑人的数据;
对10万犯罪嫌疑人的数据做特征工程处理,犯罪嫌疑人的数据含数值类型数据以及文本类型数据;
数据处理之后,将数据的70%用作训练,30%用作验证;其中训练集包含犯罪嫌疑人特征数据,以及其对应的违规概率标签,验证集与训练集相同包含犯罪嫌疑人特征数据以及其对应的违规概率标签。
用70%的数据训练xgboost模型。
根据验证集中犯罪嫌疑人特征数据预测出预测的标签;
将预测的标签与真实验证集违规概率标签对比,正确率达到95%左右。
请参阅图5,可以看到训练集的准确率大约为90.63%,测试集的准确率大约为89.23%。
实验二是在近期数据中验证模型的准确性:
从数据库中提取出2010-2017年的数据作为训练数据,同时抽取2018年犯罪嫌疑人数据作为验证数据,具体验证步骤如下:
从数据库中抽取10万犯罪嫌疑人的数据以及2018年的2000数据;
对2010-2017年与2018年的数据做特征工程处理,犯罪嫌疑人的数据以及2018年的2000数据含数值类型数据和文本类型数据;
数据处理之后,将2010-2017年数据的用作训练,2018年的数据用作验证;其中训练集包含犯罪嫌疑人特征数据以及其对应的违规概率标签;验证集与训练集相同包含犯罪嫌疑人特征数据以及其对应的违规概率标签;
用2010-2017年数据训练xgboost模型。
根据2018年的数据中犯罪嫌疑人特征数据预测出预测的标签。
将预测的标签与真实验证集的违规概率标签对比,正确率达到88%左右。
S130、输出违规概率。
将犯罪嫌疑人的违规概率输出,以便于及时进行械具管理,降低看守所的风险,提高看守所的安全系数。
上述的违规概率预测方法,通过大量的犯罪嫌疑人数据进行处理后,形成带有违规概率标签的犯罪嫌疑人数据,对带有违规概率标签的犯罪嫌疑人数据作为样本数据训练xgboost模型,使其能够准确的预测犯罪嫌疑人的违规概率,实现可以预测看守所犯罪嫌疑人的违规概率,并对违规概率高的看守所犯罪嫌疑人进行提示,降低看守所的风险,提高看守所的安全系数。
图6是本发明另一实施例提供的一种违规概率预测方法的流程示意图。如
图6所示,本实施例的违规概率预测方法包括步骤S210-S260。其中步骤S210-S230与上述实施例中的步骤S110-S130类似,在此不再赘述。下面详细说明本实施例中所增加的步骤S240-S260。
S240、对所述违规概率进行排序,以得到排序结果;
S250、根据排序结果挑取满足要求的犯罪嫌疑人数据,以得到预警对象;
S260、发送预警信息至预警对象。
对所获取的违规概率进行排序,对高违规概率的犯罪嫌疑人进行预警,以便于看守所及时监控该犯罪嫌疑人的行为,避免出现风险。
图7是本发明实施例提供的一种违规概率预测装置300的示意性框图。如图7所示,对应于以上违规概率预测方法,本发明还提供一种违规概率预测装置300。该违规概率预测装置300包括用于执行上述违规概率预测方法的单元,该装置可以被配置于服务器中。
具体地,请参阅图7,该违规概率预测装置300包括:
待预测数据获取单元301,用于获取待预测的犯罪嫌疑人数据,所述待预测的犯罪嫌疑人数据包括住址代码、特殊身份代码、身份代码、身高、体重、足长、风险等级、办案环节代码、脸型代码、体温、传染病类型代码以及法律文书数据;
预测单元302,用于将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到违规概率;
概率输出单元303,用于输出违规概率。
在一实施例中,所述装置还包括:
训练单元,用于通过带有违规概率标签的犯罪嫌疑人数据训练机器学习模型,以得到预测模型。
在一实施例中,所述训练单元包括:
模型获取子单元,用于获取机器学习模型;
函数构建子单元,用于构建损失函数;
初始数据获取子单元,用于获取看守所数据库内的数据,以得到初始数据;
整理子单元,用于对初始数据进行整理,以得到预训练样本;
处理子单元,用于对预训练样本进行处理,以得到带有违规概率标签的犯罪嫌疑人数据;
预测标签获取子单元,用于利用带有违规概率标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签;
损失值获取子单元,用于将带有违规概率标签的犯罪嫌疑人数据以及预测标签输入损失函数,以得到损失值;
判断子单元,用于判断所述损失值是否符合设定条件;
模型输出子单元,用于若是,则输出所述机器学习模型,以形成预测模型;
参数调整子单元,用于若否,则调整机器学习模型的参数。
在一实施例中,所述处理子单元包括:
特征提取模块,用于对预训练样本中的文本类型数据进行特征提取,以得到文本特征;
统计模块,用于对文本特征进行统计,以得到统计值;
缺失值处理模块,用于对预训练样本中的数值类型数据进行缺失值处理,以得到第一数据;
剔除模块,用于对第一数据进行离群值剔除,以得到第二数据;
统计分析模块,用于对第二数据中的连续型数据和离散型数据进行统计分析,以得到第三数据;
合并模块,用于对文本特征、统计值以及第三数据进行合并,以得到训练数据;
拆分模块,用于对训练数据进行拆分,以得到带标签的犯罪嫌疑人数据。
图8是本发明另一实施例提供的一种违规概率预测装置300的示意性框图。如图8所示,本实施例的违规概率预测装置300是上述实施例的基础上增加了排序单元304、挑取单元305以及发送单元306。
排序单元304,用于对所述违规概率进行排序,以得到排序结果;
挑取单元305,用于根据排序结果挑取满足要求的犯罪嫌疑人数据,以得到预警对象;
发送单元306,用于发送预警信息至预警对象。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述违规概率预测装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述违规概率预测装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,图9是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500是服务器。
参阅图9,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种违规概率预测方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种违规概率预测方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取待预测的犯罪嫌疑人数据;
将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到违规概率;
输出违规概率;
其中,所述预测模型是通过带有违规概率标签的犯罪嫌疑人数据训练机器学习模型所得的;
所述待预测的犯罪嫌疑人数据包括住址代码、特殊身份代码、身份代码、身高、体重、足长、风险等级、办案环节代码、脸型代码、体温、传染病类型代码以及法律文书数据。
在一实施例中,处理器502在实现所述预测模型是通过带有违规概率标签的犯罪嫌疑人数据训练机器学习模型所得的步骤时,具体实现如下步骤:
获取机器学习模型;
构建损失函数;
获取看守所数据库内的数据,以得到初始数据;
对初始数据进行整理,以得到预训练样本;
对预训练样本进行处理,以得到带有违规概率标签的犯罪嫌疑人数据;
利用带有违规概率标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签;
将带有违规概率标签的犯罪嫌疑人数据以及预测标签输入损失函数,以得到损失值;
判断所述损失值是否符合设定条件;
若是,则输出所述机器学习模型,以形成预测模型;
若否,则调整机器学习模型的参数,并返回所述利用带有违规概率标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签。
在一实施例中,处理器502在实现所述对初始数据进行整理,以得到预训练样本步骤时,具体实现如下步骤:
对初始数据按照特征类型分类,以得到预训练样本;其中,所述特征类型包括数值类型以及文本类型,所述数字类型的初始数据包括住址代码、特殊身份代码、身份代码、身高、体重、足长、风险等级、办案环节代码、脸型代码、体温以及传染病类型代码;所述文本类型的初始数据包括法律文书数据。
在一实施例中,处理器502在实现所述对预训练样本进行处理,以得到带有违规概率标签的犯罪嫌疑人数据步骤时,具体实现如下步骤:
对预训练样本中的文本类型数据进行特征提取,以得到文本特征;
对文本特征进行统计,以得到统计值;
对预训练样本中的数值类型数据进行缺失值处理,以得到第一数据;
对第一数据进行离群值剔除,以得到第二数据;
对第二数据中的连续型数据和离散型数据进行统计分析,以得到第三数据;
对文本特征、统计值以及第三数据进行合并,以得到训练数据;
对训练数据进行拆分,以得到带违规概率标签的犯罪嫌疑人数据。
在一实施例中,处理器502在实现所述对预训练样本中的文本类型数据进行特征提取,以得到文本特征步骤时,具体实现如下步骤:
对法律文书数据中的罪名进行提取,以得到文本特征。
在一实施例中,处理器502在实现所述对训练数据进行拆分,以得到带违规概率标签的犯罪嫌疑人数据步骤时,具体实现如下步骤:
将训练数据拆分为特征数据以及标签信息,以得到带违规概率标签的犯罪嫌疑人数据。
在一实施例中,处理器502在实现所述输出违规概率步骤之后,还实现如下步骤:
对所述违规概率进行排序,以得到排序结果;
根据排序结果挑取满足要求的犯罪嫌疑人数据,以得到预警对象;
发送预警信息至预警对象。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取待预测的犯罪嫌疑人数据;
将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到违规概率;
输出违规概率;
其中,所述预测模型是通过带有违规概率标签的犯罪嫌疑人数据训练机器学习模型所得的;
所述待预测的犯罪嫌疑人数据包括住址代码、特殊身份代码、身份代码、身高、体重、足长、风险等级、办案环节代码、脸型代码、体温、传染病类型代码以及法律文书数据。
在一实施例中,所述处理器在执行所述计算机程序而实现所述预测模型是通过带有违规概率标签的犯罪嫌疑人数据训练机器学习模型所得的步骤时,具体实现如下步骤:
获取机器学习模型;
构建损失函数;
获取看守所数据库内的数据,以得到初始数据;
对初始数据进行整理,以得到预训练样本;
对预训练样本进行处理,以得到带有违规概率标签的犯罪嫌疑人数据;
利用带有违规概率标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签;
将带有违规概率标签的犯罪嫌疑人数据以及预测标签输入损失函数,以得到损失值;
判断所述损失值是否符合设定条件;
若是,则输出所述机器学习模型,以形成预测模型;
若否,则调整机器学习模型的参数,并返回所述利用带有违规概率标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对初始数据进行整理,以得到预训练样本步骤时,具体实现如下步骤:
对初始数据按照特征类型分类,以得到预训练样本;其中,所述特征类型包括数值类型以及文本类型,所述数字类型的初始数据包括住址代码、特殊身份代码、身份代码、身高、体重、足长、风险等级、办案环节代码、脸型代码、体温以及传染病类型代码;所述文本类型的初始数据包括法律文书数据。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对预训练样本进行处理,以得到带有违规概率标签的犯罪嫌疑人数据步骤时,具体实现如下步骤:
对预训练样本中的文本类型数据进行特征提取,以得到文本特征;
对文本特征进行统计,以得到统计值;
对预训练样本中的数值类型数据进行缺失值处理,以得到第一数据;
对第一数据进行离群值剔除,以得到第二数据;
对第二数据中的连续型数据和离散型数据进行统计分析,以得到第三数据;
对文本特征、统计值以及第三数据进行合并,以得到训练数据;
对训练数据进行拆分,以得到带违规概率标签的犯罪嫌疑人数据。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对预训练样本中的文本类型数据进行特征提取,以得到文本特征步骤时,具体实现如下步骤:
对法律文书数据中的罪名进行提取,以得到文本特征。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对训练数据进行拆分,以得到带违规概率标签的犯罪嫌疑人数据步骤时,具体实现如下步骤:
将训练数据拆分为特征数据以及标签信息,以得到带标签的犯罪嫌疑人数据。
在一实施例中,所述处理器在执行所述计算机程序而实现所述输出违规概率步骤之后,还实现如下步骤:
对所述违规概率进行排序,以得到排序结果;
根据排序结果挑取满足要求的犯罪嫌疑人数据,以得到预警对象;
发送预警信息至预警对象。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.嫌疑人违规概率预测方法,其特征在于,包括:
获取待预测的犯罪嫌疑人数据;
将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到违规概率;
输出违规概率;
其中,所述预测模型是通过带有违规概率标签的犯罪嫌疑人数据训练机器学习模型所得的;
所述待预测的犯罪嫌疑人数据包括住址代码、特殊身份代码、身份代码、身高、体重、足长、风险等级、办案环节代码、脸型代码、体温、传染病类型代码以及法律文书数据。
2.根据权利要求1所述的嫌疑人违规概率预测方法,其特征在于,所述预测模型是通过带有违规概率标签的犯罪嫌疑人数据训练机器学习模型所得的,包括:
获取机器学习模型;
构建损失函数;
获取看守所数据库内的数据,以得到初始数据;
对初始数据进行整理,以得到预训练样本;
对预训练样本进行处理,以得到带有违规概率标签的犯罪嫌疑人数据;
利用带有违规概率标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签;
将带有违规概率标签的犯罪嫌疑人数据以及预测标签输入损失函数,以得到损失值;
判断所述损失值是否符合设定条件;
若是,则输出所述机器学习模型,以形成预测模型;
若否,则调整机器学习模型的参数,并返回所述利用带有违规概率标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签。
3.根据权利要求2所述的嫌疑人违规概率预测方法,其特征在于,所述对初始数据进行整理,以得到预训练样本,包括:
对初始数据按照特征类型分类,以得到预训练样本;其中,所述特征类型包括数值类型以及文本类型,所述数字类型的初始数据包括住址代码、特殊身份代码、身份代码、身高、体重、足长、风险等级、办案环节代码、脸型代码、体温以及传染病类型代码;所述文本类型的初始数据包括法律文书数据。
4.根据权利要求2所述的嫌疑人违规概率预测方法,其特征在于,所述对预训练样本进行处理,以得到带有违规概率标签的犯罪嫌疑人数据,包括:
对预训练样本中的文本类型数据进行特征提取,以得到文本特征;
对文本特征进行统计,以得到统计值;
对预训练样本中的数值类型数据进行缺失值处理,以得到第一数据;
对第一数据进行离群值剔除,以得到第二数据;
对第二数据中的连续型数据和离散型数据进行统计分析,以得到第三数据;
对文本特征、统计值以及第三数据进行合并,以得到训练数据;
对训练数据进行拆分,以得到带违规概率标签的犯罪嫌疑人数据。
5.根据权利要求4所述的嫌疑人违规概率预测方法,其特征在于,所述对预训练样本中的文本类型数据进行特征提取,以得到文本特征,包括:
对法律文书数据中的罪名进行提取,以得到文本特征。
6.根据权利要求2所述的嫌疑人违规概率预测方法,其特征在于,所述对训练数据进行拆分,以得到带违规概率标签的犯罪嫌疑人数据,包括:
将训练数据拆分为特征数据以及标签信息,以得到带违规概率标签的犯罪嫌疑人数据。
7.根据权利要求1至6任一项所述的嫌疑人违规概率预测方法,其特征在于,所述输出违规概率之后,包括:
对所述违规概率进行排序,以得到排序结果;
根据排序结果挑取满足要求的犯罪嫌疑人数据,以得到预警对象;
发送预警信息至预警对象。
8.嫌疑人违规概率预测装置,其特征在于,包括:
待预测数据获取单元,用于获取待预测的犯罪嫌疑人数据,所述待预测的犯罪嫌疑人数据包括住址代码、特殊身份代码、身份代码、身高、体重、足长、风险等级、办案环节代码、脸型代码、体温、传染病类型代码以及法律文书数据;
预测单元,用于将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到违规概率;
概率输出单元,用于输出违规概率。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910263216.XA CN110009224A (zh) | 2019-04-02 | 2019-04-02 | 嫌疑人违规概率预测方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910263216.XA CN110009224A (zh) | 2019-04-02 | 2019-04-02 | 嫌疑人违规概率预测方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110009224A true CN110009224A (zh) | 2019-07-12 |
Family
ID=67169533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910263216.XA Pending CN110009224A (zh) | 2019-04-02 | 2019-04-02 | 嫌疑人违规概率预测方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110009224A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110942192A (zh) * | 2019-11-25 | 2020-03-31 | 中国联合网络通信集团有限公司 | 犯罪概率的确定方法及装置 |
CN111080012A (zh) * | 2019-12-17 | 2020-04-28 | 北京明略软件系统有限公司 | 人员危险度预测方法、装置、电子设备和可读存储介质 |
CN111738835A (zh) * | 2020-06-22 | 2020-10-02 | 中国银行股份有限公司 | 监控方法、装置、设备及存储介质 |
CN113780804A (zh) * | 2021-09-09 | 2021-12-10 | 平安科技(深圳)有限公司 | 基于数据分析的员工行为风险预测方法、装置及存储介质 |
CN115936431A (zh) * | 2022-11-28 | 2023-04-07 | 四川大学华西医院 | 再犯罪风险评估方法、装置、计算机设备及可读存储介质 |
-
2019
- 2019-04-02 CN CN201910263216.XA patent/CN110009224A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110942192A (zh) * | 2019-11-25 | 2020-03-31 | 中国联合网络通信集团有限公司 | 犯罪概率的确定方法及装置 |
CN111080012A (zh) * | 2019-12-17 | 2020-04-28 | 北京明略软件系统有限公司 | 人员危险度预测方法、装置、电子设备和可读存储介质 |
CN111738835A (zh) * | 2020-06-22 | 2020-10-02 | 中国银行股份有限公司 | 监控方法、装置、设备及存储介质 |
CN113780804A (zh) * | 2021-09-09 | 2021-12-10 | 平安科技(深圳)有限公司 | 基于数据分析的员工行为风险预测方法、装置及存储介质 |
CN113780804B (zh) * | 2021-09-09 | 2024-03-12 | 平安科技(深圳)有限公司 | 基于数据分析的员工行为风险预测方法、装置及存储介质 |
CN115936431A (zh) * | 2022-11-28 | 2023-04-07 | 四川大学华西医院 | 再犯罪风险评估方法、装置、计算机设备及可读存储介质 |
CN115936431B (zh) * | 2022-11-28 | 2023-10-20 | 四川大学华西医院 | 再犯罪风险评估方法、装置、计算机设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009224A (zh) | 嫌疑人违规概率预测方法、装置、计算机设备及存储介质 | |
WO2020253358A1 (zh) | 业务数据的风控分析处理方法、装置和计算机设备 | |
Lin et al. | Using machine learning to assist crime prevention | |
CN110276068B (zh) | 法律案情分析方法及装置 | |
CN104794192B (zh) | 基于指数平滑、集成学习模型的多级异常检测方法 | |
CN104182805B (zh) | 基于服刑人员行为特征集成学习模型的危险倾向预测方法 | |
CN107909299A (zh) | 人伤理赔数据风险检测方法和系统 | |
CN104036360B (zh) | 一种基于磁卡考勤行为的用户数据处理系统及处理方法 | |
CN110136842A (zh) | 急性传染病的发病预测方法、装置及计算机可读存储介质 | |
CN107872436A (zh) | 一种账号识别方法、装置及系统 | |
CN106570513A (zh) | 大数据网络系统的故障诊断方法和装置 | |
CN109146662A (zh) | 一种风险控制方法及装置 | |
CN109271808A (zh) | 一种基于数据库敏感发现的数据静态脱敏系统和方法 | |
CN109615280A (zh) | 员工数据处理方法、装置、计算机设备和存储介质 | |
CN110458687A (zh) | 决策自动审批方法、装置及计算机可读存储介质 | |
CN110380897A (zh) | 基于改进bp神经网络的网络安全态势感知模型和方法 | |
CN112132233A (zh) | 一种基于有效影响因子的服刑人员危险行为预测方法及系统 | |
CN109670306A (zh) | 基于人工智能的电力恶意代码检测方法、服务器及系统 | |
WO2020122487A1 (ko) | 기업 부도 예측 시스템 및 이의 동작 방법 | |
CN109886554A (zh) | 违规行为判别方法、装置、计算机设备和存储介质 | |
Chi et al. | A decision support system for detecting serial crimes | |
CN106815200A (zh) | 基于关键词的不良文本检测方法及装置 | |
CN106469181A (zh) | 一种用户行为模式分析方法及装置 | |
CN106952190A (zh) | 虚假房源录入行为识别与预警系统 | |
CN109685670A (zh) | 社保违规检测方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190712 |
|
RJ01 | Rejection of invention patent application after publication |