CN109993365A - 患病概率预测方法、装置、计算机设备及存储介质 - Google Patents
患病概率预测方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN109993365A CN109993365A CN201910263211.7A CN201910263211A CN109993365A CN 109993365 A CN109993365 A CN 109993365A CN 201910263211 A CN201910263211 A CN 201910263211A CN 109993365 A CN109993365 A CN 109993365A
- Authority
- CN
- China
- Prior art keywords
- data
- probability
- suspicion
- label
- illness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 92
- 238000010801 machine learning Methods 0.000 claims abstract description 36
- 238000004590 computer program Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 8
- 238000007619 statistical method Methods 0.000 claims description 8
- 238000013481 data capture Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 15
- 230000000875 corresponding effect Effects 0.000 description 9
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 206010008118 cerebral infarction Diseases 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Public Health (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Educational Administration (AREA)
- Pathology (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及患病概率预测方法、装置、计算机设备及存储介质,该方法包括获取待预测的犯罪嫌疑人数据;将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到患病概率;输出患病概率;其中,预测模型是通过带有标签的犯罪嫌疑人数据训练机器学习模型所得的。本发明通过大量的犯罪嫌疑人数据进行处理后,形成带有标签的犯罪嫌疑人数据,对带有标签的犯罪嫌疑人数据作为样本数据训练xgboost模型,使其能够准确的预测犯罪嫌疑人的患病概率,实现可以预测看守所犯罪嫌疑人的患病概率,并对概率高的看守所犯罪嫌疑人进行提示,降低看守所的风险。
Description
技术领域
本发明涉及风险控制方法,更具体地说是指患病概率预测方法、装置、计算机设备及存储介质。
背景技术
关于在押人员的在押风险研究是当前对于监所风险管理理论的具体应用,该研究为看守所处理相关现象提供了理论指导。导致看守所在押人员的在押风险主要原因有:看守所方面的风险、侦查人员方面的风险、健康方面的风险以及犯罪嫌疑人心理风险等。
传统的方法是靠看守所监管人员通过视频、谈话、人工来对犯人的异常进行侦查后再进行防范,随着社会经济和科技的不断发展,暴力犯罪、团伙犯罪、高科技犯罪不断增多,看守所关押对象日益复杂。犯罪嫌疑人被羁押后,由于人身自由受到限制以及环境与法律的双重压力导致的焦虑、抑等心理变化。大多犯罪嫌疑人会具有一定的社会危险性,有的主观恶意程度和人身危险性都较大。传统的方法不仅效率低且费事费力的问题日益凸显,传统的方法越来越难防范和控制看守所在押人员在押风险,对于看守所犯罪嫌疑人的隐形重大疾病很难及时被察觉,容易导致看守所犯罪嫌疑人犯病时无法及时得到治疗,从而出现风险。
因此,有必要设计一种新的方法,实现可以预测看守所犯罪嫌疑人的患病概率,并对概率高的看守所犯罪嫌疑人进行提示,降低看守所的风险。
发明内容
本发明的目的在于克服现有技术的缺陷,提供患病概率预测方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:患病概率预测方法,包括:
获取待预测的犯罪嫌疑人数据;
将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到患病概率;
输出患病概率;
其中,所述预测模型是通过带有标签的犯罪嫌疑人数据训练机器学习模型所得的。
其进一步技术方案为:所述预测模型是通过带有标签的犯罪嫌疑人数据训练机器学习模型所得的,包括:
获取机器学习模型;
构建损失函数;
获取看守所数据库内的数据,以得到初始数据;
对初始数据进行整理,以得到预训练样本;
对预训练样本进行处理,以得到带有标签的犯罪嫌疑人数据;
利用带有标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签;
将带有标签的犯罪嫌疑人数据以及预测标签输入损失函数,以得到损失值;
判断所述损失值是否符合设定条件;
若是,则输出所述机器学习模型,以形成预测模型;
若否,则调整机器学习模型的参数,并返回所述利用带有标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签。
其进一步技术方案为:所述对初始数据进行整理,以得到预训练样本,包括:
对初始数据按照特征类型分类,以得到预训练样本;其中,所述特征类型包括数值类型以及文本类型。
其进一步技术方案为:所述对预训练样本进行处理,以得到带有标签的犯罪嫌疑人数据,包括:
对预训练样本中的文本类型数据进行特征提取,以得到文本特征;
对文本特征进行统计,以得到统计值;
对预训练样本中的数值类型数据进行缺失值处理,以得到第一数据;
对第一数据进行离群值剔除,以得到第二数据;
对第二数据中的连续型数据和离散型数据进行统计分析,以得到第三数据;
对文本特征、统计值以及第三数据进行合并,以得到训练数据;
对训练数据进行拆分,以得到带标签的犯罪嫌疑人数据。
其进一步技术方案为:所述对训练数据进行拆分,以得到带标签的犯罪嫌疑人数据,包括:
将训练数据拆分为特征数据以及标签信息,以得到带标签的犯罪嫌疑人数据。
其进一步技术方案为:所述输出患病概率之后,包括:
对所述患病概率进行排序,以得到排序结果;
根据排序结果挑取满足要求的犯罪嫌疑人数据,以得到预警对象;
发送预警信息至预警对象。
本发明还提供了患病概率预测装置,包括:
待预测数据获取单元,用于获取待预测的犯罪嫌疑人数据;
预测单元,用于将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到患病概率;
概率输出单元,用于输出患病概率。
其进一步技术方案为:所述装置还包括:
训练单元,用于通过带有标签的犯罪嫌疑人数据训练机器学习模型,以得到预测模型。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过大量的犯罪嫌疑人数据进行处理后,形成带有标签的犯罪嫌疑人数据,对带有标签的犯罪嫌疑人数据作为样本数据训练xgboost模型,使其能够准确的预测犯罪嫌疑人的患病概率,实现可以预测看守所犯罪嫌疑人的患病概率,并对概率高的看守所犯罪嫌疑人进行提示,降低看守所的风险。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的患病概率预测方法的应用场景示意图;
图2为本发明实施例提供的患病概率预测方法的流程示意图;
图3为本发明实施例提供的患病概率预测方法的子流程示意图;
图4为本发明实施例提供的患病概率预测方法的子流程示意图;
图5为本发明实施例提供的预测模型预测结果的示意图;
图6为本发明另一实施例提供的患病概率预测方法的流程示意图;
图7为本发明实施例提供的患病概率预测装置的示意性框图;
图8为本发明另一实施例提供的患病概率预测装置的示意性框图;
图9为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的患病概率预测方法的应用场景示意图。图2为本发明实施例提供的患病概率预测方法的示意性流程图。该患病概率预测方法应用于服务器中,服务器利用数据库内的犯罪嫌疑人数据训练预测模型,利用预测模型对待预测的犯罪嫌疑人数据进行患病概率的预测,并将概率输出至终端,以便于对概率高者进行预警。
图2是本发明实施例提供的患病概率预测方法的流程示意图。如图2所示,该方法包括以下步骤S110至S130。
S110、获取待预测的犯罪嫌疑人数据。
在本实施例中,待预测的犯罪嫌疑人数据是指看守所内的犯罪嫌疑人所登记的数据,可以从看守所的数据内获取,也可以通过终端实时输入。
S120、将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到患病概率。
在本实施例中,患病概率是指犯罪嫌疑人患重大疾病的概率。
上述的预测模型是通过带有标签的犯罪嫌疑人数据训练机器学习模型所得的。
在一实施例中,请参阅图3,预测模型是通过带有标签的犯罪嫌疑人数据训练机器学习模型所得的,可包括以下步骤S12a~S12j。
S12a、获取机器学习模型。
在本实施例中,获取的是xgboost模型。xgboost模型是一个监督模型,xgboost对应的模型是一堆CART树,利用xgboost模型即是将CART树的预测值综合作为该模型的输出值。
S12b、构建损失函数。
在机器学习模型进行训练时,需要构建一损失函数进行计算损失值,以获取预测结果与实际结果的差距,当损失函数的输出值越小,则该差距越小,对应的机器学习模型越贴近于符合要求的预测模型。
S12c、获取看守所数据库内的数据,以得到初始数据。
在本实施例中,初始数据是指来自与看守所数据内的相关犯罪嫌疑人的数据。
根据数据库中表的相关特征提取相关犯罪嫌疑人的数据,形成初始数据,该初始数据一般包括数值类数据以及文本类数据,数值类数据包括年龄、身高、体重、鞋号,刑期等,文本类数据包括教育谈话记录细节,医疗卫生管理记录,医疗巡视记录等。
S12d、对初始数据进行整理,以得到预训练样本。
在本实施例中,预训练样本是指已分类的数值类数据以及文本类数据。
具体是对初始数据按照特征类型分类,以得到预训练样本;其中,所述特征类型包括数值类型以及文本类型。
S12e、对预训练样本进行处理,以得到带有标签的犯罪嫌疑人数据。
在本实施例中,带有标签的犯罪嫌疑人数据是指带有患病概率标签的犯罪嫌疑人数据,即包括犯罪嫌疑人的数值类数据以及文本类数据,还包括该犯罪嫌疑人的患病概率,将患病概率作为标签标记在数据内。
在一实施例中,请参阅图4,上述的步骤S12e可包括步骤S12e1~S12e7。
S12e1、对预训练样本中的文本类型数据进行特征提取,以得到文本特征。
在本实施例中,文本特征是指与疾病相关的文字,比如脑梗、呼吸不顺、咽痛、咳痰等词语,可采用自然语言分析技术进行特征提取,具体是进行词语分析等。
S12e2、对文本特征进行统计,以得到统计值。
对提取的文本特征进行统计,统计文本特征出现的次数。该统计值可以用于衡量患病概率。
S12e3、对预训练样本中的数值类型数据进行缺失值处理,以得到第一数据。
在本实施例中,第一数据是指对存在缺失值的变量进行对应设定以及对不存在缺失值的变量进行对应设定的数值类型数据。具体地,如果某变量缺失值过多,就将缺失值取0,其余取1,如果缺失值小于所有变量数值的二分之一,缺失值取该变量没有出现过的数字。
S12e4、对第一数据进行离群值剔除,以得到第二数据。
在本实施例中,第二数据是指剔除离群值的第一数据,比如剔除鞋号大于50码的犯罪嫌疑人数据等所剩下的数据。
S12e5、对第二数据中的连续型数据和离散型数据进行统计分析,以得到第三数据。
在本实施例中,第三数据是指第二数据中的连续型数据和离散型数据的统计值。
具体地,分别对连续型数据和离散类数据进行统计分析处理。例如对连续型数据提取其方差、均值作为特征,对于离散型数据进行分箱处理。
S12e6、对文本特征、统计值以及第三数据进行合并,以得到训练数据。
对处理好后的数据进行合并准备用xgboost模型进行训练。
S12e7、对训练数据进行拆分,以得到带标签的犯罪嫌疑人数据。
将训练数据拆分为特征数据以及标签信息,以得到带标签的犯罪嫌疑人数据
S12f、利用带有标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签;
S12g、将带有标签的犯罪嫌疑人数据以及预测标签输入损失函数,以得到损失值;
S12h、判断所述损失值是否符合设定条件;
S12i、若是,则输出所述机器学习模型,以形成预测模型;
S12j、若否,则调整机器学习模型的参数,并返回所述步骤S12f。
将数据拆分分为特征部分和标签部分,xgboost模型会初始给一组参数来根据数据预测标签,之后与真实标签对比算出损失值,根据损失值再更新参数,不断循环往复这个过程,直到损失值为最小。
对于训练过程而言,可以进行实验,实验一是在历史数据中验证模型准确性:
从数据库中提取出2010-2017年的数据,其中百分之70用于模型的训练,百分之30用于验证模型,其中总体数据为12万。具体验证步骤如下:
从数据库中抽取12万犯罪嫌疑人的数据;
对整体数据做特征工程处理,含数值类型数据,文本类型数据;
数据处理之后,将70%数据用作训练,30%数据用作验证。其中训练集包含犯罪嫌疑人特征数据,以及其对应的标签。验证集与训练集相同包含犯罪嫌疑人特征数据以及其对应的标签;
用70%的数据训练xgboost模型;
根据验证集中犯罪嫌疑人特征数据预测出预测的标签;
将预测的标签与真实验证集标签对比,正确率达到95%左右。
请参阅图5,可以看到训练集的准确率大约为96.35%,测试集的准确率大约为95.99%。
实验二是在近期数据中验证模型的准确性:
从数据库中提取出2010-2017年的数据作为训练数据,同时抽取2018年犯罪嫌疑人数据作为验证数据。具体验证步骤如下:
从数据库中抽取12万犯罪嫌疑人的数据。以及2018年的3000数据;
对2010-2017年与2018年的数据做特征工程处理,含数值类型数据,文本类型数据;
数据处理之后,将2010-2017年数据的用作训练,2018年的数据用作验证;其中训练集包含犯罪嫌疑人特征数据,以及其对应的标签。验证集与训练集相同包含犯罪嫌疑人特征数据以及其对应的标签。
用2010-2017年数据训练xgboost模型;
根据2018年的数据中犯罪嫌疑人特征数据预测出预测的标签;
将预测的标签与真实验证集标签对比,正确率达到93%左右。
通过合并后的数据根据xgboost模型中已经训练好的参数预测犯罪嫌疑人患疾病概率。
S130、输出患病概率。
将犯罪嫌疑人的患病概率输出,以便于及时进行治疗,降低看守所的风险。
上述的患病概率预测方法,通过大量的犯罪嫌疑人数据进行处理后,形成带有标签的犯罪嫌疑人数据,对带有标签的犯罪嫌疑人数据作为样本数据训练xgboost模型,使其能够准确的预测犯罪嫌疑人的患病概率,实现可以预测看守所犯罪嫌疑人的患病概率,并对概率高的看守所犯罪嫌疑人进行提示,降低看守所的风险。
图6是本发明另一实施例提供的一种患病概率预测方法的流程示意图。如图6所示,本实施例的患病概率预测方法包括步骤S210-S260。其中步骤S210-S230与上述实施例中的步骤S110-S130类似,在此不再赘述。下面详细说明本实施例中所增加的步骤S240-S260。
S240、对所述患病概率进行排序,以得到排序结果;
S250、根据排序结果挑取满足要求的犯罪嫌疑人数据,以得到预警对象;
S260、发送预警信息至预警对象。
对所获取的患病概率进行排序,对高患病概率的犯罪嫌疑人进行预警,以便于看守所及时监控该犯罪嫌疑人的行为,避免出现风险。
图7是本发明实施例提供的一种患病概率预测装置300的示意性框图。如图7所示,对应于以上患病概率预测方法,本发明还提供一种患病概率预测装置300。该患病概率预测装置300包括用于执行上述患病概率预测方法的单元,该装置可以被配置于服务器中。
具体地,请参阅图7,该患病概率预测装置300包括:
待预测数据获取单元301,用于获取待预测的犯罪嫌疑人数据;
预测单元302,用于将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到患病概率;
概率输出单元303,用于输出患病概率。
在一实施例中,所述装置还包括:
训练单元,用于通过带有标签的犯罪嫌疑人数据训练机器学习模型,以得到预测模型。
在一实施例中,所述训练单元包括:
模型获取子单元,用于获取机器学习模型;
函数构建子单元,用于构建损失函数;
初始数据获取子单元,用于获取看守所数据库内的数据,以得到初始数据;
整理子单元,用于对初始数据进行整理,以得到预训练样本;
处理子单元,用于对预训练样本进行处理,以得到带有标签的犯罪嫌疑人数据;
预测标签获取子单元,用于利用带有标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签;
损失值获取子单元,用于将带有标签的犯罪嫌疑人数据以及预测标签输入损失函数,以得到损失值;
判断子单元,用于判断所述损失值是否符合设定条件;
模型输出子单元,用于若是,则输出所述机器学习模型,以形成预测模型;
参数调整子单元,用于若否,则调整机器学习模型的参数。
在一实施例中,所述处理子单元包括:
特征提取模块,用于对预训练样本中的文本类型数据进行特征提取,以得到文本特征;
统计模块,用于对文本特征进行统计,以得到统计值;
缺失值处理模块,用于对预训练样本中的数值类型数据进行缺失值处理,以得到第一数据;
剔除模块,用于对第一数据进行离群值剔除,以得到第二数据;
统计分析模块,用于对第二数据中的连续型数据和离散型数据进行统计分析,以得到第三数据;
合并模块,用于对文本特征、统计值以及第三数据进行合并,以得到训练数据;
拆分模块,用于对训练数据进行拆分,以得到带标签的犯罪嫌疑人数据。
图8是本发明另一实施例提供的一种患病概率预测装置300的示意性框图。如图8所示,本实施例的患病概率预测装置300是上述实施例的基础上增加了排序单元304、挑取单元305以及发送单元306。
排序单元304,用于对所述患病概率进行排序,以得到排序结果;
挑取单元305,用于根据排序结果挑取满足要求的犯罪嫌疑人数据,以得到预警对象;
发送单元306,用于发送预警信息至预警对象。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述患病概率预测装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述患病概率预测装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,图9是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500是服务器。
参阅图9,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种患病概率预测方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种患病概率预测方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取待预测的犯罪嫌疑人数据;
将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到患病概率;
输出患病概率;
其中,所述预测模型是通过带有标签的犯罪嫌疑人数据训练机器学习模型所得的。
在一实施例中,处理器502在实现所述预测模型是通过带有标签的犯罪嫌疑人数据训练机器学习模型所得的步骤时,具体实现如下步骤:
获取机器学习模型;
构建损失函数;
获取看守所数据库内的数据,以得到初始数据;
对初始数据进行整理,以得到预训练样本;
对预训练样本进行处理,以得到带有标签的犯罪嫌疑人数据;
利用带有标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签;
将带有标签的犯罪嫌疑人数据以及预测标签输入损失函数,以得到损失值;
判断所述损失值是否符合设定条件;
若是,则输出所述机器学习模型,以形成预测模型;
若否,则调整机器学习模型的参数,并返回所述利用带有标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签。
在一实施例中,处理器502在实现所述对初始数据进行整理,以得到预训练样本步骤时,具体实现如下步骤:
对初始数据按照特征类型分类,以得到预训练样本;其中,所述特征类型包括数值类型以及文本类型。
在一实施例中,处理器502在实现所述对预训练样本进行处理,以得到带有标签的犯罪嫌疑人数据步骤时,具体实现如下步骤:
对预训练样本中的文本类型数据进行特征提取,以得到文本特征;
对文本特征进行统计,以得到统计值;
对预训练样本中的数值类型数据进行缺失值处理,以得到第一数据;
对第一数据进行离群值剔除,以得到第二数据;
对第二数据中的连续型数据和离散型数据进行统计分析,以得到第三数据;
对文本特征、统计值以及第三数据进行合并,以得到训练数据;
对训练数据进行拆分,以得到带标签的犯罪嫌疑人数据。
在一实施例中,处理器502在实现所述对训练数据进行拆分,以得到带标签的犯罪嫌疑人数据步骤时,具体实现如下步骤:
将训练数据拆分为特征数据以及标签信息,以得到带标签的犯罪嫌疑人数据。
在一实施例中,处理器502在实现所述输出患病概率步骤之后,还实现如下步骤:
对所述患病概率进行排序,以得到排序结果;
根据排序结果挑取满足要求的犯罪嫌疑人数据,以得到预警对象;
发送预警信息至预警对象。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取待预测的犯罪嫌疑人数据;
将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到患病概率;
输出患病概率;
其中,所述预测模型是通过带有标签的犯罪嫌疑人数据训练机器学习模型所得的。
在一实施例中,所述处理器在执行所述计算机程序而实现所述预测模型是通过带有标签的犯罪嫌疑人数据训练机器学习模型所得的步骤时,具体实现如下步骤:
获取机器学习模型;
构建损失函数;
获取看守所数据库内的数据,以得到初始数据;
对初始数据进行整理,以得到预训练样本;
对预训练样本进行处理,以得到带有标签的犯罪嫌疑人数据;
利用带有标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签;
将带有标签的犯罪嫌疑人数据以及预测标签输入损失函数,以得到损失值;
判断所述损失值是否符合设定条件;
若是,则输出所述机器学习模型,以形成预测模型;
若否,则调整机器学习模型的参数,并返回所述利用带有标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对初始数据进行整理,以得到预训练样本步骤时,具体实现如下步骤:
对初始数据按照特征类型分类,以得到预训练样本;其中,所述特征类型包括数值类型以及文本类型。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对预训练样本进行处理,以得到带有标签的犯罪嫌疑人数据步骤时,具体实现如下步骤:
对预训练样本中的文本类型数据进行特征提取,以得到文本特征;
对文本特征进行统计,以得到统计值;
对预训练样本中的数值类型数据进行缺失值处理,以得到第一数据;
对第一数据进行离群值剔除,以得到第二数据;
对第二数据中的连续型数据和离散型数据进行统计分析,以得到第三数据;
对文本特征、统计值以及第三数据进行合并,以得到训练数据;
对训练数据进行拆分,以得到带标签的犯罪嫌疑人数据。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对训练数据进行拆分,以得到带标签的犯罪嫌疑人数据步骤时,具体实现如下步骤:
将训练数据拆分为特征数据以及标签信息,以得到带标签的犯罪嫌疑人数据。
在一实施例中,所述处理器在执行所述计算机程序而实现所述输出患病概率步骤之后,还实现如下步骤:
对所述患病概率进行排序,以得到排序结果;
根据排序结果挑取满足要求的犯罪嫌疑人数据,以得到预警对象;
发送预警信息至预警对象。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.患病概率预测方法,其特征在于,包括:
获取待预测的犯罪嫌疑人数据;
将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到患病概率;
输出患病概率;
其中,所述预测模型是通过带有标签的犯罪嫌疑人数据训练机器学习模型所得的。
2.根据权利要求1所述的患病概率预测方法,其特征在于,所述预测模型是通过带有标签的犯罪嫌疑人数据训练机器学习模型所得的,包括:
获取机器学习模型;
构建损失函数;
获取看守所数据库内的数据,以得到初始数据;
对初始数据进行整理,以得到预训练样本;
对预训练样本进行处理,以得到带有标签的犯罪嫌疑人数据;
利用带有标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签;
将带有标签的犯罪嫌疑人数据以及预测标签输入损失函数,以得到损失值;
判断所述损失值是否符合设定条件;
若是,则输出所述机器学习模型,以形成预测模型;
若否,则调整机器学习模型的参数,并返回所述利用带有标签的犯罪嫌疑人数据输入机器学习模型内,以得到预测标签。
3.根据权利要求2所述的患病概率预测方法,其特征在于,所述对初始数据进行整理,以得到预训练样本,包括:
对初始数据按照特征类型分类,以得到预训练样本;其中,所述特征类型包括数值类型以及文本类型。
4.根据权利要求2所述的患病概率预测方法,其特征在于,所述对预训练样本进行处理,以得到带有标签的犯罪嫌疑人数据,包括:
对预训练样本中的文本类型数据进行特征提取,以得到文本特征;
对文本特征进行统计,以得到统计值;
对预训练样本中的数值类型数据进行缺失值处理,以得到第一数据;
对第一数据进行离群值剔除,以得到第二数据;
对第二数据中的连续型数据和离散型数据进行统计分析,以得到第三数据;
对文本特征、统计值以及第三数据进行合并,以得到训练数据;
对训练数据进行拆分,以得到带标签的犯罪嫌疑人数据。
5.根据权利要求2所述的患病概率预测方法,其特征在于,所述对训练数据进行拆分,以得到带标签的犯罪嫌疑人数据,包括:
将训练数据拆分为特征数据以及标签信息,以得到带标签的犯罪嫌疑人数据。
6.根据权利要求1至5任一项所述的患病概率预测方法,其特征在于,所述输出患病概率之后,包括:
对所述患病概率进行排序,以得到排序结果;
根据排序结果挑取满足要求的犯罪嫌疑人数据,以得到预警对象;
发送预警信息至预警对象。
7.患病概率预测装置,其特征在于,包括:
待预测数据获取单元,用于获取待预测的犯罪嫌疑人数据;
预测单元,用于将待预测的犯罪嫌疑人数据输入预测模型内进行概率预测,以得到患病概率;
概率输出单元,用于输出患病概率。
8.根据权利要求7所述的患病概率预测装置,其特征在于,所述装置还包括:
训练单元,用于通过带有标签的犯罪嫌疑人数据训练机器学习模型,以得到预测模型。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910263211.7A CN109993365A (zh) | 2019-04-02 | 2019-04-02 | 患病概率预测方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910263211.7A CN109993365A (zh) | 2019-04-02 | 2019-04-02 | 患病概率预测方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109993365A true CN109993365A (zh) | 2019-07-09 |
Family
ID=67132185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910263211.7A Pending CN109993365A (zh) | 2019-04-02 | 2019-04-02 | 患病概率预测方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109993365A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852517A (zh) * | 2019-11-15 | 2020-02-28 | 北京明略软件系统有限公司 | 非正常行为预警方法、装置、数据处理设备及存储介质 |
CN111754031A (zh) * | 2020-06-11 | 2020-10-09 | 苏州量盾信息科技有限公司 | 一种基于机器学习技术的犯罪嫌疑人预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066791A (zh) * | 2016-12-19 | 2017-08-18 | 银江股份有限公司 | 一种基于病人检验结果的辅助疾病诊断方法 |
CN109243618A (zh) * | 2018-09-12 | 2019-01-18 | 腾讯科技(深圳)有限公司 | 医学模型的构建方法、疾病标签构建方法及智能设备 |
-
2019
- 2019-04-02 CN CN201910263211.7A patent/CN109993365A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066791A (zh) * | 2016-12-19 | 2017-08-18 | 银江股份有限公司 | 一种基于病人检验结果的辅助疾病诊断方法 |
CN109243618A (zh) * | 2018-09-12 | 2019-01-18 | 腾讯科技(深圳)有限公司 | 医学模型的构建方法、疾病标签构建方法及智能设备 |
Non-Patent Citations (1)
Title |
---|
刘玉尧: ""基于GradientBoosting算法的海量健康数据挖掘研究与应用"", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852517A (zh) * | 2019-11-15 | 2020-02-28 | 北京明略软件系统有限公司 | 非正常行为预警方法、装置、数据处理设备及存储介质 |
CN110852517B (zh) * | 2019-11-15 | 2023-08-25 | 北京明智和术科技有限公司 | 非正常行为预警方法、装置、数据处理设备及存储介质 |
CN111754031A (zh) * | 2020-06-11 | 2020-10-09 | 苏州量盾信息科技有限公司 | 一种基于机器学习技术的犯罪嫌疑人预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Greco et al. | An edge-stream computing infrastructure for real-time analysis of wearable sensors data | |
CN108717510A (zh) | 一种通过聚类分析文件异常操作行为的方法、系统及终端 | |
CN107341338B (zh) | 药品不良反应率处理方法、装置、计算机设备和存储介质 | |
CN111899878A (zh) | 老年人健康检测系统、方法、计算机设备及可读存储介质 | |
CN110136842A (zh) | 急性传染病的发病预测方法、装置及计算机可读存储介质 | |
CN107608862A (zh) | 监控告警方法、监控告警装置及计算机可读存储介质 | |
Chen et al. | Inferring clinical workflow efficiency via electronic medical record utilization | |
CN113657548A (zh) | 医保异常检测方法、装置、计算机设备及存储介质 | |
CN106777909A (zh) | 妊娠期健康风险评估系统 | |
CN107180283A (zh) | 一种基于最优特征组合的再住院行为预测系统及方法 | |
CN109409672A (zh) | 一种汽车维修技师分类评级建模方法及装置 | |
CN109993365A (zh) | 患病概率预测方法、装置、计算机设备及存储介质 | |
CN109635113A (zh) | 异常参保人购药数据检测方法、装置、设备及存储介质 | |
CN115760210A (zh) | 一种基于ipso-lstm模型的医药销售预测系统及方法 | |
CN107729337A (zh) | 事件的监测方法和装置 | |
CN109559206A (zh) | 一种区域企业诚信评价方法、装置及终端设备 | |
CN103761449A (zh) | 一种基于ahp的量化罪犯倾向性及危险度方法和系统 | |
US20180285758A1 (en) | Methods for creating and analyzing dynamic trail networks | |
CN109636648A (zh) | 社保违规检测方法、装置、设备及计算机存储介质 | |
CN109035094A (zh) | 基于人工智能的教学方法、装置及终端设备 | |
Luo et al. | Short-term forecasting of hospital discharge volume based on time series analysis | |
CN107679174A (zh) | 知识组织系统的构建方法、装置及服务器 | |
CN113824580A (zh) | 一种网络指标预警方法及系统 | |
Santos et al. | Enabling ubiquitous data mining in intensive care-features selection and data pre-processing | |
CN114927230A (zh) | 基于机器学习的重症心衰患者预后决策支持系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190709 |