CN115222166A - 服刑人员住院风险预测方法、装置、电子设备及存储介质 - Google Patents
服刑人员住院风险预测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115222166A CN115222166A CN202211147195.3A CN202211147195A CN115222166A CN 115222166 A CN115222166 A CN 115222166A CN 202211147195 A CN202211147195 A CN 202211147195A CN 115222166 A CN115222166 A CN 115222166A
- Authority
- CN
- China
- Prior art keywords
- predicted
- data
- hospitalization
- person
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013058 risk prediction model Methods 0.000 claims abstract description 50
- 238000007637 random forest analysis Methods 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 201000010099 disease Diseases 0.000 claims description 25
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 25
- 238000003745 diagnosis Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 239000012535 impurity Substances 0.000 claims description 5
- 238000003066 decision tree Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000007812 deficiency Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 208000029411 Adnexal disease Diseases 0.000 description 1
- 206010008805 Chromosomal abnormalities Diseases 0.000 description 1
- 208000031404 Chromosome Aberrations Diseases 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 208000017701 Endocrine disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000030852 Parasitic disease Diseases 0.000 description 1
- 208000019498 Skin and subcutaneous tissue disease Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 208000027115 auditory system disease Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000002808 connective tissue Anatomy 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000002249 digestive system Anatomy 0.000 description 1
- 230000002124 endocrine Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003394 haemopoietic effect Effects 0.000 description 1
- 230000008076 immune mechanism Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036244 malformation Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 210000002346 musculoskeletal system Anatomy 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 208000030212 nutrition disease Diseases 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000032696 parturition Effects 0.000 description 1
- 230000009984 peri-natal effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 231100000572 poisoning Toxicity 0.000 description 1
- 230000000607 poisoning effect Effects 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 208000023504 respiratory system disease Diseases 0.000 description 1
- 208000017520 skin disease Diseases 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 210000002229 urogenital system Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Epidemiology (AREA)
- Technology Law (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Educational Administration (AREA)
- Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供了服刑人员住院风险预测方法、装置、电子设备及存储介质,属于数据处理技术领域。通过对数据进行插补预处理和关联预处理,得到待预测服刑人员的基础信息样本和就诊信息样本,根据编号表对基础信息样本和就诊信息样本进行关联,得到训练样本数据;基于随机森林算法训练住院风险预测模型;将训练样本数据输入住院风险预测模型中,通过住院风险预测模型计算得到待预测服刑人员的住院风险数据,本发明通过对服刑人员的基础信息和就诊信息进行相应的处理,提高了数据完成度,通过住院风险预测模型对服刑人员的住院风险进行预测,有助于降低监狱的财政支出,提高监狱的管理效率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种服刑人员住院风险预测方法、装置、电子设备及存储介质。
背景技术
随着医疗信息化的不断发展与完善,医疗已经迈入了信息化和数字化的时代。大量服刑人员在入狱前已经患有一些基础疾病,部分服刑人员在入狱后,受心理、躯体以及监狱环境适应等各方面原因的影响,也会出现新发的疾病并因此住院,造成监狱管理人员的不便,以及对监狱的财政支出也造成了不小的影响。因此,亟需提供一种对服刑人员住院风险进行准确预测的方案。
发明内容
为了解决上述技术问题,本申请实施例提供了一种服刑人员住院风险预测方法、装置、电子设备及可读存储介质。
第一方面,本申请实施例提供了一种服刑人员住院风险预测方法,所述方法包括:
获取服刑人员的基础信息、就诊信息和编号表;
对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本;
对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本;
根据所述编号表对所述待预测服刑人员的基础信息样本和所述待预测服刑人员的就诊信息样本进行关联,得到所述待预测服刑人员的训练样本数据;
基于随机森林算法训练住院风险预测模型;
将所述训练样本数据输入所述住院风险预测模型中,通过所述住院风险预测模型计算得到所述待预测服刑人员的住院风险数据。
根据本申请公开的一种具体实施方式,所述对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本,包括:
根据所述服刑人员的基础信息计算基础数据均值;
根据所述基础数据均值对所述服刑人员的基础信息进行插补得到所述待预测服刑人员的完整基础数据;
剔除所述待预测服刑人员的完整基础数据中存在的异常值,得到所述待预测服刑人员的有效基础数据;
对所述待预测服刑人员的有效基础数据进行虚拟变量处理,得到所述待预测服刑人员的基础信息样本。
根据本申请公开的一种具体实施方式,所述对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本,包括:
获取所述就诊信息的关键字段和疾病编码表,根据所述关键字段关联所述就诊信息和所述疾病编码表;
剔除所述就诊信息中存在的缺失值,得到所述待预测服刑人员的有效就诊信息;
对所述待预测服刑人员的有效就诊信息进行虚拟变量处理,得到所述待预测服刑人员的就诊信息样本。
根据本申请公开的一种具体实施方式,所述通过所述住院风险预测模型计算得到所述服刑人员的住院风险数据,包括:
获取所述住院风险预测模型中的各叶节点的预测数值;
判断所述各叶节点的预测数值是否大于或等于预设住院阈值;
统计所述各叶节点中预测数值大于或等于预设住院阈值的目标叶节点的数量;
根据所述目标叶节点的数量与所述住院风险预测模型中的叶节点总数的比率确定所述待预测服刑人员的住院风险数据。
根据本申请公开的一种具体实施方式,所述基于随机森林算法训练住院风险预测模型,包括:
根据所述训练样本数据建立数据集;
计算所述数据集的基尼不纯度;
基于所述基尼不纯度判断所述数据集的有序程度;
计算所述数据集的分叉深度;
在所述分叉深度达到预设参数后停止对所述数据集分叉,得到所述住院风险预测模型。
根据本申请公开的一种具体实施方式,所述根据所述训练样本数据建立数据集,包括:
基于自助法从所述训练样本数据中抽取n个数据样本;
设置每个所述数据样本的特征数为M,指定一个小于M的常数m,随机从M个特征中选取m个特征,得到样本数为N、特征数为m的数据集。
根据本申请公开的一种具体实施方式,所述计算所述数据集的基尼不纯度,包括:
根据以下公式计算所述基尼不纯度:
其中,C为数据集中的分类数,p(i)为数据点是第i个分类的概率。
第二方面,本申请实施例提供了一种服刑人员住院风险预测装置,所述服刑人员住院风险预测装置包括:
获取模块,用于获取服刑人员的基础信息、就诊信息和编号表;
处理模块,用于对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本;对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本;
关联模块,用于根据所述编号表对所述待预测服刑人员的基础信息样本和所述待预测服刑人员的就诊信息样本进行关联,得到所述待预测服刑人员的训练样本数据;
训练模块,用于基于随机森林算法训练住院风险预测模型;
预测模块,用于将所述训练样本数据输入中所述住院风险预测模型中,通过所述住院风险预测模型计算得到所述待预测服刑人员的住院风险数据。
第三方面,本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器运行时执行第一方面提供的服刑人员住院风险预测方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面提供的服刑人员住院风险预测方法。
上述本申请提供的一种服刑人员住院风险预测方法,通过获取服刑人员的基础信息、就诊信息和编号表;对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本;对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本;根据所述编号表对所述待预测服刑人员的基础信息样本和所述待预测服刑人员的就诊信息样本进行关联,得到所述待预测服刑人员的训练样本数据;基于随机森林算法训练住院风险预测模型;将所述训练样本数据输入中所述住院风险预测模型中,通过所述住院风险预测模型计算得到所述待预测服刑人员的住院风险数据,通过对服刑人员的基础信息和就诊信息进行相应的处理,提高了数据完成度,通过住院风险预测模型对服刑人员的住院风险进行预测,有助于降低监狱的财政支出,提高监狱的管理效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对本申请保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1为本申请实施例提供的一种服刑人员住院风险预测方法的流程示意图;
图2示出了本申请实施例提供的一种服刑人员住院风险预测装置的结构示意图;
图3示出了本申请实施例提供的一种电子设备。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在下文中,可在本申请的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本申请的各种实施例中被清楚地限定。
实施例1
本公开实施例提供了一种服刑人员住院风险预测方法。
具体的,参见图1,一种服刑人员住院风险预测方法包括:
步骤S101,获取服刑人员的基础信息、就诊信息和编号表;
具体地,服刑人员的身心健康状况会影响监狱对服刑人员的管理以及卫生保健支出,在监狱医疗方面,通常实行总额控制的公费医疗,虽然保障了服刑人员的医疗权,但也极大增加了监狱以及整个社会的医疗负担。
具体地,将监狱系统中有犯罪记录,并存储有相关基础信息的人员定义为服刑人员。可以从医保或医院等医疗系统中获取就诊信息,从服刑人员所在的监狱系统中获取基础信息。其中,所述基础信息包括服刑人员的人口学信息、心理评估信息、基本躯体信息和犯罪相关信息等,就诊信息包括服刑人员曾确诊的疾病。
步骤S102,对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本;
进一步地,将需要预测的服刑人员定义为待预测服刑人员。由于数据缺失会对模型的训练产生以下影响:第一,会丢失大量的有用信息;第二,数据中的不确定性更加显著,而其中蕴含的确定性成分更难把握,难以实现对大量数据的特征的有效挖掘;第三,包含空值的数据会使得数据挖掘过程陷入混乱,导致不可靠的输出。
具体实施时,所述对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本,包括:
根据所述服刑人员的基础信息计算基础数据均值;
根据所述基础数据均值对所述服刑人员的基础信息进行插补得到所述待预测服刑人员的完整基础数据;
剔除所述待预测服刑人员的完整基础数据中存在的异常值,得到所述待预测服刑人员的有效基础数据;
对所述待预测服刑人员的有效基础数据进行虚拟变量处理,得到所述待预测服刑人员的基础信息样本。
具体地,根据服刑人员的各个基础信息的字段数据计算各个基础信息的字段数据的数据均值,即可根据所述数据均值对服刑人员的各个基础信息的字段数据进行插补。将待服刑人员的完整基础数据中缺失的数据称为异常值,将其删除得到待预测服刑人员的有效基础数据。使用dummyVars函数对所述有效基础数据进行虚拟变量处理。
步骤S103,对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本;
在一实施方式中,所述对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本,包括:
获取所述就诊信息的关键字段和疾病编码表,根据所述关键字段关联所述就诊信息和所述疾病编码表;
剔除所述就诊信息中存在的缺失值,得到所述待预测服刑人员的有效就诊信息;
对所述待预测服刑人员的有效就诊信息进行虚拟变量处理,得到所述待预测服刑人员的就诊信息样本。
进一步地,所述就诊信息包括多种疾病类型,将多种疾病类型根据疾病编码表中的疾病类型进行分类归纳,将服刑人员就诊信息中为确诊的疾病类型称为缺失值,将就诊信息关联疾病编码表并剔除缺失值,得到待预测服刑人员的有效就诊信息,可以有效减少就诊信息样本的不均衡程度。
表1疾病编码表
疾病编码 | 疾病名 |
A 00-A99 ; B 00-B99 | 某些传染病和寄生虫病 |
C 00-C99 ; D 00-D48 | 肿瘤 |
D 50-D99 | 血液和造血器官疾病以及某些涉及免疫机制的疾病 |
E 00-E99 | 内分泌、营养和代谢疾病 |
F 00-F99 | 精神和行为障碍 |
G 00-G99 | 神经系统疾病 |
H 00-H59 | 眼及眼附件疾病 |
H 60-H99 | 耳和乳突疾病 |
I 00-I99 | 循环系统疾病 |
J 00-J99 | 呼吸系统疾病 |
K 00-K99 | 消化系统疾病 |
L 00-L08 | 皮肤和皮下组织疾病 |
M 00-M99 | 肌肉骨骼系统和结缔组织疾病 |
N 00-N99 | 泌尿生殖系统疾病 |
O 00-O99 | 怀孕、分娩和产褥期 |
P 00-P99 | 源自围产期的某些情况 |
Q 00-Q99 | 先天性畸形、畸形和染色体异常 |
R 00-R99 | 其他未分类的症状、体征和异常临床和实验室结果 |
S 00-S99 ; T 00-T99 | 外部原因造成的伤害、中毒和某些其他后果 |
V 01-V99 ; W 00-W99 ; X 00-X99 ; Y 00-Y99 | 发病率和死亡率的外部原因 |
Z 00-Z99 | 影响健康状况和接触卫生服务的因素 |
U 00-U99 | 特殊用途代码 |
步骤S104,根据所述编号表对所述待预测服刑人员的基础信息样本和所述待预测服刑人员的就诊信息样本进行关联,得到所述待预测服刑人员的训练样本数据;
具体地,监狱系统与医疗系统中对于同一名服刑人员的编号方式不同,因此,通常通过一张数据表记录服刑人员在监狱系统与医疗系统中的编号。将所述数据表称为编号表。
步骤S105,基于随机森林算法训练住院风险预测模型;
具体地,随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支,集成学习(Ensemble Learning)方法。
在一实施方式中,所述基于随机森林算法训练住院风险预测模型,包括:
根据所述训练样本数据建立数据集;
计算所述数据集的基尼不纯度;
基于所述基尼不纯度判断所述数据集的有序程度;
计算所述数据集的分叉深度;
在所述分叉深度达到预设参数后停止对所述训练集分叉,得到所述住院风险预测模型。
具体地,基尼不纯度是指将来自集合中的某种结果随机应用在集合中,某一数据项的预期误差率。是在进行决策树编程的时候,对于混杂程度的预测中的一种度量方式。
在一实施方式中,分叉深度的参数,以网格搜索的方式进行参数调优,所述参数包括:单株决策树使用特征的最大数量、决策树的最大深度、随机森林中决策树的数量。若该节点的样本数少于该分叉深度的参数,则停止对所述训练集分叉。
进一步地,通过上述基尼不纯度判断数据集的有序程度,有序程度越高,所述住院风险预测模型的预测效果越好。
步骤S106,将所述训练样本数据输入随机森林预测模型中所述住院风险预测模型中,通过所述住院风险预测模型计算得到所述待预测服刑人员的住院风险数据。
具体实施时,所述通过所述住院风险预测模型计算得到所述服刑人员的住院风险数据,包括:
获取所述住院风险预测模型中的各叶节点的预测数值;
判断所述各叶节点的预测数值是否大于或等于预设住院阈值;
统计所述各叶节点中预测数值大于或等于预设住院阈值的目标叶节点的数量;
根据所述目标叶节点的数量与所述住院风险预测模型中的叶节点总数的比率确定所述待预测服刑人员的住院风险数据。
具体地,住院风险预测模型对训练样本数据进行预测,基于随机森林算法会产生多个叶节点,每个叶节点对应相应的预测数值,若叶节点中的预测数值大于或等于预设住院阈值,则确定该待预测服刑人员需要住院,若叶节点中的预测数值小于预设住院阈值,则确定该待预测服刑人员不需要住院,将预测数值大于或等于预设住院阈值的叶节点称为目标叶节点。将住院风险预测模型中的目标叶节点数量与叶节点总数的比率确定为待预测服刑人员的住院风险。
具体实施时,所述根据所述训练样本数据建立数据集,包括:
基于自助法从所述训练样本数据中抽取n个数据样本;
设置每个所述数据样本的特征数为M,指定一个小于M的常数m,随机从M个特征中选取m个特征,得到样本数为N、特征数为m的数据集。
具体实施时,所述计算所述数据集的基尼不纯度的步骤,包括:
根据以下公式计算所述基尼不纯度:
其中,C为训练集中的分类数,p(i)为数据点是第i个分类的概率。
可以理解地,基于基尼系数计算分叉时所述数据集的基尼不纯度,基尼不纯度的数值越高,说明数据集的不纯度越高。
本实施例提供的服刑人员住院风险预测方法,通过获取服刑人员的基础信息、就诊信息和编号表;对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本;对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本;根据所述编号表对所述待预测服刑人员的基础信息样本和所述待预测服刑人员的就诊信息样本进行关联,得到所述待预测服刑人员的训练样本数据;基于随机森林算法训练住院风险预测模型;将所述训练样本数据输入所述住院风险预测模型中,通过所述住院风险预测模型计算得到所述待预测服刑人员的住院风险数据,通过对服刑人员的基础信息和就诊信息进行相应的处理,提高了数据完成度,通过住院风险预测模型对服刑人员的住院风险进行预测,有助于降低监狱的财政支出,提高监狱的管理效率。
实施例2
此外,本公开实施例提供了一种服刑人员住院风险预测装置。
具体的,如图2所示,服刑人员住院风险预测装置200包括:
获取模块201,用于获取服刑人员的基础信息、就诊信息和编号表;
处理模块202,用于对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本;对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本;
关联模块203,用于根据所述编号表对所述待预测服刑人员的基础信息样本和所述待预测服刑人员的就诊信息样本进行关联,得到所述待预测服刑人员的训练样本数据;
训练模块204,用于基于随机森林算法训练住院风险预测模型;
预测模块205,用于将所述训练样本数据输入随机森林预测模型中所述住院风险预测模型中,通过所述住院风险预测模型计算得到所述待预测服刑人员的住院风险数据。
本实施例提供服刑人员住院风险预测装置200可以实施实施例1所示的服刑人员住院风险预测方法,为避免重复,在此不再赘述。
本实施例提供的服刑人员住院风险预测装置,通过获取服刑人员的基础信息、就诊信息和编号表;对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本;对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本;根据所述编号表对所述待预测服刑人员的基础信息样本和所述待预测服刑人员的就诊信息样本进行关联,得到所述待预测服刑人员的训练样本数据;基于随机森林算法训练住院风险预测模型;将所述训练样本数据输入所述住院风险预测模型中,通过所述住院风险预测模型计算得到所述待预测服刑人员的住院风险数据,通过对服刑人员的基础信息和就诊信息进行相应的处理,提高了数据完成度,通过住院风险预测模型对服刑人员的住院风险进行预测,有助于降低监狱的财政支出,提高监狱的管理效率。
实施例3
此外,本公开实施例提供一种电子设备300,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行上述实施例1所提供的服刑人员住院风险预测方法。
具体的,参见图3,所述电子设备300包括:接收机301、总线接口及处理器302。
在本发明实施例中,电子设备300还包括:存储器303。在图3中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器302代表的一个或多个处理器和存储器303代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。接收机301可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线架构和通常的处理,存储器303可以存储处理器302在执行操作时所使用的数据。
本发明实施例提供的电子设备300,可以实施实施例1所示的服刑人员住院风险预测方法,为避免重复,在此不再赘述。
实施例4
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述实施例所提供的服刑人员住院风险预测方法。
在本实施例中,计算机可读存储介质可以为只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本实施例提供的计算机可读存储介质可以实施实施例1所示的服刑人员住院风险预测方法,为避免重复,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (10)
1.一种服刑人员住院风险预测方法,其特征在于,所述方法包括:
获取服刑人员的基础信息、就诊信息和编号表;
对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本;
对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本;
根据所述编号表对所述待预测服刑人员的基础信息样本和所述待预测服刑人员的就诊信息样本进行关联,得到所述待预测服刑人员的训练样本数据;
基于随机森林算法训练住院风险预测模型;
将所述训练样本数据输入所述住院风险预测模型中,通过所述住院风险预测模型计算得到所述待预测服刑人员的住院风险数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本,包括:
根据所述服刑人员的基础信息计算基础数据均值;
根据所述基础数据均值对所述服刑人员的基础信息进行插补得到所述待预测服刑人员的完整基础数据;
剔除所述待预测服刑人员的完整基础数据中存在的异常值,得到所述待预测服刑人员的有效基础数据;
对所述待预测服刑人员的有效基础数据进行虚拟变量处理,得到所述待预测服刑人员的基础信息样本。
3.根据权利要求1所述的方法,其特征在于,所述对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本,包括:
获取所述就诊信息的关键字段和疾病编码表,根据所述关键字段关联所述就诊信息和所述疾病编码表;
剔除所述就诊信息中存在的缺失值,得到所述待预测服刑人员的有效就诊信息;
对所述待预测服刑人员的有效就诊信息进行虚拟变量处理,得到所述待预测服刑人员的就诊信息样本。
4.根据权利要求1所述的方法,其特征在于,所述通过所述住院风险预测模型计算得到所述服刑人员的住院风险数据,包括:
获取所述住院风险预测模型中的各叶节点的预测数值;
判断所述各叶节点的预测数值是否大于或等于预设住院阈值;
统计所述各叶节点中预测数值大于或等于预设住院阈值的目标叶节点的数量;
根据所述目标叶节点的数量与所述住院风险预测模型中的叶节点总数的比率确定所述待预测服刑人员的住院风险数据。
5.根据权利要求1所述的方法,其特征在于,所述基于随机森林算法训练住院风险预测模型,包括:
根据所述训练样本数据建立数据集;
计算所述数据集的基尼不纯度;
基于所述基尼不纯度判断所述数据集的有序程度;
计算所述数据集的分叉深度;
在所述分叉深度达到预设参数后停止对所述数据集分叉,得到所述住院风险预测模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述训练样本数据建立数据集,包括:
基于自助法从所述训练样本数据中抽取n个数据样本;
设置每个所述数据样本的特征数为M,指定一个小于M的常数m,随机从M个特征中选取m个特征,得到样本数为N、特征数为m的数据集。
8.一种服刑人员住院风险预测装置,其特征在于,所述服刑人员住院风险预测装置包括:
获取模块,用于获取服刑人员的基础信息、就诊信息和编号表;
处理模块,用于对所述基础信息进行插补预处理,得到待预测服刑人员的基础信息样本;对所述就诊信息进行关联预处理,得到待预测服刑人员的就诊信息样本;
关联模块,用于根据所述编号表对所述待预测服刑人员的基础信息样本和所述待预测服刑人员的就诊信息样本进行关联,得到所述待预测服刑人员的训练样本数据;
训练模块,用于基于随机森林算法训练住院风险预测模型;
预测模块,用于将所述训练样本数据输入所述住院风险预测模型中,通过所述住院风险预测模型计算得到所述待预测服刑人员的住院风险数据。
9.一种电子设备,其特征在于,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行权利要求1至7中任一项所述的服刑人员住院风险预测方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至7中任一项所述的服刑人员住院风险预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211147195.3A CN115222166A (zh) | 2022-09-21 | 2022-09-21 | 服刑人员住院风险预测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211147195.3A CN115222166A (zh) | 2022-09-21 | 2022-09-21 | 服刑人员住院风险预测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115222166A true CN115222166A (zh) | 2022-10-21 |
Family
ID=83616997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211147195.3A Pending CN115222166A (zh) | 2022-09-21 | 2022-09-21 | 服刑人员住院风险预测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115222166A (zh) |
-
2022
- 2022-09-21 CN CN202211147195.3A patent/CN115222166A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11488694B2 (en) | Method and system for predicting patient outcomes using multi-modal input with missing data modalities | |
US8744870B2 (en) | Method and system for forecasting clinical pathways and resource requirements | |
CN110111887A (zh) | 临床辅助决策方法及装置 | |
CN109493979A (zh) | 一种基于智能决策的疾病预测方法和装置 | |
JP2019016235A (ja) | 疾病発症予測装置、疾病発症予測方法およびプログラム | |
JP5977898B1 (ja) | 行動予測装置、行動予測装置の制御方法、および行動予測装置の制御プログラム | |
CN109523412A (zh) | 智能核保方法、装置、计算机设备及计算机可读存储介质 | |
CN112017789B (zh) | 分诊数据处理方法、装置、设备及介质 | |
CN116386869B (zh) | 一种基于多变量的病情危重程度评估方法 | |
WO2016073776A1 (en) | System for management of health resources | |
CN109545317A (zh) | 基于住院预测模型判定住院行为的方法及相关产品 | |
CN112132624A (zh) | 医疗理赔数据预测系统 | |
CN112216361A (zh) | 基于人工智能的随访计划单生成方法、装置、终端及介质 | |
US20200058408A1 (en) | Systems, methods, and apparatus for linking family electronic medical records and prediction of medical conditions and health management | |
CN111696661A (zh) | 患者分群模型构建方法、患者分群方法及相关设备 | |
CN112908452A (zh) | 事件数据建模 | |
CN115512817A (zh) | 一种基于儿童远程医疗的医生推荐方法及装置 | |
Mortensen et al. | Multi-class stress detection through heart rate variability: A deep neural network based study | |
CN115438040A (zh) | 一种病理档案信息管理方法及系统 | |
CN114117053A (zh) | 病种分类模型训练方法、装置、存储介质及电子装置 | |
CN113642672A (zh) | 医保数据的特征加工方法、装置、计算机设备及存储介质 | |
US10431339B1 (en) | Method and system for determining relevant patient information | |
CN116831523A (zh) | 基于健康监测的报警方法、装置、设备及存储介质 | |
CN116469534A (zh) | 医院叫号管理系统及其方法 | |
CN115222166A (zh) | 服刑人员住院风险预测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221021 |
|
RJ01 | Rejection of invention patent application after publication |