CN114864029A - 一种医院DRGs分组判断方法及工作系统 - Google Patents
一种医院DRGs分组判断方法及工作系统 Download PDFInfo
- Publication number
- CN114864029A CN114864029A CN202210587100.3A CN202210587100A CN114864029A CN 114864029 A CN114864029 A CN 114864029A CN 202210587100 A CN202210587100 A CN 202210587100A CN 114864029 A CN114864029 A CN 114864029A
- Authority
- CN
- China
- Prior art keywords
- data
- drgs
- grouping
- training
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 68
- 238000012549 training Methods 0.000 claims description 68
- 238000007637 random forest analysis Methods 0.000 claims description 50
- 238000003745 diagnosis Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000010801 machine learning Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 206010010071 Coma Diseases 0.000 claims description 4
- 230000006378 damage Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 208000027418 Wounds and injury Diseases 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 201000010099 disease Diseases 0.000 claims description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 3
- 208000014674 injury Diseases 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000001575 pathological effect Effects 0.000 claims description 3
- 230000003190 augmentative effect Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000007170 pathology Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 208000028399 Critical Illness Diseases 0.000 description 1
- 208000030990 Impulse-control disease Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种医院DRGs分组判断方法,其步骤包括获取医院信息系统中的待分组数据,并根据待分组数据获取扩充信息数据;对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;将标准数据样本进行特征工程处理,得到标准数据特征;将准数据特征输入到DRGs预测模型中,得到预测的DRGs分组结果集和结果集对应的可能性概率,取结果集中概率最高的E个可能分组结果和该结果对应的概率,实现了在数秒内实现DRGs分组结果的自动化判断功能。
Description
[技术领域]
本发明涉及一种医院DRGs分组判断方法及工作系统。
[背景技术]
疾病诊断相关分组(Diagnosis Related Groups,DRGs)被广泛应用于医院的运行分析、医疗管理,是实现医院精细化管理、现代化管理的重要工具,DRGs实质是一种病历分类方案,是根据病例的诊断、年龄、并发症、手术等诊疗因素将病人分入若干诊断组的管理方法。DRGs分组结果是根据病例的诊断、年龄、并发症、手术等数据,输入分组器完成分组的。
现有DRGs分组结果获取主要依靠:1)用户将病案信息上传至官方分组网站,在经过2个月以上的分组器计算后发放DRGs分组结果给用户。2)根据固定或预设的规则进行推理和判断得出DRGs分组结果。3)根据人的经验结合有技术资料进行人工分组。
上述的方案存在的缺点是:第一种方案DRGs的分组的逻辑并没有对外公布,需要用户进行长时间的等待,效率不高。第二种方案,主要依靠固定或预设的规则依靠参数的进行推理从而确定分组结果,分组规则的制定和输入参数的标准化程度对分组结果的影响较强,不标准的输入参数直接影响分组效果,同时该分组结果缺乏官方分组结果的数据支持。第三种方案,受人的影响较大,效率低,缺乏官方分组结果支持,准确率也不高。
[发明内容]
本发明目的是针对上述问题和现有解决方案的缺陷,提供一种医院DRGs分组判断方法及工作系统。该方法采用机器学习算法训练病案数据和官方分组结果数据,能够在数秒内实现DRGs分组结果的自动化判断,同时可以该获取分组结果的分组逻辑。可缩短DRGs分组获取时间,提高DRGs分组的准确率和DRGs分组的可信度,提升精细化管理水平。
为实现上述目的,本发明采用了下列技术方案:
一种医院DRGs分组判断方法,其步骤如下:
S1、获取医院信息系统中的待分组数据,并根据待分组数据获取扩充信息数据;
S2、对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;
S3、将标准数据样本进行特征工程处理,得到标准数据特征;
S4、将准数据特征输入到DRGs预测模型中,得到预测的DRGs分组结果集和结果集对应的可能性概率,取结果集中概率最高的E个可能分组结果和该结果对应的概率。
如上所述的一种医院DRGs分组判断方法,其特征在于:DRGs预测模型为,以历史分组数据处理后的所有标准数据特征为输入,以DRGs分组结果集和结果集对应的可能性概率为输出,对机器学习模型进行训练得到,具体包括:
S41、获取医院信息系统中的历史分组数据,并根据历史分组数据获取扩充信息数据;
S42、对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;
S43、将标准数据样本进行特征工程处理,得到标准数据特征;
S44、将历史分组数据处理后的所有标准数据特征作为训练数据,并随机抽取一部分训练数据作为训练集,而另一部分训练数据作为测试集;
S45、将训练集中的数据输入到随机森林模型和SVM模型中训练机器学习,得到训练后的随机森林模型和训练后的SVM模型;将测试集中的训练数据分别输入到训练后的随机森林模型和训练后的SVM模型中,得到1个随机森林训练的预测DRGs的结果集和DRGs结果集概率矩阵,以及得到1个SVM训练的预测DRGs的结果集和DRGs结果集概率矩阵;
S46、设定一个判决参数阈值A,且取值为0到1,若随机森林训练的预测DRGs结果集概率最大的概率大于阈值A,则使用随机森林训练的预测DRGs结果和对应的结果集概率矩阵;否则对比SVM的预测结果和随机森林的预测结果中概率最大的概率,当SVM的预测结果概率较高则使用SVM的预测结果集,当随机森林的预测结果概率较高则使用随机森林的预测结果集,得到初步DRGs判断模型;
S47、将初步DRGs分组判断模型进行调优,得到DRGs预测模型。
如上所述的一种医院DRGs分组判断方法,其特征在于:S1中的扩充信息数据包括有诊断信息、手术信息、费用信息、患者年龄、体重,住院天数,检验结果、检查结果和病案首页信息。
如上所述的一种医院DRGs分组判断方法,其特征在于:S2中的标准化处理包括有缺失值处理、异常值处理、数值分箱处理和文字映射处理。
如上所述的一种医院DRGs分组判断方法,其特征在于:S2中的标签编码处理中,对于扩充信息数据中的参数主诊断编码和主手术编码,先采用标签编码的方式对诊断字典库数据进行转换,再使用编码后的数字标签进行分类;对于扩充信息数据中的其他非数字型参数采用标签编码的方式进行数据转换;对于扩充信息数据中的数字型参数可直接用于分类。
如上所述的一种医院DRGs分组判断方法,其特征在于:S3中的标准数据特征包括有主诊断特征、主手术特征、费用特征、关联诊断数特征、呼吸机使用时间特征、重症监护时长特征、病危病重特征、病理特征、损伤情况特征、是否昏迷特征、次要诊断数量特征、次要手术及操作数量特征、住院天数特征、患者年龄特征、是否再入院特征、体重特征。
如上所述的一种医院DRGs分组判断方法,其特征在于:S4中的E值为3。
如上所述的一种医院DRGs分组判断方法,其特征在于:S48中通过使用总精度作为准确率评价指标对初步DRGs分组判断模型进行调优。
一种医院DRGs分组判断工作系统,其特征在于,包括:
历史分组结果录入模块,用于录入历史分组数据;
his待分组数据实时获取模块,用于录入待分组数据;
医院信息系统,用于存储历史分组数据对应的扩充信息数据、待分组数据对应的扩充信息数据;
信息存储模块,与医院信息系统关联,用于收集和存储历史分组数据和对应的扩充信息数据、待分组数据和对应的扩充信息数据;
标准化和编码转换模块,用于对存储模块中的历史分组数据对应的扩充信息数据、待分组数据对应的扩充信息数据进行标准化处理和标签编码处理,转化为标准数据样本;
特征工程处理模块,用于对标准数据样本进行特征工程处理,转化为标准数据特征;
机器学习训练模块,以历史分组数据对应的扩充信息数据处理后的标准数据特征作为训练数据,随机抽取一部分训练数据作为训练集,得到DRGs预测模型;
模型存储模块,用于存储DRGs预测模型;
DRGs分组输出模块,输入待分组数据对应的扩充信息数据处理后的标准数据特征,输出预测的DRGs分组结果集和结果集对应的可能性概率,取结果集中概率最高的E个可能分组结果和该结果对应的概率。
如上所述的一种医院DRGs分组判断工作系统,其特征在于,包括:DRGs预测模型为,以历史分组数据处理后的所有标准数据特征为输入,以DRGs分组结果集和结果集对应的可能性概率为输出,对机器学习模型进行训练得到,具体包括:
获取医院信息系统中的历史分组数据,并根据历史分组数据获取扩充信息数据;
对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;
将标准数据样本进行特征工程处理,得到标准数据特征;
将历史分组数据处理后的所有标准数据特征作为训练数据,并随机抽取一部分训练数据作为训练集,而另一部分训练数据作为测试集;
将训练集中的数据输入到随机森林模型和SVM模型中训练机器学习,得到训练后的随机森林模型和训练后的SVM模型;将测试集中的训练数据分别输入到训练后的随机森林模型和训练后的SVM模型中,得到1个随机森林训练的预测DRGs的结果集和DRGs结果集概率矩阵,以及得到1个SVM训练的预测DRGs的结果集和DRGs结果集概率矩阵;
设定一个判决参数阈值A,且取值为0到1,若随机森林训练的预测DRGs结果集概率最大的概率大于阈值A,则使用随机森林训练的预测DRGs结果和对应的结果集概率矩阵;否则对比SVM的预测结果和随机森林的预测结果中概率最大的概率,当SVM的预测结果概率较高则使用SVM的预测结果集,当随机森林的预测结果概率较高则使用随机森林的预测结果集,得到初步DRGs判断模型;
将初步DRGs分组判断模型进行调优,得到DRGs预测模型。
本发明的有益效果是:
1,获取DRGs分组结果速度快,准确度高,有官方数据支持,自动化程度高。能够结合病案数据和历史的分组数据协同进行应用,实现数据高效准确的处理。
2,能解决在详细的DRGs分组规则未知的条件下进行DRGs分组的判断,并输出分组的规则。
3,系统能根据医院信息系统现有的数据进行实时分析,给出当前病例数据的DRGs分组和概率,实现DRGs工具对医院的精细化管理。
[附图说明]
图1为本发明DRGs分组判断工作系统结构图;
图2为本发明DRGs分组判断方法原理图。
[具体实施方式]
下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后…)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。另外,在本发明中涉及“优选”、“次优选”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“优选”、“次优选”的特征可以明示或者隐含地包括至少一个该特征。
如图1所示,一种医院DRGs分组判断工作系统,包括
历史分组结果录入模块,用于录入历史分组数据;
his待分组数据实时获取模块,用于录入待分组数据;
医院信息系统,用于存储历史分组数据对应的扩充信息数据、待分组数据对应的扩充信息数据;
信息存储模块,与医院信息系统关联,用于收集和存储历史分组数据和对应的扩充信息数据、待分组数据和对应的扩充信息数据;
标准化和编码转换模块,用于对存储模块中的历史分组数据对应的扩充信息数据、待分组数据对应的扩充信息数据进行标准化处理和标签编码处理,转化为标准数据样本;
特征工程处理模块,用于对标准数据样本进行特征工程处理,转化为标准数据特征;
机器学习训练模块,以历史分组数据对应的扩充信息数据处理后的标准数据特征作为训练数据,随机抽取一部分训练数据作为训练集,得到DRGs预测模型;
模型存储模块,用于存储DRGs预测模型;
DRGs分组输出模块,输入待分组数据对应的扩充信息数据处理后的标准数据特征,输出预测的DRGs分组结果集和结果集对应的可能性概率,取结果集中概率最高的E个可能分组结果和该结果对应的概率。
如图2所示,一种医院DRGs分组判断方法,其步骤如下:
S1、获取医院信息系统中的待分组数据,并根据待分组数据获取扩充信息数据;
S2、对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;
S3、将标准数据样本进行特征工程处理,得到标准数据特征;
S4、将准数据特征输入到DRGs预测模型中,得到预测的DRGs分组结果集和结果集对应的可能性概率,取结果集中概率最高的3个可能分组结果和该结果对应的概率。
其中DRGs预测模型为,以历史分组数据处理后的所有标准数据特征为输入,以DRGs分组结果集和结果集对应的可能性概率为输出,对机器学习模型进行训练得到,具体包括:
S41、获取医院信息系统中的历史分组数据,并根据历史分组数据获取扩充信息数据;
具体地,获取最近1年的n个历史官方原始DRGs分组结果处理成EXCEL格式并通过数据库工具导入mysql数据库进行存储。
通过mysql odbc技术从数据库获取医院信息系统获取扩展信息,病例对应的主诊断、主手术、费用、关联诊断数、呼吸机使用时间、重症监护时长、病危病重、病理、损伤情况、是否昏迷、次要诊断数量、次要手术及操作数量、住院天数、患者年龄、是否再入院、体重等共m个字段以及分组结果字段y信息并通过病人就诊ID进行关联形成n*(m+1)大小的原始数据集D0,表示为[Dd,y],Dd和y每个分量均为实数。
S42、对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;
具体地,在D0形成后进行缺失值处理,对于主诊断、主手术、费用、住院天数、年龄这5个字段信息的若有缺失则直接删除该病人就诊ID下所有数据,删除数据为l行则Dd的行数编完n-l行;
对于是否再入院、是否昏迷等条件判断字段的缺失值采用默认值处理,可默认为0;对于其他损失情况、病理等文字字段的缺失值默认值处理,可默认为0;处理公式可表示为fa(x)
对于其他字段的缺失值,采用众数处理,选取同字段出现最多的M值来填补缺失。异常值处理,对于某些字段类型(type)不符的数据,采用众数M进行替换;
对于数字型异常值,是指使用数据处于3Sigma算法找出统计学特征在中心点之外的数据。对于金额、年龄、住院天数等数值型字段可通过分箱处理衍生新的字段。对于金额字段m金额,小于100或金额大于250万的生成新的字段信息mm+1并通过fc(x)重新赋值,例如如小于100赋值0或大于250万赋值为2500000,其他赋值为原始值,此处数值不做限定要求。
mm+1=fb(m金额)
年龄的分箱范围为0到1为0、1到17为1、18以上院原始值;住院天数同理,可根据实际进行相应处理。标准ICD诊断字典数据为C1,标准手术字典为C2,先对字典按字母和数字顺序进行排序再进行标签编码,转换诊断名称为对应的标签数字。
对于文本型字段如病理结果,损伤情况等根据字符串长度判断进行变量映射,当字符串长度大于3个字符该字段值更新为1,否则更新该字段值为0。
统计诊断和手术的个数,作为新的特征mzdc和mssc,统计呼吸机时间大于96小时或重症监护时间大于96小时作为新的特征mhxj,mzzjh。至此,r为衍生字段数形成大小为(n-l)*(mm+r)新的数据集D1,Dd1为原始数据和经过处理的数据,y'为DRGS分组数据
D1=[dD1 y′](n-l)*(m+r)
S43、将标准数据样本进行特征工程处理,得到标准数据特征;
具体地,通过mysql-connector-python模块,将上一步处理好的D1数据集作为输入进行特征工程。D1是数据集,它包括k个DRGs类别的n'=(n-l)个样本对应的概率分别为p1,p2,p3...pk,,每个样本信息字段为m'=mm+r个。D1除y'外部分属性字段也可以表示为a,a可划分为子集合A1,A2,A3...Ai,对应类别的Ai数量表示为xi,则数据集D的信息熵可以表示为:
对于某个字段Ai对应的信息熵公式可以表示为:
信息熵增益公式可以表示为G=Gain(a):
Gain(a)=info(D)-infoa(D)
因此本方法的模型的求解可以转化为求解最大信息熵增益的森林模型:
argΘmaxF(x:Θ)
其中Θ代表按分裂字段、在节点上的分割点以及端节点的值刻画的具有B颗树模型的森林参数,
对于本DRGS分类预测方法中,按照求解最大信息熵增益的目标我们使用随机森林算法的分割点选择G最大的点进行类别的分割,同时为了防止森林中的树过深,导致过拟合,训练过程中要限制森林中分类树的生长高度。
从D1中随机选取80%作为训练集T,并将D1作为测试集,将T输入到随机森林算法中进行,在训练模型的过程中累计计算特征在各个分裂节点的信息增益,可以得到特征重要性评分,通过SoftMax函数,
即可输出M=[m1m2m3m4....]对应的重要性概率Q=[q1q2q3q4...],按q的选取其中最大的前15个作为特征字段组成新的数据集D2,至此完成特征工程。
S44、将历史分组数据处理后的所有标准数据特征作为训练数据,并随机抽取一部分训练数据作为训练集,而另一部分训练数据作为测试集;
具体地,从D2中随机选取80%作为训练集T2,并将D2作为测试集。
S45、将训练集中的数据输入到随机森林模型和SVM模型中训练机器学习,得到训练后的随机森林模型和训练后的SVM模型;将测试集中的训练数据分别输入到训练后的随机森林模型和训练后的SVM模型中,得到1个随机森林训练的预测DRGs的结果集和DRGs结果集概率矩阵,以及得到1个SVM训练的预测DRGs的结果集和DRGs结果集概率矩阵;
具体地,将T2输入到随机森林算法和SVM算法中进行机器学习得到训练后的随机森林算法模型R1和训练后的SVM算法模型S1。将测试集D2输入到R1和S1之后得到对应的DRGs分组预测结果RR1和RS1结果集和对应的PR1和PS1概率。
S46、设定一个判决参数阈值A,且取值为0到1,若随机森林训练的预测DRGs结果集概率最大的概率大于阈值A,则使用随机森林训练的预测DRGs结果和对应的结果集概率矩阵;否则对比SVM的预测结果和随机森林的预测结果中概率最大的概率,当SVM的预测结果概率较高则使用SVM的预测结果集,当随机森林的预测结果概率较高则使用随机森林的预测结果集,得到初步DRGs判断模型;
具体地,使用判决阈值A设定为0.5,当PR1最高的概率大于A时采信RR1结果;否则比较PR1和PS1的最高概率PR1max和PS1max,PR1max大于PS1max时使用结果集RR1和PR1,PR1max小于或等于PS1max时使用结果集RS1和PS1。
S47、将初步DRGs分组判断模型进行调优,得到DRGs预测模型。
具体地,进行模型评价时,对于预测效果使用总精度(Overall Accuracy,OA)作为准确率评价指标,其公式如下:
OA=Trace(C)/N
C是混淆矩阵,n为样本总数,Trace是矩阵的迹。结果的OA数值越高预测效果越好。至此,得到初步的DRGs判断模型。根据测试集数据调整模型参数选取OA最大的模型参数作为最终的DRGs分组判断模型M,随机森林参数在树数量est=80、树深度depth=35,特征数量feature=11时取得最佳效果。
对DRGs待分组数据进行分组时,具体地,先获取医院信息系统内实时数据待判断DRGs分组数据Z0,采用上述相同数据处理和特征工程后,得到数据集Z1,输入模型M后得到预测的分组结果RM1和对应概率PM1,选取PM1中概率最大的3个分组RM11、RM12、RM13结果作为结果输出。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (10)
1.一种医院DRGs分组判断方法,其步骤如下:
S1、获取医院信息系统中的待分组数据,并根据待分组数据获取扩充信息数据;
S2、对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;
S3、将标准数据样本进行特征工程处理,得到标准数据特征;
S4、将准数据特征输入到DRGs预测模型中,得到预测的DRGs分组结果集和结果集对应的可能性概率,取结果集中概率最高的E个可能分组结果和该结果对应的概率。
2.根据权利要求1所述的一种医院DRGs分组判断方法,其特征在于:DRGs预测模型为,以历史分组数据处理后的所有标准数据特征为输入,以DRGs分组结果集和结果集对应的可能性概率为输出,对机器学习模型进行训练得到,具体包括:
S41、获取医院信息系统中的历史分组数据,并根据历史分组数据获取扩充信息数据;
S42、对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;
S43、将标准数据样本进行特征工程处理,得到标准数据特征;
S44、将历史分组数据处理后的所有标准数据特征作为训练数据,并随机抽取一部分训练数据作为训练集,而另一部分训练数据作为测试集;
S45、将训练集中的数据输入到随机森林模型和SVM模型中训练机器学习,得到训练后的随机森林模型和训练后的SVM模型;将测试集中的训练数据分别输入到训练后的随机森林模型和训练后的SVM模型中,得到1个随机森林训练的预测DRGs的结果集和DRGs结果集概率矩阵,以及得到1个SVM训练的预测DRGs的结果集和DRGs结果集概率矩阵;
S46、设定一个判决参数阈值A,且取值为0到1,若随机森林训练的预测DRGs结果集概率最大的概率大于阈值A,则使用随机森林训练的预测DRGs结果和对应的结果集概率矩阵;否则对比SVM的预测结果和随机森林的预测结果中概率最大的概率,当SVM的预测结果概率较高则使用SVM的预测结果集,当随机森林的预测结果概率较高则使用随机森林的预测结果集,得到初步DRGs判断模型;
S47、将初步DRGs分组判断模型进行调优,得到DRGs预测模型。
3.根据权利要求1或2所述的一种医院DRGs分组判断方法,其特征在于:S1中的扩充信息数据包括有诊断信息、手术信息、费用信息、患者年龄、体重,住院天数,检验结果、检查结果和病案首页信息。
4.根据权利要求1或2所述的一种医院DRGs分组判断方法,其特征在于:S2中的标准化处理包括有缺失值处理、异常值处理、数值分箱处理和文字映射处理。
5.根据权利要求1或2所述的一种医院DRGs分组判断方法,其特征在于:S2中的标签编码处理中,对于扩充信息数据中的参数主诊断编码和主手术编码,先采用标签编码的方式对诊断字典库数据进行转换,再使用编码后的数字标签进行分类;对于扩充信息数据中的其他非数字型参数采用标签编码的方式进行数据转换;对于扩充信息数据中的数字型参数可直接用于分类。
6.根据权利要求1或2所述的一种医院DRGs分组判断方法,其特征在于:S3中的标准数据特征包括有主诊断特征、主手术特征、费用特征、关联诊断数特征、呼吸机使用时间特征、重症监护时长特征、病危病重特征、病理特征、损伤情况特征、是否昏迷特征、次要诊断数量特征、次要手术及操作数量特征、住院天数特征、患者年龄特征、是否再入院特征、体重特征。
7.根据权利要求1所述的一种医院DRGs分组判断方法,其特征在于:S4中的E值为3。
8.根据权利要求2所述的一种医院DRGs分组判断方法,其特征在于:S48中通过使用总精度作为准确率评价指标对初步DRGs分组判断模型进行调优。
9.一种医院DRGs分组判断工作系统,其特征在于,包括:
历史分组结果录入模块,用于录入历史分组数据;
his待分组数据实时获取模块,用于录入待分组数据;
医院信息系统,用于存储历史分组数据对应的扩充信息数据、待分组数据对应的扩充信息数据;
信息存储模块,与医院信息系统关联,用于收集和存储历史分组数据和对应的扩充信息数据、待分组数据和对应的扩充信息数据;
标准化和编码转换模块,用于对存储模块中的历史分组数据对应的扩充信息数据、待分组数据对应的扩充信息数据进行标准化处理和标签编码处理,转化为标准数据样本;
特征工程处理模块,用于对标准数据样本进行特征工程处理,转化为标准数据特征;
机器学习训练模块,以历史分组数据对应的扩充信息数据处理后的标准数据特征作为训练数据,随机抽取一部分训练数据作为训练集,得到DRGs预测模型;
模型存储模块,用于存储DRGs预测模型;
DRGs分组输出模块,输入待分组数据对应的扩充信息数据处理后的标准数据特征,输出预测的DRGs分组结果集和结果集对应的可能性概率,取结果集中概率最高的E个可能分组结果和该结果对应的概率。
10.根据权利要求9所述的一种医院DRGs分组判断工作系统,其特征在于,包括:DRGs预测模型为,以历史分组数据处理后的所有标准数据特征为输入,以DRGs分组结果集和结果集对应的可能性概率为输出,对机器学习模型进行训练得到,具体包括:
获取医院信息系统中的历史分组数据,并根据历史分组数据获取扩充信息数据;
对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;
将标准数据样本进行特征工程处理,得到标准数据特征;
将历史分组数据处理后的所有标准数据特征作为训练数据,并随机抽取一部分训练数据作为训练集,而另一部分训练数据作为测试集;
将训练集中的数据输入到随机森林模型和SVM模型中训练机器学习,得到训练后的随机森林模型和训练后的SVM模型;将测试集中的训练数据分别输入到训练后的随机森林模型和训练后的SVM模型中,得到1个随机森林训练的预测DRGs的结果集和DRGs结果集概率矩阵,以及得到1个SVM训练的预测DRGs的结果集和DRGs结果集概率矩阵;
设定一个判决参数阈值A,且取值为0到1,若随机森林训练的预测DRGs结果集概率最大的概率大于阈值A,则使用随机森林训练的预测DRGs结果和对应的结果集概率矩阵;否则对比SVM的预测结果和随机森林的预测结果中概率最大的概率,当SVM的预测结果概率较高则使用SVM的预测结果集,当随机森林的预测结果概率较高则使用随机森林的预测结果集,得到初步DRGs判断模型;
将初步DRGs分组判断模型进行调优,得到DRGs预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210587100.3A CN114864029A (zh) | 2022-05-26 | 2022-05-26 | 一种医院DRGs分组判断方法及工作系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210587100.3A CN114864029A (zh) | 2022-05-26 | 2022-05-26 | 一种医院DRGs分组判断方法及工作系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114864029A true CN114864029A (zh) | 2022-08-05 |
Family
ID=82641321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210587100.3A Pending CN114864029A (zh) | 2022-05-26 | 2022-05-26 | 一种医院DRGs分组判断方法及工作系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114864029A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117093920A (zh) * | 2023-10-20 | 2023-11-21 | 四川互慧软件有限公司 | 一种用户DRGs分组方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992800A (zh) * | 2017-11-10 | 2018-05-04 | 杭州晟元数据安全技术股份有限公司 | 一种基于svm和随机森林的指纹图像质量判断方法 |
CN108231201A (zh) * | 2018-01-25 | 2018-06-29 | 华中科技大学 | 一种疾病数据分析处理模型的构建方法、系统及应用 |
CN110739034A (zh) * | 2019-09-20 | 2020-01-31 | 上海金仕达卫宁软件科技有限公司 | 一种对病案数据进行DRGs分组的方法 |
CN111161814A (zh) * | 2019-12-18 | 2020-05-15 | 浙江大学 | 一种基于卷积神经网络的DRGs自动分组方法 |
CN111932142A (zh) * | 2020-08-25 | 2020-11-13 | 望海康信(北京)科技股份公司 | 方案分组和数据分组方法、装置、设备及存储介质 |
-
2022
- 2022-05-26 CN CN202210587100.3A patent/CN114864029A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992800A (zh) * | 2017-11-10 | 2018-05-04 | 杭州晟元数据安全技术股份有限公司 | 一种基于svm和随机森林的指纹图像质量判断方法 |
CN108231201A (zh) * | 2018-01-25 | 2018-06-29 | 华中科技大学 | 一种疾病数据分析处理模型的构建方法、系统及应用 |
CN110739034A (zh) * | 2019-09-20 | 2020-01-31 | 上海金仕达卫宁软件科技有限公司 | 一种对病案数据进行DRGs分组的方法 |
CN111161814A (zh) * | 2019-12-18 | 2020-05-15 | 浙江大学 | 一种基于卷积神经网络的DRGs自动分组方法 |
CN111932142A (zh) * | 2020-08-25 | 2020-11-13 | 望海康信(北京)科技股份公司 | 方案分组和数据分组方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117093920A (zh) * | 2023-10-20 | 2023-11-21 | 四川互慧软件有限公司 | 一种用户DRGs分组方法 |
CN117093920B (zh) * | 2023-10-20 | 2024-01-23 | 四川互慧软件有限公司 | 一种用户DRGs分组方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491465B (zh) | 基于深度学习的疾病分类编码方法、系统、设备及介质 | |
CN111540468B (zh) | 一种诊断原因可视化的icd自动编码方法与系统 | |
CN107193919A (zh) | 一种电子病历的检索方法及系统 | |
CN111709233A (zh) | 基于多注意力卷积神经网络的智能导诊方法及系统 | |
CN112712118A (zh) | 一种面向医疗文本数据的过滤方法及系统 | |
CN111161814A (zh) | 一种基于卷积神经网络的DRGs自动分组方法 | |
CN111738302A (zh) | 一种基于多模态数据对阿尔茨海默病进行分类诊断的系统 | |
CN112541066B (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
CN111785387B (zh) | 一种使用Bert做疾病标准化映射分类的方法及系统 | |
CN110767279A (zh) | 基于lstm的电子健康记录缺失数据补全方法及系统 | |
CN117497149A (zh) | 一种基于人工智能的医院管理方法及系统 | |
CN114358001A (zh) | 诊断结果的标准化方法及其相关装置、设备和存储介质 | |
CN114864029A (zh) | 一种医院DRGs分组判断方法及工作系统 | |
CN113626591A (zh) | 一种基于文本分类的电子病历数据质量评价方法 | |
CN114420233A (zh) | 一种中文电子病历后结构化信息的抽取方法 | |
CN118116578A (zh) | 基于GPT-4和LangChain的药品推荐方法 | |
CN116842330B (zh) | 一种可对比历史记录的保健信息处理方法及装置 | |
CN115984179A (zh) | 鼻骨骨折的识别方法、装置、终端及存储介质 | |
CN114328938B (zh) | 一种影像报告结构化提取方法 | |
CN111081325A (zh) | 医疗数据处理方法与装置 | |
CN115757801A (zh) | 用于医疗文本的基于决策树的模型训练方法和装置 | |
CN115375684A (zh) | 一种基于机器学习的肺结核图像辅助诊断系统 | |
CN114429820A (zh) | 一种用于医院康复科的智能康复评定系统及评定方法 | |
CN112364924A (zh) | 一种基于深度学习的口腔医疗图像识别方法 | |
CN113485990A (zh) | 基于输血大数据的多维度智能数据清洗方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |