CN114864029A - 一种医院DRGs分组判断方法及工作系统 - Google Patents

一种医院DRGs分组判断方法及工作系统 Download PDF

Info

Publication number
CN114864029A
CN114864029A CN202210587100.3A CN202210587100A CN114864029A CN 114864029 A CN114864029 A CN 114864029A CN 202210587100 A CN202210587100 A CN 202210587100A CN 114864029 A CN114864029 A CN 114864029A
Authority
CN
China
Prior art keywords
data
drgs
grouping
training
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210587100.3A
Other languages
English (en)
Inventor
吴尔律
梁洪彬
蒙浩
翟玉兰
石昌荆
褚琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Affiliated Hospital of Guangxi Medical University
Original Assignee
First Affiliated Hospital of Guangxi Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Affiliated Hospital of Guangxi Medical University filed Critical First Affiliated Hospital of Guangxi Medical University
Priority to CN202210587100.3A priority Critical patent/CN114864029A/zh
Publication of CN114864029A publication Critical patent/CN114864029A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种医院DRGs分组判断方法,其步骤包括获取医院信息系统中的待分组数据,并根据待分组数据获取扩充信息数据;对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;将标准数据样本进行特征工程处理,得到标准数据特征;将准数据特征输入到DRGs预测模型中,得到预测的DRGs分组结果集和结果集对应的可能性概率,取结果集中概率最高的E个可能分组结果和该结果对应的概率,实现了在数秒内实现DRGs分组结果的自动化判断功能。

Description

一种医院DRGs分组判断方法及工作系统
[技术领域]
本发明涉及一种医院DRGs分组判断方法及工作系统。
[背景技术]
疾病诊断相关分组(Diagnosis Related Groups,DRGs)被广泛应用于医院的运行分析、医疗管理,是实现医院精细化管理、现代化管理的重要工具,DRGs实质是一种病历分类方案,是根据病例的诊断、年龄、并发症、手术等诊疗因素将病人分入若干诊断组的管理方法。DRGs分组结果是根据病例的诊断、年龄、并发症、手术等数据,输入分组器完成分组的。
现有DRGs分组结果获取主要依靠:1)用户将病案信息上传至官方分组网站,在经过2个月以上的分组器计算后发放DRGs分组结果给用户。2)根据固定或预设的规则进行推理和判断得出DRGs分组结果。3)根据人的经验结合有技术资料进行人工分组。
上述的方案存在的缺点是:第一种方案DRGs的分组的逻辑并没有对外公布,需要用户进行长时间的等待,效率不高。第二种方案,主要依靠固定或预设的规则依靠参数的进行推理从而确定分组结果,分组规则的制定和输入参数的标准化程度对分组结果的影响较强,不标准的输入参数直接影响分组效果,同时该分组结果缺乏官方分组结果的数据支持。第三种方案,受人的影响较大,效率低,缺乏官方分组结果支持,准确率也不高。
[发明内容]
本发明目的是针对上述问题和现有解决方案的缺陷,提供一种医院DRGs分组判断方法及工作系统。该方法采用机器学习算法训练病案数据和官方分组结果数据,能够在数秒内实现DRGs分组结果的自动化判断,同时可以该获取分组结果的分组逻辑。可缩短DRGs分组获取时间,提高DRGs分组的准确率和DRGs分组的可信度,提升精细化管理水平。
为实现上述目的,本发明采用了下列技术方案:
一种医院DRGs分组判断方法,其步骤如下:
S1、获取医院信息系统中的待分组数据,并根据待分组数据获取扩充信息数据;
S2、对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;
S3、将标准数据样本进行特征工程处理,得到标准数据特征;
S4、将准数据特征输入到DRGs预测模型中,得到预测的DRGs分组结果集和结果集对应的可能性概率,取结果集中概率最高的E个可能分组结果和该结果对应的概率。
如上所述的一种医院DRGs分组判断方法,其特征在于:DRGs预测模型为,以历史分组数据处理后的所有标准数据特征为输入,以DRGs分组结果集和结果集对应的可能性概率为输出,对机器学习模型进行训练得到,具体包括:
S41、获取医院信息系统中的历史分组数据,并根据历史分组数据获取扩充信息数据;
S42、对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;
S43、将标准数据样本进行特征工程处理,得到标准数据特征;
S44、将历史分组数据处理后的所有标准数据特征作为训练数据,并随机抽取一部分训练数据作为训练集,而另一部分训练数据作为测试集;
S45、将训练集中的数据输入到随机森林模型和SVM模型中训练机器学习,得到训练后的随机森林模型和训练后的SVM模型;将测试集中的训练数据分别输入到训练后的随机森林模型和训练后的SVM模型中,得到1个随机森林训练的预测DRGs的结果集和DRGs结果集概率矩阵,以及得到1个SVM训练的预测DRGs的结果集和DRGs结果集概率矩阵;
S46、设定一个判决参数阈值A,且取值为0到1,若随机森林训练的预测DRGs结果集概率最大的概率大于阈值A,则使用随机森林训练的预测DRGs结果和对应的结果集概率矩阵;否则对比SVM的预测结果和随机森林的预测结果中概率最大的概率,当SVM的预测结果概率较高则使用SVM的预测结果集,当随机森林的预测结果概率较高则使用随机森林的预测结果集,得到初步DRGs判断模型;
S47、将初步DRGs分组判断模型进行调优,得到DRGs预测模型。
如上所述的一种医院DRGs分组判断方法,其特征在于:S1中的扩充信息数据包括有诊断信息、手术信息、费用信息、患者年龄、体重,住院天数,检验结果、检查结果和病案首页信息。
如上所述的一种医院DRGs分组判断方法,其特征在于:S2中的标准化处理包括有缺失值处理、异常值处理、数值分箱处理和文字映射处理。
如上所述的一种医院DRGs分组判断方法,其特征在于:S2中的标签编码处理中,对于扩充信息数据中的参数主诊断编码和主手术编码,先采用标签编码的方式对诊断字典库数据进行转换,再使用编码后的数字标签进行分类;对于扩充信息数据中的其他非数字型参数采用标签编码的方式进行数据转换;对于扩充信息数据中的数字型参数可直接用于分类。
如上所述的一种医院DRGs分组判断方法,其特征在于:S3中的标准数据特征包括有主诊断特征、主手术特征、费用特征、关联诊断数特征、呼吸机使用时间特征、重症监护时长特征、病危病重特征、病理特征、损伤情况特征、是否昏迷特征、次要诊断数量特征、次要手术及操作数量特征、住院天数特征、患者年龄特征、是否再入院特征、体重特征。
如上所述的一种医院DRGs分组判断方法,其特征在于:S4中的E值为3。
如上所述的一种医院DRGs分组判断方法,其特征在于:S48中通过使用总精度作为准确率评价指标对初步DRGs分组判断模型进行调优。
一种医院DRGs分组判断工作系统,其特征在于,包括:
历史分组结果录入模块,用于录入历史分组数据;
his待分组数据实时获取模块,用于录入待分组数据;
医院信息系统,用于存储历史分组数据对应的扩充信息数据、待分组数据对应的扩充信息数据;
信息存储模块,与医院信息系统关联,用于收集和存储历史分组数据和对应的扩充信息数据、待分组数据和对应的扩充信息数据;
标准化和编码转换模块,用于对存储模块中的历史分组数据对应的扩充信息数据、待分组数据对应的扩充信息数据进行标准化处理和标签编码处理,转化为标准数据样本;
特征工程处理模块,用于对标准数据样本进行特征工程处理,转化为标准数据特征;
机器学习训练模块,以历史分组数据对应的扩充信息数据处理后的标准数据特征作为训练数据,随机抽取一部分训练数据作为训练集,得到DRGs预测模型;
模型存储模块,用于存储DRGs预测模型;
DRGs分组输出模块,输入待分组数据对应的扩充信息数据处理后的标准数据特征,输出预测的DRGs分组结果集和结果集对应的可能性概率,取结果集中概率最高的E个可能分组结果和该结果对应的概率。
如上所述的一种医院DRGs分组判断工作系统,其特征在于,包括:DRGs预测模型为,以历史分组数据处理后的所有标准数据特征为输入,以DRGs分组结果集和结果集对应的可能性概率为输出,对机器学习模型进行训练得到,具体包括:
获取医院信息系统中的历史分组数据,并根据历史分组数据获取扩充信息数据;
对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;
将标准数据样本进行特征工程处理,得到标准数据特征;
将历史分组数据处理后的所有标准数据特征作为训练数据,并随机抽取一部分训练数据作为训练集,而另一部分训练数据作为测试集;
将训练集中的数据输入到随机森林模型和SVM模型中训练机器学习,得到训练后的随机森林模型和训练后的SVM模型;将测试集中的训练数据分别输入到训练后的随机森林模型和训练后的SVM模型中,得到1个随机森林训练的预测DRGs的结果集和DRGs结果集概率矩阵,以及得到1个SVM训练的预测DRGs的结果集和DRGs结果集概率矩阵;
设定一个判决参数阈值A,且取值为0到1,若随机森林训练的预测DRGs结果集概率最大的概率大于阈值A,则使用随机森林训练的预测DRGs结果和对应的结果集概率矩阵;否则对比SVM的预测结果和随机森林的预测结果中概率最大的概率,当SVM的预测结果概率较高则使用SVM的预测结果集,当随机森林的预测结果概率较高则使用随机森林的预测结果集,得到初步DRGs判断模型;
将初步DRGs分组判断模型进行调优,得到DRGs预测模型。
本发明的有益效果是:
1,获取DRGs分组结果速度快,准确度高,有官方数据支持,自动化程度高。能够结合病案数据和历史的分组数据协同进行应用,实现数据高效准确的处理。
2,能解决在详细的DRGs分组规则未知的条件下进行DRGs分组的判断,并输出分组的规则。
3,系统能根据医院信息系统现有的数据进行实时分析,给出当前病例数据的DRGs分组和概率,实现DRGs工具对医院的精细化管理。
[附图说明]
图1为本发明DRGs分组判断工作系统结构图;
图2为本发明DRGs分组判断方法原理图。
[具体实施方式]
下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后…)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。另外,在本发明中涉及“优选”、“次优选”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“优选”、“次优选”的特征可以明示或者隐含地包括至少一个该特征。
如图1所示,一种医院DRGs分组判断工作系统,包括
历史分组结果录入模块,用于录入历史分组数据;
his待分组数据实时获取模块,用于录入待分组数据;
医院信息系统,用于存储历史分组数据对应的扩充信息数据、待分组数据对应的扩充信息数据;
信息存储模块,与医院信息系统关联,用于收集和存储历史分组数据和对应的扩充信息数据、待分组数据和对应的扩充信息数据;
标准化和编码转换模块,用于对存储模块中的历史分组数据对应的扩充信息数据、待分组数据对应的扩充信息数据进行标准化处理和标签编码处理,转化为标准数据样本;
特征工程处理模块,用于对标准数据样本进行特征工程处理,转化为标准数据特征;
机器学习训练模块,以历史分组数据对应的扩充信息数据处理后的标准数据特征作为训练数据,随机抽取一部分训练数据作为训练集,得到DRGs预测模型;
模型存储模块,用于存储DRGs预测模型;
DRGs分组输出模块,输入待分组数据对应的扩充信息数据处理后的标准数据特征,输出预测的DRGs分组结果集和结果集对应的可能性概率,取结果集中概率最高的E个可能分组结果和该结果对应的概率。
如图2所示,一种医院DRGs分组判断方法,其步骤如下:
S1、获取医院信息系统中的待分组数据,并根据待分组数据获取扩充信息数据;
S2、对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;
S3、将标准数据样本进行特征工程处理,得到标准数据特征;
S4、将准数据特征输入到DRGs预测模型中,得到预测的DRGs分组结果集和结果集对应的可能性概率,取结果集中概率最高的3个可能分组结果和该结果对应的概率。
其中DRGs预测模型为,以历史分组数据处理后的所有标准数据特征为输入,以DRGs分组结果集和结果集对应的可能性概率为输出,对机器学习模型进行训练得到,具体包括:
S41、获取医院信息系统中的历史分组数据,并根据历史分组数据获取扩充信息数据;
具体地,获取最近1年的n个历史官方原始DRGs分组结果处理成EXCEL格式并通过数据库工具导入mysql数据库进行存储。
通过mysql odbc技术从数据库获取医院信息系统获取扩展信息,病例对应的主诊断、主手术、费用、关联诊断数、呼吸机使用时间、重症监护时长、病危病重、病理、损伤情况、是否昏迷、次要诊断数量、次要手术及操作数量、住院天数、患者年龄、是否再入院、体重等共m个字段以及分组结果字段y信息并通过病人就诊ID进行关联形成n*(m+1)大小的原始数据集D0,表示为[Dd,y],Dd和y每个分量均为实数。
Figure BDA0003663819290000091
S42、对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;
具体地,在D0形成后进行缺失值处理,对于主诊断、主手术、费用、住院天数、年龄这5个字段信息的若有缺失则直接删除该病人就诊ID下所有数据,删除数据为l行则Dd的行数编完n-l行;
对于是否再入院、是否昏迷等条件判断字段的缺失值采用默认值处理,可默认为0;对于其他损失情况、病理等文字字段的缺失值默认值处理,可默认为0;处理公式可表示为fa(x)
Figure BDA0003663819290000092
对于其他字段的缺失值,采用众数处理,选取同字段出现最多的M值来填补缺失。异常值处理,对于某些字段类型(type)不符的数据,采用众数M进行替换;
Figure BDA0003663819290000093
对于数字型异常值,是指使用数据处于3Sigma算法找出统计学特征在中心点之外的数据。对于金额、年龄、住院天数等数值型字段可通过分箱处理衍生新的字段。对于金额字段m金额,小于100或金额大于250万的生成新的字段信息mm+1并通过fc(x)重新赋值,例如如小于100赋值0或大于250万赋值为2500000,其他赋值为原始值,此处数值不做限定要求。
Figure BDA0003663819290000101
mm+1=fb(m金额)
年龄的分箱范围为0到1为0、1到17为1、18以上院原始值;住院天数同理,可根据实际进行相应处理。标准ICD诊断字典数据为C1,标准手术字典为C2,先对字典按字母和数字顺序进行排序再进行标签编码,转换诊断名称为对应的标签数字。
Figure BDA0003663819290000102
对于文本型字段如病理结果,损伤情况等根据字符串长度判断进行变量映射,当字符串长度大于3个字符该字段值更新为1,否则更新该字段值为0。
Figure BDA0003663819290000103
统计诊断和手术的个数,作为新的特征mzdc和mssc,统计呼吸机时间大于96小时或重症监护时间大于96小时作为新的特征mhxj,mzzjh。至此,r为衍生字段数形成大小为(n-l)*(mm+r)新的数据集D1,Dd1为原始数据和经过处理的数据,y'为DRGS分组数据
D1=[dD1 y′](n-l)*(m+r)
S43、将标准数据样本进行特征工程处理,得到标准数据特征;
具体地,通过mysql-connector-python模块,将上一步处理好的D1数据集作为输入进行特征工程。D1是数据集,它包括k个DRGs类别的n'=(n-l)个样本对应的概率分别为p1,p2,p3...pk,,每个样本信息字段为m'=mm+r个。D1除y'外部分属性字段也可以表示为a,a可划分为子集合A1,A2,A3...Ai,对应类别的Ai数量表示为xi,则数据集D的信息熵可以表示为:
Figure BDA0003663819290000111
对于某个字段Ai对应的信息熵公式可以表示为:
Figure BDA0003663819290000112
信息熵增益公式可以表示为G=Gain(a):
Gain(a)=info(D)-infoa(D)
因此本方法的模型的求解可以转化为求解最大信息熵增益的森林模型:
argΘmaxF(x:Θ)
其中Θ代表按分裂字段、在节点上的分割点以及端节点的值刻画的具有B颗树模型的森林参数,
Figure BDA0003663819290000121
对于本DRGS分类预测方法中,按照求解最大信息熵增益的目标我们使用随机森林算法的分割点选择G最大的点进行类别的分割,同时为了防止森林中的树过深,导致过拟合,训练过程中要限制森林中分类树的生长高度。
从D1中随机选取80%作为训练集T,并将D1作为测试集,将T输入到随机森林算法中进行,在训练模型的过程中累计计算特征在各个分裂节点的信息增益,可以得到特征重要性评分,通过SoftMax函数,
Figure BDA0003663819290000122
即可输出M=[m1m2m3m4....]对应的重要性概率Q=[q1q2q3q4...],按q的选取其中最大的前15个作为特征字段组成新的数据集D2,至此完成特征工程。
S44、将历史分组数据处理后的所有标准数据特征作为训练数据,并随机抽取一部分训练数据作为训练集,而另一部分训练数据作为测试集;
具体地,从D2中随机选取80%作为训练集T2,并将D2作为测试集。
S45、将训练集中的数据输入到随机森林模型和SVM模型中训练机器学习,得到训练后的随机森林模型和训练后的SVM模型;将测试集中的训练数据分别输入到训练后的随机森林模型和训练后的SVM模型中,得到1个随机森林训练的预测DRGs的结果集和DRGs结果集概率矩阵,以及得到1个SVM训练的预测DRGs的结果集和DRGs结果集概率矩阵;
具体地,将T2输入到随机森林算法和SVM算法中进行机器学习得到训练后的随机森林算法模型R1和训练后的SVM算法模型S1。将测试集D2输入到R1和S1之后得到对应的DRGs分组预测结果RR1和RS1结果集和对应的PR1和PS1概率。
S46、设定一个判决参数阈值A,且取值为0到1,若随机森林训练的预测DRGs结果集概率最大的概率大于阈值A,则使用随机森林训练的预测DRGs结果和对应的结果集概率矩阵;否则对比SVM的预测结果和随机森林的预测结果中概率最大的概率,当SVM的预测结果概率较高则使用SVM的预测结果集,当随机森林的预测结果概率较高则使用随机森林的预测结果集,得到初步DRGs判断模型;
具体地,使用判决阈值A设定为0.5,当PR1最高的概率大于A时采信RR1结果;否则比较PR1和PS1的最高概率PR1max和PS1max,PR1max大于PS1max时使用结果集RR1和PR1,PR1max小于或等于PS1max时使用结果集RS1和PS1。
S47、将初步DRGs分组判断模型进行调优,得到DRGs预测模型。
具体地,进行模型评价时,对于预测效果使用总精度(Overall Accuracy,OA)作为准确率评价指标,其公式如下:
OA=Trace(C)/N
C是混淆矩阵,n为样本总数,Trace是矩阵的迹。结果的OA数值越高预测效果越好。至此,得到初步的DRGs判断模型。根据测试集数据调整模型参数选取OA最大的模型参数作为最终的DRGs分组判断模型M,随机森林参数在树数量est=80、树深度depth=35,特征数量feature=11时取得最佳效果。
对DRGs待分组数据进行分组时,具体地,先获取医院信息系统内实时数据待判断DRGs分组数据Z0,采用上述相同数据处理和特征工程后,得到数据集Z1,输入模型M后得到预测的分组结果RM1和对应概率PM1,选取PM1中概率最大的3个分组RM11、RM12、RM13结果作为结果输出。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (10)

1.一种医院DRGs分组判断方法,其步骤如下:
S1、获取医院信息系统中的待分组数据,并根据待分组数据获取扩充信息数据;
S2、对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;
S3、将标准数据样本进行特征工程处理,得到标准数据特征;
S4、将准数据特征输入到DRGs预测模型中,得到预测的DRGs分组结果集和结果集对应的可能性概率,取结果集中概率最高的E个可能分组结果和该结果对应的概率。
2.根据权利要求1所述的一种医院DRGs分组判断方法,其特征在于:DRGs预测模型为,以历史分组数据处理后的所有标准数据特征为输入,以DRGs分组结果集和结果集对应的可能性概率为输出,对机器学习模型进行训练得到,具体包括:
S41、获取医院信息系统中的历史分组数据,并根据历史分组数据获取扩充信息数据;
S42、对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;
S43、将标准数据样本进行特征工程处理,得到标准数据特征;
S44、将历史分组数据处理后的所有标准数据特征作为训练数据,并随机抽取一部分训练数据作为训练集,而另一部分训练数据作为测试集;
S45、将训练集中的数据输入到随机森林模型和SVM模型中训练机器学习,得到训练后的随机森林模型和训练后的SVM模型;将测试集中的训练数据分别输入到训练后的随机森林模型和训练后的SVM模型中,得到1个随机森林训练的预测DRGs的结果集和DRGs结果集概率矩阵,以及得到1个SVM训练的预测DRGs的结果集和DRGs结果集概率矩阵;
S46、设定一个判决参数阈值A,且取值为0到1,若随机森林训练的预测DRGs结果集概率最大的概率大于阈值A,则使用随机森林训练的预测DRGs结果和对应的结果集概率矩阵;否则对比SVM的预测结果和随机森林的预测结果中概率最大的概率,当SVM的预测结果概率较高则使用SVM的预测结果集,当随机森林的预测结果概率较高则使用随机森林的预测结果集,得到初步DRGs判断模型;
S47、将初步DRGs分组判断模型进行调优,得到DRGs预测模型。
3.根据权利要求1或2所述的一种医院DRGs分组判断方法,其特征在于:S1中的扩充信息数据包括有诊断信息、手术信息、费用信息、患者年龄、体重,住院天数,检验结果、检查结果和病案首页信息。
4.根据权利要求1或2所述的一种医院DRGs分组判断方法,其特征在于:S2中的标准化处理包括有缺失值处理、异常值处理、数值分箱处理和文字映射处理。
5.根据权利要求1或2所述的一种医院DRGs分组判断方法,其特征在于:S2中的标签编码处理中,对于扩充信息数据中的参数主诊断编码和主手术编码,先采用标签编码的方式对诊断字典库数据进行转换,再使用编码后的数字标签进行分类;对于扩充信息数据中的其他非数字型参数采用标签编码的方式进行数据转换;对于扩充信息数据中的数字型参数可直接用于分类。
6.根据权利要求1或2所述的一种医院DRGs分组判断方法,其特征在于:S3中的标准数据特征包括有主诊断特征、主手术特征、费用特征、关联诊断数特征、呼吸机使用时间特征、重症监护时长特征、病危病重特征、病理特征、损伤情况特征、是否昏迷特征、次要诊断数量特征、次要手术及操作数量特征、住院天数特征、患者年龄特征、是否再入院特征、体重特征。
7.根据权利要求1所述的一种医院DRGs分组判断方法,其特征在于:S4中的E值为3。
8.根据权利要求2所述的一种医院DRGs分组判断方法,其特征在于:S48中通过使用总精度作为准确率评价指标对初步DRGs分组判断模型进行调优。
9.一种医院DRGs分组判断工作系统,其特征在于,包括:
历史分组结果录入模块,用于录入历史分组数据;
his待分组数据实时获取模块,用于录入待分组数据;
医院信息系统,用于存储历史分组数据对应的扩充信息数据、待分组数据对应的扩充信息数据;
信息存储模块,与医院信息系统关联,用于收集和存储历史分组数据和对应的扩充信息数据、待分组数据和对应的扩充信息数据;
标准化和编码转换模块,用于对存储模块中的历史分组数据对应的扩充信息数据、待分组数据对应的扩充信息数据进行标准化处理和标签编码处理,转化为标准数据样本;
特征工程处理模块,用于对标准数据样本进行特征工程处理,转化为标准数据特征;
机器学习训练模块,以历史分组数据对应的扩充信息数据处理后的标准数据特征作为训练数据,随机抽取一部分训练数据作为训练集,得到DRGs预测模型;
模型存储模块,用于存储DRGs预测模型;
DRGs分组输出模块,输入待分组数据对应的扩充信息数据处理后的标准数据特征,输出预测的DRGs分组结果集和结果集对应的可能性概率,取结果集中概率最高的E个可能分组结果和该结果对应的概率。
10.根据权利要求9所述的一种医院DRGs分组判断工作系统,其特征在于,包括:DRGs预测模型为,以历史分组数据处理后的所有标准数据特征为输入,以DRGs分组结果集和结果集对应的可能性概率为输出,对机器学习模型进行训练得到,具体包括:
获取医院信息系统中的历史分组数据,并根据历史分组数据获取扩充信息数据;
对扩充信息数据进行标准化处理和标签编码处理,得到标准数据样本;
将标准数据样本进行特征工程处理,得到标准数据特征;
将历史分组数据处理后的所有标准数据特征作为训练数据,并随机抽取一部分训练数据作为训练集,而另一部分训练数据作为测试集;
将训练集中的数据输入到随机森林模型和SVM模型中训练机器学习,得到训练后的随机森林模型和训练后的SVM模型;将测试集中的训练数据分别输入到训练后的随机森林模型和训练后的SVM模型中,得到1个随机森林训练的预测DRGs的结果集和DRGs结果集概率矩阵,以及得到1个SVM训练的预测DRGs的结果集和DRGs结果集概率矩阵;
设定一个判决参数阈值A,且取值为0到1,若随机森林训练的预测DRGs结果集概率最大的概率大于阈值A,则使用随机森林训练的预测DRGs结果和对应的结果集概率矩阵;否则对比SVM的预测结果和随机森林的预测结果中概率最大的概率,当SVM的预测结果概率较高则使用SVM的预测结果集,当随机森林的预测结果概率较高则使用随机森林的预测结果集,得到初步DRGs判断模型;
将初步DRGs分组判断模型进行调优,得到DRGs预测模型。
CN202210587100.3A 2022-05-26 2022-05-26 一种医院DRGs分组判断方法及工作系统 Pending CN114864029A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210587100.3A CN114864029A (zh) 2022-05-26 2022-05-26 一种医院DRGs分组判断方法及工作系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210587100.3A CN114864029A (zh) 2022-05-26 2022-05-26 一种医院DRGs分组判断方法及工作系统

Publications (1)

Publication Number Publication Date
CN114864029A true CN114864029A (zh) 2022-08-05

Family

ID=82641321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210587100.3A Pending CN114864029A (zh) 2022-05-26 2022-05-26 一种医院DRGs分组判断方法及工作系统

Country Status (1)

Country Link
CN (1) CN114864029A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093920A (zh) * 2023-10-20 2023-11-21 四川互慧软件有限公司 一种用户DRGs分组方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992800A (zh) * 2017-11-10 2018-05-04 杭州晟元数据安全技术股份有限公司 一种基于svm和随机森林的指纹图像质量判断方法
CN108231201A (zh) * 2018-01-25 2018-06-29 华中科技大学 一种疾病数据分析处理模型的构建方法、系统及应用
CN110739034A (zh) * 2019-09-20 2020-01-31 上海金仕达卫宁软件科技有限公司 一种对病案数据进行DRGs分组的方法
CN111161814A (zh) * 2019-12-18 2020-05-15 浙江大学 一种基于卷积神经网络的DRGs自动分组方法
CN111932142A (zh) * 2020-08-25 2020-11-13 望海康信(北京)科技股份公司 方案分组和数据分组方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992800A (zh) * 2017-11-10 2018-05-04 杭州晟元数据安全技术股份有限公司 一种基于svm和随机森林的指纹图像质量判断方法
CN108231201A (zh) * 2018-01-25 2018-06-29 华中科技大学 一种疾病数据分析处理模型的构建方法、系统及应用
CN110739034A (zh) * 2019-09-20 2020-01-31 上海金仕达卫宁软件科技有限公司 一种对病案数据进行DRGs分组的方法
CN111161814A (zh) * 2019-12-18 2020-05-15 浙江大学 一种基于卷积神经网络的DRGs自动分组方法
CN111932142A (zh) * 2020-08-25 2020-11-13 望海康信(北京)科技股份公司 方案分组和数据分组方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093920A (zh) * 2023-10-20 2023-11-21 四川互慧软件有限公司 一种用户DRGs分组方法
CN117093920B (zh) * 2023-10-20 2024-01-23 四川互慧软件有限公司 一种用户DRGs分组方法

Similar Documents

Publication Publication Date Title
CN110491465B (zh) 基于深度学习的疾病分类编码方法、系统、设备及介质
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
CN107193919A (zh) 一种电子病历的检索方法及系统
CN111709233A (zh) 基于多注意力卷积神经网络的智能导诊方法及系统
CN112712118A (zh) 一种面向医疗文本数据的过滤方法及系统
CN111161814A (zh) 一种基于卷积神经网络的DRGs自动分组方法
CN111738302A (zh) 一种基于多模态数据对阿尔茨海默病进行分类诊断的系统
CN112541066B (zh) 基于文本结构化的医技报告检测方法及相关设备
CN111785387B (zh) 一种使用Bert做疾病标准化映射分类的方法及系统
CN110767279A (zh) 基于lstm的电子健康记录缺失数据补全方法及系统
CN117497149A (zh) 一种基于人工智能的医院管理方法及系统
CN114358001A (zh) 诊断结果的标准化方法及其相关装置、设备和存储介质
CN114864029A (zh) 一种医院DRGs分组判断方法及工作系统
CN113626591A (zh) 一种基于文本分类的电子病历数据质量评价方法
CN114420233A (zh) 一种中文电子病历后结构化信息的抽取方法
CN118116578A (zh) 基于GPT-4和LangChain的药品推荐方法
CN116842330B (zh) 一种可对比历史记录的保健信息处理方法及装置
CN115984179A (zh) 鼻骨骨折的识别方法、装置、终端及存储介质
CN114328938B (zh) 一种影像报告结构化提取方法
CN111081325A (zh) 医疗数据处理方法与装置
CN115757801A (zh) 用于医疗文本的基于决策树的模型训练方法和装置
CN115375684A (zh) 一种基于机器学习的肺结核图像辅助诊断系统
CN114429820A (zh) 一种用于医院康复科的智能康复评定系统及评定方法
CN112364924A (zh) 一种基于深度学习的口腔医疗图像识别方法
CN113485990A (zh) 基于输血大数据的多维度智能数据清洗方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination