CN113779180A

CN113779180A - 一种地区drg分组模拟方法

Info

Publication number: CN113779180A
Application number: CN202111149925.9A
Authority: CN
Inventors: 秦继武; 陈倩; 张友书; 程岚; 祝伟
Original assignee: Beijing Yading Information Technology Co ltd
Current assignee: Beijing Yading Information Technology Co ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2021-12-10
Anticipated expiration: 2041-09-29
Also published as: CN113779180B

Abstract

本发明提出了一种地区DRG分组模拟方法，包括：步骤S1，输入带有DRG分组结果的医保结算清单数据集D1；步骤S2，对所述医保结算清单数据集D1进行数据清洗，得到数据集D2；步骤S3，遍历所述数据集D2中的每一条数据，进行ICD编码标准化映射，输出数据集D3；步骤S4，模拟地区分组器；步骤S5，模拟DRG入组流程。

Description

一种地区DRG分组模拟方法

技术领域

本发明涉及信息技术领域，特别涉及一种地区DRG分组模拟方法。

背景技术

DRG：疾病诊断相关组(Diagnosis Related Groups，DRG)是用于衡量医疗服务质量效率以及进行医保支付的一个重要工具。DRG实质上是一种病例组合分类方案，即根据年龄、疾病诊断、合并症、并发症、治疗方式、病症严重程度及转归和资源消耗等因素，将患者分入若干诊断组进行管理的体系。

在DRG支付改革推行的过程中，对DRG相关系统的主要要求是入组准确，与直接上报的地区医保局入组方案一致。目前的医院病案数据上报和医保反馈入组结果存在较大时间差，导致不必要的医疗资源浪费或不合理盈余。各地区对国家公布的细分组方案有调整。各地区使用的ICD编码版本不同。

针对上述状况或诉求，目前常见的解决方案是依照国家版《医疗保障疾病诊断相关分组(CHARGED)细分组方案(1.0版)》实现CHARGED分组服务，在医院端部署并对病案首页做预分组，并在其入组基础上做相关统计分析。

在专利《基于Dags预分组的控费方法，CN202110068433.0》中公开一种基于Dags预分组的控费的方法，但是该技术方案还存在以下问题：没有对各地区、医院使用的不同版本ICD编码做校正，导致病案入组率低或实际入组结果可能不准确。未考虑各地区对DRG分组方案的调整，实际入组结果可能不准确。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的目的在于提出一种地区DRG分组模拟方法。

为了实现上述目的，本发明的实施例提供一种地区DRG分组模拟方法，包括如下步骤：

步骤S1，输入带有DRG分组结果的医保结算清单数据集D1；

步骤S2，对所述医保结算清单数据集D1进行数据清洗，得到数据集D2；

步骤S3，遍历所述数据集D2中的每一条数据，进行ICD编码标准化映射，输出数据集D3；

步骤S4，模拟地区分组器；

步骤S5，模拟DRG入组流程，包括如下步骤：

(1)根据模型入ADRG组：

(1.2)构建特征向量：

(1.1.5)初始化长度为m+n，值为0的向量；

(1.1.6)遍历输入数据的每个诊断编码，对于每个诊断编码，查找已生成的诊断-索引对照，得到该编码的索引序号为i，将上述向量中第i个位置改为1；

(1.1.7)遍历输入数据的每个手术和操作编码，对于每个手术和操作编码，查找已生成的手术＝索引对照，得到该编码索引需要为为j，将上述向量中第j个位置改为1；

(1.1.8)至此得到特征向量；

(1.2)将特征向量输入模型进行预测，模型输出概率最高的ADRG组及其概率，认为该ADRG组为病案的预测ADRG组；

(2)确定DRG末位：

(2.1)如果在地区的DRG组码本中，该ADRG组下仅有一个组，则直接输出该DRG组；

(2.2)查询MCC/CC：

(2.2.1)对于输入数据中的每个次要诊断，若次要诊断在MCC表中存在，且输入数据的主要诊断不在该次要诊断的排除列表中，则DRG末位确定为严重合并症末位；

(2.2.2)如果上述步骤(2.2.1)未找到，则对于输入中的每个次要诊断，若次要诊断在CC表中存在，且输入数据的主要诊断不在该次要诊断的排除列表中，则DRG末位确定为一半合并症末位；

(2.2.3)如果上述步骤(2.2.1)和(2.2.2)均未找到，则末位确定为无合并症末位；

(2.2.4)拼接ADRG结果和上述3步确定的末位，得到DRG组输出结果。

进一步，在所述步骤S1中，所述医保结算清单数据集D1的关键字段包括：性别、年龄、离院方式、新生儿出生天数和体重、呼吸机使用时长、主要诊断编码、次要诊断编码、手术和操作编码、DRG组。

进一步，在所述步骤S2中，对数据集D1进行数据清洗，包括如下步骤：

删除字段缺失对数据；

删除取值不在字段合理取值范围内的数据；

添加ADRG列，取值为DRG编码的前三位。

进一步，在所述步骤S3中，所述进行ICD编码标准化映射，包括如下步骤：

确定诊断编码版本；

查找编码映射字典；

将诊断编码转换为ICD10的医保版编码；

将手术操作编码转换为ICD9-CM3医保版编码。

进一步，在所述步骤S4中，所述模拟地区分组器，包括如下步骤：

(1)生成MDC主诊表记录；

(2)执行ADRG模拟，包括：

(2.1)提取数据集D3中的所有诊断编码和手术编码并去重，提取数据集D3中的所有ADRG编码并去重；

(2.2)对特征进行one-hot编码：

(2.2.1)对所有诊断编码进行索引标识0至m-1，对所有手术编码进行索引标识0至n-1；

(2.2.2)对于数据集D3的每一条数据，如果索引i处的诊断编码在当前数据中存在，则该位置为1，否则为0；如果索引j处的手术编码在当前数据中存在，则该位置为1，否则为0；

(2.2.3)将当前数据的诊断和手术的0-1序列拼接，得到长度为m+n的特征向量；

(2.3)对标签进行编码，对所有ADRG编码做索引标识0到p，每份病案的标签[0,p)内的一个值；

(3)MCC/CC表模拟

(3.1)对数据集D3中的所有次要诊断频次进行统计，去掉频次低于数据集D3总数据量0.1％的次要诊断编码；

(3.2)建立每个次要诊断编码到DRG组末位的倒排索引：

(3.3)计算每个次要诊断出现条件下，每一种DRG末位出现的条件概率；

(3.4)对于条件概率超过0.5的，则将该次要诊断加入MCC表；

(3.5)对每个MCC/CC表中的诊断，将倒排索引中诊断-DRG末位对包含该诊断但末位等级比该诊断低的病案诊断编码集合添加至排除表。

进一步，在所述步骤S4中，所述生成MDC主诊表记录，包括如下步骤：将训练数据中的主要诊断添加至对应的MDC主诊表。

进一步，在所述步骤S4中，所述对标签进行编码，包括：用决策树模型对上述数据进行训练，采用交叉验证方法进行准确率评测，并调整模型参数和优化，得到最终ADRG分类模型，其输入是上述特征向量，输出是概率最大的标签ADRG组以及概率值。

进一步，在所述步骤S4中，所述建立每个次要诊断编码到DRG组末位的倒排索引，包括如下步骤：

(3.2.1)创建一个空的计数器，其键为(次要诊断编码--DRG末位)对，值为该配对出现的次数；

(3.2.2)遍历数据集D3，对于每一条数据中的每一个次要诊断，在计数器中记录该次要诊断和当前数据DRG组标签末位字母的对应关系，并将该关系出现次数上加1，同时此在此对应关系下添加当前记录的主要诊断编码。

根据本发明实施例的地区DRG分组模拟方法，可以实现基于短文本相似度和前缀匹配的方法，实现编码标准化映射；通过知识、统计和机器学习方法相结合，模拟地区分组器入组规则。本发明通过编码标准化使分组器模拟流程可以通用，且有效提升了DRG入组的入组率和准确率。以地区病案数据做模拟使得病案入组结果更贴合地区实际的情况，对临床医生和科室主任的指导精确性更强。模拟流程通用可扩展，可以通过增量数据不断迭代，提高DRG入组正确率。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的地区DRG分组模拟方法的流程图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面首先对本发明涉及的几个术语概念进行说明。

病案首页：住院病案首页是医务人员使用文字、符号、代码、数字等方式，将患者住院期间相关信息精炼汇总在特定的表格中，形成的病例数据摘要。住院病案首页包括患者基本信息、住院过程信息、诊疗信息、费用信息。其中诊断和手术操作ICD编码，是决定DRG分组器的最主要因素。

MDC和ADRG：主要诊断大类(Major Diagnosis Category，MDC)和核心DRG组(Adjacent Diagnosis Related Groups，ADRG)是DRG组的大类，在编码方式上分别对应DRG组的首位和前三位，其中MDC与病案的主要诊断相关，ADRG与病案的主要诊断和手术操作相关。

MCC/CC：(严重)并发症与合并症((Major)Complication&Comorbidity)在住院病案中由次要诊断体现，在DRG分组方案中，以规则表形式标明哪些诊断是严重或一般的合并症或并发症，以及它们排除的主要诊断，其影响DRG组的末位。

先期分组：先期分组(Are-Major Diagnostic Category，Pre-med)是对消耗大量医疗资源的病例单独设立的组，包括器官、骨髓或造血干细胞移植(MDCA)、气管切开伴呼吸机支持(MDCA)、出生小于29天的新生儿(MDCP)、艾滋病感染疾病相关操作(MDCY)、多发严重创伤(MDCZ)。符合上述组内规则的病例优先入上述DRG组。

如图1所示，本发明实施例的地区DRG分组模拟方法，包括如下步骤：

步骤S1，输入带有DRG分组结果的医保结算清单数据集D1。

在本发明的实施例中，医保结算清单数据集D1的关键字段包括：性别、年龄、离院方式、新生儿出生天数和体重(针对新生儿患者)、呼吸机使用时长、主要诊断编码、次要诊断编码、手术和操作编码、DRG组。

步骤S2，对医保结算清单数据集D1进行数据清洗，得到数据集D2。

具体的，删除字段缺失的数据；删除取值不在字段合理取值范围内的数据；添加ADRG列，取值为DRG编码的前三位。

步骤S3，遍历数据集D2中的每一条数据，进行ICD编码标准化映射，输出数据集D3。

具体的，进行ICD编码标准化映射，包括如下步骤：确定诊断编码版本，如ICD10临床版；查找编码映射字典，如ICD10临床版-ICD10医保版映射字典；将诊断编码转换为ICD10医保版编码；同理，将手术操作编码转换为ICD9-CM3医保版编码。

步骤S4，模拟地区分组器。

1.地区分组器模拟。

1.1.MDC主诊表记录。将训练数据中的主要诊断添加至对应的MDC主诊表。

1.2.ADRG模拟。

1.2.1.提取数据集D3中的所有诊断编码和手术编码并去重，提取数据集D3中的所有ADRG编码并去重。

1.2.2.对特征做one-hot编码：

1.2.2.1.对所有诊断编码做索引标识0到m-1，对所有手术编码做索引标识0到n-1。

1.2.2.2.对于数据集D3的每一条数据，若索引i处的诊断编码在当前数据中存在，则该位置为1，否则为0，若索引j处的手术编码在当前数据中存在，则该位置为1，否则为0。

1.2.2.3.将当前数据的诊断和手术的0-1序列拼接，得到长度为m+n的特征向量。

1.2.3.对标签做编码。对所有ADRG编码做索引标识0到p，每份病案的标签为[0,p)内的一个值。

1.2.3.1.1.用决策树模型对上述数据进行训练，采用交叉验证方法做准确率评测，并调整模型参数和优化，得到最终ADRG分类模型，其输入是上述特征向量，输出是概率最大的标签(ADRG组)以及概率值。

1.3.MCC/CC表模拟。

1.3.1.对数据集D3中的所有次要诊断频次做统计，去掉频次低于数据集D3总数据量0.1％的次要诊断编码。

1.3.2.建立每个次要诊断编码到DRG组末位的倒排索引：

1.3.2.1.创建一个空的计数器，其键为(次要诊断编码--DRG末位)对，值为该配对出现的次数。

1.3.2.2.遍历数据集D3，对于每一条数据中的每一个次要诊断，在计数器中记录该次要诊断和当前数据DRG组标签末位字母的对应关系，并将该关系出现次数上加1。同时在此对应关系下添加当前记录的主要诊断编码。

1.3.3.计算每个次要诊断出现条件下，每一种DRG末位出现的条件概率。(如计算诊断编码d1出现在次要诊断中的条件下病案DRG末位为“3”的条件概率，则计算方式为计数器中“d1--3”的次数除以d1在数据集D3中出现的次数)。完成4.3.1-4.3.3步骤后，得到的数据结果形如表1所示。

1.3.4.对于条件概率超过0.5的(次要诊断编码--DRG末位)对，若对应末位为“1”，则将该次要诊断加入MCC表，若对应末位为“3”，则加入CC表。如表1，d1应加入CC表，d2应加入MCC表，d3不加入任何MCC/CC表。

1.3.5.对每个MCC/CC表中的诊断，将倒排索引中诊断-DRG末位对包含该诊断但末位等级比该诊断低的病案主要诊断编码集合添加至排除表。如表1所示，d7会被添加到d1的排除表，d3，d4会被添加到d2的排除表。

需要说明的是，阈值没有明确的计算方法，是目前实践中认为效果比较好的筛选值。在此处意义是限制同一病案中多个次要诊断的相互影响。

表1

步骤S5，模拟DRG入组流程，包括如下步骤：

2.模拟DRG入组流程。

2.1.根据模型入ADRG组：

2.1.1.构建特征向量：

2.1.1.1.根据步骤4.2.2.1，初始化长度为m+n，值为0的向量。

2.1.1.2.遍历输入数据的每个诊断编码，对于每个诊断编码，查找步骤4.2.2.1中生成的诊断-索引对照，得到该编码的索引序号为i，将上述向量中第i个位置改为1。

2.1.1.3.遍历输入数据的每个手术和操作编码，对于每个手术和操作编码，查找步骤4.2.2.1中生成的手术-索引对照，得到该编码的索引需要为j，将上述向量中第j个位置改为1。

2.1.1.4.至此得到特征向量。

2.1.2.将特征向量输入模型进行预测，模型输出概率最高的ADRG组及其概率，认为该ADRG组为病案的预测ADRG组。

2.2.确定DRG末位：

2.2.1.若在地区的DRG组码本中，该ADRG组下仅有一个组(未做细分)，则直接输出该DRG组。

2.2.2.查询MCC/CC：

2.2.2.1.对于输入数据中的每个次要诊断，若次要诊断在MCC表中存在，且输入数据的主要诊断不在该次要诊断的排除列表中，则DRG末位确定为严重合并症末位(一般为1)。

2.2.2.2.若5.2.2.1未找到，则对于输入中的每个次要诊断，若次要诊断在CC表中存在，且输入数据的主要诊断不在该次要诊断的排除列表中，则DRG末位确定为一半合并症末位(一般为3)。

2.2.2.3.若上述均未找到，则末位确定为无合并症末位(一般为5)。

2.2.2.4拼接ADRG结果和上述3步确定的末位，得到DRG组输出结果。

根据本发明实施例的地区DRG分组模拟方法，通过知识、统计和机器学习方法相结合，模拟地区分组器入组规则，可以实现基于短文本相似度和前缀匹配的方法，实现编码标准化映射；通过知识、统计和机器学习方法相结合，模拟地区分组器入组规则。本发明通过编码标准化使分组器模拟流程可以通用，且有效提升了DRG入组的入组率和准确率。以地区病案数据做模拟使得病案入组结果更贴合地区实际的情况，对临床医生和科室主任的指导精确性更强。模拟流程通用可扩展，可以通过增量数据不断迭代，提高DRG入组正确率。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims

1.一种地区DRG分组模拟方法，其特征在于，包括如下步骤：

步骤S1，输入带有DRG分组结果的医保结算清单数据集D1；

步骤S4，模拟地区分组器；

步骤S5，模拟DRG入组流程，包括如下步骤：

(1)根据模型入ADRG组：

(1.1)构建特征向量：

(1.1.1)初始化长度为m+n，值为0的向量；

(1.1.2)遍历输入数据的每个诊断编码，对于每个诊断编码，查找已生成的诊断-索引对照，得到该编码的索引序号为i，将上述向量中第i个位置改为1；

(1.1.3)遍历输入数据的每个手术和操作编码，对于每个手术和操作编码，查找已生成的手术＝索引对照，得到该编码索引需要为为j，将上述向量中第j个位置改为1；

(1.1.4)至此得到特征向量；

(2)确定DRG末位：

(2.2)查询MCC/CC：

2.如权利要求1所述的地区DRG分组模拟方法，其特征在于，在所述步骤S1中，所述医保结算清单数据集D1的关键字段包括：性别、年龄、离院方式、新生儿出生天数和体重、呼吸机使用时长、主要诊断编码、次要诊断编码、手术和操作编码、DRG组。

3.如权利要求1所述的地区DRG分组模拟方法，其特征在于，在所述步骤S2中，对数据集D1进行数据清洗，包括如下步骤：

删除字段缺失对数据；

删除取值不在字段合理取值范围内的数据；

添加ADRG列，取值为DRG编码的前三位。

4.如权利要求1所述的地区DRG分组模拟方法，其特征在于，在所述步骤S3中，所述进行ICD编码标准化映射，包括如下步骤：

确定诊断编码版本；

查找编码映射字典；

将诊断编码转换为ICD10的医保版编码；

将手术操作编码转换为ICD9-CM3医保版编码。

5.如权利要求1所述的地区DRG分组模拟方法，其特征在于，在所述步骤S4中，所述模拟地区分组器，包括如下步骤：

(1)生成MDC主诊表记录；

(2)执行ADRG模拟，包括：

(2.2)对特征进行one-hot编码：

(3)MCC/CC表模拟

(3.2)建立每个次要诊断编码到DRG组末位的倒排索引：

(3.4)对于条件概率超过0.5的，则将该次要诊断加入MCC表，；

6.如权利要求5所述的地区DRG分组模拟方法，其特征在于，在所述步骤S4中，所述生成MDC主诊表记录，包括如下步骤：将训练数据中的主要诊断添加至对应的MDC主诊表。

7.如权利要求5所述的地区DRG分组模拟方法，其特征在于，在所述步骤S4中，所述对标签进行编码，包括：用决策树模型对上述数据进行训练，采用交叉验证方法进行准确率评测，并调整模型参数和优化，得到最终ADRG分类模型，其输入是上述特征向量，输出是概率最大的标签ADRG组以及概率值。

8.如权利要求5所述的地区DRG分组模拟方法，其特征在于，在所述步骤S4中，所述建立每个次要诊断编码到DRG组末位的倒排索引，包括如下步骤：