CN113779180A - 一种地区drg分组模拟方法 - Google Patents
一种地区drg分组模拟方法 Download PDFInfo
- Publication number
- CN113779180A CN113779180A CN202111149925.9A CN202111149925A CN113779180A CN 113779180 A CN113779180 A CN 113779180A CN 202111149925 A CN202111149925 A CN 202111149925A CN 113779180 A CN113779180 A CN 113779180A
- Authority
- CN
- China
- Prior art keywords
- drg
- diagnosis
- code
- group
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004088 simulation Methods 0.000 title claims abstract description 30
- 238000013507 mapping Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 7
- 238000004140 cleaning Methods 0.000 claims abstract description 4
- 238000003745 diagnosis Methods 0.000 claims description 81
- 230000007717 exclusion Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000001356 surgical procedure Methods 0.000 claims description 3
- 241001417495 Serranidae Species 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- CDDBPMZDDVHXFN-ONEGZZNKSA-N 2-[(e)-3-(1,3-benzodioxol-5-yl)prop-2-enyl]-1-hydroxypiperidine Chemical compound ON1CCCCC1C\C=C\C1=CC=C(OCO2)C2=C1 CDDBPMZDDVHXFN-ONEGZZNKSA-N 0.000 description 1
- 208000030507 AIDS Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000010322 bone marrow transplantation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011134 hematopoietic stem cell transplantation Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008733 trauma Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000011277 treatment modality Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Pathology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提出了一种地区DRG分组模拟方法,包括:步骤S1,输入带有DRG分组结果的医保结算清单数据集D1;步骤S2,对所述医保结算清单数据集D1进行数据清洗,得到数据集D2;步骤S3,遍历所述数据集D2中的每一条数据,进行ICD编码标准化映射,输出数据集D3;步骤S4,模拟地区分组器;步骤S5,模拟DRG入组流程。
Description
技术领域
本发明涉及信息技术领域,特别涉及一种地区DRG分组模拟方法。
背景技术
DRG:疾病诊断相关组(Diagnosis Related Groups,DRG)是用于衡量医疗服务质量效率以及进行医保支付的一个重要工具。DRG实质上是一种病例组合分类方案,即根据年龄、疾病诊断、合并症、并发症、治疗方式、病症严重程度及转归和资源消耗等因素,将患者分入若干诊断组进行管理的体系。
在DRG支付改革推行的过程中,对DRG相关系统的主要要求是入组准确,与直接上报的地区医保局入组方案一致。目前的医院病案数据上报和医保反馈入组结果存在较大时间差,导致不必要的医疗资源浪费或不合理盈余。各地区对国家公布的细分组方案有调整。各地区使用的ICD编码版本不同。
针对上述状况或诉求,目前常见的解决方案是依照国家版《医疗保障疾病诊断相关分组(CHARGED)细分组方案(1.0版)》实现CHARGED分组服务,在医院端部署并对病案首页做预分组,并在其入组基础上做相关统计分析。
在专利《基于Dags预分组的控费方法,CN202110068433.0》中公开一种基于Dags预分组的控费的方法,但是该技术方案还存在以下问题:没有对各地区、医院使用的不同版本ICD编码做校正,导致病案入组率低或实际入组结果可能不准确。未考虑各地区对DRG分组方案的调整,实际入组结果可能不准确。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种地区DRG分组模拟方法。
为了实现上述目的,本发明的实施例提供一种地区DRG分组模拟方法,包括如下步骤:
步骤S1,输入带有DRG分组结果的医保结算清单数据集D1;
步骤S2,对所述医保结算清单数据集D1进行数据清洗,得到数据集D2;
步骤S3,遍历所述数据集D2中的每一条数据,进行ICD编码标准化映射,输出数据集D3;
步骤S4,模拟地区分组器;
步骤S5,模拟DRG入组流程,包括如下步骤:
(1)根据模型入ADRG组:
(1.2)构建特征向量:
(1.1.5)初始化长度为m+n,值为0的向量;
(1.1.6)遍历输入数据的每个诊断编码,对于每个诊断编码,查找已生成的诊断-索引对照,得到该编码的索引序号为i,将上述向量中第i个位置改为1;
(1.1.7)遍历输入数据的每个手术和操作编码,对于每个手术和操作编码,查找已生成的手术=索引对照,得到该编码索引需要为为j,将上述向量中第j个位置改为1;
(1.1.8)至此得到特征向量;
(1.2)将特征向量输入模型进行预测,模型输出概率最高的ADRG组及其概率,认为该ADRG组为病案的预测ADRG组;
(2)确定DRG末位:
(2.1)如果在地区的DRG组码本中,该ADRG组下仅有一个组,则直接输出该DRG组;
(2.2)查询MCC/CC:
(2.2.1)对于输入数据中的每个次要诊断,若次要诊断在MCC表中存在,且输入数据的主要诊断不在该次要诊断的排除列表中,则DRG末位确定为严重合并症末位;
(2.2.2)如果上述步骤(2.2.1)未找到,则对于输入中的每个次要诊断,若次要诊断在CC表中存在,且输入数据的主要诊断不在该次要诊断的排除列表中,则DRG末位确定为一半合并症末位;
(2.2.3)如果上述步骤(2.2.1)和(2.2.2)均未找到,则末位确定为无合并症末位;
(2.2.4)拼接ADRG结果和上述3步确定的末位,得到DRG组输出结果。
进一步,在所述步骤S1中,所述医保结算清单数据集D1的关键字段包括:性别、年龄、离院方式、新生儿出生天数和体重、呼吸机使用时长、主要诊断编码、次要诊断编码、手术和操作编码、DRG组。
进一步,在所述步骤S2中,对数据集D1进行数据清洗,包括如下步骤:
删除字段缺失对数据;
删除取值不在字段合理取值范围内的数据;
添加ADRG列,取值为DRG编码的前三位。
进一步,在所述步骤S3中,所述进行ICD编码标准化映射,包括如下步骤:
确定诊断编码版本;
查找编码映射字典;
将诊断编码转换为ICD10的医保版编码;
将手术操作编码转换为ICD9-CM3医保版编码。
进一步,在所述步骤S4中,所述模拟地区分组器,包括如下步骤:
(1)生成MDC主诊表记录;
(2)执行ADRG模拟,包括:
(2.1)提取数据集D3中的所有诊断编码和手术编码并去重,提取数据集D3中的所有ADRG编码并去重;
(2.2)对特征进行one-hot编码:
(2.2.1)对所有诊断编码进行索引标识0至m-1,对所有手术编码进行索引标识0至n-1;
(2.2.2)对于数据集D3的每一条数据,如果索引i处的诊断编码在当前数据中存在,则该位置为1,否则为0;如果索引j处的手术编码在当前数据中存在,则该位置为1,否则为0;
(2.2.3)将当前数据的诊断和手术的0-1序列拼接,得到长度为m+n的特征向量;
(2.3)对标签进行编码,对所有ADRG编码做索引标识0到p,每份病案的标签[0,p)内的一个值;
(3)MCC/CC表模拟
(3.1)对数据集D3中的所有次要诊断频次进行统计,去掉频次低于数据集D3总数据量0.1%的次要诊断编码;
(3.2)建立每个次要诊断编码到DRG组末位的倒排索引:
(3.3)计算每个次要诊断出现条件下,每一种DRG末位出现的条件概率;
(3.4)对于条件概率超过0.5的,则将该次要诊断加入MCC表;
(3.5)对每个MCC/CC表中的诊断,将倒排索引中诊断-DRG末位对包含该诊断但末位等级比该诊断低的病案诊断编码集合添加至排除表。
进一步,在所述步骤S4中,所述生成MDC主诊表记录,包括如下步骤:将训练数据中的主要诊断添加至对应的MDC主诊表。
进一步,在所述步骤S4中,所述对标签进行编码,包括:用决策树模型对上述数据进行训练,采用交叉验证方法进行准确率评测,并调整模型参数和优化,得到最终ADRG分类模型,其输入是上述特征向量,输出是概率最大的标签ADRG组以及概率值。
进一步,在所述步骤S4中,所述建立每个次要诊断编码到DRG组末位的倒排索引,包括如下步骤:
(3.2.1)创建一个空的计数器,其键为(次要诊断编码--DRG末位)对,值为该配对出现的次数;
(3.2.2)遍历数据集D3,对于每一条数据中的每一个次要诊断,在计数器中记录该次要诊断和当前数据DRG组标签末位字母的对应关系,并将该关系出现次数上加1,同时此在此对应关系下添加当前记录的主要诊断编码。
根据本发明实施例的地区DRG分组模拟方法,可以实现基于短文本相似度和前缀匹配的方法,实现编码标准化映射;通过知识、统计和机器学习方法相结合,模拟地区分组器入组规则。本发明通过编码标准化使分组器模拟流程可以通用,且有效提升了DRG入组的入组率和准确率。以地区病案数据做模拟使得病案入组结果更贴合地区实际的情况,对临床医生和科室主任的指导精确性更强。模拟流程通用可扩展,可以通过增量数据不断迭代,提高DRG入组正确率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的地区DRG分组模拟方法的流程图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面首先对本发明涉及的几个术语概念进行说明。
病案首页:住院病案首页是医务人员使用文字、符号、代码、数字等方式,将患者住院期间相关信息精炼汇总在特定的表格中,形成的病例数据摘要。住院病案首页包括患者基本信息、住院过程信息、诊疗信息、费用信息。其中诊断和手术操作ICD编码,是决定DRG分组器的最主要因素。
MDC和ADRG:主要诊断大类(Major Diagnosis Category,MDC)和核心DRG组(Adjacent Diagnosis Related Groups,ADRG)是DRG组的大类,在编码方式上分别对应DRG组的首位和前三位,其中MDC与病案的主要诊断相关,ADRG与病案的主要诊断和手术操作相关。
MCC/CC:(严重)并发症与合并症((Major)Complication&Comorbidity)在住院病案中由次要诊断体现,在DRG分组方案中,以规则表形式标明哪些诊断是严重或一般的合并症或并发症,以及它们排除的主要诊断,其影响DRG组的末位。
先期分组:先期分组(Are-Major Diagnostic Category,Pre-med)是对消耗大量医疗资源的病例单独设立的组,包括器官、骨髓或造血干细胞移植(MDCA)、气管切开伴呼吸机支持(MDCA)、出生小于29天的新生儿(MDCP)、艾滋病感染疾病相关操作(MDCY)、多发严重创伤(MDCZ)。符合上述组内规则的病例优先入上述DRG组。
如图1所示,本发明实施例的地区DRG分组模拟方法,包括如下步骤:
步骤S1,输入带有DRG分组结果的医保结算清单数据集D1。
在本发明的实施例中,医保结算清单数据集D1的关键字段包括:性别、年龄、离院方式、新生儿出生天数和体重(针对新生儿患者)、呼吸机使用时长、主要诊断编码、次要诊断编码、手术和操作编码、DRG组。
步骤S2,对医保结算清单数据集D1进行数据清洗,得到数据集D2。
具体的,删除字段缺失的数据;删除取值不在字段合理取值范围内的数据;添加ADRG列,取值为DRG编码的前三位。
步骤S3,遍历数据集D2中的每一条数据,进行ICD编码标准化映射,输出数据集D3。
具体的,进行ICD编码标准化映射,包括如下步骤:确定诊断编码版本,如ICD10临床版;查找编码映射字典,如ICD10临床版-ICD10医保版映射字典;将诊断编码转换为ICD10医保版编码;同理,将手术操作编码转换为ICD9-CM3医保版编码。
步骤S4,模拟地区分组器。
1.地区分组器模拟。
1.1.MDC主诊表记录。将训练数据中的主要诊断添加至对应的MDC主诊表。
1.2.ADRG模拟。
1.2.1.提取数据集D3中的所有诊断编码和手术编码并去重,提取数据集D3中的所有ADRG编码并去重。
1.2.2.对特征做one-hot编码:
1.2.2.1.对所有诊断编码做索引标识0到m-1,对所有手术编码做索引标识0到n-1。
1.2.2.2.对于数据集D3的每一条数据,若索引i处的诊断编码在当前数据中存在,则该位置为1,否则为0,若索引j处的手术编码在当前数据中存在,则该位置为1,否则为0。
1.2.2.3.将当前数据的诊断和手术的0-1序列拼接,得到长度为m+n的特征向量。
1.2.3.对标签做编码。对所有ADRG编码做索引标识0到p,每份病案的标签为[0,p)内的一个值。
1.2.3.1.1.用决策树模型对上述数据进行训练,采用交叉验证方法做准确率评测,并调整模型参数和优化,得到最终ADRG分类模型,其输入是上述特征向量,输出是概率最大的标签(ADRG组)以及概率值。
1.3.MCC/CC表模拟。
1.3.1.对数据集D3中的所有次要诊断频次做统计,去掉频次低于数据集D3总数据量0.1%的次要诊断编码。
1.3.2.建立每个次要诊断编码到DRG组末位的倒排索引:
1.3.2.1.创建一个空的计数器,其键为(次要诊断编码--DRG末位)对,值为该配对出现的次数。
1.3.2.2.遍历数据集D3,对于每一条数据中的每一个次要诊断,在计数器中记录该次要诊断和当前数据DRG组标签末位字母的对应关系,并将该关系出现次数上加1。同时在此对应关系下添加当前记录的主要诊断编码。
1.3.3.计算每个次要诊断出现条件下,每一种DRG末位出现的条件概率。(如计算诊断编码d1出现在次要诊断中的条件下病案DRG末位为“3”的条件概率,则计算方式为计数器中“d1--3”的次数除以d1在数据集D3中出现的次数)。完成4.3.1-4.3.3步骤后,得到的数据结果形如表1所示。
1.3.4.对于条件概率超过0.5的(次要诊断编码--DRG末位)对,若对应末位为“1”,则将该次要诊断加入MCC表,若对应末位为“3”,则加入CC表。如表1,d1应加入CC表,d2应加入MCC表,d3不加入任何MCC/CC表。
1.3.5.对每个MCC/CC表中的诊断,将倒排索引中诊断-DRG末位对包含该诊断但末位等级比该诊断低的病案主要诊断编码集合添加至排除表。如表1所示,d7会被添加到d1的排除表,d3,d4会被添加到d2的排除表。
需要说明的是,阈值没有明确的计算方法,是目前实践中认为效果比较好的筛选值。在此处意义是限制同一病案中多个次要诊断的相互影响。
表1
步骤S5,模拟DRG入组流程,包括如下步骤:
2.模拟DRG入组流程。
2.1.根据模型入ADRG组:
2.1.1.构建特征向量:
2.1.1.1.根据步骤4.2.2.1,初始化长度为m+n,值为0的向量。
2.1.1.2.遍历输入数据的每个诊断编码,对于每个诊断编码,查找步骤4.2.2.1中生成的诊断-索引对照,得到该编码的索引序号为i,将上述向量中第i个位置改为1。
2.1.1.3.遍历输入数据的每个手术和操作编码,对于每个手术和操作编码,查找步骤4.2.2.1中生成的手术-索引对照,得到该编码的索引需要为j,将上述向量中第j个位置改为1。
2.1.1.4.至此得到特征向量。
2.1.2.将特征向量输入模型进行预测,模型输出概率最高的ADRG组及其概率,认为该ADRG组为病案的预测ADRG组。
2.2.确定DRG末位:
2.2.1.若在地区的DRG组码本中,该ADRG组下仅有一个组(未做细分),则直接输出该DRG组。
2.2.2.查询MCC/CC:
2.2.2.1.对于输入数据中的每个次要诊断,若次要诊断在MCC表中存在,且输入数据的主要诊断不在该次要诊断的排除列表中,则DRG末位确定为严重合并症末位(一般为1)。
2.2.2.2.若5.2.2.1未找到,则对于输入中的每个次要诊断,若次要诊断在CC表中存在,且输入数据的主要诊断不在该次要诊断的排除列表中,则DRG末位确定为一半合并症末位(一般为3)。
2.2.2.3.若上述均未找到,则末位确定为无合并症末位(一般为5)。
2.2.2.4拼接ADRG结果和上述3步确定的末位,得到DRG组输出结果。
根据本发明实施例的地区DRG分组模拟方法,通过知识、统计和机器学习方法相结合,模拟地区分组器入组规则,可以实现基于短文本相似度和前缀匹配的方法,实现编码标准化映射;通过知识、统计和机器学习方法相结合,模拟地区分组器入组规则。本发明通过编码标准化使分组器模拟流程可以通用,且有效提升了DRG入组的入组率和准确率。以地区病案数据做模拟使得病案入组结果更贴合地区实际的情况,对临床医生和科室主任的指导精确性更强。模拟流程通用可扩展,可以通过增量数据不断迭代,提高DRG入组正确率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。
Claims (8)
1.一种地区DRG分组模拟方法,其特征在于,包括如下步骤:
步骤S1,输入带有DRG分组结果的医保结算清单数据集D1;
步骤S2,对所述医保结算清单数据集D1进行数据清洗,得到数据集D2;
步骤S3,遍历所述数据集D2中的每一条数据,进行ICD编码标准化映射,输出数据集D3;
步骤S4,模拟地区分组器;
步骤S5,模拟DRG入组流程,包括如下步骤:
(1)根据模型入ADRG组:
(1.1)构建特征向量:
(1.1.1)初始化长度为m+n,值为0的向量;
(1.1.2)遍历输入数据的每个诊断编码,对于每个诊断编码,查找已生成的诊断-索引对照,得到该编码的索引序号为i,将上述向量中第i个位置改为1;
(1.1.3)遍历输入数据的每个手术和操作编码,对于每个手术和操作编码,查找已生成的手术=索引对照,得到该编码索引需要为为j,将上述向量中第j个位置改为1;
(1.1.4)至此得到特征向量;
(1.2)将特征向量输入模型进行预测,模型输出概率最高的ADRG组及其概率,认为该ADRG组为病案的预测ADRG组;
(2)确定DRG末位:
(2.1)如果在地区的DRG组码本中,该ADRG组下仅有一个组,则直接输出该DRG组;
(2.2)查询MCC/CC:
(2.2.1)对于输入数据中的每个次要诊断,若次要诊断在MCC表中存在,且输入数据的主要诊断不在该次要诊断的排除列表中,则DRG末位确定为严重合并症末位;
(2.2.2)如果上述步骤(2.2.1)未找到,则对于输入中的每个次要诊断,若次要诊断在CC表中存在,且输入数据的主要诊断不在该次要诊断的排除列表中,则DRG末位确定为一半合并症末位;
(2.2.3)如果上述步骤(2.2.1)和(2.2.2)均未找到,则末位确定为无合并症末位;
(2.2.4)拼接ADRG结果和上述3步确定的末位,得到DRG组输出结果。
2.如权利要求1所述的地区DRG分组模拟方法,其特征在于,在所述步骤S1中,所述医保结算清单数据集D1的关键字段包括:性别、年龄、离院方式、新生儿出生天数和体重、呼吸机使用时长、主要诊断编码、次要诊断编码、手术和操作编码、DRG组。
3.如权利要求1所述的地区DRG分组模拟方法,其特征在于,在所述步骤S2中,对数据集D1进行数据清洗,包括如下步骤:
删除字段缺失对数据;
删除取值不在字段合理取值范围内的数据;
添加ADRG列,取值为DRG编码的前三位。
4.如权利要求1所述的地区DRG分组模拟方法,其特征在于,在所述步骤S3中,所述进行ICD编码标准化映射,包括如下步骤:
确定诊断编码版本;
查找编码映射字典;
将诊断编码转换为ICD10的医保版编码;
将手术操作编码转换为ICD9-CM3医保版编码。
5.如权利要求1所述的地区DRG分组模拟方法,其特征在于,在所述步骤S4中,所述模拟地区分组器,包括如下步骤:
(1)生成MDC主诊表记录;
(2)执行ADRG模拟,包括:
(2.1)提取数据集D3中的所有诊断编码和手术编码并去重,提取数据集D3中的所有ADRG编码并去重;
(2.2)对特征进行one-hot编码:
(2.2.1)对所有诊断编码进行索引标识0至m-1,对所有手术编码进行索引标识0至n-1;
(2.2.2)对于数据集D3的每一条数据,如果索引i处的诊断编码在当前数据中存在,则该位置为1,否则为0;如果索引j处的手术编码在当前数据中存在,则该位置为1,否则为0;
(2.2.3)将当前数据的诊断和手术的0-1序列拼接,得到长度为m+n的特征向量;
(2.3)对标签进行编码,对所有ADRG编码做索引标识0到p,每份病案的标签[0,p)内的一个值;
(3)MCC/CC表模拟
(3.1)对数据集D3中的所有次要诊断频次进行统计,去掉频次低于数据集D3总数据量0.1%的次要诊断编码;
(3.2)建立每个次要诊断编码到DRG组末位的倒排索引:
(3.3)计算每个次要诊断出现条件下,每一种DRG末位出现的条件概率;
(3.4)对于条件概率超过0.5的,则将该次要诊断加入MCC表,;
(3.5)对每个MCC/CC表中的诊断,将倒排索引中诊断-DRG末位对包含该诊断但末位等级比该诊断低的病案诊断编码集合添加至排除表。
6.如权利要求5所述的地区DRG分组模拟方法,其特征在于,在所述步骤S4中,所述生成MDC主诊表记录,包括如下步骤:将训练数据中的主要诊断添加至对应的MDC主诊表。
7.如权利要求5所述的地区DRG分组模拟方法,其特征在于,在所述步骤S4中,所述对标签进行编码,包括:用决策树模型对上述数据进行训练,采用交叉验证方法进行准确率评测,并调整模型参数和优化,得到最终ADRG分类模型,其输入是上述特征向量,输出是概率最大的标签ADRG组以及概率值。
8.如权利要求5所述的地区DRG分组模拟方法,其特征在于,在所述步骤S4中,所述建立每个次要诊断编码到DRG组末位的倒排索引,包括如下步骤:
(3.2.1)创建一个空的计数器,其键为(次要诊断编码--DRG末位)对,值为该配对出现的次数;
(3.2.2)遍历数据集D3,对于每一条数据中的每一个次要诊断,在计数器中记录该次要诊断和当前数据DRG组标签末位字母的对应关系,并将该关系出现次数上加1,同时此在此对应关系下添加当前记录的主要诊断编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111149925.9A CN113779180B (zh) | 2021-09-29 | 2021-09-29 | 一种地区drg分组模拟方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111149925.9A CN113779180B (zh) | 2021-09-29 | 2021-09-29 | 一种地区drg分组模拟方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113779180A true CN113779180A (zh) | 2021-12-10 |
CN113779180B CN113779180B (zh) | 2024-07-19 |
Family
ID=78854334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111149925.9A Active CN113779180B (zh) | 2021-09-29 | 2021-09-29 | 一种地区drg分组模拟方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779180B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116127402A (zh) * | 2022-09-08 | 2023-05-16 | 天津大学 | 一种融合icd层级特征的drg自动分组方法及系统 |
CN117056495A (zh) * | 2023-10-08 | 2023-11-14 | 吉奥时空信息技术股份有限公司 | 一种政务咨询自动问答方法与系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110231203A1 (en) * | 2001-09-07 | 2011-09-22 | Eric Rosow | Managing Patient Bed Assignments And Bed Occupancy In A Health Care Facility |
CN108447534A (zh) * | 2018-05-18 | 2018-08-24 | 灵玖中科软件(北京)有限公司 | 一种基于nlp的电子病历数据质量管理方法 |
CN110502668A (zh) * | 2019-10-08 | 2019-11-26 | 福建亿能达信息技术股份有限公司 | 一种CN-DRGs与C-DRG的自动映射和转换方法 |
CN110706769A (zh) * | 2019-09-20 | 2020-01-17 | 上海金仕达卫宁软件科技有限公司 | 对医保数据进行DRGs分组的方法、装置和电子设备 |
CN110738573A (zh) * | 2019-09-06 | 2020-01-31 | 平安医疗健康管理股份有限公司 | 基于分类器的数据处理方法、设备、存储介质及装置 |
CN110739034A (zh) * | 2019-09-20 | 2020-01-31 | 上海金仕达卫宁软件科技有限公司 | 一种对病案数据进行DRGs分组的方法 |
CN110930030A (zh) * | 2019-11-22 | 2020-03-27 | 北京雅丁信息技术有限公司 | 医生技术水平评级方法 |
CN111610621A (zh) * | 2020-01-19 | 2020-09-01 | 北京大学 | 一种双模态显微成像系统和方法 |
-
2021
- 2021-09-29 CN CN202111149925.9A patent/CN113779180B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110231203A1 (en) * | 2001-09-07 | 2011-09-22 | Eric Rosow | Managing Patient Bed Assignments And Bed Occupancy In A Health Care Facility |
CN108447534A (zh) * | 2018-05-18 | 2018-08-24 | 灵玖中科软件(北京)有限公司 | 一种基于nlp的电子病历数据质量管理方法 |
CN110738573A (zh) * | 2019-09-06 | 2020-01-31 | 平安医疗健康管理股份有限公司 | 基于分类器的数据处理方法、设备、存储介质及装置 |
CN110706769A (zh) * | 2019-09-20 | 2020-01-17 | 上海金仕达卫宁软件科技有限公司 | 对医保数据进行DRGs分组的方法、装置和电子设备 |
CN110739034A (zh) * | 2019-09-20 | 2020-01-31 | 上海金仕达卫宁软件科技有限公司 | 一种对病案数据进行DRGs分组的方法 |
CN110502668A (zh) * | 2019-10-08 | 2019-11-26 | 福建亿能达信息技术股份有限公司 | 一种CN-DRGs与C-DRG的自动映射和转换方法 |
CN110930030A (zh) * | 2019-11-22 | 2020-03-27 | 北京雅丁信息技术有限公司 | 医生技术水平评级方法 |
CN111610621A (zh) * | 2020-01-19 | 2020-09-01 | 北京大学 | 一种双模态显微成像系统和方法 |
Non-Patent Citations (2)
Title |
---|
FANXIU DONG: "Application of the DRGs and the Fuzzy Demand in the Medical Service Resource Allocation Based on the Data Mining Algorithm", pages 1 - 8, Retrieved from the Internet <URL:《网页在线公开:https://cdn.techscience.cn/uploads/attached/file/20200827/20200827065833_60630.pdf》> * |
李会玲等: "哈尔滨市医疗机构DRG模拟运行中发现的问题及解决措施探讨", 《医疗保险管理》, vol. 41, no. 8, pages 63 - 65 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116127402A (zh) * | 2022-09-08 | 2023-05-16 | 天津大学 | 一种融合icd层级特征的drg自动分组方法及系统 |
CN116127402B (zh) * | 2022-09-08 | 2023-08-22 | 天津大学 | 一种融合icd层级特征的drg自动分组方法及系统 |
CN117056495A (zh) * | 2023-10-08 | 2023-11-14 | 吉奥时空信息技术股份有限公司 | 一种政务咨询自动问答方法与系统 |
CN117056495B (zh) * | 2023-10-08 | 2024-01-12 | 吉奥时空信息技术股份有限公司 | 一种政务咨询自动问答方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113779180B (zh) | 2024-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108831559B (zh) | 一种中文电子病历文本分析方法与系统 | |
CN109411082B (zh) | 一种医疗质量评价及就诊推荐方法 | |
CN107705839B (zh) | 疾病自动编码方法及系统 | |
CN107731269B (zh) | 基于原始诊断数据和病历文件数据的疾病编码方法及系统 | |
CN111540468A (zh) | 一种诊断原因可视化的icd自动编码方法与系统 | |
US7917377B2 (en) | Patient data mining for automated compliance | |
CN113779180B (zh) | 一种地区drg分组模拟方法 | |
CN105868526B (zh) | 基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法 | |
CN111949759A (zh) | 病历文本相似度的检索方法、系统及计算机设备 | |
Grundmeier et al. | Identification of long bone fractures in radiology reports using natural language processing to support healthcare quality improvement | |
CN112541066B (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
CN111243753B (zh) | 一种面向医疗数据的多因素相关性交互式分析方法 | |
CN112489740A (zh) | 病历检测方法及相关模型的训练方法和相关设备、装置 | |
CN111524570B (zh) | 一种基于机器学习的超声随访患者筛选方法 | |
CN113555077A (zh) | 疑似传染病预测方法及装置 | |
CN114334065B (zh) | 病历处理方法、计算机可读存储介质及计算机设备 | |
US20140046694A1 (en) | Systems and methods for synoptic element structured reporting | |
US20100063947A1 (en) | System and Method for Dynamically Adaptable Learning Medical Diagnosis System | |
CN112151174A (zh) | 一种基于体检数据的用户健康信息分析方法、系统 | |
CN117194604B (zh) | 一种智慧医疗病患问诊语料库构建方法 | |
CN113903420A (zh) | 一种语义标签确定模型的构建方法、病历解析方法 | |
CN117637095A (zh) | 一种医学影像报告结构化处理方法和系统 | |
CN111640517A (zh) | 病历编码方法、装置、存储介质及电子设备 | |
CN107273671B (zh) | 一种实现医疗绩效量化的方法和系统 | |
CN111383123A (zh) | 临床医疗开销的统计方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |