CN108630320B - 一种基于医保大数据测算疾病患病率的方法 - Google Patents

一种基于医保大数据测算疾病患病率的方法 Download PDF

Info

Publication number
CN108630320B
CN108630320B CN201810441017.9A CN201810441017A CN108630320B CN 108630320 B CN108630320 B CN 108630320B CN 201810441017 A CN201810441017 A CN 201810441017A CN 108630320 B CN108630320 B CN 108630320B
Authority
CN
China
Prior art keywords
month
diagnosis
target
patients
insurance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810441017.9A
Other languages
English (en)
Other versions
CN108630320A (zh
Inventor
王胜锋
詹思延
高培
王金喜
许璐
冯菁楠
尉晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201810441017.9A priority Critical patent/CN108630320B/zh
Publication of CN108630320A publication Critical patent/CN108630320A/zh
Application granted granted Critical
Publication of CN108630320B publication Critical patent/CN108630320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Abstract

本发明公布了一种基于医保大数据测算疾病患病率的方法,将特定时间内总人口中的所有患有某病的新旧病例数目作为计算患病率的分子,将特定时间内的总人口作为计算患病率的分母;通过汇总每月医保数据的多个关键参数,包括:每月参保个体总数、每月新增参保个体数、每月就诊记录总数、每月就诊记录诊断缺失总数;获得患病率计算的分子与分母信息,进而计算得到患病率。本发明方法以医保大数据为基础,简便快速有效,可以替代耗费人财物的现有流行病学人群调查,转变以面板数据为基础的患病率计算策略,优化数据存储、运算的执行效率,降低隐私泄露风险和数据共享门槛,促进医保大数据的转化应用。

Description

一种基于医保大数据测算疾病患病率的方法
技术领域
本发明涉及数据处理技术,尤其涉及一种基于医保大数据测算疾病患病率(Prevalence)的方法,具体针对汇总数据格式下高效计数患病率对应分子、分母进行统计运算。
背景技术
医保数据(Claims data),是医保业务过程中获得的数据,由于无需抽样调查,天然覆盖较大规模的人群,并较为完整真实的记录该人群在一定时间范围内的就医信息,被越来越多的用于疾病的患病率研究。
常规的流行病学研究中,计算患病率需要明确分母的人口规模,计数某一时间内对应的病例数量。但对于现在积累的海量医保数据,无论数据存储的期别、格式和体量,还是数据指标的跨度、缺失和个体脱保等,都会导致直接实施上述思路遇到一些问题,从而制约医保大数据的实际应用。
美国的Medicaid、Medicare联合办公中心总结开发了适用于两者数据库的常见慢性病症的患者界定规则,但同时明确指出目标患者的界定规则因数据库而异、因病而异。美国Jensen等对影响分母的界定参数进行了探讨,提出就诊频率不高的病症,最短观察时间设定较短会导致患病率低估,设定较长又会导致高估,具体需要因病而异。
上述探索均集中在国外,而我们国家医保报销模式决定了医保数据的实际存储以月为单位,患者参保信息与就诊信息之间以就诊号关联。国外研究都基于个体原始数据,数据量与运算资源性能相对匹配,而我国医保人口超过13亿,多人次多年份的海量数据情境下,传统的构建个体面板数据的运算策略将会导致数据稀疏、信息冗余、存储和运算困难等问题。
发明内容
本发明的目的是提供一种基于医保大数据测算疾病患病率的新方法,基于优化数据中间存储格式,通过汇总每月医保数据的多个关键参数,包括:每月参保个体总数、每月新增参保个体数、每月就诊记录总数、每月就诊记录诊断缺失总数,再推导患病率计算所需的分子与分母信息,进而计算得到患病率。本发明可测算的疾病要求不能彻底治愈,一旦诊断,终身罹患。
本发明的原理是:基于人月的概念,计数每月参保个体总数、每月新增参保个体数、每月就诊记录总数、每月就诊记录诊断缺失总数,通过目标疾病定义抽提目标患者,并推导诊断随机缺失情境下的“隐形患者”,再根据患病率公式进行推导,计算得到患病率。本发明方法可测算的疾病包括多发性骨髓瘤、浆细胞白血病、浆细胞病、男性乳腺癌、黑色素瘤等。
本发明提供的技术方案是:
一种基于医保大数据测算疾病患病率的方法,通过汇总每月医保数据的多个关键参数(包括:每月参保个体总数、每月新增参保个体数、每月就诊记录总数、每月就诊记录诊断缺失总数),推导患病率计算所需的分子与分母信息,进而计算得到患病率;患病率计算的分子指特定时间内总人口中的所有患有某病的新旧病例,分母即特定时间内的总人口;包括如下步骤:
A1.确定数据库范围(如时间跨度、地域分布、门诊/住院);
A2.数据库的基本清洗和目标疾病的定义;
A3.分母信息的汇总
具体分为三组:参保但从未报销的个体、参保且有报销记录但未出现目标诊断的个体和参保有报销记录且出现目标诊断的个体。根据每位观察对象在每个月的参保状态、纳入参保人次,剔除未参保人次。
A4.分子信息的汇总;
明确目标疾病的定义后,进行对应的分子信息抽提,具体分为两组:直接观测到的患者和需填补测算的患者。后者测算基于就诊信息的诊断缺失与是否罹患目标疾病的关联不存在统计学意义。对之前已经判断为目标疾病的个体,则直接填补该个体为患病状态,即为出现目标诊断的个体。
A5.分子患者的基本特征核查与统一,如年龄、性别、民族、户籍等
A6.患病率的计算,将上述汇总的分子信息与分母信息求商,计算患病率。
本发明的有益效果是:
本发明提供一种基于医保大数据测算疾病患病率的新方法,针对汇总格式数据,高效地计数得到患病率计算对应的分子和分母,进而计算得到患病率。通过本发明所提供的以医保大数据为基础的患病率测算方法,简便快速有效,可以替代耗费人财物的现有的传统流行病学人群调查,同时转变以面板数据为基础的患病率计算策略,优化数据存储、运算的执行效率,降低隐私泄露风险和数据共享门槛,促进医保大数据的转化应用,为切实填补我国罕见病的患病率资料空白提供一种简便快速的方法。
附图说明
图1是本发明提供的计算患病率的方法的流程框图。
图2是本发明具体实施例提供的患病率分子的基本特征核查与统一的流程示意图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于医保大数据测算疾病患病率的新方法,基于优化数据中间存储格式,通过汇总每月医保数据的多个关键参数,推导患病率计算所需的分子与分母信息,进而计算得到患病率。患病率计算的分子指特定时间内总人口中的所有患有某病的新旧病例,分母即特定时间内的总人口。本发明的具体实施方式如下:
A.患病率对应分母的计算
A1.确定数据库范围(如时间跨度、地域分布、门诊/住院);
A2.数据库的基本清洗和目标疾病的定义;
数据库的基本清洗包括以下基本步骤:(1)数据库中变量的完整性和逻辑性核查;(2)数据库中文本内容的编码标准化和自然语言处理;(3)数据库中国际疾病分类(International Classification of Diseases,ICD)的版本确定和统一。
本发明中,目标疾病的定义以医保数据库中出现对应疾病的名称或ICD编码为准,具体需要充分考虑文本和ICD编码的多种表达形式,构建尽量全面的字典库。
A3.分母信息的汇总;
患病率的分母具体分为三组
第一组:参保但从未报销的个体
该部分患者从未因病就诊,只有参保记录,无报销记录,在患病率/发病率计算时仅用作分母。具体需要统计观察时间内,每个观察对象在每个月的参保状态(1=参保,0=未参保),然后把未参保的人月剔除(如附图1),把参保的人月合计放入分母。以每个月为例,第一组分母的人月总和对应计算公式如式1:
Figure GDA0001702501690000031
其中,t表示第t个月份;Insurancet,n为第n个该组个体在第t个月份的参保状态。n代表第一组分母的人月总和。
第二组:参保且有报销记录但未出现目标诊断的个体
该部分患者曾因病就诊,但未出现目标诊断,同时拥有参保记录、报销记录,同样在患病率/发病率计算时仅用作分母。具体需要统计观察时间内,每个观察对象在每个月的参保状态(1=参保,0=未参保),然后同样把未参保的人月剔除(如附图1),但参保的人月不能直接放入分母,而是根据诊断状态分为三种情况:
第一种情况:未因病就诊无报销记录的人月直接纳入分母(如附图1),对每月而言,即未因病就诊无报销记录的当月人数m1,1
第二种情况:因病就诊且诊断完整的人月应纳入分母计算(如附图1),对每月而言即因病就诊且诊断完整的当月人数m1,2
第三种情况:有就诊但诊断缺失的人月应考虑后续填补(如附图1),提取因病就诊但诊断缺失的当月人数m1,3
以每个月为例,第二组分母的人月总和对应计算公式如式2:
Figure GDA0001702501690000041
其中,t表示第t个月份;Insurancet,m为第m个该组个体在第t个月份的参保状态。m代表第二组分母的人月总和。
第三组:参保有报销记录且出现目标诊断的个体
该部分患者有因病就诊,且出现过目标诊断,同时拥有参保记录、报销记录,在患病率/发病率计算时用作分子和分母。就分母而言,具体需要统计观察时间内,每个观察对象在每个月的参保状态(1=参保,0=未参保),然后同样把未参保的人月剔除(如附图1),但参保的人月仍不能直接放入分母,而是根据诊断状态分为三种情况:
第一种情况:未因病就诊无报销记录的人月直接纳入分母(如附图1),对每月而言即未因病就诊无报销记录的当月人数k1,1;
第二种情况:因病就诊且诊断完整的人月应纳入分母计算(如附图1),对每月而言即因病就诊且诊断完整的当月人数k1,2;
第三种情况:有就诊但诊断缺失的人月应考虑后续填补(如附图1),对每月而言即因病就诊但诊断缺失的当月人数k1,3。
以每个月为例,第三组分母的人月总和对应计算公式如式3:
Figure GDA0001702501690000042
其中,t表示第t个月份;Insurancet,k为第k个该组个体在第t个月份的参保状态;k代表示第三组分母的人月总和。
A4.分子信息的汇总;
根据目标疾病的定义后,进行对应的分子信息抽提,具体分为两组:
分子第一组:直接观测到的患者
所有观测到患者均计入,需要计算每个月诊断为目标疾病的人数之和,即∑tCase_real,其中,t表示第t个月份;Case_real表示每个月诊断为目标疾病的人数。
分子第二组:需填补测算的患者
部分就诊记录存在诊断缺失,但该部分记录不宜直接剔除,如表1所示,
表1患病率计算时分子填补示意图
Figure GDA0001702501690000051
理想状态下的患病率Prevalence的计算公式为式4:
Figure GDA0001702501690000052
其中,a代表参保且有就诊且就诊记录诊断不缺失的个体中可以抓取到的目标疾病患者人数,b代表参保且有就诊且就诊记录诊断不缺失的个体中可以抓取到的非目标疾病患者人数,c代表参保且有就诊且就诊记录诊断缺失的个体中理论上可抓取到的目标疾病患者人数,d代表参保且有就诊且就诊记录诊断缺失的个体中可以抓取到的非目标疾病患者人数,e代表参保但从未就诊的个体人数。
而直接剔除后的患病率计算公式表示为式5:
Figure GDA0001702501690000053
理想状态下的患病率与直接剔除后的患病率两者显然不等。因此,需要对诊断缺失部分,基于一定假设,进行适当估算,以获取c和d的数值。本发明采用的初始假设是就诊信息的诊断缺失与是否罹患某种罕见病的关联不存在统计学意义,即
Figure GDA0001702501690000054
若满足此假设,则c表示为式6:
Figure GDA0001702501690000055
其中,c+d为诊断缺失的总记录数,可直接计数得到。
注意,需要填补测算的诊断缺失部分包括两部分:参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数m1,3和参保有报销记录且既往已经出现目标诊断的个体中当月有就诊但诊断缺失的人数k1,3,其中,m1,3按照上述假设进行填补,而k1,3则按照是否既往已经判断为目标疾病分别处理。若之前未判断为目标疾病,则同样按照上述假设进行填补,若之前已经判断为目标疾病,则直接填补为患病状态。填补后的目标疾病人数可分别为两部分:根据参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者总数
Figure GDA0001702501690000061
根据参保有报销记录且既往已经出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者总数
Figure GDA0001702501690000062
其中,t表示第t个月份,Caseimpute_m表示每个月内,根据参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者数,Caseimpute_k表示每个月内,根据参保且有报销记录且既往已经出现目标诊断的个体中,当月有就诊但诊断缺失的人数所估算的目标患者数。
A5.分子患者的基本特征核查与统一;
如附图2,医保数据分为“参保人员信息表”、“普通门(急)诊费用及结算信息表”和“门诊大病、门诊统筹、住院、家庭病床费用及结算信息表”3张表单,各表单之间的关联变量为AAC001,对年龄、性别、民族、户籍等需要进行多部核查和统一,以达到每个关联变量对应唯一的身份识别ID(如身份证),同时每个唯一的身份识别ID对应的年龄、性别、民族和户籍等信息内部一致。
A6.患病率的计算
当各个月份的患病率波动较小(无显著的季节或其他时间趋势、随访人群分母规模较大时),某一整年的患病率计算公式如式7(时间跨度为一年,以人月为单位):
Figure GDA0001702501690000063
其中,每个月的患者总数∑tCase=Case_real+Caseimpute_m+Caseimpute_k,t表示第t个月份,Case_real表示当月内实际抓取到的患者总数,Caseimpute_m表示当月内根据参保且有报销记录但未出现目标诊断的个体中,根据有就诊但诊断缺失的人数所估算的目标患者总数,Caseimpute_k表示根据参保有报销记录且既往已经出现目标诊断的个体中,根据当月有就诊但诊断缺失的人数所估算的目标患者数。每个月的分母总数计算∑tPersonMonth=∑tPersonMonth1+∑tPersonMonth2+∑tPersonMonth3。其中,t表示第t个月份,∑tPersonMonth1对应参保但从未报销的个体所贡献的人月,∑tPersonMonthnth2代表参保且有报销记录但未出现目标诊断的个体所贡献的人月,∑tPersonMonthnth3代表参保有报销记录且出现目标诊断的个体。
当各个月的患病率波动较大时,如部分月份的参保人群基数较小(如少于10万人),则可采用月患病率的中位数,或者以年为单位计数唯一患者数,公式如式8:
Figure GDA0001702501690000071
其中,t表示第t个月份,每个月的新增患者总数∑rNewCase=NewCasereal+NewCaseimpute_m。其中,NewCasereal为当月实际观察到新增患者数,NewCaseimpute_m为在利用既往月份诊断信息对当前月份诊断信息进行填补后,剩余的参保有报销记录但诊断缺失的记录按照诊断未缺失部分的新增患者比例,估算出的新增患者数。
下面通过实例来对本发明做进一步说明。
假设基于某省2012年的医保数据库计算多发性骨髓瘤的患病率,则数据库范围为2012年的城镇职工参保人员(143,670,014人)、城镇居民参保人员(22,890,524人)。
完成基本的数据清洗后(如报销日期、就诊日期变量缺失、异常等),多发性骨髓瘤的临床诊断方式结合文本、ICD编码表述如表2:
表2多发性骨髓瘤的诊断描述和ICD编码列举
ICD-9 ICD-10 ICD-O-3
多发性骨髓瘤
骨髓瘤病 203.0 C90.051 M97320/3
浆细胞性骨髓瘤 203.0 C90.002 M97320/3
多发性骨髓瘤 203.0 C90.001 M97320/3
骨髓瘤肾病 203.0 C90.003+ M97320/3
数据库中包含诊断信息的字段名称共有6个,分别是主要诊断名称、主要诊断编码、次要诊断名称1、次要诊断编码1、次要诊断名称2和次要诊断编码2,则实际定义按照数据库内字段结构定义如下:
上述各字段必须包含字段取值(字段之间为“或者”关系):骨髓瘤,卡勒,骨髓癌/骨髓ca,骨髓病,C90,M9732,203.0;
上述各字段必须排除字段取值(字段之间为“或者”关系):浆细胞,孤立性,C90.1,C90.2
具体分子抓取时,针对主要诊断、次要诊断1、次要诊断2、主要诊断编码、次要诊断编码1和次要诊断编码2共六个字段展开,要求全部六个字段中,必须具备至少一个“必须包含字段”,但必须不含有“必须排除字段”。
然后进行分母信息的汇总,其中参保但从未报销的个体、参保且有报销记录但未出现目标诊断的个体和参保有报销记录且出现目标诊断的个体在每个月的分布,如表3所示:
表3分母信息的汇总表
Figure GDA0001702501690000081
之后进行分子的提取和信息核查与统一,其中直接观察到的患者信息如表4:
表4患者信息汇总表
Figure GDA0001702501690000082
Figure GDA0001702501690000091
每个月的患病率计算结果如表5:
表5每个月的患病率计算结果
分子(人数) 分母(人数或人月) 患病率(/10万)
120 12662166 0.95
180 12286909 1.46
199 13253103 1.50
225 13405249 1.68
292 15560865 1.88
508 15331703 3.31
469 15833721 2.96
491 15713205 3.12
404 15414055 2.62
463 15732058 2.94
456 9710585 4.70
210 11656919 1.80
4017 166560538 2.41
各个月份的患病率相对稳定,因此最终计算为:
Figure GDA0001702501690000092
即患病率为2.41/10万人月,若直接采用月患病率的中位数为2.25/10万人月。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (6)

1.一种基于医保大数据测算疾病患病率的方法,针对汇总格式数据高效地计数得到患病率计算对应的分子和分母,将特定时间内总人口中的所有患有某病的新旧病例数目作为计算患病率的分子,将特定时间内的总人口作为计算患病率的分母;通过汇总每月医保数据的多个关键参数;获得患病率计算的分子与分母信息,进而计算得到患病率;包括如下步骤:
A1.确定数据库范围,包括数据的时间跨度、数据地域分布、门诊/住院数据;
A2.进行数据库的基本清洗,定义患病率计算的目标疾病;
A3.获取患病率计算的分母信息;具体包括三组:
第一组是参保但从未报销的个体;第一组分母的人月总和表示如式1:
Figure FDA0002996631200000011
其中,t表示第t个月份;Insurancet,n为第n个该组个体在第t个月份的参保状态;n代表第一组分母的人月总和;
第二组是参保且有报销记录但未出现目标诊断的个体;根据诊断状态包括三种情况:
第一种情况:未因病就诊无报销记录的人月直接纳入分母,对每月而言,未因病就诊无报销记录的当月人数记作m1,1
第二种情况:因病就诊且诊断完整的人月应纳入分母计算,对每月而言,因病就诊且诊断完整的当月人数记作m1,2
第三种情况:有就诊但诊断缺失的人月应考虑后续填补,将因病就诊但诊断缺失的当月人数记作m1,3
以每个月为例,第二组分母的人月总和表示如式2:
Figure FDA0002996631200000012
其中,t表示第t个月份;Insurancet,m为第m个该组个体在第t个月份的参保状态;m代表第二组分母的人月总和;
第三组是参保有报销记录且出现目标诊断的个体;根据诊断状态包括三种情况:
第一种情况:未因病就诊无报销记录的人月直接纳入分母,即将未因病就诊无报销记录的当月人数记作k1,1;
第二种情况:因病就诊且诊断完整的人月应纳入分母计算,即将因病就诊且诊断完整的当月人数记作k1,2;
第三种情况:有就诊但诊断缺失的人月应考虑后续填补,即将因病就诊但诊断缺失的当月人数记作k1,3;
以每个月为例,第三组分母的人月总和表示如式3:
Figure FDA0002996631200000021
其中,t表示第t个月份;Insurancet,k为第k个该组个体在第t个月份的参保状态;k代表示第三组分母的人月总和;
A4.获取患病率计算的分子信息;具体包括两组:
第一组是直接观测到的患者,为每个月诊断为目标疾病的人数之和,即∑tCase_real,其中,t表示第t个月份;Case_real表示每个月诊断为目标疾病的人数;
第二组是诊断缺失需填补测算的患者;包括:参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数m1,3和参保有报销记录且既往已经出现目标诊断的个体中当月有就诊但诊断缺失的人数k1,3
诊断缺失需填补测算的患者的人数包括两部分:
第一部分是根据参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者总数
Figure FDA0002996631200000022
第二部分是根据参保有报销记录且既往已经出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者总数
Figure FDA0002996631200000023
其中,t表示第t个月份;Caseimpute_m表示每个月内,根据参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者数;Caseimpute_k表示每个月内,根据参保且有报销记录且既往已经出现目标诊断的个体中,当月有就诊但诊断缺失的人数所估算的目标患者数;
A5.对患病率计算的分子对应的患者信息的基本特征进行核查并统一,使得每个个体对应唯一的身份识别ID,同时每个唯一的身份识别ID对应的基本特征信息一致;
A6.对获得的患病率计算的分子信息与分母信息求商,计算得到患病率。
2.如权利要求1所述基于医保大数据测算疾病患病率的方法,其特征是,步骤A5所述患病率计算的分子对应的患者信息的基本特征包括年龄、性别、民族、户籍。
3.如权利要求1所述基于医保大数据测算疾病患病率的方法,其特征是,步骤A4中,对于m1,3,所述测算采用的初始假设是就诊信息的诊断缺失与是否罹患某种疾病的关联不存在统计学意义,即
Figure FDA0002996631200000031
其中,a代表参保且有就诊且就诊记录诊断不缺失的个体中可以抓取到的目标疾病患者人数;b代表参保且有就诊且就诊记录诊断不缺失的个体中可以抓取到的非目标疾病患者人数;c代表参保且有就诊且就诊记录诊断缺失的个体中理论上可抓取到的目标疾病患者人数;d代表参保且有就诊且就诊记录诊断缺失的个体中可以抓取到的非目标疾病患者人数;
将参保且有就诊且就诊记录诊断缺失的个体中理论上可抓取到的目标疾病患者人数c表示为式6:
Figure FDA0002996631200000032
其中,c+d为诊断缺失的总记录数;
对于k1,3,则按照是否既往已经判断为目标疾病分别处理:若之前未判断为目标疾病,则按照上述假设进行填补,若之前已经判断为目标疾病,则直接填补为患病状态。
4.如权利要求1所述基于医保大数据测算疾病患病率的方法,其特征是,步骤A6计算得到患病率,计算方法采用方法一或方法2;具体地,
方法一:整年的患病率Prevalence通过式7计算得到:
Figure FDA0002996631200000033
其中,每个月的患病率记为Prevalencet,t表示第t个月份,t取值1到12;每个月的患者总数∑tCase=Case_real+Caseimpute_m+Caseimpute_k;t表示第t个月份,Case_real表示当月内实际抓取到的患者总数;Caseimpute_m表示当月内根据参保且有报销记录但未出现目标诊断的个体中,根据有就诊但诊断缺失的人数所估算的目标患者总数;Caseimpute_k表示根据参保有报销记录且既往已经出现目标诊断的个体中,根据当月有就诊但诊断缺失的人数所估算的目标患者数;每个月的分母总数通过下式计算得到:
tPersonMonth=∑tPersonMonth1+∑tPersonMonth2+∑tPersonMonth3
其中,t表示第t个月份;∑tPersonMonth1对应参保但从未报销的个体所贡献的人月;∑tPersonMonth2代表参保且有报销记录但未出现目标诊断的个体所贡献的人月;∑tPersonMonth3代表参保有报销记录且出现目标诊断的个体;
方法二:患病率Prevalence通过式8计算得到:
Figure FDA0002996631200000041
其中,t表示第t个月份;每个月的新增患者总数∑tNewCase=NewCasereal+NewCaseimpute_m;其中,NewCasereal为当月实际观察到新增患者数;NewCaseimpute_m为在利用既往月份诊断信息对当前月份诊断信息进行填补后,剩余的参保有报销记录但诊断缺失的记录按照诊断未缺失部分的新增患者比例,估算出的新增患者数。
5.如权利要求4所述基于医保大数据测算疾病患病率的方法,其特征是,当时间跨度为一年,以人月为单位,各个月份的患病率波动较小时,采用方法一计算得到患病率;当各个月的患病率波动较大时,采用方法二计算得到患病率。
6.如权利要求1所述基于医保大数据测算疾病患病率的方法,其特征是,多个关键参数包括:每月参保个体总数、每月新增参保个体数、每月就诊记录总数、每月就诊记录诊断缺失总数。
CN201810441017.9A 2018-05-10 2018-05-10 一种基于医保大数据测算疾病患病率的方法 Active CN108630320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810441017.9A CN108630320B (zh) 2018-05-10 2018-05-10 一种基于医保大数据测算疾病患病率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810441017.9A CN108630320B (zh) 2018-05-10 2018-05-10 一种基于医保大数据测算疾病患病率的方法

Publications (2)

Publication Number Publication Date
CN108630320A CN108630320A (zh) 2018-10-09
CN108630320B true CN108630320B (zh) 2021-07-09

Family

ID=63692335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810441017.9A Active CN108630320B (zh) 2018-05-10 2018-05-10 一种基于医保大数据测算疾病患病率的方法

Country Status (1)

Country Link
CN (1) CN108630320B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785150A (zh) * 2018-12-13 2019-05-21 平安科技(深圳)有限公司 一种基于智能决策的医保基金风险预测方法和装置
CN109636637A (zh) * 2018-12-13 2019-04-16 平安医疗健康管理股份有限公司 报销处理方法、装置、终端及计算机可读存储介质
CN110277171A (zh) * 2019-07-01 2019-09-24 太平洋医疗健康管理有限公司 失能人群测算方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106334259A (zh) * 2016-09-29 2017-01-18 赵赫 癫痫病治疗仪及癫痫病治疗系统
CN106778039A (zh) * 2017-01-20 2017-05-31 深圳第医学健康管理有限公司 诊疗辅助系统及方法
CN107273709A (zh) * 2017-07-31 2017-10-20 惠州市格农科技有限公司 基于计算机的医院病人资料处理方法
CN107358363A (zh) * 2017-07-17 2017-11-17 哈尔滨理工大学 基于径向基函数神经网络组合模型的煤工发病率预测方法
CN107680682A (zh) * 2017-09-28 2018-02-09 北京大学 基于微信平台的慢性非传染性疾病队列研究人群随访方法
KR101835471B1 (ko) * 2017-10-26 2018-03-08 강원대학교산학협력단 분만 취약지 임산부의 임신주기별 고위험 임산부 선별검사 서비스 제공방법, 장치 및 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106334259A (zh) * 2016-09-29 2017-01-18 赵赫 癫痫病治疗仪及癫痫病治疗系统
CN106778039A (zh) * 2017-01-20 2017-05-31 深圳第医学健康管理有限公司 诊疗辅助系统及方法
CN107358363A (zh) * 2017-07-17 2017-11-17 哈尔滨理工大学 基于径向基函数神经网络组合模型的煤工发病率预测方法
CN107273709A (zh) * 2017-07-31 2017-10-20 惠州市格农科技有限公司 基于计算机的医院病人资料处理方法
CN107680682A (zh) * 2017-09-28 2018-02-09 北京大学 基于微信平台的慢性非传染性疾病队列研究人群随访方法
KR101835471B1 (ko) * 2017-10-26 2018-03-08 강원대학교산학협력단 분만 취약지 임산부의 임신주기별 고위험 임산부 선별검사 서비스 제공방법, 장치 및 시스템

Also Published As

Publication number Publication date
CN108630320A (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
Li et al. A distributed ensemble approach for mining healthcare data under privacy constraints
US9934361B2 (en) Method for generating healthcare-related validated prediction models from multiple sources
Wright et al. Where do elderly veterans obtain care for acute myocardial infarction: Department of Veterans Affairs or Medicare?
CN108630320B (zh) 一种基于医保大数据测算疾病患病率的方法
US20060293922A1 (en) Method and system for generating statistically-based medical provider utilization profiles
CN109065105B (zh) 一种医院用患者疾病治疗分值统计方法
CN110033838A (zh) 一种医疗数据三重逻辑校验系统及其校验方法
CN109448846B (zh) 一种基于医保大数据测算罕见病发病率的分析方法
Phillips et al. Comparison of injury patient information from hospitals with records in both the national trauma data bank and the nationwide inpatient sample
Wu et al. Learning from an analysis of closed malpractice litigation involving myocardial infarction
CN108320804A (zh) 基于疾病复杂程度评价系统实现疾病复杂程度量化评价的方法
CN109522331B (zh) 以个人为中心的区域化多维度健康数据处理方法及介质
McGarvey et al. Measuring efficiency of community health centers: a multi-model approach considering quality of care and heterogeneous operating environments
Jin et al. Patient routing to skilled nursing facilities: The consequences of the medicare reimbursement rule
Youens et al. The importance of historical residential address information in longitudinal studies using administrative health data
Weeks et al. Comparing the characteristics, utilization, efficiency, and outcomes of VA and non-VA inpatient care provided to VA enrollees: a case study in New York
Lee et al. An Efficient, Robust, and Customizable Information Extraction and Pre-processing Pipeline for Electronic Health Records.
CN112331322A (zh) 基于神经网络实现针对医院专科能力进行量化评价处理的方法、装置、处理器及其存储介质
Lee et al. Does Electronic Health Record Systems Implementation Impact Hospital Efficiency, Profitability, and Quality?
Kurutkan et al. Waste management approaches in hospital organizations and an example of practice
Roth et al. Medical diagnoses showed low relatedness in an explorative mutual information analysis of 190,837 inpatient cases
TW201503042A (zh) 健康報告系統與方法
Barker et al. The Impact of Hospital Closures and Mergers on Patient Welfare
Luo et al. Study on the influencing factors and prediction of the medical cost of chronic renal failure in China based on a decision tree algorithm
Rouhani et al. Change in Costs and Revenues of Public Hospitals in Mazandaran Province Before and After the Implementation of the Health System Reform in Iran

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant