CN108630320A - 一种基于医保大数据测算疾病患病率的方法 - Google Patents

一种基于医保大数据测算疾病患病率的方法 Download PDF

Info

Publication number
CN108630320A
CN108630320A CN201810441017.9A CN201810441017A CN108630320A CN 108630320 A CN108630320 A CN 108630320A CN 201810441017 A CN201810441017 A CN 201810441017A CN 108630320 A CN108630320 A CN 108630320A
Authority
CN
China
Prior art keywords
month
medical
insured
diagnosis
disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810441017.9A
Other languages
English (en)
Other versions
CN108630320B (zh
Inventor
王胜锋
詹思延
高培
王金喜
许璐
冯菁楠
尉晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201810441017.9A priority Critical patent/CN108630320B/zh
Publication of CN108630320A publication Critical patent/CN108630320A/zh
Application granted granted Critical
Publication of CN108630320B publication Critical patent/CN108630320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公布了一种基于医保大数据测算疾病患病率的方法,将特定时间内总人口中的所有患有某病的新旧病例数目作为计算患病率的分子,将特定时间内的总人口作为计算患病率的分母;通过汇总每月医保数据的多个关键参数,包括:每月参保个体总数、每月新增参保个体数、每月就诊记录总数、每月就诊记录诊断缺失总数;获得患病率计算的分子与分母信息,进而计算得到患病率。本发明方法以医保大数据为基础,简便快速有效,可以替代耗费人财物的现有流行病学人群调查,转变以面板数据为基础的患病率计算策略,优化数据存储、运算的执行效率,降低隐私泄露风险和数据共享门槛,促进医保大数据的转化应用。

Description

一种基于医保大数据测算疾病患病率的方法
技术领域
本发明涉及数据处理技术,尤其涉及一种基于医保大数据测算疾病患病率(Prevalence) 的方法,具体针对汇总数据格式下高效计数患病率对应分子、分母进行统计运算。
背景技术
医保数据(Claims data),是医保业务过程中获得的数据,由于无需抽样调查,天然覆盖 较大规模的人群,并较为完整真实的记录该人群在一定时间范围内的就医信息,被越来越多 的用于疾病的患病率研究。
常规的流行病学研究中,计算患病率需要明确分母的人口规模,计数某一时间内对应的 病例数量。但对于现在积累的海量医保数据,无论数据存储的期别、格式和体量,还是数据 指标的跨度、缺失和个体脱保等,都会导致直接实施上述思路遇到一些问题,从而制约医保 大数据的实际应用。
美国的Medicaid、Medicare联合办公中心总结开发了适用于两者数据库的常见慢性病症 的患者界定规则,但同时明确指出目标患者的界定规则因数据库而异、因病而异。美国Jensen 等对影响分母的界定参数进行了探讨,提出就诊频率不高的病症,最短观察时间设定较短会 导致患病率低估,设定较长又会导致高估,具体需要因病而异。
上述探索均集中在国外,而我们国家医保报销模式决定了医保数据的实际存储以月为单 位,患者参保信息与就诊信息之间以就诊号关联。国外研究都基于个体原始数据,数据量与 运算资源性能相对匹配,而我国医保人口超过13亿,多人次多年份的海量数据情境下,传统 的构建个体面板数据的运算策略将会导致数据稀疏、信息冗余、存储和运算困难等问题。
发明内容
本发明的目的是提供一种基于医保大数据测算疾病患病率的新方法,基于优化数据中间 存储格式,通过汇总每月医保数据的多个关键参数,包括:每月参保个体总数、每月新增参 保个体数、每月就诊记录总数、每月就诊记录诊断缺失总数,再推导患病率计算所需的分子 与分母信息,进而计算得到患病率。本发明可测算的疾病要求不能彻底治愈,一旦诊断,终 身罹患。
本发明的原理是:基于人月的概念,计数每月参保个体总数、每月新增参保个体数、每 月就诊记录总数、每月就诊记录诊断缺失总数,通过目标疾病定义抽提目标患者,并推导诊 断随机缺失情境下的“隐形患者”,再根据患病率公式进行推导,计算得到患病率。本发明方 法可测算的疾病包括多发性骨髓瘤、浆细胞白血病、浆细胞病、男性乳腺癌、黑色素瘤等。
本发明提供的技术方案是:
一种基于医保大数据测算疾病患病率的方法,通过汇总每月医保数据的多个关键参数(包 括:每月参保个体总数、每月新增参保个体数、每月就诊记录总数、每月就诊记录诊断缺失 总数),推导患病率计算所需的分子与分母信息,进而计算得到患病率;患病率计算的分子指 特定时间内总人口中的所有患有某病的新旧病例,分母即特定时间内的总人口;包括如下步 骤:
A1.确定数据库范围(如时间跨度、地域分布、门诊/住院);
A2.数据库的基本清洗和目标疾病的定义;
A3.分母信息的汇总
具体分为三组:参保但从未报销的个体、参保且有报销记录但未出现目标诊断的个体和 参保有报销记录且出现目标诊断的个体。根据每位观察对象在每个月的参保状态、纳入参保 人次,剔除未参保人次。
A4.分子信息的汇总;
明确目标疾病的定义后,进行对应的分子信息抽提,具体分为两组:直接观测到的患者 和需填补测算的患者。后者测算基于就诊信息的诊断缺失与是否罹患目标疾病的关联不存在 统计学意义。对之前已经判断为目标疾病的个体,则直接填补该个体为患病状态,即为出现 目标诊断的个体。
A5.分子患者的基本特征核查与统一,如年龄、性别、民族、户籍等
A6.患病率的计算,将上述汇总的分子信息与分母信息求商,计算患病率。
本发明的有益效果是:
本发明提供一种基于医保大数据测算疾病患病率的新方法,针对汇总格式数据,高效地 计数得到患病率计算对应的分子和分母,进而计算得到患病率。通过本发明所提供的以医保 大数据为基础的患病率测算方法,简便快速有效,可以替代耗费人财物的现有的传统流行病 学人群调查,同时转变以面板数据为基础的患病率计算策略,优化数据存储、运算的执行效 率,降低隐私泄露风险和数据共享门槛,促进医保大数据的转化应用,为切实填补我国罕见 病的患病率资料空白提供一种简便快速的方法。
附图说明
图1是本发明提供的计算患病率的方法的流程框图。
图2是本发明具体实施例提供的患病率分子的基本特征核查与统一的流程示意图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于医保大数据测算疾病患病率的新方法,基于优化数据中间存储格式, 通过汇总每月医保数据的多个关键参数,推导患病率计算所需的分子与分母信息,进而计算 得到患病率。患病率计算的分子指特定时间内总人口中的所有患有某病的新旧病例,分母即 特定时间内的总人口。本发明的具体实施方式如下:
A.患病率对应分母的计算
A1.确定数据库范围(如时间跨度、地域分布、门诊/住院);
A2.数据库的基本清洗和目标疾病的定义;
数据库的基本清洗包括以下基本步骤:(1)数据库中变量的完整性和逻辑性核查;(2) 数据库中文本内容的编码标准化和自然语言处理;(3)数据库中国际疾病分类(International Classification of Diseases,ICD)的版本确定和统一。
本发明中,目标疾病的定义以医保数据库中出现对应疾病的名称或ICD编码为准,具体 需要充分考虑文本和ICD编码的多种表达形式,构建尽量全面的字典库。
A3.分母信息的汇总;
患病率的分母具体分为三组
第一组:参保但从未报销的个体
该部分患者从未因病就诊,只有参保记录,无报销记录,在患病率/发病率计算时仅用作 分母。具体需要统计观察时间内,每个观察对象在每个月的参保状态(1=参保,0=未参保), 然后把未参保的人月剔除(如附图1),把参保的人月合计放入分母。以每个月为例,第一组 分母的人月总和对应计算公式如式1:
其中,t表示第t个月份;Insurancet,n为第n个该组个体在第t个月份的参保状态。n代 表第一组分母的人月总和。
第二组:参保且有报销记录但未出现目标诊断的个体
该部分患者曾因病就诊,但未出现目标诊断,同时拥有参保记录、报销记录,同样在患 病率/发病率计算时仅用作分母。具体需要统计观察时间内,每个观察对象在每个月的参保状 态(1=参保,0=未参保),然后同样把未参保的人月剔除(如附图1),但参保的人月不能直 接放入分母,而是根据诊断状态分为三种情况:
第一种情况:未因病就诊无报销记录的人月直接纳入分母(如附图1),对每月而言,即 未因病就诊无报销记录的当月人数m1,1
第二种情况:因病就诊且诊断完整的人月应纳入分母计算(如附图1),对每月而言即因 病就诊且诊断完整的当月人数m1,2
第三种情况:有就诊但诊断缺失的人月应考虑后续填补(如附图1),提取因病就诊但诊 断缺失的当月人数m1,3
以每个月为例,第二组分母的人月总和对应计算公式如式2:
其中,t表示第t个月份;Insurancet,m为第m个该组个体在第t个月份的参保状态。m代表第二组分母的人月总和。
第三组:参保有报销记录且出现目标诊断的个体
该部分患者有因病就诊,且出现过目标诊断,同时拥有参保记录、报销记录,在患病率/ 发病率计算时用作分子和分母。就分母而言,具体需要统计观察时间内,每个观察对象在每 个月的参保状态(1=参保,0=未参保),然后同样把未参保的人月剔除(如附图1),但参保 的人月仍不能直接放入分母,而是根据诊断状态分为三种情况:
第一种情况:未因病就诊无报销记录的人月直接纳入分母(如附图1),对每月而言即未 因病就诊无报销记录的当月人数k1,1;
第二种情况:因病就诊且诊断完整的人月应纳入分母计算(如附图1),对每月而言即因 病就诊且诊断完整的当月人数k1,2;
第三种情况:有就诊但诊断缺失的人月应考虑后续填补(如附图1),对每月而言即因病 就诊但诊断缺失的当月人数k1,3。
以每个月为例,第三组分母的人月总和对应计算公式如式3:
其中,t表示第t个月份;Insurancet,k为第k个该组个体在第t个月份的参保状态;k代 表示第三组分母的人月总和。
A4.分子信息的汇总;
根据目标疾病的定义后,进行对应的分子信息抽提,具体分为两组:
分子第一组:直接观测到的患者
所有观测到患者均计入,需要计算每个月诊断为目标疾病的人数之和,即∑tCase_real, 其中,t表示第t个月份;Case_real表示每个月诊断为目标疾病的人数。
分子第二组:需填补测算的患者
部分就诊记录存在诊断缺失,但该部分记录不宜直接剔除,如表1所示,
表1患病率计算时分子填补示意图
理想状态下的患病率Prevalence的计算公式为式4:
其中,a代表参保且有就诊且就诊记录诊断不缺失的个体中可以抓取到的目标疾病患者 人数,b代表参保且有就诊且就诊记录诊断不缺失的个体中可以抓取到的非目标疾病患者人 数,c代表参保且有就诊且就诊记录诊断缺失的个体中理论上可抓取到的目标疾病患者人数, d代表参保且有就诊且就诊记录诊断缺失的个体中可以抓取到的非目标疾病患者人数,e代表 参保但从未就诊的个体人数。
而直接剔除后的患病率计算公式表示为式5:
理想状态下的患病率与直接剔除后的患病率两者显然不等。因此,需要对诊断缺失部分, 基于一定假设,进行适当估算,以获取c和d的数值。本发明采用的初始假设是就诊信息的 诊断缺失与是否罹患某种罕见病的关联不存在统计学意义,即若满足此假设,则 c表示为式6:
其中,c+d为诊断缺失的总记录数,可直接计数得到。
注意,需要填补测算的诊断缺失部分包括两部分:参保且有报销记录但未出现目标诊断 的个体中当月有就诊但诊断缺失的人数m1,3和参保有报销记录且既往已经出现目标诊断的个 体中当月有就诊但诊断缺失的人数k1,3,其中,m1,3按照上述假设进行填补,而k1,3则按照是 否既往已经判断为目标疾病分别处理。若之前未判断为目标疾病,则同样按照上述假设进行 填补,若之前已经判断为目标疾病,则直接填补为患病状态。填补后的目标疾病人数可分别 为两部分:根据参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数 所估算的目标患者总数根据参保有报销记录且既往已经出现目标诊断的个 体中当月有就诊但诊断缺失的人数所估算的目标患者总数其中,t表示第t 个月份,Caseimpute_m表示每个月内,根据参保且有报销记录但未出现目标诊断的个体中当月 有就诊但诊断缺失的人数所估算的目标患者数,Caseimpute_k表示每个月内,根据参保且有报 销记录且既往已经出现目标诊断的个体中,当月有就诊但诊断缺失的人数所估算的目标患者 数。
A5.分子患者的基本特征核查与统一;
如附图2,医保数据分为“参保人员信息表”、“普通门(急)诊费用及结算信息表”和“门 诊大病、门诊统筹、住院、家庭病床费用及结算信息表”3张表单,各表单之间的关联变量为 AAC001,对年龄、性别、民族、户籍等需要进行多部核查和统一,以达到每个关联变量对应 唯一的身份识别ID(如身份证),同时每个唯一的身份识别ID对应的年龄、性别、民族和户 籍等信息内部一致。
A6.患病率的计算
当各个月份的患病率波动较小(无显著的季节或其他时间趋势、随访人群分母规模较大 时),某一整年的患病率计算公式如式7(时间跨度为一年,以人月为单位):
其中,每个月的患者总数∑tCase=Case_real+Caseimpute_m+Caseimpute_k,t表示第 t个月份,Case_real表示当月内实际抓取到的患者总数,Caseimpute_m表示当月内根据参保且有报销记录但未出现目标诊断的个体中,根据有就诊但诊断缺失的人数所估算的目标患者总 数,Caseimpute_k表示根据参保有报销记录且既往已经出现目标诊断的个体中,根据当月有就 诊但诊断缺失的人数所估算的目标患者数。每个月的分母总数计算∑tPersonMonth= ∑tPersonMonth1+∑tPersonMonth2+∑tPersonMonth3。其中,t表示第t个月份, ∑tPersonMonth1对应参保但从未报销的个体所贡献的人月,∑tPersonMonth2代表参保且有报销记录但未出现目标诊断的个体所贡献的人月,∑tPersonMonth3代表参保有报销记录且 出现目标诊断的个体。
当各个月的患病率波动较大时,如部分月份的参保人群基数较小(如少于10万人),则 可采用月患病率的中位数,或者以年为单位计数唯一患者数,公式如式8:
其中,t表示第t个月份,每个月的新增患者总数∑tNewCase=NewCasereal+NewCaseimpute_m。其中,NewCasereal为当月实际观察到新增患者数,NewCaseimpute_m为 在利用既往月份诊断信息对当前月份诊断信息进行填补后,剩余的参保有报销记录但诊断缺 失的记录按照诊断未缺失部分的新增患者比例,估算出的新增患者数。
下面通过实例来对本发明做进一步说明。
假设基于某省2012年的医保数据库计算多发性骨髓瘤的患病率,则数据库范围为2012 年的城镇职工参保人员(143,670,014人)、城镇居民参保人员(22,890,524人)。
完成基本的数据清洗后(如报销日期、就诊日期变量缺失、异常等),多发性骨髓瘤的临 床诊断方式结合文本、ICD编码表述如表2:
表2多发性骨髓瘤的诊断描述和ICD编码列举
ICD-9 ICD-10 ICD-O-3
多发性骨髓瘤
骨髓瘤病 203.0 C90.051 M97320/3
浆细胞性骨髓瘤 203.0 C90.002 M97320/3
多发性骨髓瘤 203.0 C90.001 M97320/3
骨髓瘤肾病 203.0 C90.003+ M97320/3
数据库中包含诊断信息的字段名称共有6个,分别是主要诊断名称、主要诊断编码、次 要诊断名称1、次要诊断编码1、次要诊断名称2和次要诊断编码2,则实际定义按照数据库 内字段结构定义如下:
上述各字段必须包含字段取值(字段之间为“或者”关系):骨髓瘤,卡勒,骨髓癌/骨髓 ca,骨髓病,C90,M9732,203.0;
上述各字段必须排除字段取值(字段之间为“或者”关系):浆细胞,孤立性,C90.1,C90.2
具体分子抓取时,针对主要诊断、次要诊断1、次要诊断2、主要诊断编码、次要诊断编 码1和次要诊断编码2共六个字段展开,要求全部六个字段中,必须具备至少一个“必须包含 字段”,但必须不含有“必须排除字段”。
然后进行分母信息的汇总,其中参保但从未报销的个体、参保且有报销记录但未出现目 标诊断的个体和参保有报销记录且出现目标诊断的个体在每个月的分布,如表3所示:
表3分母信息的汇总表
之后进行分子的提取和信息核查与统一,其中直接观察到的患者信息如表4:
表4患者信息汇总表
每个月的患病率计算结果如表5:
表5每个月的患病率计算结果
分子(人数) 分母(人数或人月) 患病率(/10万)
120 12662166 0.95
180 12286909 1.46
199 13253103 1.50
225 13405249 1.68
292 15560865 1.88
508 15331703 3.31
469 15833721 2.96
491 15713205 3.12
404 15414055 2.62
463 15732058 2.94
456 9710585 4.70
210 11656919 1.80
4017 166560538 2.41
各个月份的患病率相对稳定,因此最终计算为:
即患病率为2.41/10万人月,若直接采用月患病率的中位数为2.25/10万人月。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员 可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。 因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的 范围为准。

Claims (6)

1.一种基于医保大数据测算疾病患病率的方法,针对汇总格式数据高效地计数得到患病率计算对应的分子和分母,将特定时间内总人口中的所有患有某病的新旧病例数目作为计算患病率的分子,将特定时间内的总人口作为计算患病率的分母;通过汇总每月医保数据的多个关键参数;获得患病率计算的分子与分母信息,进而计算得到患病率;包括如下步骤:
A1.确定数据库范围,包括数据的时间跨度、数据地域分布、门诊/住院数据;
A2.进行数据库的基本清洗,定义患病率计算的目标疾病;
A3.获取患病率计算的分母信息;具体包括三组:
第一组是参保但从未报销的个体;第一组分母的人月总和表示如式1:
其中,t表示第t个月份;Insurancet,n为第n个该组个体在第t个月份的参保状态;n代表第一组分母的人月总和;
第二组是参保且有报销记录但未出现目标诊断的个体;根据诊断状态包括三种情况:
第一种情况:未因病就诊无报销记录的人月直接纳入分母,对每月而言,未因病就诊无报销记录的当月人数记作m1,1
第二种情况:因病就诊且诊断完整的人月应纳入分母计算,对每月而言,因病就诊且诊断完整的当月人数记作m1,2
第三种情况:有就诊但诊断缺失的人月应考虑后续填补,将因病就诊但诊断缺失的当月人数记作m1,3
以每个月为例,第二组分母的人月总和表示如式2:
其中,t表示第t个月份;Insurancet,m为第m个该组个体在第t个月份的参保状态;m代表第二组分母的人月总和;
第三组是参保有报销记录且出现目标诊断的个体;根据诊断状态包括三种情况:
第一种情况:未因病就诊无报销记录的人月直接纳入分母,即将未因病就诊无报销记录的当月人数记作k1,1;
第二种情况:因病就诊且诊断完整的人月应纳入分母计算,即将因病就诊且诊断完整的当月人数记作k1,2;
第三种情况:有就诊但诊断缺失的人月应考虑后续填补,即将因病就诊但诊断缺失的当月人数记作k1,3;
以每个月为例,第三组分母的人月总和表示如式3:
其中,t表示第t个月份;Insurancet,k为第k个该组个体在第t个月份的参保状态;k代表示第三组分母的人月总和;
A4.获取患病率计算的分子信息;具体包括两组:
第一组是直接观测到的患者,为每个月诊断为目标疾病的人数之和,即∑tCase_real,其中,t表示第t个月份;Case_real表示每个月诊断为目标疾病的人数;
第二组是诊断缺失需填补测算的患者;包括:参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数m1,3和参保有报销记录且既往已经出现目标诊断的个体中当月有就诊但诊断缺失的人数k1,3
填补后的目标疾病人数包括两部分:
第一部分是根据参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者总数
第二部分是根据参保有报销记录且既往已经出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者总数
其中,t表示第t个月份;Caseimpute_m表示每个月内,根据参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者数;Caseimpute_k表示每个月内,根据参保且有报销记录且既往已经出现目标诊断的个体中,当月有就诊但诊断缺失的人数所估算的目标患者数;
A5.对患病率计算的分子对应的患者信息的基本特征进行核查并统一,使得每个个体对应唯一的身份识别ID,同时每个唯一的身份识别ID对应的基本特征信息一致;
A6.对获得的患病率计算的分子信息与分母信息求商,计算得到患病率。
2.如权利要求1所述基于医保大数据测算疾病患病率的方法,其特征是,步骤A5所述患病率计算的分子对应的患者信息的基本特征包括年龄、性别、民族、户籍。
3.如权利要求1所述基于医保大数据测算疾病患病率的方法,其特征是,步骤A4中,对于m1,3,所述测算采用的初始假设是就诊信息的诊断缺失与是否罹患某种罕见病的关联不存在统计学意义,即其中,a代表参保且有就诊且就诊记录诊断不缺失的个体中可以抓取到的目标疾病患者人数;b代表参保且有就诊且就诊记录诊断不缺失的个体中可以抓取到的非目标疾病患者人数;c代表参保且有就诊且就诊记录诊断缺失的个体中理论上可抓取到的目标疾病患者人数;d代表参保且有就诊且就诊记录诊断缺失的个体中可以抓取到的非目标疾病患者人数;
将参保且有就诊且就诊记录诊断缺失的个体中理论上可抓取到的目标疾病患者人数c表示为式6:
其中,c+d为诊断缺失的总记录数;
对于k1,3,则按照是否既往已经判断为目标疾病分别处理:若之前未判断为目标疾病,则按照上述假设进行填补,若之前已经判断为目标疾病,则直接填补为患病状态。
4.如权利要求1所述基于医保大数据测算疾病患病率的方法,其特征是,步骤A6计算得到患病率,计算方法采用方法一或方法2;具体地,
方法一:整年的患病率Prevalence通过式7计算得到:
其中,每个月的患者总数∑tCase=Case_real+Caseimpute_m+Caseimpute_k;t表示第t个月份,Case_real表示当月内实际抓取到的患者总数;Caseimpute_m表示当月内根据参保且有报销记录但未出现目标诊断的个体中,根据有就诊但诊断缺失的人数所估算的目标患者总数;Caseimpute_k表示根据参保有报销记录且既往已经出现目标诊断的个体中,根据当月有就诊但诊断缺失的人数所估算的目标患者数;每个月的分母总数通过下式计算得到:
tPersonMonth=∑tPersonMonth1+∑tPersonMonth2+∑tPersonMonth3
其中,t表示第t个月份;∑tPersonMonth1对应参保但从未报销的个体所贡献的人月;∑tPersonMonth2代表参保且有报销记录但未出现目标诊断的个体所贡献的人月;∑tPersonMonth3代表参保有报销记录且出现目标诊断的个体;
方法二:患病率Prevalence通过式8计算得到:
其中,t表示第t个月份;每个月的新增患者总数∑tNewCase=NewCasereal+NewCaseimpute_m;其中,NewCasereal为当月实际观察到新增患者数;NewCaseimpute_m为在利用既往月份诊断信息对当前月份诊断信息进行填补后,剩余的参保有报销记录但诊断缺失的记录按照诊断未缺失部分的新增患者比例,估算出的新增患者数。
5.如权利要求4所述基于医保大数据测算疾病患病率的方法,其特征是,当时间跨度为一年,以人月为单位,各个月份的患病率波动较小时,采用方法一计算得到患病率;当各个月的患病率波动较大时,采用方法二计算得到患病率。
6.如权利要求1所述基于医保大数据测算疾病患病率的方法,其特征是,多个关键参数包括:每月参保个体总数、每月新增参保个体数、每月就诊记录总数、每月就诊记录诊断缺失总数。
CN201810441017.9A 2018-05-10 2018-05-10 一种基于医保大数据测算疾病患病率的方法 Active CN108630320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810441017.9A CN108630320B (zh) 2018-05-10 2018-05-10 一种基于医保大数据测算疾病患病率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810441017.9A CN108630320B (zh) 2018-05-10 2018-05-10 一种基于医保大数据测算疾病患病率的方法

Publications (2)

Publication Number Publication Date
CN108630320A true CN108630320A (zh) 2018-10-09
CN108630320B CN108630320B (zh) 2021-07-09

Family

ID=63692335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810441017.9A Active CN108630320B (zh) 2018-05-10 2018-05-10 一种基于医保大数据测算疾病患病率的方法

Country Status (1)

Country Link
CN (1) CN108630320B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785150A (zh) * 2018-12-13 2019-05-21 平安科技(深圳)有限公司 一种基于智能决策的医保基金风险预测方法和装置
CN110277171A (zh) * 2019-07-01 2019-09-24 太平洋医疗健康管理有限公司 失能人群测算方法及系统
WO2020119109A1 (zh) * 2018-12-13 2020-06-18 平安医疗健康管理股份有限公司 报销处理方法、装置、终端及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106334259A (zh) * 2016-09-29 2017-01-18 赵赫 癫痫病治疗仪及癫痫病治疗系统
CN106778039A (zh) * 2017-01-20 2017-05-31 深圳第医学健康管理有限公司 诊疗辅助系统及方法
CN107273709A (zh) * 2017-07-31 2017-10-20 惠州市格农科技有限公司 基于计算机的医院病人资料处理方法
CN107358363A (zh) * 2017-07-17 2017-11-17 哈尔滨理工大学 基于径向基函数神经网络组合模型的煤工发病率预测方法
CN107680682A (zh) * 2017-09-28 2018-02-09 北京大学 基于微信平台的慢性非传染性疾病队列研究人群随访方法
KR101835471B1 (ko) * 2017-10-26 2018-03-08 강원대학교산학협력단 분만 취약지 임산부의 임신주기별 고위험 임산부 선별검사 서비스 제공방법, 장치 및 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106334259A (zh) * 2016-09-29 2017-01-18 赵赫 癫痫病治疗仪及癫痫病治疗系统
CN106778039A (zh) * 2017-01-20 2017-05-31 深圳第医学健康管理有限公司 诊疗辅助系统及方法
CN107358363A (zh) * 2017-07-17 2017-11-17 哈尔滨理工大学 基于径向基函数神经网络组合模型的煤工发病率预测方法
CN107273709A (zh) * 2017-07-31 2017-10-20 惠州市格农科技有限公司 基于计算机的医院病人资料处理方法
CN107680682A (zh) * 2017-09-28 2018-02-09 北京大学 基于微信平台的慢性非传染性疾病队列研究人群随访方法
KR101835471B1 (ko) * 2017-10-26 2018-03-08 강원대학교산학협력단 분만 취약지 임산부의 임신주기별 고위험 임산부 선별검사 서비스 제공방법, 장치 및 시스템

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785150A (zh) * 2018-12-13 2019-05-21 平安科技(深圳)有限公司 一种基于智能决策的医保基金风险预测方法和装置
WO2020119109A1 (zh) * 2018-12-13 2020-06-18 平安医疗健康管理股份有限公司 报销处理方法、装置、终端及计算机可读存储介质
CN110277171A (zh) * 2019-07-01 2019-09-24 太平洋医疗健康管理有限公司 失能人群测算方法及系统

Also Published As

Publication number Publication date
CN108630320B (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
Chattopadhyay et al. A Case‐Based Reasoning system for complex medical diagnosis
Kazley et al. Organizational and environmental determinants of hospital EMR adoption: A national study
US20130085773A1 (en) Method for generating healthcare-related validated prediction models from multiple sources
Begley et al. Emergency room use and access to primary care: evidence from Houston, Texas
Chokshi et al. Diagnostic radiology resident and fellow workloads: a 12-year longitudinal trend analysis using national Medicare aggregate claims data
CN105528529A (zh) 基于大数据分析的中医临床技能评价体系的数据处理方法
CN108630320A (zh) 一种基于医保大数据测算疾病患病率的方法
CN109766446A (zh) 一种数据调查方法、数据调查装置及计算机可读存储介质
Westra et al. Validation and refinement of a pain information model from EHR flowsheet data
CN115148370B (zh) 一种生成dip病种目录的方法及系统
CN114141377A (zh) 一种建立诊断规则库的方法、诊断信息审核的方法及设备
Cullen The use of ICT in the health sector in Pacific Island countries
CN105701330A (zh) 健康信息处理方法及系统
Razali et al. Generating treatment plan in medicine: A data mining approach
CN110265127A (zh) 病种费用测算方法、装置及终端设备
Kuehl et al. Advancing the use of administrative data for emergency department diagnostic imaging research
CN109448846A (zh) 一种基于医保大数据测算罕见病发病率的分析方法
US20150339602A1 (en) System and method for modeling health care costs
He et al. Characterizing the Structure of a Patient's Care Team through Electronic Encounter Data Analysis.
Levy A predictive tool for nonattendance at a specialty clinic: An application of multivariate probabilistic big data analytics
CN113223677A (zh) 针对患者的医生匹配方法及装置
Soo et al. Prevalence of rheumatoid arthritis in Edmonton and Northern Alberta
CN109508869A (zh) 一种基于数据处理的风险检测方法和装置
Pfaehler Electronic Health Records and Health Information Exchange and Their Impact on International Healthcare System Efficiency
Wang Tackling Bias, Privacy, and Scarcity Challenges in Health Data Analytics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant