CN108630320B

CN108630320B - 一种基于医保大数据测算疾病患病率的方法

Info

Publication number: CN108630320B
Application number: CN201810441017.9A
Authority: CN
Inventors: 王胜锋; 詹思延; 高培; 王金喜; 许璐; 冯菁楠; 尉晨
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2021-07-09
Anticipated expiration: 2038-05-10
Also published as: CN108630320A

Abstract

本发明公布了一种基于医保大数据测算疾病患病率的方法，将特定时间内总人口中的所有患有某病的新旧病例数目作为计算患病率的分子，将特定时间内的总人口作为计算患病率的分母；通过汇总每月医保数据的多个关键参数，包括：每月参保个体总数、每月新增参保个体数、每月就诊记录总数、每月就诊记录诊断缺失总数；获得患病率计算的分子与分母信息，进而计算得到患病率。本发明方法以医保大数据为基础，简便快速有效，可以替代耗费人财物的现有流行病学人群调查，转变以面板数据为基础的患病率计算策略，优化数据存储、运算的执行效率，降低隐私泄露风险和数据共享门槛，促进医保大数据的转化应用。

Description

一种基于医保大数据测算疾病患病率的方法

技术领域

本发明涉及数据处理技术，尤其涉及一种基于医保大数据测算疾病患病率(Prevalence)的方法，具体针对汇总数据格式下高效计数患病率对应分子、分母进行统计运算。

背景技术

医保数据(Claims data)，是医保业务过程中获得的数据，由于无需抽样调查，天然覆盖较大规模的人群，并较为完整真实的记录该人群在一定时间范围内的就医信息，被越来越多的用于疾病的患病率研究。

常规的流行病学研究中，计算患病率需要明确分母的人口规模，计数某一时间内对应的病例数量。但对于现在积累的海量医保数据，无论数据存储的期别、格式和体量，还是数据指标的跨度、缺失和个体脱保等，都会导致直接实施上述思路遇到一些问题，从而制约医保大数据的实际应用。

美国的Medicaid、Medicare联合办公中心总结开发了适用于两者数据库的常见慢性病症的患者界定规则，但同时明确指出目标患者的界定规则因数据库而异、因病而异。美国Jensen等对影响分母的界定参数进行了探讨，提出就诊频率不高的病症，最短观察时间设定较短会导致患病率低估，设定较长又会导致高估，具体需要因病而异。

上述探索均集中在国外，而我们国家医保报销模式决定了医保数据的实际存储以月为单位，患者参保信息与就诊信息之间以就诊号关联。国外研究都基于个体原始数据，数据量与运算资源性能相对匹配，而我国医保人口超过13亿，多人次多年份的海量数据情境下，传统的构建个体面板数据的运算策略将会导致数据稀疏、信息冗余、存储和运算困难等问题。

发明内容

本发明的目的是提供一种基于医保大数据测算疾病患病率的新方法，基于优化数据中间存储格式，通过汇总每月医保数据的多个关键参数，包括：每月参保个体总数、每月新增参保个体数、每月就诊记录总数、每月就诊记录诊断缺失总数，再推导患病率计算所需的分子与分母信息，进而计算得到患病率。本发明可测算的疾病要求不能彻底治愈，一旦诊断，终身罹患。

本发明的原理是：基于人月的概念，计数每月参保个体总数、每月新增参保个体数、每月就诊记录总数、每月就诊记录诊断缺失总数，通过目标疾病定义抽提目标患者，并推导诊断随机缺失情境下的“隐形患者”，再根据患病率公式进行推导，计算得到患病率。本发明方法可测算的疾病包括多发性骨髓瘤、浆细胞白血病、浆细胞病、男性乳腺癌、黑色素瘤等。

本发明提供的技术方案是：

一种基于医保大数据测算疾病患病率的方法，通过汇总每月医保数据的多个关键参数(包括：每月参保个体总数、每月新增参保个体数、每月就诊记录总数、每月就诊记录诊断缺失总数)，推导患病率计算所需的分子与分母信息，进而计算得到患病率；患病率计算的分子指特定时间内总人口中的所有患有某病的新旧病例，分母即特定时间内的总人口；包括如下步骤：

A1.确定数据库范围(如时间跨度、地域分布、门诊/住院)；

A2.数据库的基本清洗和目标疾病的定义；

A3.分母信息的汇总

具体分为三组：参保但从未报销的个体、参保且有报销记录但未出现目标诊断的个体和参保有报销记录且出现目标诊断的个体。根据每位观察对象在每个月的参保状态、纳入参保人次，剔除未参保人次。

A4.分子信息的汇总；

明确目标疾病的定义后，进行对应的分子信息抽提，具体分为两组：直接观测到的患者和需填补测算的患者。后者测算基于就诊信息的诊断缺失与是否罹患目标疾病的关联不存在统计学意义。对之前已经判断为目标疾病的个体，则直接填补该个体为患病状态，即为出现目标诊断的个体。

A5.分子患者的基本特征核查与统一，如年龄、性别、民族、户籍等

A6.患病率的计算，将上述汇总的分子信息与分母信息求商，计算患病率。

本发明的有益效果是：

本发明提供一种基于医保大数据测算疾病患病率的新方法，针对汇总格式数据，高效地计数得到患病率计算对应的分子和分母，进而计算得到患病率。通过本发明所提供的以医保大数据为基础的患病率测算方法，简便快速有效，可以替代耗费人财物的现有的传统流行病学人群调查，同时转变以面板数据为基础的患病率计算策略，优化数据存储、运算的执行效率，降低隐私泄露风险和数据共享门槛，促进医保大数据的转化应用，为切实填补我国罕见病的患病率资料空白提供一种简便快速的方法。

附图说明

图1是本发明提供的计算患病率的方法的流程框图。

图2是本发明具体实施例提供的患病率分子的基本特征核查与统一的流程示意图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于医保大数据测算疾病患病率的新方法，基于优化数据中间存储格式，通过汇总每月医保数据的多个关键参数，推导患病率计算所需的分子与分母信息，进而计算得到患病率。患病率计算的分子指特定时间内总人口中的所有患有某病的新旧病例，分母即特定时间内的总人口。本发明的具体实施方式如下：

A.患病率对应分母的计算

A1.确定数据库范围(如时间跨度、地域分布、门诊/住院)；

A2.数据库的基本清洗和目标疾病的定义；

数据库的基本清洗包括以下基本步骤：(1)数据库中变量的完整性和逻辑性核查；(2)数据库中文本内容的编码标准化和自然语言处理；(3)数据库中国际疾病分类(International Classification of Diseases，ICD)的版本确定和统一。

本发明中，目标疾病的定义以医保数据库中出现对应疾病的名称或ICD编码为准，具体需要充分考虑文本和ICD编码的多种表达形式，构建尽量全面的字典库。

A3.分母信息的汇总；

患病率的分母具体分为三组

第一组：参保但从未报销的个体

该部分患者从未因病就诊，只有参保记录，无报销记录，在患病率/发病率计算时仅用作分母。具体需要统计观察时间内，每个观察对象在每个月的参保状态(1＝参保，0＝未参保)，然后把未参保的人月剔除(如附图1)，把参保的人月合计放入分母。以每个月为例，第一组分母的人月总和对应计算公式如式1：

其中，t表示第t个月份；Insurance_t,n为第n个该组个体在第t个月份的参保状态。n代表第一组分母的人月总和。

第二组：参保且有报销记录但未出现目标诊断的个体

该部分患者曾因病就诊，但未出现目标诊断，同时拥有参保记录、报销记录，同样在患病率/发病率计算时仅用作分母。具体需要统计观察时间内，每个观察对象在每个月的参保状态(1＝参保，0＝未参保)，然后同样把未参保的人月剔除(如附图1)，但参保的人月不能直接放入分母，而是根据诊断状态分为三种情况：

第一种情况：未因病就诊无报销记录的人月直接纳入分母(如附图1)，对每月而言，即未因病就诊无报销记录的当月人数m_1,1；

第二种情况：因病就诊且诊断完整的人月应纳入分母计算(如附图1)，对每月而言即因病就诊且诊断完整的当月人数m_1,2；

第三种情况：有就诊但诊断缺失的人月应考虑后续填补(如附图1)，提取因病就诊但诊断缺失的当月人数m_1,3。

以每个月为例，第二组分母的人月总和对应计算公式如式2：

其中，t表示第t个月份；Insurance_t,m为第m个该组个体在第t个月份的参保状态。m代表第二组分母的人月总和。

第三组：参保有报销记录且出现目标诊断的个体

该部分患者有因病就诊，且出现过目标诊断，同时拥有参保记录、报销记录，在患病率/发病率计算时用作分子和分母。就分母而言，具体需要统计观察时间内，每个观察对象在每个月的参保状态(1＝参保，0＝未参保)，然后同样把未参保的人月剔除(如附图1)，但参保的人月仍不能直接放入分母，而是根据诊断状态分为三种情况：

第一种情况：未因病就诊无报销记录的人月直接纳入分母(如附图1)，对每月而言即未因病就诊无报销记录的当月人数k1,1；

第二种情况：因病就诊且诊断完整的人月应纳入分母计算(如附图1)，对每月而言即因病就诊且诊断完整的当月人数k1,2；

第三种情况：有就诊但诊断缺失的人月应考虑后续填补(如附图1)，对每月而言即因病就诊但诊断缺失的当月人数k1,3。

以每个月为例，第三组分母的人月总和对应计算公式如式3：

其中，t表示第t个月份；Insurance_t,k为第k个该组个体在第t个月份的参保状态；k代表示第三组分母的人月总和。

A4.分子信息的汇总；

根据目标疾病的定义后，进行对应的分子信息抽提，具体分为两组：

分子第一组：直接观测到的患者

所有观测到患者均计入，需要计算每个月诊断为目标疾病的人数之和，即∑_tCase_real，其中，t表示第t个月份；Case_real表示每个月诊断为目标疾病的人数。

分子第二组：需填补测算的患者

部分就诊记录存在诊断缺失，但该部分记录不宜直接剔除，如表1所示，

表1患病率计算时分子填补示意图

理想状态下的患病率Prevalence的计算公式为式4：

其中，a代表参保且有就诊且就诊记录诊断不缺失的个体中可以抓取到的目标疾病患者人数，b代表参保且有就诊且就诊记录诊断不缺失的个体中可以抓取到的非目标疾病患者人数，c代表参保且有就诊且就诊记录诊断缺失的个体中理论上可抓取到的目标疾病患者人数，d代表参保且有就诊且就诊记录诊断缺失的个体中可以抓取到的非目标疾病患者人数，e代表参保但从未就诊的个体人数。

而直接剔除后的患病率计算公式表示为式5：

理想状态下的患病率与直接剔除后的患病率两者显然不等。因此，需要对诊断缺失部分，基于一定假设，进行适当估算，以获取c和d的数值。本发明采用的初始假设是就诊信息的诊断缺失与是否罹患某种罕见病的关联不存在统计学意义，即

若满足此假设，则c表示为式6：

其中，c+d为诊断缺失的总记录数，可直接计数得到。

注意，需要填补测算的诊断缺失部分包括两部分：参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数m_1,3和参保有报销记录且既往已经出现目标诊断的个体中当月有就诊但诊断缺失的人数k_1,3，其中，m_1,3按照上述假设进行填补，而k_1,3则按照是否既往已经判断为目标疾病分别处理。若之前未判断为目标疾病，则同样按照上述假设进行填补，若之前已经判断为目标疾病，则直接填补为患病状态。填补后的目标疾病人数可分别为两部分：根据参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者总数

根据参保有报销记录且既往已经出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者总数

其中，t表示第t个月份，Case_{impute_m}表示每个月内，根据参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者数，Case_{impute_k}表示每个月内，根据参保且有报销记录且既往已经出现目标诊断的个体中，当月有就诊但诊断缺失的人数所估算的目标患者数。

A5.分子患者的基本特征核查与统一；

如附图2，医保数据分为“参保人员信息表”、“普通门(急)诊费用及结算信息表”和“门诊大病、门诊统筹、住院、家庭病床费用及结算信息表”3张表单，各表单之间的关联变量为AAC001，对年龄、性别、民族、户籍等需要进行多部核查和统一，以达到每个关联变量对应唯一的身份识别ID(如身份证)，同时每个唯一的身份识别ID对应的年龄、性别、民族和户籍等信息内部一致。

A6.患病率的计算

当各个月份的患病率波动较小(无显著的季节或其他时间趋势、随访人群分母规模较大时)，某一整年的患病率计算公式如式7(时间跨度为一年，以人月为单位)：

其中，每个月的患者总数∑_tCase＝Case_real+Case_{impute_m}+Case_{impute_k}，t表示第t个月份，Case_real表示当月内实际抓取到的患者总数，Case_{impute_m}表示当月内根据参保且有报销记录但未出现目标诊断的个体中，根据有就诊但诊断缺失的人数所估算的目标患者总数，Case_{impute_k}表示根据参保有报销记录且既往已经出现目标诊断的个体中，根据当月有就诊但诊断缺失的人数所估算的目标患者数。每个月的分母总数计算∑_tPersonMonth＝∑_tPersonMonth1+∑_tPersonMonth2+∑_tPersonMonth3。其中，t表示第t个月份，∑_tPersonMonth1对应参保但从未报销的个体所贡献的人月，∑_tPersonMonthnth2代表参保且有报销记录但未出现目标诊断的个体所贡献的人月，∑_tPersonMonthnth3代表参保有报销记录且出现目标诊断的个体。

当各个月的患病率波动较大时，如部分月份的参保人群基数较小(如少于10万人)，则可采用月患病率的中位数，或者以年为单位计数唯一患者数，公式如式8：

其中，t表示第t个月份，每个月的新增患者总数∑_rNewCase＝NewCase_real+NewCase_{impute_m}。其中，NewCase_real为当月实际观察到新增患者数，NewCase_{impute_m}为在利用既往月份诊断信息对当前月份诊断信息进行填补后，剩余的参保有报销记录但诊断缺失的记录按照诊断未缺失部分的新增患者比例，估算出的新增患者数。

下面通过实例来对本发明做进一步说明。

假设基于某省2012年的医保数据库计算多发性骨髓瘤的患病率，则数据库范围为2012年的城镇职工参保人员(143,670,014人)、城镇居民参保人员(22,890,524人)。

完成基本的数据清洗后(如报销日期、就诊日期变量缺失、异常等)，多发性骨髓瘤的临床诊断方式结合文本、ICD编码表述如表2：

表2多发性骨髓瘤的诊断描述和ICD编码列举

	ICD-9	ICD-10	ICD-O-3
				多发性骨髓瘤
骨髓瘤病	203.0	C90.051	M97320/3
					浆细胞性骨髓瘤	203.0	C90.002	M97320/3
多发性骨髓瘤	203.0	C90.001	M97320/3
					骨髓瘤肾病	203.0	C90.003+	M97320/3

数据库中包含诊断信息的字段名称共有6个，分别是主要诊断名称、主要诊断编码、次要诊断名称1、次要诊断编码1、次要诊断名称2和次要诊断编码2，则实际定义按照数据库内字段结构定义如下：

上述各字段必须包含字段取值(字段之间为“或者”关系)：骨髓瘤，卡勒，骨髓癌/骨髓ca，骨髓病，C90，M9732，203.0；

上述各字段必须排除字段取值(字段之间为“或者”关系)：浆细胞，孤立性，C90.1，C90.2

具体分子抓取时，针对主要诊断、次要诊断1、次要诊断2、主要诊断编码、次要诊断编码1和次要诊断编码2共六个字段展开，要求全部六个字段中，必须具备至少一个“必须包含字段”，但必须不含有“必须排除字段”。

然后进行分母信息的汇总，其中参保但从未报销的个体、参保且有报销记录但未出现目标诊断的个体和参保有报销记录且出现目标诊断的个体在每个月的分布，如表3所示：

表3分母信息的汇总表

之后进行分子的提取和信息核查与统一，其中直接观察到的患者信息如表4：

表4患者信息汇总表

每个月的患病率计算结果如表5：

表5每个月的患病率计算结果

分子(人数)	分母(人数或人月)	患病率(/10万)
			120	12662166	0.95
180	12286909	1.46
			199	13253103	1.50
225	13405249	1.68
			292	15560865	1.88
508	15331703	3.31
			469	15833721	2.96
491	15713205	3.12
			404	15414055	2.62
463	15732058	2.94
			456	9710585	4.70
210	11656919	1.80
			4017	166560538	2.41

各个月份的患病率相对稳定，因此最终计算为:

即患病率为2.41/10万人月，若直接采用月患病率的中位数为2.25/10万人月。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于医保大数据测算疾病患病率的方法，针对汇总格式数据高效地计数得到患病率计算对应的分子和分母，将特定时间内总人口中的所有患有某病的新旧病例数目作为计算患病率的分子，将特定时间内的总人口作为计算患病率的分母；通过汇总每月医保数据的多个关键参数；获得患病率计算的分子与分母信息，进而计算得到患病率；包括如下步骤：

A1.确定数据库范围，包括数据的时间跨度、数据地域分布、门诊/住院数据；

A2.进行数据库的基本清洗，定义患病率计算的目标疾病；

A3.获取患病率计算的分母信息；具体包括三组：

第一组是参保但从未报销的个体；第一组分母的人月总和表示如式1：

其中，t表示第t个月份；Insurance_t,n为第n个该组个体在第t个月份的参保状态；n代表第一组分母的人月总和；

第二组是参保且有报销记录但未出现目标诊断的个体；根据诊断状态包括三种情况：

第一种情况：未因病就诊无报销记录的人月直接纳入分母，对每月而言，未因病就诊无报销记录的当月人数记作m_1,1；

第二种情况：因病就诊且诊断完整的人月应纳入分母计算，对每月而言，因病就诊且诊断完整的当月人数记作m_1,2；

第三种情况：有就诊但诊断缺失的人月应考虑后续填补，将因病就诊但诊断缺失的当月人数记作m_1,3；

以每个月为例，第二组分母的人月总和表示如式2：

其中，t表示第t个月份；Insurance_t,m为第m个该组个体在第t个月份的参保状态；m代表第二组分母的人月总和；

第三组是参保有报销记录且出现目标诊断的个体；根据诊断状态包括三种情况：

第一种情况：未因病就诊无报销记录的人月直接纳入分母，即将未因病就诊无报销记录的当月人数记作k1,1；

第二种情况：因病就诊且诊断完整的人月应纳入分母计算，即将因病就诊且诊断完整的当月人数记作k1,2；

第三种情况：有就诊但诊断缺失的人月应考虑后续填补，即将因病就诊但诊断缺失的当月人数记作k1,3；

以每个月为例，第三组分母的人月总和表示如式3：

其中，t表示第t个月份；Insurance_t,k为第k个该组个体在第t个月份的参保状态；k代表示第三组分母的人月总和；

A4.获取患病率计算的分子信息；具体包括两组：

第一组是直接观测到的患者，为每个月诊断为目标疾病的人数之和，即∑_tCase_real，其中，t表示第t个月份；Case_real表示每个月诊断为目标疾病的人数；

第二组是诊断缺失需填补测算的患者；包括：参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数m_1,3和参保有报销记录且既往已经出现目标诊断的个体中当月有就诊但诊断缺失的人数k_1,3；

诊断缺失需填补测算的患者的人数包括两部分：

第一部分是根据参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者总数

第二部分是根据参保有报销记录且既往已经出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者总数

其中，t表示第t个月份；Case_{impute_m}表示每个月内，根据参保且有报销记录但未出现目标诊断的个体中当月有就诊但诊断缺失的人数所估算的目标患者数；Case_{impute_k}表示每个月内，根据参保且有报销记录且既往已经出现目标诊断的个体中，当月有就诊但诊断缺失的人数所估算的目标患者数；

A5.对患病率计算的分子对应的患者信息的基本特征进行核查并统一，使得每个个体对应唯一的身份识别ID，同时每个唯一的身份识别ID对应的基本特征信息一致；

A6.对获得的患病率计算的分子信息与分母信息求商，计算得到患病率。

2.如权利要求1所述基于医保大数据测算疾病患病率的方法，其特征是，步骤A5所述患病率计算的分子对应的患者信息的基本特征包括年龄、性别、民族、户籍。

3.如权利要求1所述基于医保大数据测算疾病患病率的方法，其特征是，步骤A4中，对于m_1,3，所述测算采用的初始假设是就诊信息的诊断缺失与是否罹患某种疾病的关联不存在统计学意义，即

其中，a代表参保且有就诊且就诊记录诊断不缺失的个体中可以抓取到的目标疾病患者人数；b代表参保且有就诊且就诊记录诊断不缺失的个体中可以抓取到的非目标疾病患者人数；c代表参保且有就诊且就诊记录诊断缺失的个体中理论上可抓取到的目标疾病患者人数；d代表参保且有就诊且就诊记录诊断缺失的个体中可以抓取到的非目标疾病患者人数；

将参保且有就诊且就诊记录诊断缺失的个体中理论上可抓取到的目标疾病患者人数c表示为式6：

其中，c+d为诊断缺失的总记录数；

对于k_1,3，则按照是否既往已经判断为目标疾病分别处理：若之前未判断为目标疾病，则按照上述假设进行填补，若之前已经判断为目标疾病，则直接填补为患病状态。

4.如权利要求1所述基于医保大数据测算疾病患病率的方法，其特征是，步骤A6计算得到患病率，计算方法采用方法一或方法2；具体地，

方法一：整年的患病率Prevalence通过式7计算得到：

其中，每个月的患病率记为Prevalence_t，t表示第t个月份，t取值1到12；每个月的患者总数∑_tCase＝Case_real+Case_{impute_m}+Case_{impute_k}；t表示第t个月份，Case_real表示当月内实际抓取到的患者总数；Case_{impute_m}表示当月内根据参保且有报销记录但未出现目标诊断的个体中，根据有就诊但诊断缺失的人数所估算的目标患者总数；Case_{impute_k}表示根据参保有报销记录且既往已经出现目标诊断的个体中，根据当月有就诊但诊断缺失的人数所估算的目标患者数；每个月的分母总数通过下式计算得到：

∑_tPersonMonth＝∑_tPersonMonth1+∑_tPersonMonth2+∑_tPersonMonth3

其中，t表示第t个月份；∑_tPersonMonth1对应参保但从未报销的个体所贡献的人月；∑_tPersonMonth2代表参保且有报销记录但未出现目标诊断的个体所贡献的人月；∑_tPersonMonth3代表参保有报销记录且出现目标诊断的个体；

方法二：患病率Prevalence通过式8计算得到：

其中，t表示第t个月份；每个月的新增患者总数∑_tNewCase＝NewCase_real+NewCase_{impute_m}；其中，NewCase_real为当月实际观察到新增患者数；NewCase_{impute_m}为在利用既往月份诊断信息对当前月份诊断信息进行填补后，剩余的参保有报销记录但诊断缺失的记录按照诊断未缺失部分的新增患者比例，估算出的新增患者数。

5.如权利要求4所述基于医保大数据测算疾病患病率的方法，其特征是，当时间跨度为一年，以人月为单位，各个月份的患病率波动较小时，采用方法一计算得到患病率；当各个月的患病率波动较大时，采用方法二计算得到患病率。

6.如权利要求1所述基于医保大数据测算疾病患病率的方法，其特征是，多个关键参数包括：每月参保个体总数、每月新增参保个体数、每月就诊记录总数、每月就诊记录诊断缺失总数。