CN112967817B

CN112967817B - 基于医疗大数据的流行病学研究人群筛选方法及存储介质

Info

Publication number: CN112967817B
Application number: CN202110140858.8A
Authority: CN
Inventors: 李红良; 周峰; 朱丽华
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2022-06-10
Anticipated expiration: 2041-02-02
Also published as: CN112967817A

Abstract

本发明公开了一种基于医疗大数据的流行病学研究人群筛选方法及存储介质，该方法包括以下步骤：获取健康医疗数据；根据流行病学研究的需求确认待构建的目标人群类型，包括横断面研究人群、固定队列研究人群和动态队列研究人群；设置筛选条件，包括研究时间范围、随访时间、时间窗、纳入规则、结局规则；从健康医疗数据中筛选符合目标人群要求的记录，构建目标人群。本发明的基于医疗大数据的流行病学研究人群筛选方法及存储介质，直接从现存的海量医疗数据中筛选出目标人群纳入流行病学研究，包括横断面研究人群，固定队列研究人群和动态对列研究人群，提高了基于医疗大数据的流行病学研究人群筛选的效率与正确性，节约了人力。

Description

基于医疗大数据的流行病学研究人群筛选方法及存储介质

技术领域

本发明属于数据处理技术领域，具体涉及一种基于医疗大数据的流行病学研究人群筛选方法及存储介质。

背景技术

随着电子医疗数据激增，大数据研究成为了科学研究领域的新热点。以医疗大数据为主题的学术研究虽然在不同领域都得到不同程度的发展，但是医疗数据的提取和分析利用严重不足。临床过程模式分析功能是指利用大数据分析系统对过程数据进行分析并改进的能力。

人群筛选是临床研究很重要的一步，但是现有的医疗数据具有体量大、标准化低、整合率低、质量参差不齐等特点。传统的医疗数据分析系统很难直接从数据中筛选出目标人群对大量数据进行分析，以发现之间的横向与纵向的关系。并且人工筛选人群会消耗大量精力，人群纳入时很容易出现各种逻辑上的错误，效率还很低，阻碍了临床研究的发展。因此，如何从数据中提取目标人群成为医疗大数据的流行病学研究亟待解决的一个技术问题。

发明内容

本发明的目的在于，提供一种基于医疗大数据的流行病学研究人群筛选方法及存储介质，从医疗数据中提取目标人群并建立流行病学研究人群，包括横断面研究人群，固定队列研究人群和动态队列研究人群。

本发明提供一种基于医疗大数据的流行病学研究的人群筛选方法，包括以下步骤：

获取健康医疗数据；

根据流行病学研究的需求确认待构建的目标人群类型，包括横断面研究人群、固定队列研究人群和动态队列研究人群；

设置筛选条件，包括研究时间范围、随访时间、时间窗、纳入规则、结局规则；

从健康医疗数据中筛选符合目标人群要求的记录，构建目标人群。

进一步地，横断面研究人群的构建步骤为：

设置研究时间范围，筛选符合研究时间范围的记录；

设置纳入规则，在符合研究时间范围的记录中筛选符合纳入规则的记录；

设置结局规则，在符合纳入规则的记录中筛选结局明确的记录，并判断其结局是否符合结局规则，进而将该记录标记为出现结局或未出现结局，构建横断面研究人群。

进一步地，固定队列研究人群的构建步骤为：

设置研究起始时间段和截止时间段，两个时间段的跨度构成了随访时间范围，筛选符合随访时间范围的记录，仅保留记录数大于或等于两条的人员的记录；

对于同一人员的记录，以时间为顺序，依次判断起始时间段内的记录是否符合纳入规则；保留第一条符合纳入规则的记录至随访时间终点之间的所有记录；若起始时间段内的记录全不符合纳入规则，则排除该人员的所有记录；

对于符合纳入规则的同一人员的记录，以时间为顺序，从第二条符合纳入规则的记录起，依次判断记录是否符合结局规则；保留第一条符合纳入规则的记录至第一条符合结局规则的记录之间的所有记录，标记为出现结局；

若全不符合结局规则，则判断从第一条符合纳入规则的记录至随访时间终点内是否有其他记录；若没有，则标记为失访，保留第一条符合纳入规则的记录至随访时间终点之间的所有记录；

若有其他记录，则以时间为顺序，倒序判断截止时间段内记录的结局是否为空；若结局不全为空，则保留第一条符合纳入规则的记录至截止时间段内第一条结局不为空的记录之间的所有记录，标记为未出现结局；若截止时间段内结局全为空，则将符合纳入规则的记录标记为失访；

将标记为出现结局、未出现结局和失访的人员及其对应的记录纳入人群，构建固定队列研究人群。

进一步地，动态队列研究人群的构建步骤为：

设置研究时间范围、随访时间、时间窗，筛选符合研究时间范围的记录，仅保留记录数大于等于两条的人员的记录；

对于同一人员的记录，以时间为顺序，依次判断记录是否符合纳入规则；保留第一条符合纳入规则的记录至研究时间终点之间的所有记录；若全不符合纳入规则，则排除该人员的所有记录；

记时间窗的起点为W1，时间窗的终点为W2，研究时间范围的终点为T，判断时间窗的起点W1和终点W2与研究时间终点T的关系；

(1)若时间窗终点时间W2小于等于研究时间终点T，则以时间为顺序，依次判断从第一条符合纳入规则的记录的时间到W2之间的记录是否符合结局规则；若符合，则保留当前符合纳入规则的记录至第一条符合结局规则的记录之间的所有记录，将该人员标记为出现结局；

若全不符合，则判断时间窗内记录的结局是否全为空；若不全为空，则保留当前符合纳入规则的记录至时间窗W1-W2内倒序第一条结局不为空的记录之间的所有记录，将该人员标记为未出现结局；若结局全为空，则保留当前符合纳入规则的记录至研究时间终点T之间的所有记录，判断当前符合纳入规则的记录的下一条记录是否符合纳入规则，若是，则将下一条记录作为当前符合纳入规则的记录，继续判断直至该人员及其记录被标记为出现结局、未出现结局或失访三种情况中的任意一种为止；

(2)若时间窗终点时间W2大于研究时间终点T，则以时间为顺序，依次判断当前记录至研究时间终点T之间的记录是否符合结局规则；若符合，则保留当前记录至第一条符合结局规则的记录，该人员标记为出现结局；若全不符合结局规则，则判断时间窗起点W1是否超出研究时间终点T；

若时间窗起点W1未超出研究时间终点T，则判断当前记录至研究时间终点之间的记录的结局是否全为空；若结局全为空，则将该人员标记为失访，排除出动态队列研究人群，仅统计该人员的记录数；若结局不全为空，保留当前记录至W1-T之间倒序第一条结局不为空的记录，将该人员标记为未出现结局；

若时间窗起点W1超出研究时间终点T，将该人员标记为失访，排除出动态队列研究人群，仅统计该人员的记录数；

将标记为出现结局、未出现结局和失访的人员及其对应的记录纳入人群，构建动态队列人群。

进一步地，该方法还包括步骤：获取医疗数据后，设置记录的地区或随访机构，进一步筛选数据。

本发明还提供一种计算机存储介质，其内存储有可被计算机处理器执行的计算机程序，该计算机程序执行上述的基于医疗大数据的流行病学研究的人群筛选方法。

本发明的有益效果是：本发明的基于医疗大数据的流行病学研究人群筛选方法及存储介质，直接从现存的海量医疗数据中筛选出目标人群纳入流行病学研究，包括横断面研究人群，固定队列研究人群和动态对列研究人群，提高了基于医疗大数据的流行病学研究人群筛选的效率与正确性，节约了人力。

附图说明

图1是本发明的人群筛选方法流程图。

图2是本发明的横断面研究人群筛选流程图。

图3是本发明的固定队列研究人群筛选流程图。

图4是本发明的动态队列研究人群筛选流程图。

具体实施方式

下面将结合附图对本发明作进一步的说明：

本发明提供一种人群筛选方法，用于建立流行病学研究人群，包括横断面研究人群，固定队列研究人群和动态队列研究人群。本发明能够快速准确地从医疗大数据中筛选出目标人群用于流行病学研究。

本发明实施例的基于医疗大数据的流行病学研究的人群筛选方法，如图1所示，包括以下步骤：

S1、获取健康医疗数据；

S2、根据流行病学研究的需求确认待构建的目标人群类型，包括横断面研究人群、固定队列研究人群和动态队列研究人群；

S3、设置筛选条件，包括研究时间范围、随访时间、时间窗、纳入规则、结局规则；

S4、从健康医疗数据中筛选符合目标人群要求的记录，构建目标人群。

本发明基于现有的医疗数据，直接从中筛选出符合条件的人群，纳入流行病学研究中，包括横断面研究人群，固定队列研究人群，动态队列研究人群筛选三大模块。其中，横断面研究人群，用于将数据中符合阳性特征或疾病诊断规则的人群直接筛选出来，纳入横断面研究。固定队列研究人群，筛选同一个病人在一定时间范围内的记录，仅保留在时间范围内记录数大于或等于2条的身份唯一码(即同一个病人，一个病人对应一个身份唯一码)及其所对应的所有记录，并筛选出出现结局、未出现结局和失访三种情况的人群，建立固定队列人群。动态队列研究人群，筛选同一个病人对应的所有记录，并筛选出出现结局、未出现结局和失访三种情况的人群。

如图2所示，横断面研究人群的筛选流程为：

S1、选择研究所纳入的时间范围和医疗机构，根据划定的时间和机构范围筛选出对应的记录。

S2、设置纳入规则，对已筛选的记录做出判断，保留符合纳入条件的记录。不符合纳入条件的记录则不保留也不进入下一步。

S3、设置结局规则，对上一步已筛选的记录继续做出判断，结局为无法判断的记录则不保留，可以明确结局的记录则保留对应数据，并依据是否满足结局条件而分别标记，符合结局规则的记录标记为出现结局，不符合结局规则的记录标记为未出现结局，完成记录的筛选。

S4、以身份唯一码为依据统计人数及总记录数，最终完成病人的筛选建立横断面人群，对应的筛选出的记录进入该横断面人群。

如图3所示，固定队列研究人群的筛选流程为：

1.设置研究起始时间段(例如：2010年8月-2010年10月)和研究截止时间段(例如：2013年8月-2013年10月)，两个时间段的跨度构成了随访时间范围(3年)，依据身份唯一码筛选在随访时间范围内的记录，仅保留在时间范围内记录数大于或等于2条的身份唯一码(即同一个病人，一个病人对应一个身份唯一码)及其所对应的所有记录。

2.对于同一个身份唯一码，从研究起始时间段内的第一条记录起判断该记录是否符合纳入规则，若该记录符合纳入规则，则将其记为N，保留从记录N到时间范围内的最后一条记录数据。若该记录不符合纳入规则，则继续以时间顺序循环判断下一条记录，一直循环，直到在研究起始时间段内找到记录N。当该身份唯一码下研究起始时间段内所有记录都不满足纳入条件，则排除该身份唯一码，其下所有记录均不纳入人群。

3.对于同一个身份唯一码，从记录N+1起至时间范围内最后一条记录，以时间顺序循环判断是否满足结局规则，当第一次出现满足结局规则记录时，将该记录记为M，并终止循环。保留该身份唯一码下的记录N至M之间的所有记录数据，该身份唯一码进入人群并标记为出现结局。若循环判断该身份唯一码下N+1起至时间范围内最后一条记录均不符合结局规则，则保留记录N至时间范围内的的所有记录数据，并进入步骤4未出现结局或失访的判断。

4.对于进入未出现结局或失访的判断的身份唯一码及其对应的记录，判断截止时间段范围内是否有记录，若没有记录则该身份唯一码标记为失访，并保留从N至时间范围内最后一条记录数据，标记为失访情况纳入该人群；若截至时间范围内有记录，则在截止时间范围内以时间顺序从最后一条记录开始倒序循环判断是否出现结局规则为空，并将第一次发现结局不为空的记录记为M’，保留记录N至记录M’之间的所有记录数据，并将该身份唯一码纳入人群标记为未出现结局。若截止时间范围内所有记录结局规则结果均为空，则该身份唯一码及其下所有记录均同上文所述按照失访情况处理。

5.将出现结局、未出现结局和失访三种情况的身份唯一码及其对应筛选出来的记录纳入人群，统计人数，总记录数，三种情况分别的人数与记录数，最终完成病人的筛选建立固定队列人群，对应的筛选出的记录进入该固定队列人群。

如图4所示，动态队列研究人群的筛选流程为：

1.设置研究的时间范围，设置研究时间范围、随访时间、时间窗，依据身份唯一码筛选符合研究时间范围的记录，仅保留记录数大于等于两条的身份唯一码及其所对应的所有记录。其中，研究时间范围为整个研究的时间，一般大于随访时间，因为一些人进入动态队列的时间不一样，比如10年；随访时间为每个人的固定随访时间，比如一年；时间窗为随访时间后延长的时间，一般为几个月，是为了纳入一些人在随访时间后几个月之内仍有记录的弹性时间。(例如：研究时间为定为2010年1月-2020年1月，共10年，随访时间定为3年，时间窗定为3个月)

2.对于同一个身份唯一码，从时间范围内的第一条记录起判断该记录是否符合纳入规则，若该记录符合纳入规则，则将其记为N，保留从记录N到时间范围内的最后一条记录数据。若该记录不符合纳入规则，则继续以时间顺序循环判断下一条记录，直到循环找到记录N。当该身份唯一码下所有记录都不满足纳入条件，则排除该身份唯一码，其下所有记录均不纳入人群。

3.对于进入初步人群的身份唯一码及其对应的记录，进入双循环判断出现结局，未出现结局，失访三种状态。双循环中大循环为身份唯一码的循环，小循环为记录的循环，执行顺序为先执行大循环，在大循环中嵌套小循环。

4.研究时间的判断。计算该身份唯一码下从记录N起的时间的截至时间(即时间窗终点W2的时间)，判断W2是否小于或等于研究范围终点时间Trend，即判断W2≤Trend是否成立。

4.1若W2≤Trend，则判断从记录N起至时间窗终点时间W2中的所有记录数据，并判断其中出现满足结局规则记录。

若从记录N起至时间窗终点时间W2中出现满足结局规则记录，则将第一次满足结局规则的记录记为M。保留N至M间的所有记录。该身份唯一码，跳出大循环并标记为出现结局进入最终动态队列人群，对应所保留的记录则同样保留至人群中。进入下一个身份唯一码的数据。

若从记录N起至时间窗终点时间W2中未发现满足结局规则的记录，则判断时间窗W1-W2内是否全为空。若时间窗W1-W2内不全为空，则判断W1至W2之间最后一条结局判断不为空的记录，记为M’，保留记录N至记录M’之间的所有记录数据。该身份唯一码跳出大循环标记为未出现结局，并将该身份唯一码及其所保留的记录数据纳入人群，并进入下一个身份唯一码。

若时间窗W1-W2内全为空，则将该身份唯一码，跳出大循环并标记为暂时失访，保留N至研究截至时间Trend中的所有记录，进入小循环，判断第N+1条记录是否满足纳入规则。重复步骤2至步骤4的过程，直到该身份唯一码能被划分标记为出现结局、未出现结局和失访三种情况中的其中一种为止。统计对应的记录数并进入下一个身份唯一码。

4.2若W2>Trend，则判断从记录N起至时间范围终点时间trend中的所有记录数据，并判断其中出现满足结局规则记录。

若从记录N起至时间范围终点trend中出现满足结局规则记录，则将第一次满足结局规则的记录记为M。保留N至M间的所有记录。该身份唯一码，跳出大循环并标记为出现结局进入最终动态队列人群，对应所保留的记录则同样保留至人群中。进入下一个身份唯一码(病人)的数据。

若从记录N起至时间范围终点时间trend中未发现满足结局规则的记录，则判断时间窗起点W1是否超出间范围终点Trend，即判断W1≤Trend是否成立。

4.2.1若W1≤Trend，则判断W1至Trend之间结局判断结果是否全为空。若W1至Trend之间结局判断结果全为空，则将该身份唯一码(病人)，跳出大循环并标记为失访，不进入最终动态队列人群，仅统计对应的记录数并进入下一个身份唯一码(病人)。若W1至Trend之间结局判断结果不全为空，则判断W1至Trend之间最后一条结局判断不为空的记录，记为(M’)，保留记录N至记录M’之间的所有记录数据。该身份唯一码(病人)跳出大循环标记为未出现结局，并将该身份唯一码(病人)及其所保留的记录数据纳入人群，并进入下一个身份唯一码(病人)。

4.2.2若W1＞Trend，则将该身份唯一码(病人)，跳出大循环并标记为失访，不进入最终动态队列人群，仅统计对应的记录数并进入下一个身份唯一码(病人)。

5.将出现结局、未出现结局和失访三种情况的身份唯一码及其对应筛选出来的记录纳入人群，统计人数，总记录数，三种情况分别的人数与记录数，最终完成病人的筛选建立固定队列人群，对应的筛选出的记录进入该动态队列人群。

本领域的技术人员容易理解，以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于医疗大数据的流行病学研究的人群筛选方法，其特征在于，包括以下步骤：

获取健康医疗数据；

设置筛选条件，包括研究时间范围、随访时间、时间窗、纳入规则和结局规则；

2.根据权利要求1所述的基于医疗大数据的流行病学研究的人群筛选方法，其特征在于，横断面研究人群的构建步骤为：

设置研究时间范围，筛选符合研究时间范围的记录；

3.根据权利要求1所述的基于医疗大数据的流行病学研究的人群筛选方法，其特征在于，固定队列研究人群的构建步骤为：

4.根据权利要求1所述的基于医疗大数据的流行病学研究的人群筛选方法，其特征在于，动态队列研究人群的构建步骤为：

（1）若时间窗终点时间W2小于等于研究时间终点T，则以时间为顺序，依次判断从第一条符合纳入规则的记录的时间到W2之间的记录是否符合结局规则；若符合，则保留当前符合纳入规则的记录至第一条符合结局规则的记录之间的所有记录，将该人员标记为出现结局；

（2）若时间窗终点时间W2大于研究时间终点T，则以时间为顺序，依次判断当前记录至研究时间终点T之间的记录是否符合结局规则；若符合，则保留当前记录至第一条符合结局规则的记录，该人员标记为出现结局；若全不符合结局规则，则判断时间窗起点W1是否超出研究时间终点T；

5.根据权利要求1-4中任一项所述的基于医疗大数据的流行病学研究的人群筛选方法，其特征在于，该方法还包括步骤：获取健康医疗数据后，设置记录的地区或随访机构，进一步筛选数据。

6.一种计算机存储介质，其特征在于：其内存储有可被计算机处理器执行的计算机程序，该计算机程序执行如权利要求1-5中任一项所述的基于医疗大数据的流行病学研究的人群筛选方法。