CN114550909A - 医学时序数据的缺失值处理方法、装置、设备及存储介质 - Google Patents

医学时序数据的缺失值处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114550909A
CN114550909A CN202210082206.8A CN202210082206A CN114550909A CN 114550909 A CN114550909 A CN 114550909A CN 202210082206 A CN202210082206 A CN 202210082206A CN 114550909 A CN114550909 A CN 114550909A
Authority
CN
China
Prior art keywords
time sequence
variable
sequence variable
filled
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210082206.8A
Other languages
English (en)
Inventor
吴静依
李青
周勋
李鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Original Assignee
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Institute of Information Technology AIIT of Peking University, Hangzhou Weiming Information Technology Co Ltd filed Critical Advanced Institute of Information Technology AIIT of Peking University
Priority to CN202210082206.8A priority Critical patent/CN114550909A/zh
Publication of CN114550909A publication Critical patent/CN114550909A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本申请公开了一种医学时序数据的缺失值处理方法、装置、设备及存储介质,包括:获取待填补的时序变量以及与待填补的变量相关的变量;将相关的变量分为等周期时序变量集合、等比例周期时序变量集合、不等周期时序变量集合和非时序变量集合;对等周期时序变量集合以及非时序变量集合进行匹配,得到第一协变量集合以及第四协变量集合,对等比例周期时序变量集合以及不等周期时序变量集合进行预变换,得到第二协变量集合以及第三协变量集合;根据待填补的时序变量、第一至第四协变量集合以及自回归模型构建缺失值填补模型,将待填补的时序变量输入缺失值填补模型,得到待填补的缺失值。该方法可以有效提升医学领域时序数据填补的效率和质量。

Description

医学时序数据的缺失值处理方法、装置、设备及存储介质
技术领域
本发明涉及数据处理技术领域,特别涉及一种医学时序数据的缺失值处理方法、装置、设备及存储介质。
背景技术
时序数据是医学研究领域一种重要的数据类型,常见的医学时序数据包括重症监护室中获取的生命体征监测数据,药物代谢过程中体内药物浓度数据,可穿戴设备实时获取的健康数据等。医学时序数据能够提供人体健康状态变化的连续性信息,在医学临床决策支持领域是一种宝贵的数据资源。许多临床决策支持模型的构建均需依赖于完整的时序数据信息,对患者的临床预后进行实时预测,从而提高临床决策效率。然而在真实医疗场景的数据采集过程中,由于数据采集规范的不完善、数据采集能力限制或是数据传输误差等原因,时序数据常常会有缺失、断点的问题。这严重阻碍了基于时序数据构建临床决策支持模型以辅助临床决策的效率。
目前,针对医学时序数据的常用处理方法包括删除和填补两大类。删除法会造成数据信息丢失,无法发挥数据的最大利用价值。而常用的时序数据填补方法常基于单个时序变量自身数据构建统计模型或机器学习模型对时序数据的缺失值进行填补。该填补方法往往未能利用与缺失时序变量共同记录的其他时序变量的有效信息,因此数据填补的有效性受到一定限制。
发明内容
本申请实施例提供了一种医学时序数据的缺失值处理方法、装置、设备及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
第一方面,本申请实施例提供了一种医学时序数据的缺失值处理方法,包括:
获取待填补的时序变量,以及与待填补的时序变量具有较强相关性的变量;
将与待填补的时序变量相关的变量分为等周期的时序变量集合、等比例周期的时序变量集合、不等周期的时序变量集合以及非时序变量集合;
对等周期的时序变量集合以及非时序变量集合进行数据匹配,分别得到第一协变量集合以及第四协变量集合,对等比例周期的时序变量集合以及不等周期的时序变量集合进行预变换,分别得到第二协变量集合以及第三协变量集合;
根据待填补的时序变量、第一协变量集合、第二协变量集合、第三协变量集合、第四协变量集合以及自回归模型构建缺失值填补模型,得到构建好的缺失值填补模型;
将待填补的时序变量输入缺失值填补模型,得到待填补的时序变量的缺失值。
在一个实施例中,将与待填补的时序变量相关的变量分为等周期的时序变量集合、等比例周期的时序变量集合、不等周期的时序变量集合以及非时序变量集合,包括:
将与待填补的时序变量相关的变量分为时序变量集合以及非时序变量集合;
比较时序变量集合中的每一个时序变量与待填补的时序变量的时序特征是否一致;
若时序变量集合中的时序变量与待填补的时序变量的时序周期相同,则将时序变量归类于等周期的时序变量集合;
若时序变量集合中的时序变量与待填补的时序变量的时序周期成比例,且待填补的时序变量的时序周期是时序变量集合中的时序变量的整数倍,则将时序变量归类于等周期的时序变量集合;
若时序变量集合中的时序变量与待填补的时序变量的时序周期成比例,且时序变量集合中的时序变量的时序周期是待填补的时序变量的整数倍,则将时序变量归类于等比例周期的时序变量集合;
若时序变量集合中的时序变量与待填补的时序变量的时序周期不相同,且不成比例,则将时序变量归类于不等周期的时序变量集合。
在一个实施例中,对等周期的时序变量集合以及非时序变量集合进行数据匹配,分别得到第一协变量集合以及第四协变量集合,包括:
以记录值的标识码和时间戳为匹配键,将等周期的时序变量集合中的时序变量与待填补的时序变量进行一对一匹配,得到匹配后的第一协变量集合;
以记录值的标识码为匹配键,将非时序变量集合中的变量与待填补的时序变量进行一对一匹配,得到匹配后的第四协变量集合。
在一个实施例中,对等比例周期的时序变量集合以及不等周期的时序变量集合进行预变换,分别得到第二协变量集合以及第三协变量集合,包括:
将等比例周期的时序变量集合中的时序变量,以待填补的时序变量的时序周期为基点进行预变换,得到第二协变量集合;
将不等周期的时序变量集合中的时序变量,以待填补的时序变量的标识码为基点进行预变换,得到第三协变量集合。
在一个实施例中,根据待填补的时序变量、第一协变量集合、第二协变量集合、第三协变量集合、第四协变量集合以及自回归模型构建缺失值填补模型,得到构建好的缺失值填补模型,包括:
根据待填补的时序变量确定自回归项数,并根据自回归项数得到自回归项;
将自回归模型作为基础模型,将自回归项作为模型的基本项;
将第一协变量集合、第二协变量集合、第三协变量集合以及第四协变量集合中的每一个变量作为协变量加入模型,将白噪声项加入模型,得到构建好的缺失值填补模型。
在一个实施例中,构建好的缺失值填补模型如下所示:
Figure BDA0003486346190000031
其中,Yit为第i例个人健康记录在时间戳t时刻的待填补时序变量Y的值,∈t为白噪声项,
Figure BDA0003486346190000032
为自回归项,
Figure BDA0003486346190000033
为第一协变量集合项,
Figure BDA0003486346190000034
为第二协变量项,
Figure BDA0003486346190000035
为第三协变量项,
Figure BDA0003486346190000036
为第四协变量项;T为时序周期,α、β、γ、θ、δ均为回归系数,Aki(t-j*T)为第一协变量集合中的第k个变量Ak在第i例个人健康记录中时间戳为(t-j*T)时刻的值,Bmi(t-j*T)为第二协变量集合中的第m个变量Bm在第i例个人健康记录中时间戳为(t-j*T)时刻的值,Cqi为第三协变量集合中的第q个变量Cq在第i例个人健康记录中的值,Eri为第四协变量集合中的第r个变量Er在第i例个人健康记录中的值。
在一个实施例中,还包括:
在模型的损失函数中加入回归系数惩罚项过滤相关性较低的协变量;
采用最小角回归迭代算法获得模型参数的最优解。
第二方面,本申请实施例提供了一种医学时序数据的缺失值处理装置,包括:
获取模块,用于获取待填补的时序变量,以及与待填补的时序变量相关的变量;
分类模块,用于将与待填补的时序变量相关的变量分为等周期的时序变量集合、等比例周期的时序变量集合、不等周期的时序变量集合以及非时序变量集合;
数据处理模块,用于对等周期的时序变量集合以及非时序变量集合进行数据匹配,分别得到第一协变量集合以及第四协变量集合,对等比例周期的时序变量集合以及不等周期的时序变量集合进行预变换,分别得到第二协变量集合以及第三协变量集合;
模型训练模块,用于根据待填补的时序变量、第一协变量集合、第二协变量集合、第三协变量集合、第四协变量集合以及自回归模型构建缺失值填补模型,得到构建好的缺失值填补模型;
填补模块,用于将待填补的时序变量输入缺失值填补模型,得到待填补的时序变量的缺失值。
第三方面,本申请实施例提供了一种医学时序数据的缺失值处理设备,包括处理器和存储有程序指令的存储器,处理器被配置为在执行程序指令时,执行上述实施例提供的医学时序数据的缺失值处理方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机可读指令,计算机可读指令被处理器执行以实现上述实施例提供的一种医学时序数据的缺失值处理方法。
本申请实施例提供的技术方案可以包括以下有益效果:
根据本申请实施例提供的时序数据的缺失值处理方法,基于相关时序变量数据对单个医学时序数据的缺失值进行填补,以改善现有的医学时序数据填补效率低、不能充分利用相关时序变量信息的问题,有效提升医学领域时序数据填补的效率和质量,促进基于医学时序数据开展辅助临床决策应用,提升医疗服务质量。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种医学时序数据的缺失值处理方法的流程示意图;
图2是根据一示例性实施例示出的一种医学时序数据的缺失值处理方法的示意图;
图3是根据一示例性实施例示出的一种医学时序数据的缺失值处理装置的示意图;
图4是根据一示例性实施例示出的一种医学时序数据的缺失值处理装置的结构示意图;
图5是根据一示例性实施例示出的一种医学时序数据的缺失值处理设备的结构示意图;
图6是根据一示例性实施例示出的一种计算机存储介质的示意图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的系统和方法的例子。
由于时序数据常常会有缺失、断点的问题,这严重阻碍了基于时序数据构建临床决策支持模型以辅助临床决策的效率。目前,针对医学时序数据的常用处理方法包括删除和填补两大类。删除法会造成数据信息丢失,无法发挥数据的最大利用价值。而常用的时序数据填补方法常基于单个时序变量自身数据构建统计模型或机器学习模型对时序数据的缺失值进行填补。由于时序数据的采集常常包含多个时序变量,时序变量之间具有很强的相关性,而已有的时序数据填补方法往往未能利用此类与缺失时序变量共同记录的其他时序变量的有效信息,因此数据填补的有效性受到一定限制。
基于此,本申请实施例提供了一种医学时序数据的缺失值处理方法,基于相关时序变量数据对单个医学时序数据的缺失值进行填补,以改善现有的医学时序数据填补效率低、不能充分利用相关时序变量信息的问题。下面将结合附图对本申请实施例提供的医学时序数据的缺失值处理方法进行详细介绍。参见图1,该方法具体包括以下步骤。
第一方面,本申请实施例提供了一种医学时序数据的缺失值处理方法,包括:
S101获取待填补的时序变量,以及与待填补的时序变量相关的变量。
在一种可能的实现方式中,给定一个医学数据集D,数据集D包含一个待填补的时序变量Y和若干个其他变量。数据集D中包含N例个人健康记录,每例记录有唯一标识码,每例个人健康记录的时序变量值为一系列带有时间戳标记的数值。
在数据集D中筛选与待填补的时序变量Y具有较强相关性的变量,组成数据集D',得到与待填补的时序变量Y具有相关性的变量集合。
S102将与待填补的时序变量相关的变量分为等周期的时序变量集合、等比例周期的时序变量集合、不等周期的时序变量集合以及非时序变量集合。
在一种可能的实现方式中,首先,将与待填补的时序变量具有强相关性的变量分为时序变量集合以及非时序变量集合。例如,将数据集D'中所有变量可划分为时序变量集合D1和非时序变量集合D2。
进一步地,比较时序变量集合中的每一个时序变量与待填补的时序变量的时序特征是否一致。例如,对于时序变量集合D1中的每一个时序变量V和待填补的时序变量Y,提取各个变量的时序特征,即各个变量的时序周期间隔。对于D1中的每一个时序变量V,比较V与待填补时序变量Y的时序特征的一致性。
进一步地,若时序变量集合中的时序变量与待填补的时序变量的时序周期相同,则将时序变量归类于等周期的时序变量集合。
若时序变量集合中的时序变量与待填补的时序变量的时序周期成比例,且待填补的时序变量的时序周期是时序变量集合中的时序变量的整数倍,则将时序变量归类于等周期的时序变量集合。例如,时序变量V的时序周期间隔为1分钟,待填补的时序变量Y的时序周期间隔为1小时,时序变量Y的时序周期间隔是时序变量V的60倍,则变量V为变量Y的等周期的时序变量。
若时序变量集合中的时序变量与待填补的时序变量的时序周期成比例,且时序变量集合中的时序变量的时序周期是待填补的时序变量的整数倍,则将时序变量归类于等比例周期的时序变量集合。例如,时序变量V的时序周期间隔为1小时,待填补的时序变量Y的时序周期间隔为1分钟,变量V的时序周期间隔是变量Y的60倍,则变量V为变量Y的等比例周期的时序变量。
若时序变量集合中的时序变量与待填补的时序变量的时序周期不相同,且不成比例,则将时序变量归类于不等周期的时序变量集合。
S103对等周期的时序变量集合以及非时序变量集合进行数据匹配,分别得到第一协变量集合以及第四协变量集合,对等比例周期的时序变量集合以及不等周期的时序变量集合进行预变换,分别得到第二协变量集合以及第三协变量集合。
在一种可能的实现方式中,以记录值的标识码和时间戳为匹配键,将等周期的时序变量集合中的时序变量与待填补的时序变量进行一对一匹配,得到匹配后的第一协变量集合。
具体地,对于等周期的时序变量集合中每一个时序变量V,以个人健康记录的唯一识别码与时间戳为匹配键,将时序变量V与时序变量Y的记录值进行一对一匹配,得到包含匹配信息的变量A。所有变量匹配后得到第一协变量集合,SA={A1,A2,…,AK}。
进一步地,对等比例周期的时序变量进行预变换,将等比例周期的时序变量集合中的时序变量,以待填补的时序变量的时序周期为基点进行预变换,得到第二协变量集合。
具体地,对于等比例周期的时序变量集合中每一个时序变量V,以变量Y的时序周期为基点,对变量V进行预变换得到变量B。进行预变换后得到的时序变量是变量Y的等周期时序变量。对于待填补的时序变量Y的时序集合TY中的每一个时间戳t,变量V进行预变换的算法为:
Figure BDA0003486346190000081
其中,Bt为变量V预变换为变量B在时间戳t时刻的变量值,t1(t1∈TV)和t2(t2∈TV)分别为时序变量V的时序集合TV中距离时间戳t最近的两个时间戳,Vt1为时序变量V在时间戳t1时的记录值,Vt2为时序变量V在时间戳t2时的记录值。所有变量预变换后得到第二协变量集合SB={B1,B2,…,BM}。
进一步地,对不等周期的时序变量进行预变换,将不等周期的时序变量集合中的时序变量,以待填补的时序变量的标识码为基点进行预变换,得到第三协变量集合。
具体地,对于不等周期的时序变量集合中每一个时序变量V,以待填补的时序变量Y的标识码为基点,对变量V进行预变换。对于变量Y的每一个健康记录唯一标识码,采用综合指标法对变量V进行预变换,公式如下:
Figure BDA0003486346190000082
其中,Ci为变量V预变换为变量C时第i例个人健康记录的唯一标识码对应的变量值,f(t)为变量V随时间t变化的时序曲线,AUC(f(t))为f(t)时序曲线下面积,f’(t)为f(t)时序曲线的拟合直线的斜率。所有变量预变换后得到第三协变量集合SC={C1,C2,…,CQ}。
进一步地,对非时序变量进行数据匹配。以记录值的标识码为匹配键,将非时序变量集合中的变量与待填补的时序变量进行一对一匹配,得到匹配后的第四协变量集合。
具体地,对于非时序变量集合中每一个非时序变量V,以个人健康记录的唯一标识码为匹配键,将非时序变量V与待填补的时序变量Y的记录值进行一对一匹配,得到包含匹配信息的变量E。所有变量匹配后得到第四协变量集合SE={E1,E2,…,ER}。
S104根据待填补的时序变量、第一协变量集合、第二协变量集合、第三协变量集合、第四协变量集合以及自回归模型构建缺失值填补模型,得到构建好的缺失值填补模型。
在一种可能的实现方式中,根据待填补的时序变量确定自回归项数,并根据自回归项数得到自回归项;将自回归模型作为基础模型,将自回归项作为模型的基本项;将第一协变量集合、第二协变量集合、第三协变量集合以及第四协变量集合中的每一个变量作为协变量加入模型,将白噪声项加入模型,得到构建好的缺失值填补模型。
具体地,对于待填补的时序变量Y,根据其散点图、自相关函数图和偏自相关函数图识别其平稳性,对非平稳的待填补时序变量Y进行平稳化处理,确定其自回归项数p。根据确定出的自回归项数p得到自回归项。自回归项如下所示:
Figure BDA0003486346190000091
其中,Yi(t-j*T)为第i例个人健康记录在时间戳(t-j*T)时刻的时序变量Y的值,T为时序周期间隔,α为自回归项系数。
进一步地,将自回归模型作为基础模型,将自回归项作为模型的基本项;将第一协变量集合、第二协变量集合、第三协变量集合以及第四协变量集合中的每一个变量作为协变量加入模型,将白噪声项加入模型,得到构建好的缺失值填补模型。
在一个实施例中,构建好的缺失值填补模型如下所示:
Figure BDA0003486346190000101
其中,Yit为第i例个人健康记录在时间戳t时刻的待填补时序变量Y的值,∈t为白噪声项,
Figure BDA0003486346190000102
为自回归项,
Figure BDA0003486346190000103
为第一协变量集合项,
Figure BDA0003486346190000104
为第二协变量项,
Figure BDA0003486346190000105
为第三协变量项,
Figure BDA0003486346190000106
为第四协变量项;T为时序周期,α、β、γ、θ、δ均为回归系数,Aki(*T)为第一协变量集合中的第k个变量Ak在第i例个人健康记录中时间戳为(t-j*T)时刻的值,Bmi(t-j*T)为第二协变量集合中的第m个变量Bm在第i例个人健康记录中时间戳为(t-j*T)时刻的值,Cqi为第三协变量集合中的第q个变量Cq在第i例个人健康记录中的值,Eri为第四协变量集合中的第r个变量Er在第i例个人健康记录中的值。
进一步地,还包括:在模型的损失函数中加入回归系数惩罚项过滤相关性较低的协变量。回归系数惩罚项的基本形式如下:
λ(∑|α|+∑|β|+∑|γ|+∑|θ|+∑|δ|)
其中,λ为惩罚参数。
在一种可能的实现方式中,采用最小角回归迭代算法获得模型参数的最优解,由此得到缺失值填补模型。
S105将待填补的时序变量输入缺失值填补模型,得到待填补的时序变量的缺失值。
具体地,对于待填补的时序变量Y在某个时间戳t时刻的缺失值,依据得到的时序数据缺失值填补模型输入相应的变量值,即可获得待填补时序变量Y在时间戳t时刻的缺失值的填补值。
为了便于理解本申请实施例提供的医学时序数据的缺失值处理方法,下面结合附图2进行说明。如图2所示,该方法包括如下步骤。
获取医学数据集,从中筛选待填补时序变量以及与待填补时序变量相关的变量,提取相关变量的时序特征,比较相关变量与待填补时序变量的时序特征的一致性。
若时序变量集合中的时序变量与待填补的时序变量的时序周期相同,则将时序变量归类于等周期的时序变量集合。
若时序变量集合中的时序变量与待填补的时序变量的时序周期成比例,且待填补的时序变量的时序周期是时序变量集合中的时序变量的整数倍,则将时序变量归类于等周期的时序变量集合。
若时序变量集合中的时序变量与待填补的时序变量的时序周期成比例,且时序变量集合中的时序变量的时序周期是待填补的时序变量的整数倍,则将时序变量归类于等比例周期的时序变量集合。
若时序变量集合中的时序变量与待填补的时序变量的时序周期不相同,且不成比例,则将时序变量归类于不等周期的时序变量集合。
进一步地,对等周期的时序变量集合以及非时序变量集合进行数据匹配,分别得到第一协变量集合SA以及第四协变量集合SE,对等比例周期的时序变量集合以及不等周期的时序变量集合进行预变换,分别得到第二协变量集合SB以及第三协变量集合SC
进一步地,根据待填补的时序变量确定自回归项数,并根据自回归项数得到自回归项;将自回归模型作为基础模型,将自回归项作为模型的基本项;将第一协变量集合、第二协变量集合、第三协变量集合以及第四协变量集合中的每一个变量作为协变量加入模型,将白噪声项加入模型。在模型的损失函数中加入回归系数惩罚项过滤相关性较低的协变量,并采用最小角回归迭代算法获得模型参数的最优解,由此得到时序数据缺失值填补模型。
根据本申请实施例提供的时序数据的缺失值处理方法,基于相关时序变量数据对单个医学时序数据的缺失值进行填补,以改善现有的医学时序数据填补效率低、不能充分利用相关时序变量信息的问题,有效提升医学领域时序数据填补的效率和质量,促进基于医学时序数据开展辅助临床决策应用,提升医疗服务质量。
本申请实施例还提供一种医学时序数据的缺失值处理装置,如图3所示,包括输入模块:用于输入拟填补的医学时序数据及其相关变量数据;时序数据填补模块:用于基于输入的拟填补的医学时序数据及其相关变量数据对缺失的医学时序数据进行填补;输出模块:用于输出已对缺失值进行填补的、完整的医学时序数据。
本申请实施例还提供一种医学时序数据的缺失值处理装置,该装置用于执行上述实施例的医学时序数据的缺失值处理方法,如图4所示,该装置包括:
获取模块401,用于获取待填补的时序变量,以及与待填补的时序变量相关的变量;
分类模块402,用于将与待填补的时序变量相关的变量分为等周期的时序变量集合、等比例周期的时序变量集合、不等周期的时序变量集合以及非时序变量集合;
数据处理模块403,用于对等周期的时序变量集合以及非时序变量集合进行数据匹配,分别得到第一协变量集合以及第四协变量集合,对等比例周期的时序变量集合以及不等周期的时序变量集合进行预变换,分别得到第二协变量集合以及第三协变量集合;
模型训练模块404,用于根据待填补的时序变量、第一协变量集合、第二协变量集合、第三协变量集合、第四协变量集合以及自回归模型构建缺失值填补模型,得到构建好的缺失值填补模型;
填补模块405,用于将待填补的时序变量输入缺失值填补模型,得到待填补的时序变量的缺失值。
需要说明的是,上述实施例提供的医学时序数据的缺失值处理装置在执行医学时序数据的缺失值处理方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的医学时序数据的缺失值处理装置与医学时序数据的缺失值处理方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供一种与前述实施例所提供的医学时序数据的缺失值处理方法对应的电子设备,以执行上述医学时序数据的缺失值处理方法。
请参考图5,其示出了本申请的一些实施例所提供的一种电子设备的示意图。如图5所示,电子设备包括:处理器500,存储器501,总线502和通信接口503,处理器500、通信接口503和存储器501通过总线502连接;存储器501中存储有可在处理器500上运行的计算机程序,处理器500运行计算机程序时执行本申请前述任一实施例所提供的医学时序数据的缺失值处理方法。
其中,存储器501可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口503(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线502可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。其中,存储器501用于存储程序,处理器500在接收到执行指令后,执行程序,前述本申请实施例任一实施方式揭示的医学时序数据的缺失值处理方法可以应用于处理器500中,或者由处理器500实现。
处理器500可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器500中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器500可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器501,处理器500读取存储器501中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的医学时序数据的缺失值处理方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施例还提供一种与前述实施例所提供的医学时序数据的缺失值处理方法对应的计算机可读存储介质,请参考图6,其示出的计算机可读存储介质为光盘600,其上存储有计算机程序(即程序产品),计算机程序在被处理器运行时,会执行前述任意实施例所提供的医学时序数据的缺失值处理方法。
需要说明的是,计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的医学时序数据的缺失值处理方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种医学时序数据的缺失值处理方法,其特征在于,包括:
获取待填补的时序变量,以及与所述待填补的时序变量相关的变量;
将与所述待填补的时序变量相关的变量分为等周期的时序变量集合、等比例周期的时序变量集合、不等周期的时序变量集合以及非时序变量集合;
对所述等周期的时序变量集合以及非时序变量集合进行数据匹配,分别得到第一协变量集合以及第四协变量集合,对所述等比例周期的时序变量集合以及不等周期的时序变量集合进行预变换,分别得到第二协变量集合以及第三协变量集合;
根据所述待填补的时序变量、第一协变量集合、第二协变量集合、第三协变量集合、第四协变量集合以及自回归模型构建缺失值填补模型,得到构建好的缺失值填补模型;
将待填补的时序变量输入所述缺失值填补模型,得到待填补的时序变量的缺失值。
2.根据权利要求1所述的方法,其特征在于,将与所述待填补的时序变量相关的变量分为等周期的时序变量集合、等比例周期的时序变量集合、不等周期的时序变量集合以及非时序变量集合,包括:
将与所述待填补的时序变量相关的变量分为时序变量集合以及非时序变量集合;
比较时序变量集合中的每一个时序变量与待填补的时序变量的时序特征是否一致;
若时序变量集合中的时序变量与待填补的时序变量的时序周期相同,则将时序变量归类于等周期的时序变量集合;
若时序变量集合中的时序变量与待填补的时序变量的时序周期成比例,且待填补的时序变量的时序周期是时序变量集合中的时序变量的整数倍,则将时序变量归类于等周期的时序变量集合;
若时序变量集合中的时序变量与待填补的时序变量的时序周期成比例,且时序变量集合中的时序变量的时序周期是待填补的时序变量的整数倍,则将时序变量归类于等比例周期的时序变量集合;
若时序变量集合中的时序变量与待填补的时序变量的时序周期不相同,且不成比例,则将时序变量归类于不等周期的时序变量集合。
3.根据权利要求1所述的方法,其特征在于,对所述等周期的时序变量集合以及非时序变量集合进行数据匹配,分别得到第一协变量集合以及第四协变量集合,包括:
以记录值的标识码和时间戳为匹配键,将等周期的时序变量集合中的时序变量与待填补的时序变量进行一对一匹配,得到匹配后的第一协变量集合;
以记录值的标识码为匹配键,将非时序变量集合中的变量与待填补的时序变量进行一对一匹配,得到匹配后的第四协变量集合。
4.根据权利要求1所述的方法,其特征在于,对所述等比例周期的时序变量集合以及不等周期的时序变量集合进行预变换,分别得到第二协变量集合以及第三协变量集合,包括:
将等比例周期的时序变量集合中的时序变量,以待填补的时序变量的时序周期为基点进行预变换,得到第二协变量集合;
将不等周期的时序变量集合中的时序变量,以待填补的时序变量的标识码为基点进行预变换,得到第三协变量集合。
5.根据权利要求1所述的方法,其特征在于,根据所述待填补的时序变量、第一协变量集合、第二协变量集合、第三协变量集合、第四协变量集合以及自回归模型构建缺失值填补模型,得到构建好的缺失值填补模型,包括:
根据待填补的时序变量确定自回归项数,并根据所述自回归项数得到自回归项;
将所述自回归模型作为基础模型,将所述自回归项作为模型的基本项;
将所述第一协变量集合、第二协变量集合、第三协变量集合以及第四协变量集合中的每一个变量作为协变量加入模型,将白噪声项加入模型,得到构建好的缺失值填补模型。
6.根据权利要求5所述的方法,其特征在于,构建好的缺失值填补模型如下所示:
Figure FDA0003486346180000031
其中,Yit为第i例个人健康记录在时间戳t时刻的待填补时序变量Y的值,∈t为白噪声项,
Figure FDA0003486346180000032
为自回归项,
Figure FDA0003486346180000033
为第一协变量集合项,
Figure FDA0003486346180000034
为第二协变量项,
Figure FDA0003486346180000035
为第三协变量项,
Figure FDA0003486346180000036
为第四协变量项;T为时序周期,α、β、γ、θ、δ均为回归系数,Aki(t-j*T)为第一协变量集合中的第k个变量Ak在第i例个人健康记录中时间戳为(t-j*T)时刻的值,Bmi(t-j*T)为第二协变量集合中的第m个变量Bm在第i例个人健康记录中时间戳为(t-j*T)时刻的值,Cqi为第三协变量集合中的第q个变量Cq在第i例个人健康记录中的值,Eri为第四协变量集合中的第r个变量Er在第i例个人健康记录中的值。
7.根据权利要求5所述的方法,其特征在于,还包括:
在模型的损失函数中加入回归系数惩罚项过滤相关性较低的协变量;
采用最小角回归迭代算法获得模型参数的最优解。
8.一种医学时序数据的缺失值处理装置,其特征在于,包括:
获取模块,用于获取待填补的时序变量,以及与所述待填补的时序变量相关的变量;
分类模块,用于将与所述待填补的时序变量相关的变量分为等周期的时序变量集合、等比例周期的时序变量集合、不等周期的时序变量集合以及非时序变量集合;
数据处理模块,用于对所述等周期的时序变量集合以及非时序变量集合进行数据匹配,分别得到第一协变量集合以及第四协变量集合,对所述等比例周期的时序变量集合以及不等周期的时序变量集合进行预变换,分别得到第二协变量集合以及第三协变量集合;
模型训练模块,用于根据所述待填补的时序变量、第一协变量集合、第二协变量集合、第三协变量集合、第四协变量集合以及自回归模型构建缺失值填补模型,得到构建好的缺失值填补模型;
填补模块,用于将待填补的时序变量输入所述缺失值填补模型,得到待填补的时序变量的缺失值。
9.一种医学时序数据的缺失值处理设备,其特征在于,包括处理器和存储有程序指令的存储器,所述处理器被配置为在执行所述程序指令时,执行如权利要求1至7任一项所述的医学时序数据的缺失值处理方法。
10.一种计算机可读介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令被处理器执行以实现如权利要求1至7任一项所述的一种医学时序数据的缺失值处理方法。
CN202210082206.8A 2022-01-24 2022-01-24 医学时序数据的缺失值处理方法、装置、设备及存储介质 Pending CN114550909A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210082206.8A CN114550909A (zh) 2022-01-24 2022-01-24 医学时序数据的缺失值处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210082206.8A CN114550909A (zh) 2022-01-24 2022-01-24 医学时序数据的缺失值处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114550909A true CN114550909A (zh) 2022-05-27

Family

ID=81671690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210082206.8A Pending CN114550909A (zh) 2022-01-24 2022-01-24 医学时序数据的缺失值处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114550909A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117423467A (zh) * 2023-10-18 2024-01-19 广州中医药大学(广州中医药研究院) 面向医学临床诊断的缺失值感知和容忍深度网络方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117423467A (zh) * 2023-10-18 2024-01-19 广州中医药大学(广州中医药研究院) 面向医学临床诊断的缺失值感知和容忍深度网络方法和装置
CN117423467B (zh) * 2023-10-18 2024-04-19 广州中医药大学(广州中医药研究院) 面向医学临床诊断的缺失值感知和容忍深度网络方法和装置

Similar Documents

Publication Publication Date Title
US10360405B2 (en) Anonymization apparatus, and program
CN106384282A (zh) 构建决策模型的方法和装置
CN111143578B (zh) 基于神经网络抽取事件关系的方法、装置和处理器
EP4202799A1 (en) Machine learning data generation program, machine learning data generation method, machine learning data generation device, classification data generation program, classification data generation method, and classification data generation device
CN111933225B (zh) 药物分类方法、装置、终端设备以及存储介质
JPWO2017115458A1 (ja) ログ分析システム、方法およびプログラム
CN112383554B (zh) 接口流量异常检测方法、装置、终端设备及存储介质
CN104346419A (zh) 数据库分析装置及方法
CN110909826A (zh) 一种能源设备的诊断监测方法、装置及电子设备
CN114550909A (zh) 医学时序数据的缺失值处理方法、装置、设备及存储介质
CN112132624A (zh) 医疗理赔数据预测系统
CN107153702A (zh) 一种数据处理方法及装置
CN112529767A (zh) 图像数据处理方法、装置、计算机设备和存储介质
CN115148370A (zh) 一种生成dip病种目录的方法及系统
WO2020253037A1 (zh) 一种目标区域筛选方法及装置
US20100162185A1 (en) Electronic circuit design
CN115129687A (zh) 基于异常工况数据库管理的方法、相关装置及介质和程序
CN109933680A (zh) 图像数据筛选方法、装置、计算机设备及其存储介质
CN111651454B (zh) 一种数据处理方法、装置及计算机设备
CN111445969A (zh) 一种弹性适应噪音的销售预测的方法及系统
CN107748711B (zh) 自动优化Storm并行度的方法、终端设备及存储介质
CN114782780A (zh) 数据集构建方法、装置以及电子设备
CN114530253A (zh) 基于淬臻分析的治疗方案推荐方法、系统及存储介质
CN114520035A (zh) 一种志愿者筛选方法、装置、电子设备及存储介质
CN114203306A (zh) 医疗事件预测模型训练方法、医疗事件预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination