CN115270975A - 临床数据插补方法、装置、设备及存储介质 - Google Patents
临床数据插补方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115270975A CN115270975A CN202210922340.4A CN202210922340A CN115270975A CN 115270975 A CN115270975 A CN 115270975A CN 202210922340 A CN202210922340 A CN 202210922340A CN 115270975 A CN115270975 A CN 115270975A
- Authority
- CN
- China
- Prior art keywords
- variables
- data
- interpolation
- pluggable
- data interpolation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明实施例公开了一种临床数据插补方法及装置,该方法包括:获取样本数据集合,确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则,并根据该当前数据插补规则完成相应变量的数据插补以得到插补后的样本数据集合;对插补后的样本数据集合进行敏感性分析,如果敏感性分析结果未达到设定评价阈值,则在可插补变量对应有未使用的数据插补规则时,将下一数据插补规则作为当前数据插补规则,并返回根据该数据插补规则完成相应变量的数据插补的步骤。本申请实现了在临床数据存在缺失情况下的灵活插补处理,另外,对插补后的样本数据集合进行敏感性分析,提高了数据插补处理的准确性。
Description
技术领域
本发明实施例涉及医学数据处理领域,尤其涉及一种临床数据插补方法、装置、设备及存储介质。
背景技术
与传统医学以经验医学为主不同,现代医学主要是循证医学,即“遵循证据的医学”,其核心思想就是医疗决策应在现有临床研究依据基础上做出。医学证据都是在相关数据集经过大量分析得到的,但由于各种原因,临床数据存在大量的缺失值,甚至是常态。这些缺失值会引起以下问题:1)、很多数据分析方法,尤其是经典统计学方法,是不支持含有缺失值的数据集分析的,这样就使临床数据可选范围大大缩小,甚至可能针对特定分析需求或假设无法分析的情况,比如1)数据集在含有缺失值的情况下,logistic和线性回归算法无法进行计算;2)、缺失值可能引起样本偏倚,尤其是对含有缺失值样本进行删除处理,使得分析结论变得不可靠、不稳定,甚至不可信,比如我们研究某一疾病的影响因素,发现年纪大的老人由于各种原因导致一些信息缺失,那么我们分析的非老年人群的数据,其结果就不可推广为全体人群,尤其是老年人群;3)、使罕见病历的临床数据更加稀缺。
综上,可靠、稳定、完整、高质量的数据才能带来准确的数据分析结果。本申请人在实现本发明实施例的过程中发现,现有临床医学数据插补方法多使用神经网络等算法对缺失值进行预测插补,该方法仅适用于某一类或某几类疾病的临床数据插补,不能灵活处理各种临床数据的插补,导致数据插补准确性较低。
发明内容
本发明实施例提供了一种临床数据插补方法、装置、设备及存储介质,解决了现有临床数据插补方法存在数据插补准确性较低的问题。
第一方面,本发明实施例提供了一种临床数据插补方法,该方法包括:
获取样本数据集合,所述样本数据集合中的任一样本包括一个或多个变量的变量数据;
确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则,并根据该当前数据插补规则完成相应变量的数据插补以得到插补后的样本数据集合,其中,每个可插补变量均设置有一个或多个设定顺序的插补规则;
对插补后的样本数据集合进行敏感性分析,如果敏感性分析结果未达到设定评价阈值,则在可插补变量对应有未使用的数据插补规则时,将下一数据插补规则作为当前数据插补规则,并返回根据该数据插补规则完成相应变量的数据插补的步骤。
第二方面,本发明实施例还提供了一种临床数据插补装置,该装置包括:
样本获取模块,用于获取样本数据集合,所述样本数据集合中的任一样本包括一个或多个变量的变量数据;
数据插补模块,用于确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则,并根据该当前数据插补规则完成相应变量的数据插补以得到插补后的样本数据集合,其中,每个可插补变量均设置有一个或多个设定顺序的插补规则;
分析模块,用于对插补后的样本数据集合进行敏感性分析,如果敏感性分析结果未达到设定评价阈值,则在可插补变量对应有未使用的数据插补规则时,将下一数据插补规则作为当前数据插补规则,并返回根据该数据插补规则完成相应变量的数据插补的步骤。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例描述的临床数据插补方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例描述的临床数据插补方法。
本发明实施例提供的临床数据插补方法,通过获取样本数据集合,所述样本数据集合中的任一样本包括一个或多个变量的变量数据;确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则,并根据该当前数据插补规则完成相应变量的数据插补以得到插补后的样本数据集合,其中,每个可插补变量均设置有一个或多个设定顺序的插补规则;对插补后的样本数据集合进行敏感性分析,如果敏感性分析结果未达到设定评价阈值,则在可插补变量对应有未使用的数据插补规则时,将下一数据插补规则作为当前数据插补规则,并返回根据该数据插补规则完成相应变量的数据插补的步骤。上述临床数据插补方法,针对不同的临床数据采取不同的插补处理方式,提高了插补方法的鲁棒性。通过对插补后的数据集合进行敏感性分析,根据敏感性分析结果选择最优的插补方法,提高了数据插补的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种临床数据插补方法的流程图;
图2是本发明实施例一提供的用于表示数据集合中各变量数量的条形图;
图3是本发明实施例一提供的聚类分析结果示意图;
图4是本发明实施例二提供的一种临床数据插补装置的结构框图;
图5是本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下将参照本发明实施例中的附图,通过实施方式清楚、完整地描述本发明的技术方案,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1是本发明实施例一提供的一种临床数据插补方法的流程图。本实施例的技术方案适用于临床数据存在数据缺失需要进行数据插补处理的情况。该方法可以由本发明实施例提供的一种临床数据插补装置来执行,该装置可以采用软件和/或硬件的方式实现,并配置在电子设备处理器中应用。该方法具体包括如下步骤:
S110、获取样本数据集合,样本数据集合中的任一样本包括一个或多个变量的变量数据。
本实施例中的样本数据集合为包括至少两个样本数据的数据集合,样本数据是指患者的就诊数据。本实施例将一个患者的就诊数据作为一个样本数据。其中,患者的就诊数据包括患者的影像检查数据、血液检验数据、疾病诊断数据、常规体检数据等医院诊断项目中的一项或多项数据。
其中,变量为患者就诊数据记录表格中的字段,比如身份标识、年龄、身高、体重、血压、血红蛋白、血糖等。
在一个实施例中,确定数据集合中各变量的条形图(参见图2)和/或矩形图。通过该条形图和/或矩形图可以很直观地观察各变量的数量、各变量的缺失量,以及各变量之间缺失量的对比情况。
需要说明的是,本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
S120、确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则,并根据该当前数据插补规则完成相应变量的数据插补以得到插补后的样本数据集合,其中,每个可插补变量均设置有一个或多个设定顺序的插补规则。
在一个实施例中,可以采用相关性分析或聚类分析确定该一个或多个变量的数据缺失类型,其中,数据缺失类型包括可插补变量对应的可插补类型以及非可插补变量对应的非可插补类型,并将可插补类型对应的变量作为可插补变量。可插补变量即可通过数据插补的方法来填充缺失的数据的变量。
其中,相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。使用相关性分析,使用热力图可以展示出数据集中各变量两两之间缺失的相关关系。
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。如图3所示,使用聚类分析,可以展示出数据集中各变量缺失值之间的关系,比如所有变量被划分的分类数量,各分类内的变量等。
缺失值从缺失的分布来讲可以分为完全随机缺失,随机缺失和非随机缺失。完全随机缺失(missing completely at random,MCAR)指的是数据的缺失是随机的,数据的缺失不依赖于任何不完全变量或完全变量。随机缺失(missing at random,MAR)指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。非随机缺失(missingnot at random,MNAR)指的是数据的缺失依赖于不完全变量自身。
通过上述方法判别出各变量的缺失分布情况,如果是MCAR或MAR分布,则数据缺失类型为可插补类型,如果是MNAR分布,则数据类型为不可插补类型。针对不同的缺失类型采取不同的临床数据插补方法,可提高数据插补的准确性。
在一个实施例中,如果该一个或多个变量存在非可插补变量,且该非可插补变量存在一个或多个缺失值时,缺失的值会使数据分析结果变得不稳定、不可靠甚至是错误的。删除该一个或多个缺失值对应的样本数据,以更新样本数据集合,可以保证数据的完整性,使得数据分析结果更可靠。
示例性的,样本中因变量、患者ID、性别等信息缺失时,这些信息不能通过数据插补获得,因此,会将含有缺失值的样本删除。
在一个实施例中,如果插补后的样本数据的该一个或多个变量中的任一变量的缺失值比例大于或等于设定阈值,由于变量缺失值比例过大时,即便后续使用再复杂的数据插补方法,最后都不能得到一个稳定、可推广的分析结果。因此,为了保证分析结果的准确性,需要删除该变量。
在一个实施例中,还提供插补规则顺序自定义功能,在检测到数据插补规则顺序创建命令时,将当前的数据插补规则排列顺序作为插补规则的设定顺序,使系统根据设定的插补规则顺序进行数据插补处理,提高了系统数据插补的灵活性和用户数据插补体验。
示例性的,变量A对应三个数据插补规则,分别是第一数据插补规则、第二数据插补规则和第三数据插补规则。用户根据需要调整该三个数据插补规则的顺序,调整后的数据插补规则顺序为,第二数据插补规则、第三数据插补规则和第一数据插补规则,然后点击规则顺序创建选项,处理器在检测到该规则顺序创建选项对应的数据插补规则顺序创建命令时,将调整后的数据插补规则顺序作为插补规则的设定顺序,并按照该顺序执行变量A的数据插补。
在一个实施例中,确定该一个或多个变量中的一个或多个可插补变量,根据该一个或多个插补变量以及插补变量与数据插补规则之间的对应关系,确定该一个或多个可插补变量分别对应的当前数据插补规则,根据当前数据插补规则完成相应变量的数据插补以得到插补后的样本数据集合。其中,每个可插补变量均设置有一个或多个设定顺序的插补规则,数据插补规则包括基于设定业务系统获取规则、替代插补规则、拟合插补规则、基于患者基本信息的插补规则、二分类插补规则、随机插补规则中的一个或多个。
其中,基于设定业务系统获取规则为获取医院中的其他业务系统中录入的同一患者的数据。示例性的,医院当前使用的业务系统包括系统A和系统B,从系统A抽取50个同一检查项目的患者,比如同一孕检项目的患者,该50个患者中的部分患者的数据不全,因此确定系统B中是否存在该部分患者的缺失数据,若是,则从系统B获取该部分患者的缺失数据。
其中,替代插补规则是通过数值计算确定出插补值。示例性的,在实验室检验中,白细胞计数、总胆红素等,大部分人的数据集中在一个特定的范围,但因为检测仪器和试剂的不同,该范围并不固定。在缺失值小于20%的情况下,可根据真实的情况进行计算,得出均值、中位数、众数等进行数据插补。
其中,拟合插补规则为对于存在强相关的变量,使用相应的拟合模型对缺失值进行算法预测和拟合并进行插补。
其中,基于患者基本信息的插补规则可以通过患者的基本信息判断,实现字段符合医学逻辑的缺失值自动化填充和半自动化填充的逻辑判断与审核。此类变量往往因其性别、年龄、疾病等情况导致正常范围不一样,比如,在患者血压存在缺失时,就会根据患者的性别和年龄插补一个血压值。示例性的,1)、在研究冠心病相关影响因素时,患者的疾病史是否有高血压是个较为重要的因素,而高血压的发病率较高,医生基本上都会询问,若病历中没有相关信息,该变量自动填充为“不确定”。2)、强直性脊柱炎。此疾病较为罕见,若病历中没有相关信息,该变量先判断应填充为“否/无”,再比对已经填写的内容,若出现“是/否”,则填充为“否”,若出现“有/无”,则填充为“无”。
其中,二分类插补规则即只取可插补变量两个值中的一个作为插补值。示例性的,医生在记录患者的家族史、饮酒史或吸烟史等信息时,如果患者家庭没有人得过相关疾病、没有喝酒抽烟等不良嗜好,医生往往在病历中不会记录。因此,对于此类变量如果病例中未记录,可将“否”或“无”作为该变量的插补值。
其中,随机插补规则为在可插补变量正常数值范围内随机取一个数值作为插补值。示例性的,当患者缺失的数据是体温值时,在确认患者是正常体温时,可以在一个正常范围内随机取一个数据进行插补,可以避免所有缺失体温记录的患者都是同一个体温记录。
作为优选的实施例,结合分析目的和使用的分析方法,选择不同的缺失值处理方法。比如要做预测分析,使用的像XGBoost这样的支持缺失值的算法,则我们无需对缺失值再处理。如果分析目的和方法都不允许缺失值存在,则可根据上述数据插补规则对可插补变量进行插补处理。
S130、对插补后的样本数据集合进行敏感性分析,如果敏感性分析结果未达到设定评价阈值,则在可插补变量对应有未使用的数据插补规则时,将下一数据插补规则作为当前数据插补规则,并返回根据该数据插补规则完成相应变量的数据插补的步骤。
其中,敏感性分析是分析采用不同插补方式插补的缺失值对最终分析结果的影响,敏感性分析方法可以使用可视化图形进行展示,或者使用标准误差的指标进行衡量。如果敏感性分析结果未达到设定评价阈值,说明分析结果不够稳定,此时查找可插补变量是否存在未使用的数据插补规则,如果存在,将下一数据插补规则作为当前数据插补规则,并返回S120执行对相应变量的数据插补的步骤。
可以理解的是,如果敏感性分析结果达到了设定评价阈值,则将该插补后的样本数据集合作为目标样本数据集合。
本发明实施例提供的临床数据插补方法,通过获取样本数据集合,所述样本数据集合中的任一样本包括一个或多个变量的变量数据;确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则,并根据该当前数据插补规则完成相应变量的数据插补以得到插补后的样本数据集合,其中,每个可插补变量均设置有一个或多个设定顺序的插补规则;对插补后的样本数据集合进行敏感性分析,如果敏感性分析结果未达到设定评价阈值,则在可插补变量对应有未使用的数据插补规则时,将下一数据插补规则作为当前数据插补规则,并返回根据该数据插补规则完成相应变量的数据插补的步骤。上述临床数据插补方法,针对不同的临床数据采取不同的插补处理,提高了插补方法的鲁棒性。通过对插补后的数据集合进行敏感性分析,根据敏感性分析结果选择最优的插补方法,提高了数据插补的准确性。
实施例二
图4是本发明实施例二中的一种临床数据插补装置的结构框图。该装置用于执行上述任意实施例所提供的临床数据插补方法,该装置可选为电子设备的处理器实现。该装置包括:
样本获取模块210,用于获取样本数据集合,所述样本数据集合中的任一样本包括一个或多个变量的变量数据。
数据插补模块220,用于确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则,并根据该当前数据插补规则完成相应变量的数据插补以得到插补后的样本数据集合,其中,每个可插补变量均设置有一个或多个设定顺序的插补规则。
分析模块230,用于对插补后的样本数据集合进行敏感性分析,如果敏感性分析结果未达到设定评价阈值,则在可插补变量对应有未使用的数据插补规则时,将下一数据插补规则作为当前数据插补规则,并返回根据该数据插补规则完成相应变量的数据插补的步骤。
可选的,数据插补模块220具体用于如果该一个或多个变量存在非可插补变量,且该非可插补变量存在一个或多个缺失值时,删除该一个或多个缺失值对应的样本数据,以更新样本数据集合。
可选的,数据插补模块220具体用于采用相关性分析或聚类分析确定该一个或多个变量的数据缺失类型,所述数据缺失类型包括可插补变量对应的可插补类型以及非可插补变量对应的非可插补类型。
可选的,数据插补模块220具体用于确定该一个或多个变量中的一个或多个可插补变量,根据该一个或多个插补变量以及插补变量与数据插补规则之间的对应关系,确定该一个或多个可插补变量分别对应的当前数据插补规则。
可选的,数据插补规则包括基于设定业务系统获取规则、替代插补规则、拟合插补规则、基于患者基本信息的插补规则、二分类插补规则、随机插补规则中的一个或多个。
可选的,临床数据插补装置还包括插补规则顺序设置模块240,用于在检测到数据插补规则顺序创建命令时,将当前的数据插补规则排列顺序作为插补规则的设定顺序。
可选的,数据插补模块220具体用于如果插补后的样本数据的该一个或多个变量中的任一变量的缺失值比例大于或等于设定阈值,则删除该变量。
本发明实施例二提供的临床数据插补装置,插补模块可针对不同的临床数据采取不同的插补处理,提高了插补方法的鲁棒性。分析模块对插补后的数据集合进行敏感性分析,根据敏感性分析结果选择最优的插补方法,提高了数据插补的准确性。
本发明实施例所提供的一种临床数据插补装置可执行本发明任意实施例所提供的一种方法,具备执行方法相应的功能模块和有益效果。
实施例三
图5为本发明实施例三提供的电子设备的结构示意图,如图5所示,该设备包括处理器301、存储器302、输入装置303以及输出装置304;设备中处理器301的数量可以是一个或多个,图5中以一个处理器301为例;设备中的处理器301、存储器302、输入装置303以及输出装置304可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器302作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的临床数据插补装置对应的模块(例如,样本获取模块210、数据插补模块220、分析模块230以及插补规则顺序设置模块240)。处理器301通过运行存储在存储器302中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的数据插补方法。
存储器302可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器302可进一步包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置303可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。
输出装置304可包括显示屏等显示设备,例如,用户终端的显示屏。
实施例四
本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种临床数据插补方法,该方法包括:
获取样本数据集合,样本数据集合中的任一样本包括一个或多个变量的变量数据;
确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则,并根据该当前数据插补规则完成相应变量的数据插补以得到插补后的样本数据集合,其中,每个可插补变量均设置有一个或多个设定顺序的插补规则;
对插补后的样本数据集合进行敏感性分析,如果敏感性分析结果未达到设定评价阈值,则在可插补变量对应有未使用的数据插补规则时,将下一数据插补规则作为当前数据插补规则,并返回根据该数据插补规则完成相应变量的数据插补的步骤。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据插补方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(RandomAccess Memory,简称RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的数据插补方法。
值得注意的是,上述数据插补方法的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种临床数据插补方法,其特征在于,包括:
获取样本数据集合,所述样本数据集合中的任一样本包括一个或多个变量的变量数据;
确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则,并根据该当前数据插补规则完成相应变量的数据插补以得到插补后的样本数据集合,其中,每个可插补变量均设置有一个或多个设定顺序的插补规则;
对插补后的样本数据集合进行敏感性分析,如果敏感性分析结果未达到设定评价阈值,则在可插补变量对应有未使用的数据插补规则时,将下一数据插补规则作为当前数据插补规则,并返回根据该数据插补规则完成相应变量的数据插补的步骤。
2.根据权利要求1所述的方法,其特征在于,如果该一个或多个变量存在非可插补变量,且该非可插补变量存在一个或多个缺失值时,删除该一个或多个缺失值对应的样本数据,以更新样本数据集合。
3.根据权利要求1所述的方法,其特征在于,所述确定该一个或多个变量中的一个或多个可插补变量,包括:
采用相关性分析或聚类分析确定该一个或多个变量的数据缺失类型,所述数据缺失类型包括可插补变量对应的可插补类型以及非可插补变量对应的非可插补类型;
将属于可插补类型的一个或多个变量作为可插补变量。
4.根据权利要求1所述的方法,其特征在于,所述确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则,包括:
确定该一个或多个变量中的一个或多个可插补变量;
根据该一个或多个插补变量以及插补变量与数据插补规则之间的对应关系,确定该一个或多个可插补变量分别对应的当前数据插补规则。
5.根据权利要求4所述的方法,其特征在于,所述数据插补规则包括基于设定业务系统获取规则、替代插补规则、拟合插补规则、基于患者基本信息的插补规则、二分类插补规则、随机插补规则中的一个或多个。
6.根据权利要求5所述的方法,其特征在于,在确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则之前,还包括:
在检测到数据插补规则顺序创建命令时,将当前的数据插补规则排列顺序作为插补规则的设定顺序。
7.根据权利要求1-6任一所述的方法,其特征在于,所述对插补后的样本数据集合进行敏感性分析之前,还包括:
如果插补后的样本数据的该一个或多个变量中的任一变量的缺失值比例大于或等于设定阈值,则删除该变量。
8.一种临床数据插补装置,其特征在于,包括:
样本获取模块,用于获取样本数据集合,所述样本数据集合中的任一样本包括一个或多个变量的变量数据;
数据插补模块,用于确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则,并根据该当前数据插补规则完成相应变量的数据插补以得到插补后的样本数据集合,其中,每个可插补变量均设置有一个或多个设定顺序的插补规则;
分析模块,用于对插补后的样本数据集合进行敏感性分析,如果敏感性分析结果未达到设定评价阈值,则在可插补变量对应有未使用的数据插补规则时,将下一数据插补规则作为当前数据插补规则,并返回根据该数据插补规则完成相应变量的数据插补的步骤。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的临床数据插补方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的临床数据插补方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210922340.4A CN115270975A (zh) | 2022-08-02 | 2022-08-02 | 临床数据插补方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210922340.4A CN115270975A (zh) | 2022-08-02 | 2022-08-02 | 临床数据插补方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115270975A true CN115270975A (zh) | 2022-11-01 |
Family
ID=83747699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210922340.4A Pending CN115270975A (zh) | 2022-08-02 | 2022-08-02 | 临床数据插补方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115270975A (zh) |
-
2022
- 2022-08-02 CN CN202210922340.4A patent/CN115270975A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696675B (zh) | 基于物联网数据的用户数据分类方法、装置及计算机设备 | |
CN110051324B (zh) | 一种急性呼吸窘迫综合征死亡率预测方法及系统 | |
JP5450556B2 (ja) | 診療情報処理装置および方法並びにプログラム | |
CN113053535B (zh) | 一种医疗信息预测系统及医疗信息预测方法 | |
CN113270203A (zh) | 药物剂量预测方法、装置、电子设备及存储介质 | |
CN114220540A (zh) | 一种糖尿病肾病风险预测模型的构建方法及应用 | |
CN111862020A (zh) | 一种眼前节生理年龄预测方法、装置、服务器及存储介质 | |
Ruyssinck et al. | Random survival forests for predicting the bed occupancy in the intensive care unit | |
JP2023548253A (ja) | 医学検査値分析を実行するためのコンピュータ実装された方法、及び、装置 | |
CN112447270A (zh) | 一种用药推荐方法、装置、设备及存储介质 | |
KR102342770B1 (ko) | 질병 예측치의 분포를 이용한 건강관리 상담 시스템 | |
CN111968740B (zh) | 一种诊断标签推荐方法、装置、存储介质及电子设备 | |
CN115270975A (zh) | 临床数据插补方法、装置、设备及存储介质 | |
CN116705310A (zh) | 围术期风险评估的数据集构建方法、装置、设备及介质 | |
CN114400062B (zh) | 检验报告的解读方法及装置、计算机设备及存储介质 | |
CN115662595A (zh) | 基于在线诊疗系统的用户信息管理方法及系统 | |
CN112766779B (zh) | 信息处理方法、计算机设备及存储介质 | |
Gai et al. | Diagnosis of hepatobiliary disease based on logistic regression model | |
CN114783587A (zh) | 严重急性肾损伤智能预测系统 | |
CN111599427A (zh) | 一种一元化诊断的推荐方法、装置、电子设备及存储介质 | |
CN111710431A (zh) | 一种识别同义诊断名称的方法、装置、设备及存储介质 | |
CN112786185A (zh) | 血压健康状态获取方法、装置和系统 | |
CN112754457A (zh) | 体脂健康状态获取方法、装置和系统 | |
JP2022551325A (ja) | 診断ツール | |
CN115359890B (zh) | 基于迁移学习的单病种资源消耗分析方法、系统及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |