CN114334161B - 模型训练方法、数据处理方法、装置、介质、电子设备 - Google Patents

模型训练方法、数据处理方法、装置、介质、电子设备 Download PDF

Info

Publication number
CN114334161B
CN114334161B CN202111653068.6A CN202111653068A CN114334161B CN 114334161 B CN114334161 B CN 114334161B CN 202111653068 A CN202111653068 A CN 202111653068A CN 114334161 B CN114334161 B CN 114334161B
Authority
CN
China
Prior art keywords
time
target
sampling
feature
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111653068.6A
Other languages
English (en)
Other versions
CN114334161A (zh
Inventor
崔梦璇
王尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yidu Cloud Beijing Technology Co Ltd
Original Assignee
Yidu Cloud Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yidu Cloud Beijing Technology Co Ltd filed Critical Yidu Cloud Beijing Technology Co Ltd
Priority to CN202111653068.6A priority Critical patent/CN114334161B/zh
Publication of CN114334161A publication Critical patent/CN114334161A/zh
Application granted granted Critical
Publication of CN114334161B publication Critical patent/CN114334161B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本公开涉及计算机技术领域,提供了一种模型训练方法及装置、数据处理方法及装置、计算机可读存储介质和电子设备。其中,上述模型训练方法包括:获取多个样本对象的候选特征的特征序列;基于多个样本对象的候选特征在采样时刻的特征值和样本对象在采样时刻的结局,分别确定出在采样时刻每个候选特征与结局之间的相关程度;根据相关程度和时间窗口,确定出时间窗口内任一目标时刻的建模特征,其中,时间窗口基于预设数量个连续采样时刻确定;基于多个样本对象的建模特征在所述目标时刻或之前时刻的特征值,训练得到目标时刻对应的结局预测模型。本公开基于时间窗口进行建模特征的选择,能提高模型的预测准确性。

Description

模型训练方法、数据处理方法、装置、介质、电子设备
背景技术
目前,动态预测模型在很多领域都有着广泛的应用。例如,在临床医学领域,可以通过建立动态预测模型对预测对象的未来结局进行预测,从而降低预测对象的患病风险。因此,动态预测模型的建立至关重要。
相关技术中,在建立动态预测模型时,在全时间段选择同样的特征进行模型的训练。
然而,由于这种方式在每个时间点建模用到的特征不一定都是当前时刻的最优特征的组合,导致训练得到的动态预测模型在各个时间点的预测准确性较低。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种模型训练方法及装置、数据处理方法及装置、计算机可读存储介质及电子设备,进而至少在一定程度上改善动态预测模型预测准确性低的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供了一种模型训练方法,包括:获取多个样本对象的候选特征的特征序列,所述候选特征的特征序列根据在连续多个采样时刻采集到的所述候选特征的特征值确定;基于多个样本对象的候选特征在采样时刻的特征值和所述样本对象在所述采样时刻或在所述采样时刻之后时刻的结局,分别确定出在所述采样时刻每个候选特征与结局之间的相关程度;根据所述相关程度和时间窗口,确定出所述时间窗口内任一目标时刻的建模特征,其中,所述时间窗口基于预设数量个连续采样时刻确定;基于多个样本对象的所述建模特征在所述目标时刻或在所述目标时刻之前的特征值,训练得到所述目标时刻对应的结局预测模型。
在本公开的一种示例性实施例中,基于前述方案,所述样本对象包括医疗对象,所述候选特征包括所述医疗对象的临床体征;所述目标时刻对应的结局预测模型用于对与所述样本对象具有相同医疗属性的其它对象在所述目标时刻之后的结局进行预测。
在本公开的一种示例性实施例中,基于前述方案,所述根据所述相关程度和时间窗口,确定出所述时间窗口内任一目标时刻的建模特征,包括:选择所述相关程度满足所述采样时刻对应的预设条件的候选特征为所述采样时刻的目标特征;根据时间窗口内每个采样时刻的目标特征的选择情况,确定出所述时间窗口内任一目标时刻的建模特征。
在本公开的一种示例性实施例中,基于前述方案,所述基于多个样本对象的候选特征在采样时刻的特征值和所述样本对象在所述采样时刻或在所述采样时刻之后时刻的结局,分别确定出在所述采样时刻每个候选特征与结局之间的相关程度,包括:获取训练数据集,对所述训练数据集中的训练数据进行分组,以确定出多个子训练数据集,训练数据集中包括多个样本对象的候选特征在多个采样时刻的特征值和所述样本对象在所述采样时刻或在所述采样时刻之后时刻的结局;针对每个采样时刻的每个候选特征,分别基于每个所述子训练数据集中的训练数据,确定出每个子训练数据集对应的所述候选特征在所述采样时刻与结局之间的相关程度;所述选择所述相关程度满足所述采样时刻对应的预设条件的候选特征为所述采样时刻的目标特征,包括:针对每个采样时刻,在所述每个子训练数据集中选择出所述相关程度满足所述采样时刻对应的预设条件的候选特征;在所述候选特征被选择的次数大于或等于预设值时,确定所述候选特征为所述采样时刻的目标特征。
在本公开的一种示例性实施例中,基于前述方案,所述采样时刻对应的预设条件包括所述相关程度大于所述采样时刻对应的相关程度阈值;所述相关程度阈值基于各候选特征在所述采样时刻的相关程度确定。
在本公开的一种示例性实施例中,基于前述方案,所述根据时间窗口内每个采样时刻的目标特征的选择情况,确定出所述时间窗口内任一目标时刻的建模特征,包括:根据在所述时间窗口内的每个采样时刻均为所述目标特征的候选特征,确定出所述时间窗口内任一目标时刻的建模特征。
在本公开的一种示例性实施例中,基于前述方案,所述相关程度基于最大互信息系数、协方差系数、秩相关系数中的任一种进行表征。
根据本公开的第二方面,提供了一种数据处理方法,包括:获取目标对象在目标时刻或目标时刻之前时刻的建模特征对应的目标特征值;根据所述目标特征值和目标时刻对应的结局预测模型,预测所述目标对象在所述目标时刻之后的结局;其中,所述结局预测模型根据第一方面所述的方法训练得到。
根据本公开的第三方面,提供了一种模型训练装置,包括:特征序列获取模块,被配置为获取多个样本对象的候选特征的特征序列,所述候选特征的特征序列根据在连续多个采样时刻采集到的所述候选特征的特征值确定;相关程度确定模块,被配置为基于多个样本对象的候选特征在采样时刻的特征值和所述样本对象在所述采样时刻或在所述采样时刻之后时刻的结局,分别确定出在所述采样时刻每个候选特征与结局之间的相关程度;建模特征选择模块,被配置为根据所述相关程度和时间窗口,确定出所述时间窗口内任一目标时刻的建模特征,其中,所述时间窗口基于预设数量个连续采样时刻确定;模型训练模块,被配置为基于多个样本对象的所述建模特征在所述目标时刻在所述目标时刻之前时刻的特征值,训练得到所述目标时刻对应的结局预测模型。
根据本公开的第四方面,提供了一种数据处理装置,包括:目标特征值获取模块,被配置为获取目标对象在目标时刻的建模特征对应的目标特征值;结局预测模块,被配置为根据所述目标特征值和目标时刻对应的结局预测模型,预测所述目标对象在所述目标时刻之后的结局;其中,所述结局预测模型根据第一方面所述的方法训练得到。
根据本公开的第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中第一方面所述的模型训练方法和/或如上述的第二方面所述的数据处理方法。
根据本公开实施例的第六方面,提供了一种电子设备,包括:处理器;以及,存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中第一方面所述的模型训练方法和/或如上述的第二方面所述的数据处理方法。
由上述技术方案可知,本公开示例性实施例中的模型训练方法、模型训练装置,以及实现所述模型训练方法的计算机可读存储介质及电子设备,至少具备以下优点和积极效果:
在本公开的一些实施例所提供的技术方案中,首先,获取多个样本对象的候选特征的特征序列,所述候选特征的特征序列根据在连续多个采样时刻采集到的所述候选特征的特征值确定,然后,基于样本对象的候选特征在采样时刻的特征值和样本对象在采样时刻或之后时刻的结局,可以分别确定出在所述采样时刻每个候选特征与结局之间的相关程度。接下来,根据确定出的相关程度和时间窗口,确定出时间窗口内的任一目标时刻的建模特征,进而基于多个样本对象的建模特征在目标时刻或之前时刻的特征值,训练得到目标时刻对应的结局预测模型。与相关技术相比,一方面,本公开根据时间窗口和特征与结局的相关程度,选择出时间窗口内的最佳建模特征,进而基于最佳建模特征进行动态预测模型的建模与训练,提高动态预测模型的预测准确性;另一方面,本公开通过对建模特征的选择,降低了建模特征的冗余,对不同时刻选择了适合该时刻建模的差异化的特征,从而提升了动态预测模型的训练速度。
本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开一示例性实施例中的模型训练方法的流程示意图;
图2示出本公开一示例性实施例中的确定建模特征的方法的流程示意图;
图3示出本公开一示例性实施例中的选择目标特征的方法的流程示意图;
图4示出本公开一示例性实施例中的数据处理方法的流程示意图;
图5示出本公开一示例性实施例中的模型训练装置的结构示意图;
图6示出本公开一示例性实施例中的数据处理装置的结构示意图;
图7示出本公开示例性实施例中计算机存储介质的结构示意图;以及,
图8示出本公开示例性实施例中电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”和“第二”等仅作为标记使用,不是对其对象的数量限制。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
目前,动态预测模型在很多领域都有着广泛的应用。例如,在临床医学领域,可以通过建立动态预测模型对预测患者的未来结局进行预测,从而及时采取相应的措施。因此,动态预测模型的训练与建立至关重要。
相关技术中,在训练动态预测模型时,在全时间段选择同样的特征进行模型的训练。
然而,由于这种方式在每个时间点建模用到的特征不一定都是当前时刻的最优特征组合,导致动态预测模型在各个时间点的预测准确性较低。
另一种相关技术中,可以基于某个采样时刻的特征与结局的关系,选择出可以用于在该采样时刻进行建模的特征,进而基于选择出的特征进行动态预测模型的建立与训练。
但是,这种方式仅考虑当前采样时刻的特征与结局的关系,忽略了其他时间点该特征与结局的关系,可能因为某些随机性或者偶然性,导致在当前采样时刻选择的建模特征不够准确,从而影响模型的预测结果。
在本公开的实施例中,首先提供了一种模型训练方法,至少在一定程度上克服上述相关技术中存在的缺陷。
图1示出本公开一示例性实施例中的模型训练方法。参考图1,该方法包括:
步骤S110,获取多个样本对象的候选特征的特征序列,所述候选特征的特征序列根据在连续多个采样时刻采集到的所述候选特征的特征值确定;
步骤S120,基于多个样本对象的候选特征在采样时刻的特征值和所述样本对象在所述采样时刻或在所述采样时刻之后时刻的结局,分别确定出在所述采样时刻每个候选特征与结局之间的相关程度;
步骤S130,根据所述相关程度和时间窗口,确定出所述时间窗口内任一目标时刻的建模特征,其中,所述时间窗口基于预设数量个连续采样时刻确定;
步骤S140,基于多个样本对象的所述建模特征在所述目标时刻或在所述目标时刻之前时刻的特征值,训练得到所述目标时刻对应的结局预测模型。
在图1所示实施例所提供的技术方案中,首先,获取多个样本对象的候选特征的特征序列,所述候选特征的特征序列根据在连续多个采样时刻采集到的所述候选特征的特征值确定,然后,基于样本对象的候选特征在采样时刻的特征值和样本对象在采样时刻或之后时刻的结局,可以分别确定出在所述采样时刻每个候选特征与结局之间的相关程度。接下来,根据确定出的相关程度和时间窗口,确定出时间窗口内的任一目标时刻的建模特征,进而基于多个样本对象的建模特征在目标时刻或之前时刻的特征值,训练得到目标时刻对应的结局预测模型。与相关技术相比,一方面,本公开根据时间窗口和特征与结局的相关程度,选择出时间窗口内的最佳建模特征,进而基于最佳建模特征进行动态预测模型的建模与训练,提高动态预测模型的预测准确性;另一方面,本公开通过对建模特征的选择,降低了建模特征的冗余,对不同时刻选择了适合该时刻建模的差异化的特征,从而提升了动态预测模型的训练速度。
以下对图1所示实施例中各个步骤的具体实施方式进行详细阐述:
在步骤S110中,获取多个样本对象的候选特征的特征序列,所述候选特征的特征序列根据在连续多个采样时刻采集到的所述候选特征的特征值确定。
本公开中训练的模型可以包括动态预测模型,动态预测模型可以理解为在一个过程中,利用特征的时序观测值,在多个时间点建模并预测。
在一种示例性的应用场景中,本公开的动态预测模型可以包括医学领域的临床动态预测模型。临床动态预测模型可以理解为利用医疗对象的临床体征动态的预测医疗对象未来某结局发生的概率。
在临床数据分析中,所用到的特征和所需要预测的结局都可能是动态的。如,临床特征可能是动态的时序特征,即临床特征的特征值会随着时间的变化而变化,如血糖值这一临床特征,其特征值会随着时间的变化而变化,患者在服药后第1小时至第10小每小时的血糖值可能是不断变化的。又如,在以患者手术后30天内的某一天是否会发生炎症反应为待预测的结局,以手术后第1天到第30天的白细胞数量为特征,手术后第1天到第30天的白细胞数量可能是不断发生变化的。
对于动态时序特征而言,随着时间的推移,特征的特征值会发生变化,所以需要利用新的特征值来更新模型,动态的预测结局,也就是说,需要建立动态预测模型。此外,在时间推进到t时刻,在(t-1)时刻已经知道结局的对象不需要进行结局预测。
在一种示例性的实施方式中,样本对象可以包括医疗对象,样本对象的候选特征可以包括医疗对象的临床体征。其中,医疗对象可以包括患病对象,也可以包括未患病对象。在医疗对象为患病对象时,预测的结局可以包括患病对象在采取一定的指令措施后的结局,如在服药或者治疗后未来是否会死亡、在服药或者治疗后病情是否会病情恶化。在医疗对象为未患病对象时,预测的结局可以包括医疗对象未来会患病的风险概率或风险等级等。
例如,在对药物A治疗B病感染病例疗后结果的研究中,临床体征可以是服用药物A后18月内多次检测的CD4细胞计数,待预测结局可以包括服用药物A后18月内是否会在某时刻病情恶化。在该示例性实施例中,样本对象和需要进行结局预测的医疗对象都是患病对象。
又例如,在对医疗对象未来是否会患糖尿病的研究中,临床体征可以是医疗对象在未来一年内的血糖值,待预测结果可以是医疗对象在一年内是否会患糖尿病。在该示例性实施例中,样本对象和需要进行结局预测的医疗对象都是未患病对象,需要预测的结局就是该医疗对象未来会患病的风险概率或风险等级。
需要说明的是,在本公开中,动态预测模型还可以应用于其他的需要根据特征的观测值的变化,动态的预测结局的场景,如,还可以预测一个儿童成年后的身高等,在预测一个儿童成年后的身高时,候选特征也可以是儿童的临床体征,如骨骼密度等,本示例性实施方式对此不做特殊限定。
如前所述,对于动态预测模型中的时序特征而言,其在不同的时间点对应的特征值可能不同,所以可以在采样时刻对时序特征进行采样,以得到时序特征在采样时刻的特征值,在一段时间内就可以生成时序特征的时间序列特征值。
在一种示例性的实施方式中,样本对象可以包括已经知道结局的对象。继续以上述的对药物A治疗B病感染病例疗后效果预测为例,如果要预测某患有疾病B的医疗对象服用药物A后18个月之内是否会病情恶化,就可以将已经服用了药物A来治疗疾病B,且在服用药物A后的18个月之内病情是否恶化、以及在18个月内何时恶化的结局已经知道的人群确定为样本对象。
接下来,在步骤S120中,基于多个样本对象的候选特征在采样时刻的特征值和所述样本对象在所述采样时刻或在所述采样时刻之后时刻的结局,分别确定出在所述采样时刻每个候选特征与结局之间的相关程度。
在示例性的实施方式中,每个样本对象可以包括多个候选特征,比如,是否有抑郁症病史、年龄、性别、是否有糖尿病家族史、空腹血糖水平、血糖变化情况、白细胞计数、是否咳嗽、体温值等各种临床体征。在不同的时刻,不同候选特征可能对结局的影响程度并不相同。如,某个特征可能在A时刻对结局的影响较大、在B时刻对结局的影响较小,而另一特征可能与其相反,其在A时刻对结局的影响较小、在B时刻对结局的影响较大。所以,可以预先确定各个候选特征在不同采样时刻与结局之间的相关程度。
在一种示例性的实施方式中,采样时刻的候选特征与结局之间的相关程度可以通过最大互信息系数、协方差系数、秩相关系数中的任一种进行表征。当然,候选特征与采样时刻的结局之间的相关程度还可以通过其它的指标进行表征,如spearman(在统计学中,以查尔斯·爱德华·斯皮尔曼命名的斯皮尔曼等级相关系数)相关系数、kendall(肯德尔)秩相关系等,本示例性实施方式对此不做特殊限定。
示例性的,步骤S120的一种示例性实施方式可以是,针对每个采样时刻的每个候选特征而言,获取训练数据集中的每个样本对象的该候选特征在该采样时刻的特征值和样本对象在该采样时刻或该采样时刻之后时刻的结局,然后在该采样时刻该候选特征与结局之间的相关程度。
其中,如果样本对象在采样时刻之后时刻的结局是确定且不会再变化的,则也可以基于样本对象在采样时刻之后时刻的结局确定该采样时刻候选特征与结局之间的相关程度。样本对象在采样时刻之后时刻的结局也可以理解为在当前采样时刻之后到下一采样时刻之前的结局。
以采样时刻t1、候选特征1、通过最大互信息系数表征相关程度为例,可以基于训练数据集中的所有样本对象的候选特征1在采样时刻t1的特征值和所有样本对象在采样时刻t1的结局或在采样时刻t1之后的结局,计算在采样时刻t1候选特征1与结局之间的最大互信息系数,以确定出候选特征1在采样时刻t1与结局之间的相关程度。
接下来,在步骤S130中,根据所述相关程度和时间窗口,确定出所述时间窗口内任一目标时刻的建模特征。
其中,所述时间窗口基于预设数量个连续采样时刻确定。预设数量可以根据用户需求进行自定义,通常可以根据采样次数确定,如采样次数较多、预设数量可以设置的较大,采样次数较少、预设数量可以设置的较小,本示例性实施方式对此不做特殊限定。以预设数量是3为例,时间窗口可以基于任意的连续3个采样时刻确定。也就是说任一连续3个采样时刻都可以确定出一个时间窗口。
下面,结合图2和图3对步骤S130的具体实施方式进行进一步的说明。
图2示出本公开一示例性实施例中的确定建模特征的方法的流程示意图。参考图2,该方法可以包括步骤S210至步骤S220。
在步骤210中,选择所述相关程度满足所述采样时刻对应的预设条件的候选特征为所述采样时刻的目标特征。
其中,采样时刻对应的预设条件包括相关程度大于所述采样时刻对应的相关程度阈值。其中,所述相关程度阈值可以基于各候选特征在采样时刻的相关程度确定。例如,可以基于各候选特征在采样时刻的相关程度的四分位数或中位数确定采样时刻的相关程度阈值。当然,也可以通过其他的方式设置相关程度阈值,本示例性实施方式对此不做特殊限定。
以相关程度为基于各候选特征在采样时刻的相关程度的衡量指标值的中位数为例,在确定出所有的候选特征在采样时刻与结局的相关程度之后,可以基于所有候选特征对应的相关程度的衡量指标进行降序排序,从而确定出所有候选特征对应的相关程度的中位数,然后将该中位数配置为采样时刻对应的相关程度阈值。
示例性的,针对每个采样时刻,可以从所有的候选特征中,选择出相关程度大于采样时刻对应的相关程度阈值的候选特征,将其确定为采样时刻的目标特征。
在一种示例性的实施方式中,还可以对训练数据集进行分组,以针对每个采样时刻,基于分组后的训练数据集,从所有的候选特征中选择出该采样时刻对应的目标特征。示例性的,图3示出本公开一示例性实施例中的选择目标特征的方法的流程示意图。参考图3,该方法可以包括步骤S310至步骤S340。其中:
在步骤S310中,获取训练数据集,对所述训练数据集中的训练数据进行分组,以确定出多个子训练数据集。
在示例性的实施方式中,训练数据集中包括多个样本对象的候选特征在多个采样时刻的特征值和所述样本对象在所述采样时刻或在所述采样时刻之后的结局。换言之,训练数据集中可以包括多条训练数据,每条训练数据可以包括该样本对象的多个候选特征在多个采样时刻的特征值和该样本对象在每个采样时刻的结局或在当前采样时刻之后的结局。
示例性的,可以根据训练数据集中的样本数量均分进行分组,以确定出多个子训练数据集。例如,可以直接根据样本数量进行随机均分,以将训练数据集分为多个子训练数据集,也可以按照结局进行分层抽取均分,即每个子训练数据集中不同结局的样本数量之间的比例相同。其中,分组的数量可以根据样本数量或者用户需求进行自定义,本示例性实施方式对此不做特殊限定。
接下来,在步骤S320中,针对每个采样时刻的每个候选特征,分别基于每个所述子训练数据集中的训练数据,确定出每个子训练数据集对应的所述候选特征在所述采样时刻与结局之间的相关程度。
举例而言,对于每个采样时刻的每个候选特征而言,可以分别基于每组子训练数据集中的所有样本对象的该候选特征在该采样时刻的特征值和所有样本对象在该采样时刻或在采样时刻之后的结局,计算出每组子训练数据集对应的该候选特征在该采样时刻与结局之间的相关程度。
例如,将训练数据集分成了5组,共有T个采样时刻、F个候选特征,分别在每组的每个采样时刻计算每个特征与结局之间的相关程度,这样,在每个采样时刻,每个候选特征就可以得到5个相关程度,对于所有候选特征和所有采样时刻而言,就可以得到一共“5×T×F”个相关程度值。
接下来,在步骤S330中,针对每个采样时刻,在所述每个子训练数据集中选择出所述相关程度满足所述采样时刻对应的预设条件的候选特征。
在示例性的实施方式中,步骤S330中的预设条件也可以包括候选特征对应的相关程度大于采样时刻的相关程度阈值。
对于不同的子训练数据集而言,其在同一采样时刻的相关程度阈值可以相同,如可以是所有训练数据在采样时刻所有候选特征的相关程度衡量指标的四分位数或者中位数;对于不同的子训练数据集而言,其在同一采样时刻的相关程度阈值也可以不相同,即可以是该子训练数据集内的各训练数据在该采样时刻所有候选特征的相关程度衡量指标的四分位数或者中位数,本示例性实施方式对此不做特殊限定。
继续以上述的将训练数据集分为5组为例,对于每个采样时刻而言,可以选择出5组满足预设条件的候选特征。
接下来,在步骤S340中,在所述候选特征被选择的次数大于或等于预设值时,确定所述候选特征为所述采样时刻的目标特征。
其中,预设值可以包括大于1且小于或等于分组数量的任一整数。
以预设值等于分组数量、分组数量为5、采样时刻为t1、共F个候选特征、相关程度采用最大互信息系数MIC(Maximal InformationCoefficient)进行表征为例,将t1时刻所有候选特征的MIC记为一组,如记为MIC(t1),MIC(t1)中包括了5×F个MIC,根据5×F个MIC可以确定出该采样时刻的相关程度阈值。如果某个特征f的5个MIC都大于该相关程度阈值,则在t1时刻该候选特征f可以被确定为目标特征。如果预设值为3,则如果某个特征f的5个MIC中有3个或3个以上的MIC大于该相关程度阈值,则在t1时刻该候选特征f可以被确定为目标特征。
通过上述的步骤S310至步骤S340,基于对训练数据集进行分组,来进行目标特征的确定,可以提高最终确定的目标特征的可靠性。
接下来,在步骤S220中,根据时间窗口内每个采样时刻的目标特征的选择情况,确定出所述时间窗口内任一目标时刻的建模特征。
示例性的,步骤S220的具体实施方式可以包括:根据在所述时间窗口内的每个采样时刻目标时刻均为目标特征的候选特征,确定出所述时间窗口内任一目标时刻的建模特征。换言之,可以将在所述时间窗口内的每个采样时刻均为目标特征的候选特征,确定为所述时间窗口内任一目标时刻的建模特征。
如前所述,时间窗口是基于预设数量个连续的采样时刻确定的。如以预设数量是3为例,如果某个候选特征在某连续3个采样时刻都被选择为目标特征,则在该连续3个采样时刻确定的时间窗口内的任一目标时刻进行建模时,都可以将该候选特征作为建模特征。
举例而言,以单个采样时刻为t、共有T个采样时间点、单个候选特征为f、共有F个候选特征、预设数量为3、相关程度采用MIC进行表征为例,将t时刻所有候选特征的MIC记为一组,得到T组MIC,每组包括F个MIC值,每组MIC可以即为MIC(t)。针对每组MIC(t),可以根据其包括的F个MIC值,得到该组MIC(t)的MIC阈值,如根据该组F个MIC值的四分位数,得到该组MIC(t)的MIC阈值,从而可以得到T个MIC阈值。如果某个特征f在t时刻的MIC值大于该时刻的MIC阈值,则该特征f在t时刻可以被选择为目标特征。如果某个特征f在某连续3个采样时刻所确定的时间窗内都被选择为目标特征,那么,该特征就可以被确定为该时间窗内任一时间点的建模特征,也就是说,在该时间窗内任一目标时刻进行建模时,都可以选用该特征。
下面,结合表1所示实施例中对建模特征的确定过程进行进一步的详细说明。表1中展示出了10个候选特征,在8个采样时刻分别与结局的MIC,其中,采样时刻以天为间隔。
表1某10个候选特征在某8个采样时刻与结局的MIC表
Figure BDA0003447090760000131
Figure BDA0003447090760000141
参考表1,8天可以得到8组MIC(t),每组MIC(t)有10个MIC值,取每组MIC(t)对应的MIC阈值为该组所有MIC值的四分位数,根据每组的每个特征的MIC与MIC阈值的大小关系,在第1天选择的目标特征为特征_2和特征_4、在第2天选择的目标特征为特征_2和特征_7、在第3天选择的目标特征为特征_2和特征_6、在第4天选择的目标特征为特征_2和特征_5、在第5天选择的目标特征为特征_6和特征_10,在第6天选择的特征为特征_6和特征_7、在第7天选择的目标特征为特征_1和特征_7、在第8天选择的目标特征为特征_1和特征_7。
以时间窗口的大小为连续3个采样时刻为例,选择存在连续3天被选择为目标特征的候选特征,在这个连续3天的时间段内的任一时间都可以用该候选特征进行建模。例如,特征_2可以在第1~4天用于建模、特征_6可以在3~6天用于建模、特征_7可以在6~8天用于建模。而对于特征_1、特征_4、特征_10而言,其被选择的时间窗小于3,所以不会任一天被用于建模。
以样本对象为医疗对象为例,对于样本对象的各种临床体征而言,有些体征可能与结局相关,即有些体征的体征值的变化可能会影响结局的变化,有些体征可能并不会影响结局。但是在建立模型或者训练模型时,往往不知道哪些特征是与结局相关,哪些特征是与结局不相关的。且对于同一候选特征而言,其在不同时刻对结局的影响程度可能也不尽相同。
在本公开中,可以基于时间窗口和时间窗口内特征与结局的相关程度,在不同的时间段内选择出不同的建模特征,提升特征选择的合理性,进而提高模型训练的准确性。且通过时间窗口,可以保证在一个时间段内选择的建模特征与结局的相关程度都较高,可以有效的避免因随机效应使得某一采样时刻的特征与结局的相关程度较高而被误选择的情况。
继续参考图1,接下来,在步骤S140中,基于多个样本对象的所述建模特征在所述目标时刻或在所述目标时刻之前时刻的特征值,训练得到所述目标时刻对应的结局预测模型。在示例性的实施方式中,目标时刻可以包括时间窗内的任一采样时刻,目标时刻也可以包括时间窗口内的任一时刻,本示例性实施方式对此不做特殊限定。
在目标时刻为时间窗内的任一采样时刻时,训练数据集中已经包括了样本对象在各采样时刻的特征值,所以可以直接获取训练数据集中该采样时刻的建模特征的特征值,基于建模特征和该特征值,训练该采样时刻对应的结局预测模型。
在目标时刻为时间窗口内的任一时刻时,对于非采样时刻,由于训练数据集中不包括非采样时刻的样本特征值,所以可以将与目标时刻距离最近且在所述目标时刻之前的采样时刻对应的训练数据确定为目标时刻的训练数据,然后从该训练数据中确定出目标样本对象的建模特征在该目标时刻的目标特征值,基于建模特征和建模特征在目标时刻的目标特征值,训练得到目标时刻对应的结局预测模型。
举例而言,在研究药物A治疗B病感染病例疗后结果时,建模特征可以包括服用药物后A后18月内多次检测的CD4细胞计数;预测结局可以包括服用药物A后18月内是否会在某时刻发生死亡;如果需要预测的是t时刻的结局,所用的特征可以包括(t-1)时刻以及之前的CD4细胞计数,参与预测的人群只能为(t-1)时刻以及之前未发生死亡的人群。
换言之,在确定出目标时刻的建模特征后,可以仅从训练数据集中获取到各样本对象对应的建模特征在目标时刻或目标时刻之前的特征值,来进行结局预测模型的训练,而不需要使用所有的候选特征对应的特征值,进行结局预测模型的训练。这样,可以减少模型训练过程中的数据计算量,提高模型训练的速度,同时,选择出的建模特征也是在目标时刻与结局相关度较高的特征,进而也可以提高训练得到的模型的预测准确性。
其中,结局预测模型可以包括任意形式的预测模型,如线性回归预测模型、最小二乘拟合模型、机器学习模型等,本示例性实施方式对此不做特殊限定。
在一种示例性的实施方式中,所述目标时刻对应的结局预测模型用于对与所述样本对象具有相同医疗属性的其它对象在所述目标时刻之后的结局进行预测。其中,相同的医疗属性可以包括患有相同的疾病且采用了相同的治疗措施。相同的医疗属性也可以包括需要预测的结局相同,如样本对象中的结局包括一年内是否患糖尿病,而待预测对象的待预测结局也包括预测未来一年内是否会患糖尿病。
接下来,图4示出本公开一示例性实施例中的数据处理方法的流程示意图。参考图4,该方法可以包括步骤S410至步骤S420。
在步骤S410中,获取目标对象在目标时刻的建模特征对应的目标特征值;
在步骤S420中,根据所述目标特征值和目标时刻对应的结局预测模型,预测所述目标对象在所述目标时刻之后的结局;
其中,步骤S410中的目标对象可以包括与上述的图1所示实施例的样本对象具有相同医疗属性的其它对象,步骤S420中的结局预测模型根据上述的图1所示实施例的模型训练方法训练得到,因此此处不再进行赘述。
通过本公开的数据处理方法,在对目标对象的结局进行预测时,仅需要获取目标对象在目标时刻的建模特征即可,降低了数据加载量,提高了预测效率。
本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
图5示出本公开示例性实施例中模型的训练装置的结构示意图。参考图5,该装置500可以包括特征序列获取模块510、相关程度确定模块520、建模特征选择模块530、模型训练模块540。其中:
特征序列获取模块510,被配置为获取多个样本对象的候选特征的特征序列,所述候选特征的特征序列根据在连续多个采样时刻采集到的所述候选特征的特征值确定;
相关程度确定模块520,被配置为基于多个样本对象的候选特征在采样时刻的特征值和所述样本对象在所述采样时刻或在所述采样时刻之后时刻的结局,分别确定出在所述采样时刻每个候选特征与结局之间的相关程度;
建模特征选择模块530,被配置为根据所述相关程度和时间窗口,确定出所述时间窗口内任一目标时刻的建模特征,其中,所述时间窗口基于预设数量个连续采样时刻确定;
模型训练模块540,被配置为基于多个样本对象的所述建模特征在所述目标时刻或在所述目标时刻之前时刻的特征值,训练得到所述目标时刻对应的结局预测模型。
在本公开的一些示例性实施例中,基于前述实施例,所述样本对象包括医疗对象,所述候选特征包括所述医疗对象的临床体征;所述目标时刻对应的结局预测模型用于对与所述样本对象具有相同医疗属性的其它对象在所述目标时刻之后的结局进行预测。
在本公开的一些示例性实施例中,基于前述实施例,所述建模特征选择模块520还可以被具体配置为:
选择所述相关程度满足所述采样时刻对应的预设条件的候选特征为所述采样时刻的目标特征;
根据时间窗口内每个采样时刻的目标特征的选择情况,确定出所述时间窗口内任一目标时刻的建模特征。
在本公开的一些示例性实施例中,基于前述实施例,所述相关程度确定模块510还可以被具体配置为:获取训练数据集,对所述训练数据集中的训练数据进行分组,以确定出多个子训练数据集,训练数据集中包括多个样本对象的候选特征在多个采样时刻的特征值和所述样本对象在所述采样时刻或在所述采样时刻之后时刻的结局;针对每个采样时刻的每个候选特征,分别基于每个所述子训练数据集中的训练数据,确定出每个子训练数据集对应的所述候选特征在所述采样时刻与结局之间的相关程度;
在本公开的一些示例性实施例中,基于前述实施例,所述建模特征选择模块520还可以被具体配置为:针对每个采样时刻,在所述每个子训练数据集中选择出所述相关程度满足所述采样时刻对应的预设条件的候选特征;在所述候选特征被选择的次数大于或等于预设值时,确定所述候选特征为所述采样时刻的目标特征。
在本公开的一些示例性实施例中,基于前述实施例,所述采样时刻对应的预设条件包括所述相关程度大于所述采样时刻对应的相关程度阈值;所述相关程度阈值基于各候选特征在所述采样时刻的相关程度确定。
在本公开的一些示例性实施例中,基于前述实施例,所述建模特征选择模块520还可以被具体配置为:根据在所述时间窗口内的每个采样时刻目标时刻均为目标特征的候选特征,确定出所述时刻窗口内任一目标时刻的建模特征。
在本公开的一些示例性实施例中,基于前述实施例,所述相关程度基于最大互信息系数、协方差系数、秩相关系数中的任一种进行表征。
图6示出本公开示例性实施例中的数据处理装置的结构示意图。参考图6,该数据处理装置600可以包括目标特征获取模块610和结局预测模块620。其中:
目标特征值获取模块610,被配置为获取目标对象在目标时刻的建模特征对应的目标特征值;
结局预测模块620,被配置为根据所述目标特征值和目标时刻对应的结局预测模型,预测所述目标对象在所述目标时刻之后的结局;
目标特征值获取模块610中的目标对象可以包括与上述的图1所示实施例的样本对象具有相同医疗属性的其它对象,结局预测模块620中的结局预测模型根据上述的图1所示实施例的模型训练方法训练得到,因此此处不再进行赘述。
上述的装置中各模块的具体细节已经在对应的方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
在本公开示例性实施方式中,还提供了一种能够实现上述方法的计算机存储介质。其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
参考图7所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图8来描述根据本公开的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830以及显示单元840。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图1至图4中所示的各个步骤。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (11)

1.一种模型训练方法,其特征在于,包括:
获取多个样本对象的候选特征的特征序列,所述候选特征的特征序列根据在连续多个采样时刻采集到的所述候选特征的特征值确定;
基于多个样本对象的候选特征在采样时刻的特征值和所述样本对象在所述采样时刻或在所述采样时刻之后时刻的结局,分别确定出在所述采样时刻每个候选特征与结局之间的相关程度;
根据所述相关程度和时间窗口,确定出所述时间窗口内任一目标时刻的建模特征,其中,所述时间窗口基于预设数量个连续采样时刻确定;
基于多个样本对象的所述建模特征在所述目标时刻或在所述目标时刻之前的时刻的特征值,训练得到所述目标时刻对应的结局预测模型;
其中,所述根据所述相关程度和时间窗口,确定出所述时间窗口内任一目标时刻的建模特征,包括:选择所述相关程度满足所述采样时刻对应的预设条件的候选特征为所述采样时刻的目标特征;根据时间窗口内每个采样时刻的目标特征的选择情况,确定出所述时间窗口内任一目标时刻的建模特征;
所述样本对象包括医疗对象,所述候选特征包括所述医疗对象的临床体征。
2.根据权利要求1所述的模型训练方法,其特征在于,所述目标时刻对应的结局预测模型用于对与所述样本对象具有相同医疗属性的其它对象在所述目标时刻之后的结局进行预测。
3.根据权利要求1所述的模型训练方法,其特征在于,所述基于多个样本对象的候选特征在采样时刻的特征值和所述样本对象在所述采样时刻或在所述采样时刻之后时刻的结局,分别确定出在所述采样时刻每个候选特征与结局之间的相关程度,包括:
获取训练数据集,对所述训练数据集中的训练数据进行分组,以确定出多个子训练数据集,训练数据集中包括多个样本对象的候选特征在多个采样时刻的特征值和所述样本对象在所述采样时刻或在所述采样时刻之后时刻的结局;
针对每个采样时刻的每个候选特征,分别基于每个所述子训练数据集中的训练数据,确定出每个子训练数据集对应的所述候选特征在所述采样时刻与结局之间的相关程度;
所述选择所述相关程度满足所述采样时刻对应的预设条件的候选特征为所述采样时刻的目标特征,包括:
针对每个采样时刻,在所述每个子训练数据集中选择出所述相关程度满足所述采样时刻对应的预设条件的候选特征;
在所述候选特征被选择的次数大于或等于预设值时,确定所述候选特征为所述采样时刻的目标特征。
4.根据权利要求1或3所述的模型训练方法,其特征在于,所述采样时刻对应的预设条件包括所述相关程度大于所述采样时刻对应的相关程度阈值;所述相关程度阈值基于各候选特征在所述采样时刻的相关程度确定。
5.根据权利要求1或3所述的模型训练方法,其特征在于,所述根据时间窗口内每个采样时刻的目标特征的选择情况,确定出所述时间窗口内任一目标时刻的建模特征,包括:
根据在所述时间窗口内的每个采样时刻均为目标特征的候选特征,确定出所述时间窗口内任一目标时刻的建模特征。
6.根据权利要求1至3中任一项所述的模型训练方法,其特征在于,所述相关程度基于最大互信息系数、协方差系数、秩相关系数中的任一种进行表征。
7.一种数据处理方法,其特征在于,包括:
获取目标对象在目标时刻的建模特征对应的目标特征值;
根据所述目标特征值和目标时刻对应的结局预测模型,预测所述目标对象在所述目标时刻之后的结局;
其中,所述结局预测模型根据权利要求1至6中任一项所述的方法训练得到。
8.一种模型训练装置,其特征在于,包括:
特征序列获取模块,被配置为获取多个样本对象的候选特征的特征序列,所述候选特征的特征序列根据在连续多个采样时刻采集到的所述候选特征的特征值确定;
相关程度确定模块,被配置为基于多个样本对象的候选特征在采样时刻的特征值和所述样本对象在所述采样时刻或在所述采样时刻之后时刻的结局,分别确定出在所述采样时刻每个候选特征与结局之间的相关程度;
建模特征选择模块,被配置为根据所述相关程度和时间窗口,确定出所述时间窗口内任一目标时刻的建模特征,其中,所述时间窗口基于预设数量个连续采样时刻确定;
模型训练模块,被配置为基于多个样本对象的所述建模特征在所述目标时刻或在所述目标时刻之前时刻的特征值,训练得到所述目标时刻对应的结局预测模型;
其中,所述根据所述相关程度和时间窗口,确定出所述时间窗口内任一目标时刻的建模特征,包括:选择所述相关程度满足所述采样时刻对应的预设条件的候选特征为所述采样时刻的目标特征;根据时间窗口内每个采样时刻的目标特征的选择情况,确定出所述时间窗口内任一目标时刻的建模特征;
所述样本对象包括医疗对象,所述候选特征包括所述医疗对象的临床体征。
9.一种数据处理装置,其特征在于,包括:
目标特征值获取模块,被配置为获取目标对象在目标时刻的建模特征对应的目标特征值;
结局预测模块,被配置为根据所述目标特征值和目标时刻对应的结局预测模型,预测所述目标对象在所述目标时刻之后的结局;
其中,所述结局预测模型根据权利要求1至6中任一项所述的方法训练得到。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的方法。
CN202111653068.6A 2021-12-30 2021-12-30 模型训练方法、数据处理方法、装置、介质、电子设备 Active CN114334161B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111653068.6A CN114334161B (zh) 2021-12-30 2021-12-30 模型训练方法、数据处理方法、装置、介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111653068.6A CN114334161B (zh) 2021-12-30 2021-12-30 模型训练方法、数据处理方法、装置、介质、电子设备

Publications (2)

Publication Number Publication Date
CN114334161A CN114334161A (zh) 2022-04-12
CN114334161B true CN114334161B (zh) 2023-04-07

Family

ID=81019958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111653068.6A Active CN114334161B (zh) 2021-12-30 2021-12-30 模型训练方法、数据处理方法、装置、介质、电子设备

Country Status (1)

Country Link
CN (1) CN114334161B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8112368B2 (en) * 2008-03-10 2012-02-07 The Boeing Company Method, apparatus and computer program product for predicting a fault utilizing multi-resolution classifier fusion
CN105825002B (zh) * 2016-03-14 2018-10-16 华侨大学 一种基于动态灰关联分析法的风电场动态等值建模方法
WO2019241889A1 (en) * 2018-06-20 2019-12-26 The Royal Institution For The Advancement Of Learning/Mcgill University Selecting reliable features for predicting outcomes from datasets
US11429899B2 (en) * 2020-04-30 2022-08-30 International Business Machines Corporation Data model processing in machine learning using a reduced set of features
CN111612278A (zh) * 2020-06-01 2020-09-01 戴松世 生命状态预测方法、装置、电子设备及存储介质
CN111863248B (zh) * 2020-08-04 2022-10-11 桂林电子科技大学 一种构建临床决策模型的有效方法
CN113628709B (zh) * 2021-10-09 2022-02-11 腾讯科技(深圳)有限公司 相似对象确定方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114334161A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
Acosta et al. Multimodal biomedical AI
Huang et al. A tutorial on calibration measurements and calibration models for clinical prediction models
Carrell et al. Challenges in adapting existing clinical natural language processing systems to multiple, diverse health care settings
Churpek et al. Multicenter comparison of machine learning methods and conventional regression for predicting clinical deterioration on the wards
Tang et al. Predictive modeling in urgent care: a comparative study of machine learning approaches
US20130262140A1 (en) Patient cohort matching
US10431338B2 (en) System and method for weighting manageable patient attributes during criteria evaluations for treatment
CN111564223B (zh) 传染病生存概率的预测方法、预测模型的训练方法及装置
Sinnott et al. Improving the power of genetic association tests with imperfect phenotype derived from electronic medical records
Rosenman et al. Database queries for hospitalizations for acute congestive heart failure: flexible methods and validation based on set theory
Hunter-Zinck et al. Predicting emergency department orders with multilabel machine learning techniques and simulating effects on length of stay
Gao et al. Dr. Agent: Clinical predictive model via mimicked second opinions
CN110471941B (zh) 自动定位判断依据的方法、装置及电子设备
Ma et al. Using the shapes of clinical data trajectories to predict mortality in ICUs
Shickel et al. Dynamic predictions of postoperative complications from explainable, uncertainty-aware, and multi-task deep neural networks
CN114038570A (zh) 脓毒症相关急性肾损伤患者死亡预测方法、系统、设备及介质
Lytras et al. FluHMM: a simple and flexible Bayesian algorithm for sentinel influenza surveillance and outbreak detection
CN114334161B (zh) 模型训练方法、数据处理方法、装置、介质、电子设备
CN111507109A (zh) 电子病历的命名实体识别方法及装置
CN113220896B (zh) 多来源知识图谱生成方法、装置、终端设备
Nie et al. Forecasting medical state transition using machine learning methods
Rossell Big data and statistics: A statistician’s perspective
CN111063436A (zh) 数据处理方法及装置、存储介质及电子终端
JP2021507392A (ja) エンティティ間のコンテキスト的類似性の学習および適用
Mahani et al. Predicting lab values for gastrointestinal bleeding patients in the intensive care unit: a comparative study on the impact of comorbidities and medications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant