CN112633601B

CN112633601B - 疾病事件发生概率的预测方法、装置、设备及计算机介质

Info

Publication number: CN112633601B
Application number: CN202011633304.3A
Authority: CN
Inventors: 金鑫
Original assignee: Tianjin Happy Life Technology Co ltd
Current assignee: Tianjin Happy Life Technology Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-12-09
Anticipated expiration: 2040-12-31
Also published as: CN112633601A

Abstract

本公开涉及一种疾病事件发生概率的预测方法、装置、电子设备及计算机可读介质，属于机器学习技术领域。该方法包括：获取样本数据库以及其中各个样本的特征数据和事件类型；获取目标患者的特征数据，并根据目标患者的特征数据和样本的特征数据得到目标患者的相似样本；根据相似样本的特征数据和相似样本的事件类型得到目标患者的专属目标训练集，并通过专属目标训练集训练多个不同类型的概率预测模型；将目标患者的特征数据分别输入各个概率预测模型中，得到目标患者的多个疾病事件发生概率预测值；根据多个概率预测值得到目标患者的疾病事件发生概率预测结果。本公开通过综合多个不同类型的概率预测模型，可以提高模型预测结果的准确性。

Description

疾病事件发生概率的预测方法、装置、设备及计算机介质

技术领域

本公开涉及机器学习技术领域，具体而言，涉及一种疾病事件发生概率的预测方法、疾病事件发生概率的预测装置、电子设备及计算机可读介质。

背景技术

对于一些病情凶险、治疗花费高、医疗资源消耗大的疾病来说，预测重症患者的疾病事件发生概率，对于评估疾病严重程度、降低医疗资源消耗等方面都至关重要。

目前，对于患者的疾病事件发生概率的预测主要依赖于医生在主观经验上的判断，考虑到患者疾病事件发生因素的复杂性，预测的结果往往不够准确。

鉴于此，本领域亟需一种能够提高预测准确度的疾病事件发生概率的预测方法。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种疾病事件发生概率的预测方法、疾病事件发生概率的预测装置、电子设备及计算机可读介质，进而至少在一定程度上提高预测结果的准确度。

根据本公开的第一个方面，提供一种疾病事件发生概率的预测方法，包括：

获取样本数据库，以及所述样本数据库中各个样本的特征数据和事件类型；

获取目标患者的特征数据，并根据所述目标患者的特征数据和所述样本数据库中各个样本的特征数据得到所述目标患者的相似样本；

根据所述相似样本的特征数据和所述相似样本的事件类型得到所述目标患者的专属目标训练集，并通过所述专属目标训练集训练多个不同类型的概率预测模型；

将所述目标患者的特征数据分别输入各个所述概率预测模型中，得到所述目标患者的多个疾病事件发生概率预测值；

根据多个所述疾病事件发生概率预测值得到所述目标患者的疾病事件发生概率预测结果。

在本公开的一种示例性实施例中，所述根据所述目标患者的特征数据和所述样本数据库中各个样本的特征数据得到所述目标患者的相似样本，包括：

根据所述目标患者的特征数据和所述样本数据库中各个样本的特征数据，得到所述目标患者与所述样本之间的相似度；

根据所述目标患者与所述样本之间的相似度将所述样本划分为相似样本集合和无关样本集合，并将所述相似样本集合中的样本确定为所述目标患者的相似样本。

在本公开的一种示例性实施例中，所述根据所述目标患者的特征数据和所述样本数据库中各个样本的特征数据，得到所述目标患者与所述样本之间的相似度，包括：

根据所述目标患者的特征数据和所述样本数据库中各个样本的特征数据，得到所述目标患者与所述样本之间的欧氏距离和余弦相似度；

根据所述目标患者与所述样本之间的欧氏距离和余弦相似度得到所述目标患者与所述样本之间的距离度量值，或根据所述目标患者与所述样本之间的欧氏距离得到所述目标患者与所述样本之间的距离度量值；

根据所述目标患者与所述样本之间的距离度量值确定所述目标患者与所述样本之间的相似度。

在本公开的一种示例性实施例中，所述根据所述目标患者与所述样本之间的相似度将所述样本划分为相似样本集合和无关样本集合，包括：

将所有样本中与所述目标患者之间的距离度量值最小的样本作为第一质心样本；

计算除所述第一质心样本以外的样本与所述第一质心样本之间的距离度量值，并将与所述第一质心样本之间的距离度量值最大的样本作为第二候选质心样本；

将除所述第一质心样本和所述第二候选质心样本以外的其他样本作为待分配样本，并计算所述待分配样本与所述第一质心样本之间的第一距离度量值，以及所述待分配样本与所述第二候选质心样本之间的第二距离度量值；

根据所述第一距离度量值和所述第二距离度量值之间的关系，将所述待分配样本放入所述第一质心样本所在的相似样本集合或所述第二候选质心样本所在的无关样本集合中；

根据所述无关样本集合中任意一个样本与其他样本之间的距离度量值总和，更新所述无关样本集合中的第二候选质心样本；

根据所述第一质心样本以及更新后的所述第二候选质心样本，将所述待分配样本重新分配至所述相似样本集合或所述无关样本集合中；

根据重新分配后的所述无关样本集合再次更新所述第二候选质心样本，直到迭代次数大于或等于迭代次数阈值时，或者在所述待分配样本不再重新分配时停止迭代。

在本公开的一种示例性实施例中，所述根据所述无关样本集合中任意一个样本与其他样本之间的距离度量值总和，更新所述无关样本集合中的第二候选质心样本，包括：

根据所述无关样本集合中任意一个样本与其他样本之间的距离度量值总和，得到所述距离度量值总和的最小值；

将使所述距离度量值总和为最小值的所述样本确定为更新后的所述第二候选质心样本。

在本公开的一种示例性实施例中，所述通过所述专属目标训练集训练多个不同类型的概率预测模型，包括：

根据所述专属目标训练集分别得到各个不同类型的概率预测模型所对应的模型训练集；

根据各个所述概率预测模型所对应的模型训练集训练各个所述概率预测模型。

在本公开的一种示例性实施例中，所述根据所述专属目标训练集分别得到各个不同类型的概率预测模型所对应的模型训练集，包括：

获取所述概率预测模型的数量，并根据所述概率预测模型的数量对所述专属目标训练集进行复制，得到多个复制目标训练集；

通过不同的预处理方法分别对所述复制目标训练集进行数据预处理，得到各个所述概率预测模型所对应的模型训练集。

在本公开的一种示例性实施例中，所述预处理方法包括样本平衡处理方法，所述通过不同的预处理方法分别对所述复制目标训练集进行数据预处理，包括：

获取所述复制目标训练集中样本的事件类型，并根据所述样本的事件类型确定各个所述事件类型对应的样本数量；

根据各个所述事件类型对应的样本数量确定各个所述事件类型的样本原始比例，并获取样本平衡比例；

根据所述样本平衡比例并通过不同的样本平衡处理方法对所述复制目标训练集进行样本平衡处理。

在本公开的一种示例性实施例中，所述根据所述样本平衡比例并通过不同的样本平衡处理方法对所述复制目标训练集进行样本平衡处理，包括：

根据所述样本平衡比例和所述样本原始比例，确定各个所述事件类型中样本的样本类型权重，并根据所述样本类型权重进行样本平衡处理；或者

根据所述样本平衡比例和所述样本原始比例确定所述事件类型中的下采样类型，以及所述下采样类型中的样本削减数量，并通过下采样的方式将按照所述样本削减数量削减所述下采样类型中的样本，以使各个所述事件类型中的样本比例达到所述样本平衡比例；或者

根据所述样本平衡比例和所述样本原始比例确定所述事件类型中的下采样类型和上采样类型，以及所述下采样类型中的样本削减数量和所述上采样类型中的样本增加数量，并通过下采样的方式将按照所述样本削减数量减少所述下采样类型中的样本，通过上采样的方式按照所述样本增加数量增加所述上采样类型中的样本，以使各个所述事件类型中的样本比例达到所述样本平衡比例。

在本公开的一种示例性实施例中，所述根据多个所述疾病事件发生概率预测值得到所述目标患者的疾病事件发生概率预测结果，包括：

根据各个所述概率预测模型所对应的模型训练集得到模型测试集，并根据所述模型测试集和各个所述概率预测模型，得到各个所述概率预测模型对应的模型权重；

根据各个所述概率预测模型对应的模型权重对各个所述疾病事件发生概率预测值进行加权平均，得到所述目标患者的疾病事件发生概率预测结果。

在本公开的一种示例性实施例中，所述根据所述模型测试集和各个所述概率预测模型，得到各个所述概率预测模型对应的模型权重，包括：

将所述模型测试集中各个样本的特征数据分别输入各个所述概率预测模型中，得到各个所述概率预测模型输出的所述样本的疾病事件发生概率测试值；

根据所述各个样本的事件类型和所述疾病事件发生概率测试值，得到各个所述概率预测模型对应的受试者工作特征曲线；

根据各个所述概率预测模型对应的受试者工作特征曲线的线下面积，得到各个所述概率预测模型对应的模型权重。

在本公开的一种示例性实施例中，所述根据所述各个样本的事件类型和所述疾病事件发生概率测试值，得到各个所述概率预测模型对应的受试者工作特征曲线，包括：

根据所述各个样本的事件类型和所述疾病事件发生概率测试值，得到各个所述概率预测模型的真阳率和假阳率；

以所述假阳率为横坐标，所述真阳率为纵坐标，得到各个所述概率预测模型对应的受试者工作特征曲线。

在本公开的一种示例性实施例中，所述根据各个所述概率预测模型对应的受试者工作特征曲线的线下面积，得到各个所述概率预测模型对应的模型权重，包括：

根据所有所述概率预测模型对应的受试者工作特征曲线的线下面积得到线下面积总和；

根据所述概率预测模型对应的受试者工作特征曲线的线下面积与所述线下面积总和之间的比值，得到所述概率预测模型对应的模型权重。

根据本公开的第二方面，提供一种疾病事件发生概率的预测装置，包括：

样本数据获取模块，用于获取样本数据库，以及所述样本数据库中各个样本的特征数据和疾病事件发生概率；

相似样本获取模块，用于获取目标患者的特征数据，并根据所述目标患者的特征数据和所述样本数据库中各个样本的特征数据得到所述目标患者的相似样本；

概率模型训练模块，用于根据所述相似样本的特征数据和所述相似样本的疾病事件发生概率得到所述目标患者的专属目标训练集，并通过所述专属目标训练集训练多个不同类型的概率预测模型；

事件概率预测模块，用于将所述目标患者的特征数据分别输入各个所述概率预测模型中，得到所述目标患者的多个疾病事件发生概率预测值；

预测结果确定模块，用于根据多个所述疾病事件发生概率预测值得到所述目标患者的疾病事件发生概率预测结果。

根据本公开的第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的疾病事件发生概率的预测方法。

根据本公开的第四方面，提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的疾病事件发生概率的预测方法。

本公开示例性实施例可以具有以下有益效果：

本公开示例实施方式的疾病事件发生概率的预测方法中，一方面，通过目标患者的特征数据与样本数据库中各个样本的特征数据之间的相似性关系，从样本数据库中获取目标患者的相似样本作为目标患者个性化的专属训练集，并通过目标患者的专属训练集训练该目标患者专属的疾病事件发生概率预测模型，在提升目标患者与模型训练数据的相关性的基础上，可以提高概率预测模型的预测性能。另一方面，通过综合多个不同类型的概率预测模型，将基于不同维度的算法构建的概率预测模型的预测结果融合，可以降低概率预测模型的预测方差，提高模型预测结果的准确性，获得比单个模型更好的预测效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开示例实施方式的疾病事件发生概率的预测方法的流程示意图；

图2示出了本公开示例实施方式的获得目标患者的相似样本的流程示意图；

图3示出了本公开示例实施方式的将样本划分为相似样本集合和无关样本集合的流程示意图；

图4示出了本公开示例实施方式的通过专属目标训练集训练多个不同类型的概率预测模型的流程示意图；

图5示出了本公开示例实施方式的得到各个不同类型的概率预测模型所对应的模型训练集的流程示意图；

图6示出了本公开示例实施方式的进行样本平衡处理的流程示意图；

图7示出了本公开示例实施方式的根据多个疾病事件发生概率预测值得到目标患者的疾病事件发生概率预测结果的流程示意图；

图8示出了本公开示例实施方式的确定各个概率预测模型对应的模型权重的流程示意图；

图9示出了根据本公开的一个具体实施方式中的疾病事件发生概率的预测方法的流程示意图；

图10示出了本公开示例实施方式的疾病事件发生概率的预测装置的框图；

图11示出了适于用来实现本公开实施方式的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

对于一些病情凶险、治疗花费高、医疗资源消耗大的疾病，如脓毒症等，预测重症监护病房中患者的疾病事件发生概率，如死亡事件发生概率等，对于评估疾病的严重程度、判断治疗方案和干预方式、提高患者生存率、降低医疗资源消耗、制定医疗政策等都至关重要。

在一些相关的实施例中，可以通过疾病严重程度评分模型，并利用患者的基线特征来预测其疾病事件发生概率，所用参数可以在患者收治重症监护病房后的第一个24小时内测得。疾病严重程度评分模型包括APACHE(Acute Physiology and Chronic HealthEvaluation，急性生理和慢性健康状况评分系统)、APACHEⅡ和SAPS(Scale forAssessment of Positive Symptoms，阳性症状评定量表)等。不同的评分模型在采集数据的定义和时机方面各不相同，因此导致了模型效果和适用范围上的差异。这些评分模型高度依赖主观经验(基于专家小组的临床经验选择参数并分配权重)来选择参数和确定参数重要性。

在另一些相关的实施例中，可以在评分模型中融入经典的统计建模方法，如逻辑回归模型等。例如SAPSⅡ，该模型由SAPSⅡ评分量化表和预测模型两部分组成。SAPSⅡ评分量化表由包括年龄、12项生理学变量、3种慢性疾病和住院类型共17项变量构成，每项变量的分值不等，最低0分，最高26分，总分0～163分。其中，生理学变量仍取患者入住重症监护病房后第一个24小时内的最差数值(最高得分)，缺失的项视为正常，总分越高，表示病情越重，预后越差。

下表为某65岁患者的SAPSⅡ评分量化表：

变量	年龄	生理学变量	慢性疾病	住院类型	总计
						得分	12	82	15	0	109

如表中所示，某65岁患者年龄得分12分，12项生理学变量共得分82分，慢性疾病得分10分，住院类型为择期手术，得分0分，总计得分109分。将所有变量得分的总和代入模型：

其中，SAPS表示该患者的总计得分，pr(death)表示该患者的死亡事件发生概率的预测值。通过该模型计算得到该患者的死亡事件发生概率的预测值高达99％，因此医护人员有理由对该患者给予更多的关注，并进行更有效的干预措施。

尽管SAPS系列模型是医院临床实践中使用最广泛的评分模型之一，并且经历了多次扩展和改进，然而其在实践中预测的患者住院死亡事件发生概率依然不理想。经过试验可以发现，虽然这些模型的区分度都不错，但准确度都不尽如人意。因为逻辑回归模型对暴露变量和结局变量(在医学研究中，预测变量被称为暴露变量，应变量被称为结局变量)之间的关系施加了严格的约束，使用逻辑回归模型的基本假设之一便是其分布的自然参数和暴露变量之间存在线性相加的关系。然而，考虑到影响重症监护病房患者疾病事件发生因素的复杂性，上述假设可能不符合实际，因此，模型的预测结果往往不够准确。

基于上述问题，本示例实施方式首先提供了一种疾病事件发生概率的预测方法。参考图1所示，上述疾病事件发生概率的预测方法可以包括以下步骤：

步骤S110.获取样本数据库，以及样本数据库中各个样本的特征数据和事件类型。

步骤S120.获取目标患者的特征数据，并根据目标患者的特征数据和样本数据库中各个样本的特征数据得到目标患者的相似样本。

步骤S130.根据相似样本的特征数据和相似样本的事件类型得到目标患者的专属目标训练集，并通过专属目标训练集训练多个不同类型的概率预测模型。

步骤S140.将目标患者的特征数据分别输入各个概率预测模型中，得到目标患者的多个疾病事件发生概率预测值。

步骤S150.根据多个疾病事件发生概率预测值得到目标患者的疾病事件发生概率预测结果。

在本示例实施方式的疾病事件发生概率的预测方法中，可以使用非参数模型来实现疾病事件发生概率的预测，得到一种自动化、非参数的算法。由于非参数算法能够不依赖任何针对基础数据分布的假设，更适合用来拟合复杂的数据。因此，本示例实施方式中的疾病事件发生概率的预测方法可以不依赖于任何潜在的关系来估计疾病事件发生概率，进而能够提高模型的预测能力。

下面，结合图2至图8对本示例实施方式的上述步骤进行更加详细的说明。

在步骤S110中，获取样本数据库，以及样本数据库中各个样本的特征数据和事件类型。

本示例实施方式中，首先获取样本数据库，并从样本数据库中获取各个样本的特征数据和事件类型，用于训练疾病事件发生概率预测模型。其中，样本数据库中各个样本指的是历史患者，样本的特征数据包括历史患者的基本信息以及各项检测指标等数据，样本的事件类型指的是历史患者最终为存活类型或者死亡类型。

在步骤S120中，获取目标患者的特征数据，并根据目标患者的特征数据和样本数据库中各个样本的特征数据得到目标患者的相似样本。

本示例实施方式中，目标患者指的是当前需要对其进行疾病事件发生概率预测的患者，目标患者的特征数据可以包括目标患者的基本信息以及各项检测指标等数据。

目标患者的相似样本指的是根据目标患者和样本的特征数据得到的与目标患者相似度较高、差异较小的一部分样本。通过目标患者的相似样本对模型进行训练，能够提高模型训练的效率，以及最终预测结果的准确性。

本示例实施方式中的疾病事件发生概率预测模型，可以基于“物以类聚”的思想搜索目标患者的相似病例，具体地，可以通过聚类算法，如K均值聚类算法等，将样本数据库中的每个样本分别划分为不同的类，使得不同的类中样本差异更大，同一类中的样本更为相似。

本示例实施方式中，如图2所示，根据目标患者的特征数据和样本数据库中各个样本的特征数据得到目标患者的相似样本，具体可以包括以下几个步骤：

步骤S210.根据目标患者的特征数据和样本数据库中各个样本的特征数据，得到目标患者与样本之间的相似度。

本示例实施方式中，可以根据目标患者的特征数据和样本数据库中各个样本的特征数据，得到目标患者与样本之间的距离度量值，再根据目标患者与样本之间的距离度量值确定目标患者与样本之间的相似度。

目标患者与样本之间的距离度量值可以仅通过计算目标患者与样本之间的欧氏距离来确定，具体而言，可以根据目标患者的特征数据和样本数据库中各个样本的特征数据，得到目标患者与样本之间的欧氏距离，再根据目标患者与样本之间的欧氏距离得到目标患者与样本之间的距离度量值。

目标患者与样本之间的距离度量值还可以通过计算目标患者与样本之间的欧氏距离和余弦相似度来确定，具体而言，可以根据目标患者的特征数据和样本数据库中各个样本的特征数据，得到目标患者与样本之间的欧氏距离和余弦相似度，再根据目标患者与样本之间的欧氏距离和余弦相似度得到目标患者与样本之间的距离度量值。

对于K均值聚类算法来说，是将集合中的每个样本分别划分到不相交的簇中，每个簇的都由其均值来描述，该算法旨在选择使簇内平方和最小的质心。

虽然簇内平方和是一个不错的衡量内部凝聚状态的指标，但是它对样本分布施加了严格的限定。针对簇内平方和的局限性，也为了从更多的角度出发来提升模型的聚类效果，因此，本示例实施方式中在经典的欧式距离的基础上引入方向上的度量，即余弦相似度，得到了改进的OCD距离。因此，目标患者与样本之间的距离度量值如下：

其中，x_i和y_j分别表示两个不同的样本。该距离的定义在标准化后的数据上，综合考虑了样本的欧氏距离和方向差异，能够提升模型的聚类效果。除此之外，还可以使用其他的相似性度量方式替代余弦相似度，本示例实施方式中不做具体限定。

步骤S220.根据目标患者与样本之间的相似度将样本划分为相似样本集合和无关样本集合，并将相似样本集合中的样本确定为目标患者的相似样本。

本示例实施方式中，如图3所示，根据目标患者与样本之间的相似度将样本划分为相似样本集合和无关样本集合，具体可以包括以下几个步骤：

步骤S310.将所有样本中与目标患者之间的距离度量值最小的样本作为第一质心样本。

由于堆叠法中的第一层模型根据目标患者的信息搜索到的相似样本是真正和患者接近的，同时这些样本的事件类型也一致。如果满足这样的假设，则完全有理由依据聚类的结果直接给出目标患者的预测结果。

因此，在本示例实施方式中，首先搜索样本库中与目标患者最为接近的，也就是距离度量值最小的一个样本作为第一质心样本，并将其固定，不再更新。

对输入疾病事件发生概率预测模型的目标患者x₀，计算x₀和样本数据库中所有样本x_i之间的OCD距离。选择与目标患者OCD距离最小的一份样本固定为第一质心样本C₁：

步骤S320.计算除第一质心样本以外的样本与第一质心样本之间的距离度量值，并将与第一质心样本之间的距离度量值最大的样本作为第二候选质心样本。

其次，计算所有样本到第一质心样本C₁的OCD距离，并选择与C₁距离最远的样本作为当前的第二候选质心样本C₂：

考虑到样本量不足的问题，本示例实施方式中一共选择了两个样本点作为聚类的初始质心。

步骤S330.将除第一质心样本和第二候选质心样本以外的其他样本作为待分配样本，并计算待分配样本与第一质心样本之间的第一距离度量值，以及待分配样本与第二候选质心样本之间的第二距离度量值。

对除第一质心样本和第二候选质心样本以外的每一个样本，将其作为当前的待分配样本，并分别计算这些样本到两个质心样本的OCD距离。

步骤S340.根据第一距离度量值和第二距离度量值之间的关系，将待分配样本放入第一质心样本所在的相似样本集合或第二候选质心样本所在的无关样本集合中。

根据待分配样本的第一距离度量值和第二距离度量值的大小，将这些样本归到距离最近的质心一类中，具体而言，就是将所有第一距离度量值小于第二距离度量值的待分配样本划分到相似样本集合中，其余的待分配样本划分到无关样本集合中。

步骤S350.根据无关样本集合中任意一个样本与其他样本之间的距离度量值总和，更新无关样本集合中的第二候选质心样本。

本示例实施方式中，基于OCD距离的质心更新方程为：

其中，n表示所有样本的数量。与传统的欧氏距离相比，本示例实施方式中的OCD距离引入空间中两个向量夹角的余弦值作为衡量不同个体间差异大小的因素之一，综合考虑了样本的欧氏距离和方向差异，能够提升模型的聚类效果。

对于无关样本集合中的第二候选质心样本，其更新的方式为：无关样本集合中的某样本p，若无关样本集合中除样本p以外的所有样本到p点的距离之和小于无关样本集合中的其他任意一个样本，则样本p为无关样本集合新的质心。

因此，可以根据无关样本集合中任意一个样本与其他样本之间的距离度量值总和，得到距离度量值总和的最小值，再将使距离度量值总和为最小值的样本确定为更新后的第二候选质心样本。

根据改进后的基于OCD距离的质心更新方程更新无关样本集合的第二候选质心样本的具体公式如下：

其中，C_2new表示更新后的第二候选质心样本。

步骤S360.根据第一质心样本以及更新后的第二候选质心样本，将待分配样本重新分配至相似样本集合或无关样本集合中。

得到本轮迭代中的第一质心样本以及更新后的第二候选质心样本之后，将其余的样本重新作为待分配样本，再次进行分配。

步骤S370.根据重新分配后的无关样本集合再次更新第二候选质心样本，直到迭代次数大于或等于迭代次数阈值时，或者在待分配样本不再重新分配时停止迭代。

重复步骤S320至步骤S360，直到所有样本不再重新分配，或者迭代次数达到上限为止。

在本示例实施方式的上述各步骤中，通过使用改进的聚类算法搜索与输入目标患者相似的样本数据，作为目标患者个性化的模型训练集，可以提高概率预测模型的预测性能。

在步骤S130中，根据相似样本的特征数据和相似样本的事件类型得到目标患者的专属目标训练集，并通过专属目标训练集训练多个不同类型的概率预测模型。

本示例实施方式在模型的构建过程中，可以通过综合不同角度、不同假定、适合不同数据分布的模型，获得比任意单个模型都好的预测效果。

本示例实施方式中，模型从三个角度出发选取基模型进行融合，分别是线性模型、并行装袋模型和串联提升模型。逻辑回归模型本质是线性模型，因此能够在线性的数据中拥有更好的预测能力。随机森林模型是并行的决策树，能够在降低方差的同时提高概率预测模型对非线性数据的拟合能力。极度梯度提升树模型是串联的决策树，和随机森林模型同属于非参数模型，它旨在降低概率预测模型预测的偏差。

本示例实施方式中将这种从多个角度出发的复杂模型构建过程称为多维立体建模。除此之外，还可以根据需求选择其他类型的机器学习模型，例如SVM(support vectormachines，支持向量机)模型、LightGBM(轻量级梯度提升机)模型等等，对于模型种类的选择以及数量的选择，本示例实施方式中不做具体限定，仅以上述三个基模型为例进行说明。

本示例实施方式中，如图4所示，通过专属目标训练集训练多个不同类型的概率预测模型，具体可以包括以下几个步骤：

步骤S410.根据专属目标训练集分别得到各个不同类型的概率预测模型所对应的模型训练集。

对于各个不同的概率预测模型，可以使用不同的模型训练集来对其进行训练。

本示例实施方式中，如图5所示，根据专属目标训练集分别得到各个不同类型的概率预测模型所对应的模型训练集，具体可以包括以下几个步骤：

步骤S510.获取概率预测模型的数量，并根据概率预测模型的数量对专属目标训练集进行复制，得到多个复制目标训练集。

对于输入疾病事件发生概率预测模型的目标患者x₀，根据上述改进的K均值聚类算法搜索x₀的相似样本，得到目标患者x₀的专属目标训练集X。然后，根据概率预测模型的数量对专属目标训练集进行复制，比如概率预测模型为三个，则得到三份同样的训练集：X1，X2，X3。

步骤S520.通过不同的预处理方法分别对复制目标训练集进行数据预处理，得到各个概率预测模型所对应的模型训练集。

本示例实施方式中，数据的预处理方法可以包括样本平衡、变量选择、独热编码、数据标准化、缺失值处理和异常值处理等。

其中，通过不同的预处理方法分别对复制目标训练集进行数据预处理，主要是通过不同的样本平衡处理方法分别对复制目标训练集进行样本平衡处理。

由于不平衡的样本会对模型的学习造成非常大的困扰，因此需要在模型训练之前解决样本不平衡的问题。举例而言，从数据标签看，生存和死亡患者的比例约为9：1，是典型的不平衡样本，因此在数据进入模型之前，必须妥善处理样本不平衡问题。

本示例实施方式中，如图6所示，通过不同的样本平衡处理方法分别对复制目标训练集进行样本平衡处理，具体可以包括以下几个步骤：

步骤S610.获取复制目标训练集中样本的事件类型，并根据样本的事件类型确定各个事件类型对应的样本数量。

首先获取复制目标训练集中样本的事件类型，例如存活或死亡，然后统计存活类型的样本数量以及死亡类型的样本数量。

步骤S620.根据各个事件类型对应的样本数量确定各个事件类型的样本原始比例，并获取样本平衡比例。

根据各个事件类型对应的样本数量确定样本原始比例，例如，在10000个样本中，89.1％的患者存活，10.9％的患者死亡，则存活类型和死亡类型的样本原始比例约为9：1。

样本平衡比例指的是在进行样本平衡处理之后所要达到的一个平衡的比例，样本平衡比例可以为1：1或者3：2等。

步骤S630.根据样本平衡比例并通过不同的样本平衡处理方法对复制目标训练集进行样本平衡处理。

样本平衡处理方法一般有以下几种：

(1)收集更多的数据使正负样本达到平衡；

(2)不仅仅用单一的准确率来评价和选择模型。一些评价指标正是针对样本不平衡问题而开发的，比如精准率、召回率、F1值、受试者工作特征曲线线下面积等；

(3)通过复制的方式来增加较少的样本(上采样)，或者通过随机丢弃的方式减少较多的样本(下采样)，有针对性地改变正负样本的比例；

(4)通过组合已有的样本从而产生新的样本，比如SMOTE(Synthetic MinorityOver-Sampling Technique，人工少数类过采样法)、SMOTEENN(SMOTE和ENN(EditedNearest Neighbours，编辑邻近点)的结合算法)等方法；

(5)通过增大较少类别样本的权重，使得分类器更加关注这一类样本。

由于目前没有一个公认的标准指明哪一种样本平衡处理方法最有效，因此本示例实施方式中在多维度立体建模阶段，可以综合采用修改单一评价指标、数据下采样、SMOTEENN和改变样本权重等方法处理不平衡的样本。

本示例实施方式中，可以通过样本权重处理方法对复制目标训练集进行样本平衡处理。具体而言，可以根据样本平衡比例和样本原始比例，确定各个事件类型中样本的样本类型权重，并根据样本类型权重进行样本平衡处理。

例如，在构建极度梯度提升树模型前，可以为各个事件类型中的样本指定不同的权重，使样本量更少的死亡样本获得更大的权重。如果存活类型和死亡类型的样本原始比例为9：1，样本平衡比例为1：1，则存活类型和死亡类型的样本权重比可以设定为1：9。

本示例实施方式中，还可以通过下采样平衡处理方法对复制目标训练集进行样本平衡处理。具体而言，可以根据样本平衡比例和样本原始比例确定事件类型中的下采样类型，以及下采样类型中的样本削减数量，再通过下采样的方式将按照样本削减数量削减下采样类型中的样本，以使各个事件类型中的样本比例达到样本平衡比例。

例如，在构建随机森林模型前，可以先将样本量较多的存活类型作为下采样类型，并根据存活类型和死亡类型的样本数量差确定存活类型中的样本削减数量，再通过下采样的方式减少部分存活类型的样本，使样本平衡比例达到1：1。

本示例实施方式中，还可以通过综合采样处理方法对复制目标训练集进行样本平衡处理。具体而言，可以根据样本平衡比例和样本原始比例确定事件类型中的下采样类型和上采样类型，以及下采样类型中的样本削减数量和上采样类型中的样本增加数量；通过下采样的方式将按照样本削减数量减少下采样类型中的样本，并通过上采样的方式按照样本增加数量增加上采样类型中的样本，以使各个事件类型中的样本比例达到样本平衡比例。

例如，在构建逻辑回归模型前，可以采用综合了上采样(通过复制的方式来增加较少的样本)与下采样(通过随机丢弃的方式减少较多的样本)的SMOTEENN方法来处理不平衡的样本，使正负样本比例达到样本平衡比例3：2。

除了样本平衡以外，数据的预处理方法还可以包括变量选择、独热编码、数据标准化、缺失值处理和异常值处理等，这些方法的大致内容如下：

变量选择：变量选择指的是为了模型的构建而选择相关变量子集的过程。进行变量选择主要有三个原因：简化模型、缩短训练时长、降低方差。本示例实施方式中，可以通过纳入患者临床和部分实验室多方面的指标，进行变量选择，剔除无关和冗余的变量，保留对预测疾病事件发生概率最有帮助的变量。

具体方法可例如，首先通过下采样随机森林模型给每一个变量子集打分(可以通过计算受试者工作特征曲线线下面积进行打分)，找到得分最高的变量子集。其次在这个得分最高的变量子集上使用极度梯度提升树模型进行训练，获得每个变量的变量重要性得分，并根据变量重要性得分从大到小排序。最后，可以由医生根据变量重要性排序和临床经验，确定重要性较高的暴露变量进入疾病事件发生概率预测模型。

独热编码：由于一般的机器学习算法不支持字符串形式的输入，所以需要对数据中的分类变量进行离散化编码。本示例实施方式中，可以使用独热编码的方法将离散变量的值扩充到欧式空间中。离散变量的每个不同取值对应到欧式空间的某个点，可以让变量之间的距离计算更合理。

数据标准化：由于各个指标的来源和性质不同，其值的量级与量纲通常也不相同。当不同变量间的数值水平差异较大的时候，直接利用原始数值进行分析极有可能扩大数值大的变量的作用。为保证分析结果的准确性和可靠性，对数据进行标准化处理非常有必要。标准化的实质是一种线性变换，常见的数据标准化方法有：最小-最大值标准化、对数函数转换、反正切函数转换、z-score标准化、模糊量化法等。训练逻辑回归模型时必须对数据进行标准化处理。由于在搜索目标患者相似样本的过程中使用了改进的聚类算法，因此进行数据标准化也能在一定程度上改善欧氏距离度量的缺点。

缺失值处理：数据缺失是一个影响电子健康病例数据质量和大多数数据库的难题。数据缺失的原因影响填补缺失值的方法，因此分析数据缺失的来源至关重要。本示例实施方式中，可以使用平均值、中位数、随机森林模型和极度梯度提升树模型来填补缺失值。

异常值处理：在医疗领域，异常值主要来源于设备故障、人为操作失误、病患特定行为或者自然变异引起的反常现象等。有时异常值表明了当前病人和其他患者在某些方面的差异性，能够提供有价值的信息。有时异常值还可以源于人工失误，这时候就需要将其从数据集中移除或者进行修正。由于异常值产生的原因多种多样，必须谨慎地分析其出现的原因。重症监护病房中患者的某些异常指标可能代表了非常宝贵的信息，不能随意舍弃。本示例实施方式中，可以通过人工检查的方式，结合医生的临床经验进行异常值的分析和处理。

步骤S420.根据各个概率预测模型所对应的模型训练集训练各个概率预测模型。

得到各个概率预测模型所对应的模型训练集，并对各个模型训练集进行相应的预处理之后，再根据各个概率预测模型所对应的模型训练集训练各个概率预测模型。

例如，通过样本权重处理方法对复制目标训练集进行样本平衡处理以及其他预处理之后，将其输入极度梯度提升树模型进行模型的训练。通过下采样平衡处理方法对复制目标训练集进行样本平衡处理以及其他预处理之后，将其输入随机森林模型进行模型的训练。通过综合采样处理方法对复制目标训练集进行样本平衡处理以及其他预处理之后，将其输入逻辑回归模型进行模型的训练。

在步骤S140中，将目标患者的特征数据分别输入各个概率预测模型中，得到目标患者的多个疾病事件发生概率预测值。

完成各个不同类型的概率预测模型的训练之后，将目标患者的特征数据分别输入各个概率预测模型中，得到各个概率预测模型输出的目标患者的多个疾病事件发生概率预测值。

在步骤S150中，根据多个疾病事件发生概率预测值得到目标患者的疾病事件发生概率预测结果。

本示例实施方式中，可以通过对各个概率预测模型输出的ROC(receiveroperating characteristic curve，受试者工作特征曲线)面积AUC(Area Under Curve，ROC曲线下方的面积大小)进行加权平均，得到疾病事件发生概率的预测结果。除此之外，也可以使用其他融合的方式替代上述AUC加权平均的方法，本示例实施方式中不做具体限定。

本示例实施方式中，如图7所示，根据多个疾病事件发生概率预测值得到目标患者的疾病事件发生概率预测结果，具体可以包括以下几个步骤：

步骤S710.根据各个概率预测模型所对应的模型训练集得到模型测试集，并根据模型测试集和各个概率预测模型，得到各个概率预测模型对应的模型权重。

本示例实施方式中，可以从各个概率预测模型所对应的模型训练集中分出一部分样本作为模型测试集，并通过模型测试集来得到各个概率预测模型对应的模型权重。例如，目标患者的专属训练集中有1000个样本，可以将其中的900个作为模型训练集进行概率预测模型的训练，将剩下的100个样本作为模型测试集，用于计算概率预测模型对应的模型权重。

其次，本示例实施方式中，可以构造一个软投票分类器，它能够结合多个不同类型的机器学习分类器，并采用基于基分类器受试者工作特征曲线线下面积加权平均的方式来得到概率预测值。将这样的分类器用于一组表现良好的模型时，能够平衡其各自的缺点，吸收独有的优势。

本示例实施方式中，如图8所示，根据模型测试集和各个概率预测模型，得到各个概率预测模型对应的模型权重，具体可以包括以下几个步骤：

步骤S810.将模型测试集中各个样本的特征数据分别输入各个概率预测模型中，得到各个概率预测模型输出的样本的疾病事件发生概率测试值。

步骤S820.根据各个样本的事件类型和疾病事件发生概率测试值，得到各个概率预测模型对应的受试者工作特征曲线。

具体而言，可以根据各个样本的事件类型和疾病事件发生概率测试值，得到各个概率预测模型的真阳率和假阳率，再以假阳率为横坐标，以真阳率为纵坐标，得到各个概率预测模型对应的受试者工作特征曲线。

其中，受试者工作特征曲线(ROC)是由取定不同阈值下的真阳率(True PositiveRate，TPR)和假阳率(False Positive Rate，FPR)的点对所构成的曲线：

TPR＝ROC(FPR)

步骤S830.根据各个概率预测模型对应的受试者工作特征曲线的线下面积，得到各个概率预测模型对应的模型权重。

得到各个概率预测模型对应的受试者工作特征曲线之后，先计算每个受试者工作特征曲线的线下面积。

以上述的三种基模型为例，对于逻辑回归模型m1，得到其受试者工作特征曲线ROC₁(t)之后，可以通过如下公式计算其受试者工作特征曲线线下面积AUC(m1)：

对于随机森林模型m2，得到其受试者工作特征曲线ROC₂(t)之后，可以通过如下公式计算其受试者工作特征曲线线下面积AUC(m2)：

对于极度梯度提升树模型m3，得到其受试者工作特征曲线ROC₃(t)之后，可以通过如下公式计算其受试者工作特征曲线线下面积AUC(m3)：

然后，可以根据所有概率预测模型对应的受试者工作特征曲线的线下面积得到线下面积总和，并根据概率预测模型对应的受试者工作特征曲线的线下面积与线下面积总和之间的比值，得到概率预测模型对应的模型权重。

概率预测模型对应的模型权重ω_i的计算公式如下：

步骤S720.根据各个概率预测模型对应的模型权重对各个疾病事件发生概率预测值进行加权平均，得到目标患者的疾病事件发生概率预测结果。

本示例实施方式中，可以按照加权平均的方式计算目标患者的疾病事件发生概率预测结果，以上述的三种基模型为例，目标患者的疾病事件发生概率预测结果的计算公式如下：

其中，score(m_i)表示每一种概率预测模型输出的疾病事件发生概率预测值，ω_i为该概率预测模型对应的模型权重。

本示例实施方式中，按照基模型受试者工作特征曲线线下面积进行加权平均，将基于不同维度的算法构建的基模型的预测结果融合，这样的方式能够降低疾病事件发生概率预测模型的方差：

其中，M为融合后的疾病事件发生概率预测模型，m_i表示第i个基模型(假设每个基模型之间都是独立的)。

如图9所示是根据本公开的一个具体实施方式中的疾病事件发生概率的预测方法的流程示意图。

首先，获取目标患者901的特征数据，并通过搜索引擎910根据输入的目标患者901的特征数据将样本数据库中的训练样本划分为类别一和类别二，其中，类别一是目标患者对应的相似样本，然后将相似样本作为后续的模型训练样本。

其次，通过数据预处理模块920对模型的训练样本进行数据的预处理，预处理方法包括样本平衡、变量选择、独热编码、数据标准化、缺失值处理和异常值处理等，得到目标患者专属训练集902。

接下来，在模型训练模块930中，通过目标患者专属训练集902分别训练逻辑回归模型、随机森林模型和极度梯度提升树模型，其中，逻辑回归模型通过SMOTEENN方法进行样本平衡，随机森林模型通过下采样方法进行样本平衡，极度梯度提升树模型通过改变标签权重的方法进行样本平衡。

最后，对于各个基模型所输出的目标患者的疾病事件发生概率预测值，按照各个基模型对应的受试者工作特征曲线线下面积作为权重进行加权平均，得到目标患者最终的疾病事件发生概率预测结果903。

经过实验可以得到，通过本示例实施方式中的疾病事件发生概率的预测方法，能够处理大量的暴露变量并捕获它们之间的复杂关系。与传统的疾病严重程度评分基础模型(标准的逻辑回归模型)相比，本示例实施方式中经过模型融合得到的疾病事件发生概率预测模型的综合准确率提升了13个百分点。对于死亡患者而言，模型精准率提升了14个百分点，F1分数从0.38上升到了0.45。由此可见，本示例实施方式中的疾病事件发生概率的预测方法拥有更优秀的预测性能，其在开发新一代疾病严重程度评分模型中具有广阔的应用场景。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本公开还提供了一种疾病事件发生概率的预测装置。参考图10所示，该疾病事件发生概率的预测装置可以包括样本数据获取模块1010、相似样本获取模块1020、概率模型训练模块1030、事件概率预测模块1040以及预测结果确定模块1050。其中：

样本数据获取模块1010可以用于获取样本数据库，以及样本数据库中各个样本的特征数据和事件类型；

相似样本获取模块1020可以用于获取目标患者的特征数据，并根据目标患者的特征数据和样本数据库中各个样本的特征数据得到目标患者的相似样本；

概率模型训练模块1030可以用于根据相似样本的特征数据和相似样本的事件类型得到目标患者的专属目标训练集，并通过专属目标训练集训练多个不同类型的概率预测模型；

事件概率预测模块1040可以用于将目标患者的特征数据分别输入各个概率预测模型中，得到目标患者的多个疾病事件发生概率预测值；

预测结果确定模块1050可以用于根据多个疾病事件发生概率预测值得到目标患者的疾病事件发生概率预测结果。

在本公开的一些示例性实施例中，相似样本获取模块1020可以包括相似度确定单元以及样本集合划分单元。其中：

相似度确定单元可以用于根据目标患者的特征数据和样本数据库中各个样本的特征数据，得到目标患者与样本之间的相似度；

样本集合划分单元可以用于根据目标患者与样本之间的相似度将样本划分为相似样本集合和无关样本集合，并将相似样本集合中的样本确定为目标患者的相似样本。

在本公开的一些示例性实施例中，相似度确定单元可以包括相似度参数确定单元、距离度量值确定单元以及相似度计算单元。其中：

相似度参数确定单元可以用于根据所述目标患者的特征数据和所述样本数据库中各个样本的特征数据，得到所述目标患者与所述样本之间的欧氏距离和余弦相似度；

距离度量值确定单元可以用于根据所述目标患者与所述样本之间的欧氏距离和余弦相似度得到所述目标患者与所述样本之间的距离度量值，或根据所述目标患者与所述样本之间的欧氏距离得到所述目标患者与所述样本之间的距离度量值；

相似度计算单元可以用于根据目标患者与样本之间的距离度量值确定目标患者与样本之间的相似度。

在本公开的一些示例性实施例中，样本集合划分单元可以包括第一质心样本确定单元、第二候选质心样本确定单元、待分配样本距离确定单元、待分配样本划分单元、第二候选质心样本更新单元、待分配样本更新划分单元以及样本集合划分迭代单元。其中：

第一质心样本确定单元可以用于将所有样本中与目标患者之间的距离度量值最小的样本作为第一质心样本；

第二候选质心样本确定单元可以用于计算除第一质心样本以外的样本与第一质心样本之间的距离度量值，并将与第一质心样本之间的距离度量值最大的样本作为第二候选质心样本；

待分配样本距离确定单元可以用于将除第一质心样本和第二候选质心样本以外的其他样本作为待分配样本，并计算待分配样本与第一质心样本之间的第一距离度量值，以及待分配样本与第二候选质心样本之间的第二距离度量值；

待分配样本划分单元可以用于根据第一距离度量值和第二距离度量值之间的关系，将待分配样本放入第一质心样本所在的相似样本集合或第二候选质心样本所在的无关样本集合中；

第二候选质心样本更新单元可以用于根据无关样本集合中任意一个样本与其他样本之间的距离度量值总和，更新无关样本集合中的第二候选质心样本；

待分配样本更新划分单元可以用于根据第一质心样本以及更新后的第二候选质心样本，将待分配样本重新分配至相似样本集合或无关样本集合中；

样本集合划分迭代单元可以用于根据重新分配后的无关样本集合再次更新第二候选质心样本，直到迭代次数大于或等于迭代次数阈值时，或者在待分配样本不再重新分配时停止迭代。

在本公开的一些示例性实施例中，第二候选质心样本更新单元可以包括距离度量值总和确定单元以及距离总和最小值确定单元。其中：

距离度量值总和确定单元可以用于根据无关样本集合中任意一个样本与其他样本之间的距离度量值总和，得到距离度量值总和的最小值；

距离总和最小值确定单元可以用于将使距离度量值总和为最小值的样本确定为更新后的第二候选质心样本。

在本公开的一些示例性实施例中，概率模型训练模块1030可以包括模型训练集获取单元以及概率预测模型训练单元。其中：

模型训练集获取单元可以用于根据专属目标训练集分别得到各个不同类型的概率预测模型所对应的模型训练集；

概率预测模型训练单元可以用于根据各个概率预测模型所对应的模型训练集训练各个概率预测模型。

在本公开的一些示例性实施例中，模型训练集获取单元可以包括复制目标训练集获取单元以及数据预处理单元。其中：

复制目标训练集获取单元可以用于获取概率预测模型的数量，并根据概率预测模型的数量对专属目标训练集进行复制，得到多个复制目标训练集；

数据预处理单元可以用于通过不同的预处理方法分别对复制目标训练集进行数据预处理，得到各个概率预测模型所对应的模型训练集。

在本公开的一些示例性实施例中，数据预处理单元可以包括样本类型数量确定单元、样本平衡比例确定单元以及样本平衡方法处理单元。其中：

样本类型数量确定单元可以用于获取复制目标训练集中样本的事件类型，并根据样本的事件类型确定各个事件类型对应的样本数量；

样本平衡比例确定单元可以用于根据各个事件类型对应的样本数量确定各个事件类型的样本原始比例，并获取样本平衡比例；

样本平衡方法处理单元可以用于根据样本平衡比例并通过不同的样本平衡处理方法对复制目标训练集进行样本平衡处理。

在本公开的一些示例性实施例中，样本平衡方法处理单元可以包括样本权重处理单元、样本下采样处理单元和样本综合采样处理单元。其中：

样本权重处理单元可以用于根据样本平衡比例和样本原始比例，确定各个事件类型中样本的样本类型权重，并根据样本类型权重进行样本平衡处理；

样本下采样处理单元可以用于根据所述样本平衡比例和所述样本原始比例确定所述事件类型中的下采样类型，以及所述下采样类型中的样本削减数量，并通过下采样的方式将按照所述样本削减数量削减所述下采样类型中的样本，以使各个所述事件类型中的样本比例达到所述样本平衡比例；

样本综合采样处理单元可以用于根据所述样本平衡比例和所述样本原始比例确定所述事件类型中的下采样类型和上采样类型，以及所述下采样类型中的样本削减数量和所述上采样类型中的样本增加数量，并通过下采样的方式将按照所述样本削减数量减少所述下采样类型中的样本，通过上采样的方式按照所述样本增加数量增加所述上采样类型中的样本，以使各个所述事件类型中的样本比例达到所述样本平衡比例。

在本公开的一些示例性实施例中，预测结果确定模块1050可以包括模型权重确定单元以及预测值加权平均单元。其中：

模型权重确定单元可以用于根据各个概率预测模型所对应的模型训练集得到模型测试集，并根据模型测试集和各个概率预测模型，得到各个概率预测模型对应的模型权重；

预测值加权平均单元可以用于根据各个概率预测模型对应的模型权重对各个疾病事件发生概率预测值进行加权平均，得到目标患者的疾病事件发生概率预测结果。

在本公开的一些示例性实施例中，模型权重确定单元可以包括概率测试值确定单元、特征曲线确定单元以及模型权重计算单元。其中：

概率测试值确定单元可以用于将模型测试集中各个样本的特征数据分别输入各个概率预测模型中，得到各个概率预测模型输出的样本的疾病事件发生概率测试值；

特征曲线确定单元可以用于根据各个样本的事件类型和疾病事件发生概率测试值，得到各个概率预测模型对应的受试者工作特征曲线；

模型权重计算单元可以用于根据各个概率预测模型对应的受试者工作特征曲线的线下面积，得到各个概率预测模型对应的模型权重。

在本公开的一些示例性实施例中，特征曲线确定单元可以包括真阳率和假阳率确定单元以及特征曲线绘制单元。其中：

真阳率和假阳率确定单元可以用于根据各个样本的事件类型和疾病事件发生概率测试值，得到各个概率预测模型的真阳率和假阳率；

特征曲线绘制单元可以用于以假阳率为横坐标，真阳率为纵坐标，得到各个概率预测模型对应的受试者工作特征曲线。

在本公开的一些示例性实施例中，模型权重计算单元可以包括线下面积总和确定单元以及线下面积比值确定单元。其中：

线下面积总和确定单元可以用于根据所有概率预测模型对应的受试者工作特征曲线的线下面积得到线下面积总和；

线下面积比值确定单元可以用于根据概率预测模型对应的受试者工作特征曲线的线下面积与线下面积总和之间的比值，得到概率预测模型对应的模型权重。

上述疾病事件发生概率的预测装置中各模块/单元的具体细节在相应的方法实施例部分已有详细的说明，此处不再赘述。

图11示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图11示出的电子设备的计算机系统1100仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统1100包括中央处理单元(CPU)1101，其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中，还存储有系统操作所需的各种程序和数据。CPU1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种疾病事件发生概率的预测方法，其特征在于，包括：

获取目标患者的特征数据，并根据所述目标患者的特征数据和所述样本数据库中各个样本的特征数据，得到所述目标患者与所述样本之间的相似度；

根据所述目标患者与所述样本之间的相似度将所述样本划分为相似样本集合和无关样本集合，并将所述相似样本集合中的样本确定为所述目标患者的相似样本；

根据多个所述疾病事件发生概率预测值得到所述目标患者的疾病事件发生概率预测结果；

其中，所述目标患者与所述样本之间的相似度包括所述目标患者与所述样本之间的距离度量值，所述根据所述目标患者与所述样本之间的相似度将所述样本划分为相似样本集合和无关样本集合，包括：

根据所述无关样本集合中任意一个样本与所述无关样本集合中的其他无关样本之间的距离度量值总和，更新所述无关样本集合中的第二候选质心样本；

2.根据权利要求1所述的疾病事件发生概率的预测方法，其特征在于，所述根据所述目标患者的特征数据和所述样本数据库中各个样本的特征数据，得到所述目标患者与所述样本之间的相似度，包括：

3.根据权利要求1所述的疾病事件发生概率的预测方法，其特征在于，所述根据所述无关样本集合中任意一个样本与所述无关样本集合中的其他无关样本之间的距离度量值总和，更新所述无关样本集合中的第二候选质心样本，包括：

根据所述无关样本集合中任意一个样本与所述无关样本集合中的其他无关样本之间的距离度量值总和，得到所述距离度量值总和的最小值；

4.根据权利要求1所述的疾病事件发生概率的预测方法，其特征在于，所述通过所述专属目标训练集训练多个不同类型的概率预测模型，包括：

5.根据权利要求4所述的疾病事件发生概率的预测方法，其特征在于，所述根据所述专属目标训练集分别得到各个不同类型的概率预测模型所对应的模型训练集，包括：

6.根据权利要求5所述的疾病事件发生概率的预测方法，其特征在于，所述预处理方法包括样本平衡处理方法，所述通过不同的预处理方法分别对所述复制目标训练集进行数据预处理，包括：

7.根据权利要求6所述的疾病事件发生概率的预测方法，其特征在于，所述根据所述样本平衡比例并通过不同的样本平衡处理方法对所述复制目标训练集进行样本平衡处理，包括：

8.根据权利要求4所述的疾病事件发生概率的预测方法，其特征在于，所述根据多个所述疾病事件发生概率预测值得到所述目标患者的疾病事件发生概率预测结果，包括：

9.根据权利要求8所述的疾病事件发生概率的预测方法，其特征在于，所述根据所述模型测试集和各个所述概率预测模型，得到各个所述概率预测模型对应的模型权重，包括：

10.根据权利要求9所述的疾病事件发生概率的预测方法，其特征在于，所述根据所述各个样本的事件类型和所述疾病事件发生概率测试值，得到各个所述概率预测模型对应的受试者工作特征曲线，包括：

11.根据权利要求9所述的疾病事件发生概率的预测方法，其特征在于，所述根据各个所述概率预测模型对应的受试者工作特征曲线的线下面积，得到各个所述概率预测模型对应的模型权重，包括：

12.一种疾病事件发生概率的预测装置，其特征在于，包括：

样本相似度确定模块，用于获取目标患者的特征数据，并根据所述目标患者的特征数据和所述样本数据库中各个样本的特征数据，得到所述目标患者与所述样本之间的相似度；

相似样本获取模块，用于根据所述目标患者与所述样本之间的相似度将所述样本划分为相似样本集合和无关样本集合，并将所述相似样本集合中的样本确定为所述目标患者的相似样本；

预测结果确定模块，用于根据多个所述疾病事件发生概率预测值得到所述目标患者的疾病事件发生概率预测结果；

13.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至11中任一项所述的疾病事件发生概率的预测方法。

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至11中任一项所述的疾病事件发生概率的预测方法。