CN111564223B

CN111564223B - 传染病生存概率的预测方法、预测模型的训练方法及装置

Info

Publication number: CN111564223B
Application number: CN202010696011.3A
Authority: CN
Inventors: 李思敏; 胥世承; 范梦洁; 朱彤; 李林峰; 王尧
Original assignee: Yidu Cloud Beijing Technology Co Ltd
Current assignee: Yidu Cloud Beijing Technology Co Ltd
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2021-01-12
Anticipated expiration: 2040-07-20
Also published as: CN111564223A

Abstract

本公开属于数据处理技术领域，涉及一种传染病生存概率的预测方法、预测模型的训练方法及装置。该方法包括：获取待诊疗传染病患者的诊疗数据，并提取诊疗数据的多个数据特征；对多个数据特征进行编码处理得到特征向量，并根据数据特征在训练好的决策树模型集合中确定目标决策树模型；将特征向量输入至目标决策树模型中，以使目标决策树模型输出待诊疗传染病患者的生存概率。本公开解决了临床上因缺少数据特征无法准确预估的问题，丰富了预测传染病患者生存概率的应用场景，自动化且智能化的处理过程摒弃了不准确的人为预估，便于高效精准的对不同传染病患者采取针对性的救治措施，避免了由于漏查和错查带来的医疗资源浪费情况。

Description

传染病生存概率的预测方法、预测模型的训练方法及装置

技术领域

本公开涉及数据处理技术领域，尤其涉及一种传染病生存概率的预测方法、传染病生存概率的预测模型的训练方法与传染病生存概率的预测装置、计算机可读存储介质及电子设备。

背景技术

在现有的医疗大数据时代，通过对大量医疗数据的富集和处理使得数据价值实现最大化。与此同时，由于世界人口的高度密集和流通，导致传染性疾病传播更广，危害更大。传染病病情多变，且传染病患者死亡率较高，能够及时得到医疗资源进行救助对传染病患者来说极其重要。

由于传染病一般为新发疾病，往往只能基于临床医生的个人判断对传染病患者的医疗资源进行分配。但是，医生对传染病了解不足，并且医生的个人医学认知也存在千差万别，这就会由于完全依赖个人判断导致在估计传染病患者的生存概率时出现误判和漏判的情况，延误传染病患者的诊疗时机。

鉴于此，本领域亟需开发一种新的传染病生存概率的预测方法及装置。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种传染病生存概率的预测方法、传染病生存概率的预测模型的训练方法、传染病生存概率的预测装置、计算机可读存储介质及电子设备，进而至少在一定程度上克服由于相关技术的限制而导致的对传染病患者生存概率预估不准确的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一个方面，提供一种传染病生存概率的预测方法，所述方法包括：获取待诊疗传染病患者的诊疗数据，并提取所述诊疗数据的多个数据特征；

对多个所述数据特征进行编码处理得到特征向量，并根据所述数据特征在训练好的决策树模型集合中确定目标决策树模型，所述决策树模型集合中包括多个决策树模型，每一决策树模型对应多个所述数据特征；

将所述特征向量输入至所述目标决策树模型中，以使所述目标决策树模型输出所述待诊疗传染病患者的生存概率。

在本公开的一种示例性实施例中，所述根据所述数据特征在训练好的决策树模型集合中确定目标决策树模型，包括：

获取训练好的决策树模型集合中的训练特征，并将所述数据特征与所述训练特征进行匹配；

根据匹配结果在所述训练好的决策树模型集合中确定目标决策树模型。

在本公开的一种示例性实施例中，所述将所述特征向量输入至所述目标决策树模型中，以使所述目标决策树模型输出所述待诊疗传染病患者的生存概率，包括：

所述目标决策树模型包括多个，将所述特征向量输入至多个所述目标决策树模型中，以使多个所述目标决策树模型输出多个预测概率；

计算所述多个预测概率的平均值得到所述待诊疗传染病患者的生存概率。

在本公开的一种示例性实施例中，所述诊疗数据，包括：基本信息、主诉数据、既往史数据和检查结果数据；

所述数据特征，包括：年龄特征、性别特征、症状特征、基础疾病特征以及检查结果数据。

在本公开的一种示例性实施例中，所述对多个所述数据特征进行编码处理得到特征向量，包括：

对所述症状特征和所述基础疾病特征进行独热编码，得到独热编码向量；

对所述年龄特征、所述性别特征、所述独热编码向量和所述检查结果数据进行拼接处理得到特征向量。

根据本公开的第二个方面，提供一种传染病生存概率的预测模型的训练方法，所述方法包括：获取传染病患者的诊疗数据样本以及与所述诊疗数据样本对应的所述传染病患者的状态样本，并提取所述诊疗数据样本的多个训练特征，其中，所述状态样本包括生存状态样本或者死亡状态样本；

将所述多个训练特征输入至待训练随机森林模型中，以使所述待训练随机森林模型输出所述多个训练特征的特征权重；

根据所述多个训练特征的特征权重确定多个目标训练特征，并根据所述多个目标训练特征以及所述多个目标训练特征对应的状态样本训练所述待训练随机森林模型得到训练好的随机森林模型；

确定所述随机森林模型中与所述多个目标训练特征对应的多个决策树模型，以根据所述多个决策树模型对待测诊疗数据进行预测。

在本公开的一种示例性实施例中，在所述确定所述随机森林模型中与所述多个目标训练特征对应的多个决策树模型之后，所述方法还包括：

将所述多个目标训练特征与所述多个决策树模型中的多个已使用训练特征进行比较；

当确定所述多个目标训练特征中任一训练特征在所述多个决策树模型中存在次数超过预设值，则采用所述多个目标训练特征中训练特征在所述多个决策树模型中所述存在次数未超过预设值的训练特征继续训练所述训练好的随机森林模型，以得到更新后的多个决策树模型。

在本公开的一种示例性实施例中，所述根据所述多个目标训练特征以及所述多个目标训练特征对应的状态样本训练所述待训练随机森林模型得到训练好的随机森林模型，包括：

将所述多个目标训练特征输入至待训练随机森林模型中，以使所述待训练随机森林模型输出所述传染病患者的预测状态；

若所述预测状态与所述状态样本不同，调整所述待训练随机森林模型的参数使所述预测状态与所述状态样本相同，以得到训练好的随机森林模型。

在本公开的一种示例性实施例中，所述根据所述多个训练特征的特征权重确定多个目标训练特征，包括：

对所述多个训练特征按照特征权重的大小进行排序得到排序结果；

根据所述排序结果确定所述多个训练特征中的多个目标训练特征。

根据本公开的第三个方面，提供一种传染病生存概率的预测装置，所述装置包括：数据获取模块，被配置为获取待诊疗传染病患者的诊疗数据，并提取所述诊疗数据的多个数据特征；

特征编码模块，被配置为对多个所述数据特征进行编码处理得到特征向量，并根据所述数据特征在训练好的决策树模型集合中确定目标决策树模型，所述决策树模型集合中包括多个决策树模型，每一决策树模型对应多个所述数据特征；

概率输出模块，被配置为将所述特征向量输入至所述目标决策树模型中，以使所述目标决策树模型输出所述待诊疗传染病患者的生存概率。

根据本公开的第四个方面，提供一种传染病生存概率的预测模型的训练装置，所述装置包括：特征提取模块，被配置为获取传染病患者的诊疗数据样本以及与所述诊疗数据样本对应的所述传染病患者的状态样本，并提取所述诊疗数据样本的多个训练特征，其中，所述状态样本包括生存状态样本或者死亡状态样本；

权重输出模块，被配置为将所述多个训练特征输入至待训练随机森林模型中，以使所述待训练随机森林模型输出所述多个训练特征的特征权重；

模型训练模块，被配置为根据所述多个训练特征的特征权重确定多个目标训练特征，并根据所述多个目标训练特征以及所述多个目标训练特征对应的状态样本训练所述待训练随机森林模型得到训练好的随机森林模型；

模型确定模块，被配置为确定所述随机森林模型中与所述多个目标训练特征对应的多个决策树模型，以根据所述多个决策树模型对待测诊疗数据进行预测。

根据本公开的第五个方面，提供一种电子设备，包括：处理器和存储器；其中，存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例的传染病生存概率的预测方法或者上述任意示例性实施例的传染病生存概率的预测模型的训练方法。

根据本公开的第六个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意示例性实施例中的传染病生存概率的预测方法或者上述任意示例性实施例的传染病生存概率的预测模型的训练方法。

由上述技术方案可知，本公开示例性实施例中的传染病生存概率的预测方法、传染病生存概率的预测模型的训练方法、传染病生存概率的预测装置、传染病生存概率的预测模型的训练装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

在本公开的示例性实施例提供的方法及装置中，通过获取到待诊疗传染病患者的诊疗数据可以确定目标决策树模型和对应的特征向量，以实现将特征向量输入目标决策树模型预估待诊疗传染病患者生存概率的功能。一方面，根据数据特征选取目标决策树模型进行生存概率的预测，解决了临床上因缺少数据特征无法准确预估的问题，丰富了预测传染病患者生存概率的应用场景；另一方面，自动化且智能化的处理过程摒弃了不准确的人为预估，便于高效精准的对不同生存概率的传染病患者采取针对性的救治措施，避免了由于漏查和错查带来的医疗资源浪费和错误使用的情况。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种传染病生存概率的预测方法的流程图；

图2示意性示出本公开示例性实施例中得到特征向量的方法的流程示意图；

图3示意性示出本公开示例性实施例中确定目标决策树模型的方法的流程示意图；

图4示意性示出本公开示例性实施例中输出待诊疗传染病患者的生存概率的方法的流程示意图；

图5示意性示出本公开示例性实施例中一种传染病生存概率的预测装置的结构示意图；

图6示意性示出本公开示例性实施例中一种传染病生存概率的预测模型的训练方法的流程图；

图7示意性示出本公开示例性实施例中确定多个目标训练特征的方法的流程示意图；

图8示意性示出本公开示例性实施例中训练随机森林模型的方法的流程示意图；

图9示意性示出本公开示例性实施例中更新多个随机森林模型的方法的流程示意图；

图10示意性示出本公开示例性实施例中一种传染病生存概率的预测模型的训练装置的结构示意图；

图11示意性示出本公开示例性实施例中一种用于实现传染病生存概率的预测方法的电子设备；

图12示意性示出本公开示例性实施例中一种用于实现传染病生存概率的预测方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

针对相关技术中存在的问题，本公开提出了一种传染病生存概率的预测方法。图1示出了传染病生存概率的预测方法的流程图，如图1所示，传染病生存概率的预测方法至少包括以下步骤：

步骤S110. 获取待诊疗传染病患者的诊疗数据，并提取诊疗数据的多个数据特征。

步骤S120. 对多个数据特征进行编码处理得到特征向量，并根据数据特征在训练好的决策树模型集合中确定目标决策树模型，决策树模型集合中包括多个决策树模型，每一决策树模型对应多个数据特征。

步骤S130. 将特征向量输入至目标决策树模型中，以使目标决策树模型输出待诊疗传染病患者的生存概率。

在本公开的示例性实施例中，通过获取到待诊疗传染病患者的诊疗数据可以确定目标决策树模型和对应的特征向量，以实现将特征向量输入目标决策树模型预估待诊疗传染病患者生存概率的功能。一方面，根据数据特征选取目标决策树模型进行生存概率的预测，解决了临床上因缺少数据特征无法准确预估的问题，丰富了预测传染病患者生存概率的应用场景；另一方面，自动化且智能化的处理过程摒弃了不准确的人为预估，便于高效精准的对不同生存概率的传染病患者采取针对性的救治措施，避免了由于漏查和错查带来的医疗资源浪费和错误使用的情况。

下面对传染病生存概率的预测方法的各个步骤进行详细说明。

在步骤S110中，获取待诊疗传染病患者的诊疗数据，并提取诊疗数据的多个数据特征。

在本公开的示例性实施例中，该诊疗数据可以是待诊疗传染病患者在医院做各项检查检验时得到的。对应的多个数据特征可以是从诊疗数据中提取得到的，并用来表征待诊疗传染病患者的生命体征等信息的。

在可选的实施例中，诊疗数据，包括：基本信息、主诉数据、既往史数据和检查结果数据；多个数据特征，包括：年龄特征、性别特征、症状特征、基础疾病特征以及检查结果数据。

其中，基本信息可以包括待诊疗传染病患者的姓名、性别、年龄、民族、婚姻、籍贯、职业、入院时间、记录时间、病史陈述者等；既往史数据可以包括既往体健、肝炎和结核等传染病病史及密切接触史、重大外商、手术史及输血史、药物过敏和预防接种情况等；检查结果数据可以包括痰/咽拭的核酸检查、血常规、尿常规、血气分析、肝肾功能、降钙素原、肌酸激酶、肌红蛋白、凝血及胸部电子计算机断层扫描（Computed Tomography，简称CT）等。这些检查指标可以从感染状态、血液系统状态、脏器功能多方面反映待诊疗传染病患者的身体机能，并在核酸检测假阴性时或肺炎早期影像学检查不明确时，供医疗人员诊断或鉴别。

值得说明的是，检查结果数据可以取待诊疗传染病患者在24小时以内最后一次检查的结果值。除此之外，也可以按照实际需求取其他检查结果数据，本示例性实施例对此不做特殊限定。

对于待诊疗传染病患者的每一次就诊都可以进行特征提取。具体的，在基本信息中可以提取年龄特征和性别特征；在主诉数据中可以提取症状特征；在既往史数据中可以提取基础疾病特征。

在步骤S120中，对多个数据特征进行编码处理得到特征向量，并根据数据特征在训练好的决策树模型集合中确定目标决策树模型，决策树模型集合中包括多个决策树模型，每一决策树模型对应多个数据特征。

在本公开的示例性实施例中，当获取到多个数据特征的离散值时，可以对离散值进行编码处理。

在可选的实施例中，图2示出了得到特征向量的方法的流程示意图，如图2所示，该方法至少包括以下步骤：在步骤S210中，对症状特征和基础疾病特征进行独热编码，得到独热编码向量。

独热编码即one-hot编码，可以将离散型特征的每一取值都看成一种状态，若某一个特征中有N个不相同的取值，就可以将该特征抽象成N中不同的状态。one-hot编码保证了每一个取值只会使得一种状态处于“激活态”，也就是说这N种状态中只有一个状态位值为1，其他状态为都是0。

由于症状特征和基础疾病特征是离散值的特征，因此可以对这两种特征进行独热编码得到对应的独热编码向量。

在步骤S220中，对年龄特征、性别特征、独热编码向量和检查结果数据进行拼接处理得到特征向量。

年龄特征、性别特征和检查结果数据这三种本身为数值型的特征，因此无需进行独热编码。具体的，可以直接取年龄特征的对应数值，性别特征可以通过男性为1，女性为0等方式进行规定，检查结果数据可以直接获取各项检查对应的检查数值即可。

进一步的，将年龄特征、性别特征、独热编码向量和检查结果数据进行拼接处理，为每个待诊疗传染病患者生成一个上百维的特征向量。

在本示例性实施例中，分别对多个数据特征进行对应处理生成待诊疗传染病患者的特征向量，编码方式简单可行，并且特征提取方式准确性极高。

在得到特征向量之后，可以根据数据特征在训练好的决策树模型集合中确定目标决策树模型，以进行后续生存概率的预测。

具体的，将特征向量输入至预先训练好的随机森林模型中，以使随机森林模型输出多个数据特征的多个权重。

在机器学习中，随机森林模型是利用多棵树对样本数据进行训练并预测的一种分类器，是一个包含多个决策树的分类器，决策树是通过一系列规则对数据进行分类的过程。在本示例性实施例中，为限制数据特征的数量，利用随机森林模型来实现特征的筛选。

将特征向量输入至训练好的随机森林模型中，随机森林模型可以根据数据特征出现在决策树中的个数输出数据特征对应的权重。举例而言，当特征向量输入至200个训练好的随机森林模型中时，可以统计到在其中100个随机森林模型中出现，因此该数据特征对应的权重即为100。

进一步的，当确定多个数据特征对应的多个权重之后，可以将多个权重按照从小到大或者从大到小的方式进行排序。进一步的，在排序后的权重中选择最大的多个权重。并且，将最大的多个权重对应的多个数据特征筛选出来作为目标数据特征，以此将其他数据特征剔除。

值得说明的是，该多个数据特征可以包括年龄特征、性别特征、症状特征、基础疾病特征以及检查结果数据。并且确定出的目标数据特征也为多个，以在减少模型过拟合且便于临床使用的情况下精准的确定目标决策树模型。

在可选的实施例中，图3示出了确定目标决策树模型的方法的流程示意图，如图3所示，该方法至少包括以下步骤：在步骤S310中，获取训练好的决策树模型集合中的训练特征，并将数据特征与训练特征进行匹配。

为应对真实临床场景中缺失某项检查结果数据的实际情况，可以在训练决策树模型的过程中对已在其他决策树模型中出现过两次的训练特征筛除，亦即不再使用这个训练特征构建新的决策树模型，利用其他训练特征构建新的决策树。这种方式训练出的决策树模型能够减少对少数重要训练特征的依赖，并且覆盖更多特征。

因此，在训练决策树模型集合时是利用不同的训练特征的，进一步的，可以获取到训练好的决策树模型集合中包含的训练特征。在获取到训练特征之后，可以将数据特征与训练特征进行匹配，以进一步确定出训练好的决策树模型集合中的目标决策树模型。

在步骤S320中，根据匹配结果在训练好的决策树模型集合中确定目标决策树模型。

当匹配结果为数据特征与一决策树模型中的训练特征匹配时，可以确定该决策树模型为目标决策树模型；当匹配结果为数据特征与一决策树模型中的训练特征不匹配时，确定该决策树模型不作为目标决策树模型，可以继续与决策树模型集合中的其他决策树模型进行匹配，以寻找对应的目标决策树模型。

在本示例性实施例中，根据实际数据特征与训练特征的匹配结果确定实际使用的目标决策树模型，能够精准匹配目标决策树模型，并解决了在临床中特征缺失的情况下无法预测生存概率的情况，丰富了生存概率预测的应用场景。

在步骤S130中，将特征向量输入至目标决策树模型中，以使目标决策树模型输出待诊疗传染病患者的生存概率。

在本公开的示例性实施例中，在确定目标决策树模型之后，可以进一步预测待诊疗传染病患者的生存概率。

值得说明的是，根据数据特征在训练好的决策树模型中确定的目标决策树可以有一个，也可以有多个。当只有一个目标决策树模型时，目标决策树模型可以根据输入的特征向量输出对应的一个预测概率，则该预测概率即为待诊疗传染病患者的生存概率。当确定出多个目标决策树模型时，可以根据图4所示的方法计算待诊疗传染病患者的生存概率。

在可选的实施例中，图4示出了输出待诊疗传染病患者的生存概率的方法的流程示意图，如图4所示，该方法至少包括以下步骤：在步骤S410中，目标决策树包括多个，将特征向量输入至多个目标决策树模型中，以使多个目标决策树模型输出多个预测概率。

为避免当遇到某个特征向量缺失的情况时，可以将特征向量输入至多个目标决策树模型中。当确定多个目标决策树模型时，多个目标决策树模型可以根据输入的特征向量分别输出对应的多个预测概率，并进行后续计算以确定待诊疗传染病患者的生存概率。

在步骤S420中，计算预测概率的平均值得到待诊疗传染病患者的生存概率。

当不包含缺失特征向量的目标决策树模型有多个时，多个目标决策树模型输出对应的多个预测概率时，可以进一步计算各个预测概率的平均值作为最终预测的待诊疗传染病患者的生存概率。

在本示例性实施例中，通过计算目标决策树模型的平均值得到待诊疗传染病患者的生存概率，计算方式准确，便于医生根据不同的生存概率对传染病患者采取不同的救治方式。针对生存概率较高的待诊疗传染病患者可以告知其风险较低，舒缓情绪；针对生存概率较低的待诊疗传染病患者，可以提示医生及时给予救治。

在本公开的示例性实施例中，通过获取到待诊疗传染病患者的诊疗数据可以确定目标决策树模型和对应的特征向量，以实现将特征向量输入目标决策树模型预估待诊疗传染病患者生存概率的功能。

一方面，根据数据特征选取目标决策树模型进行生存概率的预测，解决了临床上因缺少数据特征无法准确预估的问题，丰富了预测传染病患者生存概率的应用场景；另一方面，自动化且智能化的处理过程摒弃了不准确的人为预估，便于高效精准的对不同生存概率的传染病患者采取针对性的救治措施，避免了由于漏查和错查带来的医疗资源浪费和错误使用的情况。

此外，在本公开的示例性实施例中，还提供一种传染病生存概率的预测装置。图5示出了传染病生存概率的预测装置的结构示意图，如图5所示，传染病生存概率的预测装置500可以包括：数据获取模块510、特征编码模块520和概率输出模块530。其中：

数据获取模块510，被配置为获取待诊疗传染病患者的诊疗数据，并提取诊疗数据的多个数据特征；特征编码模块520，被配置为对多个数据特征进行编码处理得到特征向量，并根据数据特征在训练好的决策树模型集合中确定目标决策树模型，决策树模型集合中包括多个决策树模型，每一决策树模型对应多个数据特征；概率输出模块530，被配置为将特征向量输入至目标决策树模型中，以使目标决策树模型输出待诊疗传染病患者的生存概率。

上述传染病生存概率的预测装置500的具体细节已经在对应的传染病生存概率的预测方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了传染病生存概率的预测装置500的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

针对相关技术中存在的问题，本公开还提出一种传染病生存概率的预测模型的训练方法，图6示出了该传染病生存概率的预测模型的训练方法的流程示意图，如图6所示，该传染病生存概率的预测模型的训练方法至少包括以下步骤：

步骤S610. 获取传染病患者的诊疗数据样本以及与诊疗数据样本对应的传染病患者的状态样本，并提取诊疗数据样本的多个训练特征；其中，状态样本包括生存状态样本或者死亡状态样本；

步骤S620. 将多个训练特征输入至待训练随机森林模型中，以使待训练随机森林模型输出多个训练特征的特征权重；

步骤S630. 根据多个训练特征的特征权重确定多个目标训练特征，并根据多个目标训练特征以及多个目标训练特征对应的状态样本训练待训练随机森林模型得到训练好的随机森林模型；

步骤S640. 确定随机森林模型中与多个目标训练特征对应的多个决策树模型，以根据多个决策树模型对待测诊疗数据进行预测。

在本公开的示例性实施例中，利用已诊疗结束的传染病患者的诊疗数据样本训练对应的随机森林模型与决策树模型。一方面，减少了临床数据缺失对模型构建的影响；另一方面，训练方法简单且速度快，训练过程易于掌握，为传染病患者的生存概率预测打下了夯实的基础。

下面对该传染病生存概率的预测模型的训练方法的各个步骤进行详细说明。

在步骤S610中，获取传染病患者的诊疗数据样本以及与诊疗数据样本对应的传染病患者的状态样本，并提取诊疗数据样本的多个训练特征；其中，状态样本包括生存状态样本或者死亡状态样本。

在本公开的一种示例性实施例中，传染病患者可以是已经健康出院或者是在院死亡的传染病患者，因此，状态样本包括生存状态样本或者死亡状态样本。诊疗数据样本可以是基本信息样本、主诉数据样本、既往史数据样本和检查结果数据样本。

其中，基本信息样本可以包括传染病患者的姓名、性别、年龄、民族、婚姻、籍贯、职业、入院时间、记录时间、病史陈述者等；既往史数据样本可以包括既往体健、肝炎和结核等传染病病史及密切接触史、重大外商、手术史及输血史、药物过敏和预防接种情况等；检查结果数据样本可以包括痰/咽拭的核酸检查、血常规、尿常规、血气分析、肝肾功能、降钙素原、肌酸激酶、肌红蛋白、凝血及胸部电子计算机断层扫描（Computed Tomography，简称CT）等。这些检查指标可以从感染状态、血液系统状态、脏器功能多方面反映传染病患者的身体机能，并在核酸检测假阴性时或肺炎早期影像学检查不明确时，供医疗人员诊断或鉴别。

值得说明的是，检查结果数据可以取待诊疗传染病患者在24小时以内最后一次的结果值。除此之外，也可以按照实际需求取其他检查结果数据，本示例性实施例对此不做特殊限定。

对于传染病患者的每一次就诊都可以进行特征提取得到对应的所有训练特征。具体的，在基本信息样本中可以提取年龄特征样本和性别特征样本；在主诉数据中可以提取症状特征样本；在既往史数据中可以提取基础疾病特征样本。

值得说明的是，症状特征样本可以是选取的最为高频的症状特征样本，基础疾病特征样本也可以是选取的最为高频的基础疾病特征样本。

在获取到诊疗数据样本之后，可以对诊疗数据样本打上标签。具体的，与所述诊疗数据样本对应的传染病患者的状态样本可以有正样本和负样本两种。举例而言，在院死亡的状态样本为正样本，健康出院的状态样本为负样本。除此之外，也可以有其他打标签的方式，本示例性实施例对此不作特殊限定。

进一步的，还可以对提取到的所有训练特征进行编码处理，该编码处理方式与图2所示的编码方式一样，在此不再赘述。

在步骤S620中，将多个训练特征输入至待训练随机森林模型中，以使待训练随机森林模型输出多个训练特征的特征权重。

在本公开的一种示例性实施例中，将传染病患者的所有训练特征输入至待训练随机森林模型中，该待训练随机森林模型会一一输出训练特征对应的特征权重。

在步骤S630中，根据多个训练特征的特征权重确定多个目标训练特征，并根据多个目标训练特征以及多个目标训练特征对应的状态样本训练待训练随机森林模型得到训练好的随机森林模型。

在本公开的一种示例性实施例中，根据特征权重可以筛选出多个训练特征中的目标训练特征。

在可选的实施例中，图7示出了确定多个目标训练特征的方法的流程示意图，如图7所示，该方法至少包括以下步骤：在步骤S710中，对多个训练特征按照特征权重的大小进行排序得到排序结果。

在得到所有特征权重之后，可以按照特征权重的从小到大或者从大到小的方式对多个训练特征进行排序。除此之外，还可以按照其他方式进行排序，本示例性实施例对此不做特殊限定。

在步骤S720中，根据排序结果确定多个训练特征中的多个目标训练特征。

进一步的，在排序后的多个特征权重中选择最大的部分训练特征保留下来作为目标训练特征，并将其他训练特征删除。

在本示例性实施例中，根据排序结果在多个训练特征中确定目标训练特征，可以精准利用特征构建临床上方便使用的预测模型，并且减少预测模型的过拟合。

在确定目标训练特征之后，可以根据多个目标训练特征以及多个目标训练特征对应的状态样本训练随机森林模型。

在可选的实施例中，图8示出了训练随机森林模型的方法的流程示意图，如图8所示，该方法至少包括以下步骤：在步骤S810中，将多个目标训练特征输入至待训练随机森林模型中，以使待训练随机森林模型输出传染病患者的预测状态。

待训练随机森林模型是利用多个目标训练特征与对应的状态样本进行训练的。因此，可以将多个目标训练特征输入至待训练随机森林模型中，得到待训练随机森林模型输出的传染病患者的预测状态。与状态样本对应的，该预测状态可以包括生存状态和死亡状态两种。

在步骤S820中，若预测状态与状态样本不同，调整待训练随机森林模型的参数使预测状态与状态样本相同，以得到训练好的随机森林模型。

在得到预测状态之后，可以将预测状态与对应的状态样本进行比较。若预测状态为生存状态，而状态样本为死亡状态样本，或者预测状态为死亡状态，而状态样本为生存状态样本时，可以确定预测状态与状态样本不同，表明该待训练随机森林模型未训练完成。因此，可以调整待训练随机森林模型的参数继续进行训练，以使预测状态与状态样本相同，此时可以得到训练好的随机森林模型。

在本示例性实施例中，根据多个目标训练特征与对应的状态样本可以训练得到随机森林模型，训练方式简单准确，为后续预测传染病生存概率提供了基础。

在步骤S640中，确定随机森林模型中与多个目标训练特征对应的多个决策树模型，以根据多个决策树模型对待测诊疗数据进行预测。

在本公开的一种示例性实施例中，在训练好的随机森林模型的子集中可以确定出多个决策树模型。此时，该多个决策树模型可以是随机森林模型中的全部决策树模型。

进一步的，在训练过程中该多个决策树模型中会不断利用多个目标训练特征进行训练。因此，多个决策树模型中已训练好的决策树模型中会包含多个已使用训练特征，可以将多个目标训练特征与多个决策树模型中的多个已使用训练特征进行比较，以根据比较结果对多个决策树模型的更新。

在可选的实施例中，图9示出了更新多个决策树模型的方法的流程示意图，如图9所示，该方法至少包括以下步骤：在步骤S910中，将多个目标训练特征与多个决策树模型中的多个已使用训练特征进行比较。

其中，该多个已使用训练特征可以是已经在多个决策树模型中出现过的训练特征。为减少构建出的决策树模型对少数重要特征的依赖，并覆盖更多的特征，因此可以将多个目标训练特征与多个已使用训练特征进行比较，以根据比较结果确定用来继续训练随机森林模型的训练特征。

在步骤S920中，当确定多个目标训练特征中任一训练特征在多个决策树模型中存在次数超过预设值，则采用多个目标训练特征中训练特征在多个决策树模型中存在次数未超过预设值的训练特征继续训练训练好的随机森林模型，以得到更新后的多个决策树模型。

其中，该预设值可以是2，也可以根据实际情况设定其他数值，本示例性实施例对此不做特殊限定。

具体的，当比较结果是在多个目标训练特征中已出现某个已使用训练特征2次，可以选择不再使用该已使用特征后续训练随机森林模型。因此，可以剔除多个目标训练特征中的已使用训练特征得到待使用训练特征，亦即该待使用训练特征可以是在多个决策树模型中存在次数未超过2次的训练特征。

进一步的，利用待使用训练特征继续训练训练好的随机森林模型，以得到更新后的多个决策树模型。具体的训练方式与图8相同，在此不再赘述。

在本示例性实施例中，给出了一种决策树模型更新的方式，训练方法简单可行，并且效率较高，实用性极强。

在对随机森林模型继续训练得到更新后的多个决策树模型之后，可以利用该多个决策树模型对后续的待测诊疗数据进行预测，得到传染病患者的生存概率。具体地，采用该预测模型进行预测时，可以采用前面本发明实施例提供的传染病生存概率的预测方法的方式，相同之处不再赘述。

进一步的，为评价训练好的决策树模型的效果，可以将获取到的诊疗数据样本以及与所述诊疗数据样本对应的传染病患者的状态样本分为训练集、开发集和测试集。举例而言，具体的分配比例可以是8:1:1，也可以有其他分配比例，本示例性实施例对此不作特殊限定。

在分配训练集、开发集和测试集之后，可以利用训练集训练决策树模型，利用开发集优化决策树模型，并在测试集上评价决策树模型的效果。并且，该决策树模型可以后续结合新的诊疗结束的传染病患者的数据不断迭代优化。

在开发集上查看模型表现时，可以通过查看曲线下与坐标轴围成的面积（AreaUnder Curve，简称AUC）。当AUC指标越大时，表明决策树模型的训练效果越好；当AUC指标越小时，表明决策树模型的训练效果越差。因此，AUC指标可以直观的反映决策树模型的训练效果。除此之外，也可以使用其他参数查询决策树模型的训练效果，本示例性实施例对此不做特殊限定。

此外，在本公开的示例性实施例中，还提供一种传染病生存概率的预测模型的训练装置。图10示出了传染病生存概率的预测模型的训练装置的结构示意图，如图10所示，传染病生存概率的预测模型的训练装置1000可以包括：特征提取模块1010、权重输出模块1020、模型训练模块1030和模型确定模块1040。其中：

特征提取模块1010，被配置为获取传染病患者的诊疗数据样本以及与诊疗数据样本对应的传染病患者的状态样本，并提取诊疗数据样本的多个训练特征，其中，状态样本包括生存状态样本或者死亡状态样本；

权重输出模块1020，被配置为将多个训练特征输入至待训练随机森林模型中，以使待训练随机森林模型输出多个训练特征的特征权重；

模型训练模块1030，被配置为根据多个训练特征的特征权重确定多个目标训练特征，并根据多个目标训练特征以及多个目标训练特征对应的状态样本训练待训练随机森林模型得到训练好的随机森林模型；

模型确定模块1040，被配置为确定随机森林模型中与多个目标训练特征对应的多个决策树模型，以根据多个决策树模型对待测诊疗数据进行预测。

上述传染病生存概率的预测模型的训练装置1000的具体细节已经在对应的传染病生存概率的预测模型的训练方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了传染病生存概率的预测模型的训练装置1000的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

下面参照图11来描述根据本发明的这种实施例的电子设备1100。图11显示的电子设备1100仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，电子设备1100以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于：上述至少一个处理单元1110、上述至少一个存储单元1120、连接不同系统组件（包括存储单元1120和处理单元1110）的总线1130、显示单元1140。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1110执行，使得所述处理单元1110执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

存储单元1120可以包括易失性存储单元形式的可读介质，例如随机存取存储单元（RAM）1121和/或高速缓存存储单元1122，还可以进一步包括只读存储单元（ROM）1123。

存储单元1120还可以包括具有一组（至少一个）程序模块1125的程序/实用工具1124，这样的程序模块1125包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1130可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1100也可以与一个或多个外部设备1300（例如键盘、指向设备、蓝牙设备等）通信，还可与一个或者多个使得用户能与该电子设备1100交互的设备通信，和/或与使得该电子设备1100能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口1150进行。并且，电子设备1100还可以通过网络适配器1160与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器1160通过总线1130与电子设备1100的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、终端装置、或者网络设备等）执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

参考图12所示，描述了根据本发明的实施例的用于实现上述方法的程序产品1200，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种传染病生存概率的预测方法，其特征在于，所述方法包括：

获取待诊疗传染病患者的诊疗数据，并提取所述诊疗数据的多个数据特征；

对多个所述数据特征进编码处理得到特征向量，并将所述数据特征与训练好的决策树模型集合中的训练特征进行匹配，根据匹配结果在训练好的决策树模型集合中确定目标决策树模型，所述决策树模型集合中包括多个决策树模型，每一决策树模型对应多个所述数据特征；

将所述特征向量输入至所述目标决策树模型中，以使所述目标决策树模型输出所述待诊疗传染病患者的生存概率；

其中，多个决策树模型是通过如下方式训练得到的：

获取传染病患者的诊疗数据样本以及与所述诊疗数据样本对应的所述传染病患者的状态样本，并提取所述诊疗数据样本的多个训练特征，其中，所述状态样本包括生存状态样本或者死亡状态样本；

确定所述随机森林模型中与多个目标训练特征对应的多个决策树模型；

将所述多个目标训练特征与所述多个决策树模型中的多个已使用训练特征进行比较，并根据比较结果更新所述多个决策树模型。

2.根据权利要求1所述的传染病生存概率的预测方法，其特征在于，所述将所述特征向量输入至所述目标决策树模型中，以使所述目标决策树模型输出所述待诊疗传染病患者的生存概率，包括：

3.根据权利要求1所述的传染病生存概率的预测方法，其特征在于，所述诊疗数据，包括：基本信息、主诉数据、既往史数据和检查结果数据；

4.根据权利要求3所述的传染病生存概率的预测方法，其特征在于，所述对多个所述数据特征进行编码处理得到特征向量，包括：

5.一种传染病生存概率的预测模型训练方法，其特征在于，所述方法包括：

将所述多个数据特征与所述多个决策树模型中的目标训练特征进行匹配，并根据匹配结果在训练好的多个决策树模型中确定目标决策树模型，以根据多个目标决策树模型对所述诊疗数据进行预测；

其中，在确定所述随机森林模型中与多个目标训练特征对应的多个决策树模型之后，该方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述并根据比较结果更新所述多个决策树模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述多个目标训练特征以及所述多个目标训练特征对应的状态样本训练所述待训练随机森林模型得到训练好的随机森林模型，包括：

将所述多个目标训练特征输入至所述待训练随机森林模型中，以使所述待训练随机森林模型输出所述传染病患者的预测状态；

8.根据权利要求5所述的方法，其特征在于，所述根据所述多个训练特征的特征权重确定多个目标训练特征，包括：

9.一种传染病生存概率的预测装置，其特征在于，包括：

数据获取模块，被配置为获取待诊疗传染病患者的诊疗数据，并提取所述诊疗数据的多个数据特征；

特征编码模块，被配置为对所述多个数据特征进行编码处理得到特征向量，并将所述数据特征与训练好的决策树模型集合中的训练特征进行匹配，根据匹配结果在训练好的决策树模型集合中确定目标决策树模型，所述决策树模型集合中包括多个决策树模型，每一决策树模型对应多个所述数据特征；

概率输出模块，被配置为将所述特征向量输入至所述目标决策树模型中，以使所述目标决策树模型输出所述待诊疗传染病患者的生存概率；

其中，所述特征编码模块中的多个决策树模型是通过如下方式训练得到的：

10.根据权利要求9所述的装置，其特征在于，所述概率输出模块具体用于：

11.根据权利要求9所述的装置，所述诊疗数据，包括：基本信息、主诉数据、既往史数据和检查结果数据；

12.根据权利要求9所述的装置，所述特征编码模块对多个所述数据特征进行编码处理得到特征向量，具体用于：

对症状特征和基础疾病特征进行独热编码，得到独热编码向量；

对年龄特征、性别特征、独热编码向量和检查数据结果进行拼接处理得到特征向量。

13.一种传染病生存概率的预测模型训练装置，其特征在于，包括：

特征提取模块，被配置为获取传染病患者的诊疗数据样本以及与所述诊疗数据样本对应的所述传染病患者的状态样本，并提取所述诊疗数据样本的多个训练特征，其中，所述状态样本包括生存状态样本或者死亡状态样本；

模型确定模块，被配置为确定所述随机森林模型中与多个目标训练特征对应的多个决策树模型；

目标决策树模型确定模块，被配置为获取待诊疗传染病患者的诊疗数据，并提取所述诊疗数据的多个数据特征；将所述数据特征与所述多个决策树模型中的目标训练特征进行匹配，根据匹配结果在训练好的多个决策树模型中确定目标决策树模型，以根据多个目标决策树模型对所述诊疗数据进行预测；

模型更新模块，被配置为在确定所述随机森林模型中与多个目标训练特征对应的多个决策树模型之后，将所述多个目标训练特征与所述多个决策树模型中的多个已使用训练特征进行比较，并根据比较结果更新所述多个决策树模型。

14.根据权利要求13所述的装置，其特征在于，所述模型更新模块根据比较结果更新所述多个决策树模型，具体用于：

15.根据权利要求13所述的装置，其特征在于，所述模型训练模块根据所述多个目标训练特征以及所述多个目标训练特征对应的状态样本训练所述待训练随机森林模型得到训练好的随机森林模型，具体用于：

16.根据权利要求13所述的装置，其特征在于，所述模型训练模块根据所述多个训练特征的特征权重确定多个目标训练特征，具体用于：

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被发送器执行时实现权利要求1-4中任意一项所述的传染病生存概率的预测方法或者权利要求5-8中任意一项所述的传染病生存概率的预测模型训练方法。

18.一种电子设备，其特征在于，包括：

发送器；

存储器，用于存储所述发送器的可执行指令；

其中，所述发送器被配置为经由执行所述可执行指令来执行权利要求1-4中任意一项所述的传染病生存概率的预测方法或权利要求5-8中任意一项所述的传染病生存概率的预测模型训练方法。