CN115620902A

CN115620902A - 预测生存风险率的方法及装置

Info

Publication number: CN115620902A
Application number: CN202210028933.6A
Authority: CN
Inventors: 乔楠; 林歆远; 徐迟
Original assignee: Huawei Cloud Computing Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2021-07-15
Filing date: 2022-01-11
Publication date: 2023-01-17
Also published as: WO2023284321A1

Abstract

本申请公开了一种预测生存风险率(hazard ratio，HR)的方法及装置，涉及人工智能技术领域。该方法包括：获取待预测样本的数据。将待预测样本的数据输入至预设模型，通过预设模型对待预测样本的数据进行处理，得到用于表示该待预测样本的生存风险的生存风险率HR。其中，该预设模型包括门控网络和多个专家网络，该门控网络用于根据待预测样本的数据确定每个专家网络对应的权重系数，生存风险率为根据每个专家网络对应的权重系数对多个专家网络的输出值加权求和获得的结果。

Description

预测生存风险率的方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种预测生存风险率(hazard ratio，HR)的方法及装置。

背景技术

生存分析(survival analysis)，指的是一系列用来探究目标事件发生的时间的统计方法。例如，癌症患者的存活时间分析。又例如，设备的失效时间分析，等等。

通常，在对目标事件进行生存分析时，可以基于预先调查或实验得到的数据建立分析模型，该分析模型即可用于根据影响目标事件发生的一个或多个特征变量，预测该一个或多个特征变量对目标事件的生存曲线的影响，以实现对目标事件的生存分析。示例性的，可以通过建立cox比例风险回归模型(Cox proportional hazards model，coxPH)，并将影响目标事件发生的一个或多个特征变量输入该模型，即可预测到该目标事件在不同时间发生的风险。应理解，目标事件在不同时间发生的风险可以反映观测事件的生存曲线。这里，观测事件的结局事件即为该目标事件。其中，coxPH模型可以表示为公式(1)：

公式(1)h(t)＝h₀(t)×exp(b₁x₁+b₂x₂+…+b_px_p)

这里，t为生存时间，h(t)即为目标事件的风险函数，表示在生存时间为t时刻时目标事件的死亡风险。h₀(t)表示基准风险函数，基准风险函数通常是预先通过大量样本的生存曲线确定得到的。x₁、x₂、…x_p表示p个协变量，即影响待预测的目标事件的特征变量，b₁、b₂、…b_p表示每个协变量的回归系数。可以看出，coxPH模型为线性模型，即coxPH模型仅可用于分析输入特征和学习目标(即目标事件的发生风险)之间呈线性关系的数据。

然而，在实际应用中，影响目标事件发生的特征变量对目标事件的发生的影响往往都是非线性的，即影响目标事件的特征变量和目标事件的发生之间的关系通常都是非线性的关系。因此，线性模型coxPH无法准确的对该目标事件进行生存分析。基于此，如何提高生存分析的准确率，是现有技术中亟待解决的技术问题。

发明内容

本申请提供了一种预测生存风险率的方法及装置，可以提高生存分析的准确率。

为达上述目的，本申请提供如下技术方案：

第一方面，本申请提供了一种预测生存风险率的方法，该方法包括：获取待预测样本的数据。将待预测样本的数据输入至预设模型，通过预设模型对待预测样本的数据进行处理，得到用于表示该待预测样本的生存风险的生存风险率HR。其中，预设模型包括门控网络和多个专家网络，该门控网络用于根据待预测样本的数据确定每个专家网络对应的权重系数，预设模型输出的生存风险率为根据每个专家网络对应的权重系数对多个专家网络的输出值加权求和获得的结果。

通过本申请提供的方法，由于预设模型中包括有多个专家网络和用于确定专家网络权重系数的门控网络，使得该预设模型可以根据待预测样本的数据对多个专家网络的输出结果进行集成，因此，通过该预设模型预测到的生存风险率的准确度更高，进而基于生存风险率所确定的生存曲线的准确度也更高。并且，该预设模型可以基于端到端的训练方法训练得到。

在一种可能的设计方式中，上述方法还包括：基于上述生存风险率和基准风险函数，确定待预测样本的风险函数，风险函数用于指示待预测样本在不同时间的生存率。

其中，该生存风险率即为上述预测模型对待预测样本处理后，预测到的待预测样本的生存风险率。这样，通过该可能的设计方式，即实现了对待预测样本的生存分析。由于通过本申请提供的方法预测到的待预测样本的生存风险率的准确度高，因此，基于本申请提供方法预测到的待预测样本的生存风险率确定出的、用于指示待预测样本在不同时间的生存率的风险函数的准确度也比较高。

在另一种可能的设计方式中，上述预设模型中的多个专家网络中的任一个专家网络包括至少一个候选残差全连接神经网络RFCN，任一个专家网络的输出值是至少一个候选RFCN的输出值中满足预设条件的输出值。

在该可能的设计方式中，通过将一个专家网络中多个候选RFCN的结果中满足预设条件的候选RFCN的学习结果作为该专家网络的输出结果，可以体现出择优思想，从而可以提高对待预测样本的预测准确率。

在另一种可能的设计方式中，上述待预测样本的数据包括非欧几里德类型的数据。

其中，非欧数据是排列不整齐、排列没有规律的数据。实际应用中，非欧数据的数量庞大，且结构复杂。通常，待预测样本的数据中的非欧数据和待预测样本的生存率之间的关系是非线性的关系，通过该可能的设计，本申请实施例提供的方法可以实现包括非欧数据的待预测样本的数据进行处理分析。

在另一种可能的设计方式中，上述方法还包括：基于上述待预测样本的数据和待预测样本的生存风险率，对预设模型进行解释，以获得待预测样本的数据中不同特征数据对生存风险率的影响。

在另一种可能的设计方式中，当上述待预测样本的数据是患者的病例数据，则上述基于待预测样本的数据和待预测样本的生存风险率，对预设模型进行解释，以获得待预测样本的数据中不同特征数据对生存风险率的影响，包括：基于患者的病例数据和患者的生存风险率，对预设模型进行解释，以获得患者的病例数据中不同特征数据对患者的生存风险率的影响。

在另一种可能的设计方式中，当上述待预测样本是设备的数据，则上述基于待预测样本的数据和待预测样本的生存风险率，对预设模型进行解释，以获得待预测样本的数据中不同特征数据对生存风险率的影响，包括：基于设备的数据和设备的生存风险率，对预设模型进行解释，以获得设备的数据中不同特征数据对设备的生存风险率的影响。

通过该几种可能的设计方式，基于本申请所提供方法所获得的待预测样本的数据中不同特征数据对生存风险率的影响，领域专家可以基于不同特征对样本生存风险率的影响高低来指导实践。例如，对于患者而言，临床医生可以基于该患者的病例数据中的不同治疗数据对患者生存风险率的影响，调整该患者的临床治疗方案。再例如，对于设备而言，工程师可以基于设备的不同特征数据对设备生存风险率的影响，对设备进行改良优化。

在另一种可能的设计方式中，上述方法还包括：利用训练样本的数据对初始模型进行训练，得到预设模型。其中，初始模型包括初始门控网络和多个初始专家网络。

在另一种可能的设计方式中，上述利用训练样本的数据对初始模型进行训练，包括：将训练样本的数据输入初始模型中的初始门控网络和多个初始专家网络。根据该初始门控网络得到每个初始专家网络的权重系数，并根据每个初始专家网络对应的权重系数对多个初始专家网络的输出值加权求和，得到训练样本的预测生存风险率。基于训练样本的预测生存风险率和训练样本的生存数据确定损失函数。基于损失函数调节初始门控网络和多个初始专家网络的网络参数。

其中，训练样本的生存数据，包括观测该训练样本的时间，以及在该时间，该训练样本的存活状态。这里，观测该训练样本的时间，可以是该训练样本的生存时间，也可以是该训练样本的起始事件发生后、且结局事件发生之前的任意时间。这里，训练样本的起始事件及结局事件，与该训练样本训练得到的预设模型的应用场景相关。例如，当预设模型预测的生存风险率用于研究抗癌药物的疗效时，则训练样本的起始事件可以是患者开始服用抗癌药物，结局事件可以是患者死亡。或者，当预设模型预测的生存风险率用于研究患者术后的生存率，则训练样本的起始事件可以是患者实施手术，结局事件可以是患者死亡。或者，当预设模型预测的生存风险率用于研究设备的寿命，则训练样本的起始事件可以是设备/零件的出厂，结局事件可以是设备失效，等等。训练样本的存活状态，包括训练样本的存活和死亡两种状态。这样，通过该两种可能的设计，可以通过端到端的方式训练得到本申请所提供预测生存风险率时用到的预设模型。

第二方面，本申请提供了一种预测生存风险率的装置。

在一种可能的设计方式中，该预测生存风险率的装置用于执行上述第一方面提供的任一种方法。本申请可以根据上述第一方面提供的任一种方法，对该预测生存风险率的装置进行功能模块的划分。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。示例性的，本申请可以按照功能将该预测生存风险率的装置划分为获取单元和处理单元等。上述划分的各个功能模块执行的可能的技术方案和有益效果的描述均可以参考上述第一方面或其相应的可能的设计提供的技术方案，此处不再赘述。

在另一种可能的设计中，该预测生存风险率的装置包括：一个或多个处理器和传输接口，该一个或多个处理器通过该传输接口接收或发送数据，该一个或多个处理器被配置为调用存储在存储器中的程序指令，以使得预测生存风险率的装置执行如第一方面及其任一种可能的设计方式提供的任一种方法。

第三方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质包括程序指令，当程序指令在计算机或处理器上运行时，使得计算机或处理器执行第一方面中的任一种可能的实现方式提供的任一种方法。

第四方面，本申请提供了一种计算机程序产品，当其在预测生存风险率的装置上运行时，使得第一方面中的任一种可能的实现方式提供的任一种方法被执行。

可以理解的是，上述提供的任一种预测生存风险率的装置、计算机存储介质或计算机程序产品等均可以应用于上文所提供的对应的方法，因此，其所能达到的有益效果可参考对应的方法中的有益效果，此处不再赘述。

在本申请中，上述预测生存风险率的装置的名字对设备或功能模块本身不构成限定，在实际实现中，这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本申请类似，属于本申请权利要求及其等同技术的范围之内。

附图说明

图1为一种生存曲线的示意图；

图2为本申请实施例提供的一种预测装置的结构示意图；

图3为本申请实施例提供的预设模型的训练方法的流程示意图；

图4为本申请实施例提供的一种初始模型的结构示意图；

图5为本申请实施例提供的一种专家网络的结构示意图；

图6为本申请实施例提供的一种预测生存风险率的方法的流程示意图；

图7为本申请实施例提供的一种对预设模型进行解释的方法示意图；

图8为本申请实施例提供的一种预设模型将样本集中的样本分组后，各组样本的生存曲线的示意图；

图9为基于本申请实施例提供的方法和现有方法对医院A的样本训练得到模型进行内部验证和外部验证后的指示模型一致性的柱状结果图；

图10为本申请实施例提供的一种预测生存风险率的装置的结构示意图；

图11为本申请实施例提供的一种用于承载计算机程序产品的信号承载介质的结构示意图。

具体实施方式

为了更清楚的理解本申请实施例，下面对本申请实施例中涉及的部分术语或技术进行说明：

1)、生存曲线

生存曲线是指观测样本的存活率(或称为生存率)随时间变化的曲线。其中，相对于死亡而言，生存可以指生物的存活。相对于疾病复发或恶化而言，生存可以是指患者的病情处于缓解状态。相对于设备/系统/零件的失效(或故障)，生存可以是设备/系统/零件的正常工作。相对于客户的流失，生存可以指客户依旧正常维护。

在实际应用中，可以用生存曲线反映疾病治愈后的复发情况，或者用生存曲线反映设备/零件从出厂开始的失效情况等。

以观测样本的数量为1000，观测时间以天为单位为例，参考图1，图1示出了一种生存曲线的示意图。如图1所示，横轴可以表示观测时间，纵轴可以表示观测样本的生存率。则1000个样本的生存率随时间变化的曲线可以是图1所示的生存曲线10。可以看出，在第一天，1000个样本的生存率为90％。在第二天，样本的生存率下降45％，即以第一天存活的样本为基数，第二天样本的生存率为50％。在第三天，样本的生存率下降20％，即以第二天存活的样本为基数，第三天样本的生存率为45％，等等。

另外，对于一个样本而言，该样本的生存曲线为该样本生存概率随时间变化的曲线。

例如患者在术后的第一天，其生存概率是0.3。在术后的第二天，其生存概率0.5。在术后的第三天，其生存概率是0.8，等等。

2)、生存时间

生存时间是指从观测目标的起点事件到结局事件发生时所经历的时间。其中，该观测目标的结局事件即为上文所述的目标事件。

例如，如果观测目标是患者术后的存活情况，则该观测目标的起点事件可以是对患者实施手术，该观测目标的结局事件可以是患者死亡。这种情况下，对患者进行手术到患者死亡的这一段时间，即可称为该患者术后的生存时间。

又例如，如果观测目标是设备/零件的使用寿命，则该观测目标的起点事件可以是对设备/零件生产完成，该观测目标的结局事件可以是设备/零件失效。这种情况下，设备/零件生产完成到设备/零件失效的这一段时间，即可称为该设备/零件的生存时间。

3)生存风险率

生存风险率即为样本在单位时间内的死亡可能性。也即，样本的生存风险率用于表示样本的生存风险。

上文中公式1所表示的风险函数中，exp(b)即为生存风险率。应理解，样本生存的风险率越高，即该样本的死亡率高，也即该目标的生存率越低。

4)截断数据

截断数据也可以称为时间事件数据(time-to-event data)，是用于表示事件在某个时间是否发生的数据。

例如，术后的患者，在术后一年病情复发，则患者病情复发以及复发的时间，可以称为截断数据。

可以看出，截断数据包括两个维度上的数据，一个是时间维度，一个事件维度。在时间维度，截断数据包括连续的观察时间(time)。在事件维度，截断数据包括离散的事件状态。其中，事件状态包括两种状态，一种是事件发生的状态(即event＝1)，一种是事件未发生的状态(即event＝0)。

5)、生存分析

生存分析指的是一系列用来探究目标事件发生的时间的统计方法。例如探究目标事件在某一时间的发生概率。

在对目标事件进行生存分析时，通常可以通过根据实验(或调查)的多个已知样本中影响目标事件发生的特征数据和该多个已知样本的生存数据建立分析模型，并通过分析模型预测出待预测样本的发生目标事件的风险函数h(t)，该风险函数h(t)可以用于确定在不同时间，目标事件发生的风险。其中，生存数据一般是截断数据，例如是包括时间和该时间点是否发生目标事件的数据。应理解，这里所述的时间可以生存时间，也可以是任意的观测时间，对此不作限定。

生存分析的方法可以应用但不限于以下真实场景：

A、医疗健康方面：通过对疾病病程进行生存分析，实现疾病的预后分析。其中，预后是对于某种疾病发展过程和后果的预测。按照疾病发生或发展过程中是否接受治疗，预后可分为自然预后和治疗预后。

B、城市建设方面：通过对城轨设备进行生存分析，实现对城轨设备未来发生故障的风险率进行预测。或者，通过对城市供水网管道进行生存分析，实现对城市供水网管道爆管的风险率进行预测。等等。

C、金融服务方面：通过对消费者的消费分期进行生存分析，实现对消费分期违约的风险率进行预测。

6)、非欧几里德数据(non-euclidean space data)

非欧几里德数据也可以称为非欧数据，非欧数据是排列不整齐、排列没有规律的数据。在由非欧数据构成的样本中，数据的排列顺序或位置，不影响该样本的特性。

在实际中，许多领域都存在非欧数据。例如社会科学领域中的社交网络数据，通信技术领域中的传感器网络，基因组领域的调控网，或计算机图形中的网格曲面等。

可以理解，实际场景中的非欧数据的数据量非常庞大，且结构复杂。

7)残差网络(residual network，ResNet)和残差全连接网络(residual fully-connected neural network，RFCN)

ResNet是一种神经网络，ResNet中包括有跳跃连接或捷径连接，这些连接可以使网络层之间的数据传递跳过一些网络层，从而避免了深度神经网络中的网络退化现象和梯度消失现象，并能提高网络的训练速度，同时还可以使网络的层数变的很深。

应理解，层数很深的深度神经网络更有利于处理结构复杂的数据。

RFCN是一种以全连接层为基础单元，并引入跳跃连接或捷径连接的神经网络。

8)其他术语

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请的实施例中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

还应理解，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。术语“和/或”，是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中的字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

应理解，说明书通篇中提到的“一个实施例”、“一实施例”、“一种可能的实现方式”意味着与实施例或实现方式有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”、“一种可能的实现方式”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

当影响目标事件的特征变量和目标事件的发生之间的关系是非线性关系时，在实现对目标事件的生存分析时，在一种可能的实现方式中，可以通过多层感知机(multi-layer perception，MLP)建立深度生存分析(deepsurv)模型。然而MLP的前馈全连接神经网络忽视了网络之间的层次关系，并且过深的前馈全连接神经网络容易出现梯度消失的问题。这样，会导致深度生存分析模型的预测准确率不高。

在另一种可能的实现方式中，可以通过基于相同的样本集预先训练得到多个不同的弱模型(例如多个coxPH模型)，再将该多个弱模型进行集成融合，从而得到一个相比弱模型而言，准确率与泛化能力均更好的集成模型(例如coxPH集成模型)。然而，对模型进行集成融合的流程通常比较复杂，且通过这种获得集成模型的方式，不是端到端获得模型的方式。此外，由于集成模型包括多个弱模型，而该多个弱模型之间的差异会对该集成模型的解释造成一定影响。

基于此，本申请实施例提供一种预测生存风险率的方法，该方法可以基于预先训练得到的预设模型来预测待预测样本的生存风险率，该生存风险率即用于表示该待预测样本的生存风险，基于该风险率和基准风险函数，即可确定出反映待预测样本生存曲线的风险函数，从而实现了对待预测样本的生存分析。其中，待预测样本的生存风险率用于表示该待预测样本的生存风险。

上述预设模型包括门控网络和多个专家网络。其中，门控网络用于根据待预测样本获得每个专家网络对应的权重系数。而待预测样本的生存风险率即为根据预设模型中的每个专家网络对应的权重系数对上述多个专家网络输出值的加权求和获得的结果。

其中，本申请实施例提供的预设模型可以基于端到端的方法训练得到，并且该预设模型可以看作是多个专家网络根据门控网络产生的权重系数进行集成融合后的集成模型。因此，基于该预设模型预测得到的待预测样本的生存风险率的准确率较高，进而提高了基于该风险率对待预测样本进行生存分析的准确率。其中，该预设模型具体的训练方法可以参考下文描述，这里不作赘述。

此外，上述预设模型中的专家网络可以通过RFCN实现，这样，可以使得该预设模型可以基于具有非线性特性的非欧数据训练得到。由于现实场景中的非欧数据数量非常大，且结构复杂，因此，基于非欧数据训练得到的预设模型，具有更强的学习能力和较高的预测准确率。

本申请实施例还提供一种预测生存风险率的装置(以下简称预测装置)，该预测装置可以是任意具有计算能力的计算设备或者多个计算设备组成的计算设备集合。例如，该预测装置可以是笔记本电脑、台式计算机等计算设备，该预测装置也可以是服务器或者服务器集合等。

需要说明的是，该预测装置中可以预置有上述的预设模型。作为示例，该预设模型可以以应用程序的形式被存储在预测装置中。在另一些实施例中，该预测装置也可以不预置上述预测模型，例如：预测装置可以通过应用程序接口(application programminginterface，API)调用的方式调用部署在云上的所述预设模型。

参考图2，图2示出了本申请实施例提供的一种预测装置的结构示意图。如图2所示，预测装置20包括处理器21、主存储器(main memory)22、存储介质23、通信接口24以及总线25。处理器21、主存储器22、存储介质23以及通信接口24之间可以通过总线25连接。

处理器21是预测装置20控制中心，可以是一个通用中央处理单元(centralprocessing unit，CPU)，处理器21还可以是其他通用处理器、数字信号处理器(digitalsignal processing，DSP)、专用集成电路(application-specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件、图形处理器(graphics processingunit，GPU)、神经网络处理单元(neural processing unit，NPU)、张量处理器(tensorprocessing unit，TPU)或人工智能(artificial intelligent)芯片等。

作为一个示例，处理器21可以包括一个或多个CPU，例如图2中所示的CPU 0和CPU1。此外，本申请并不限定每个处理器中处理器核的个数。

主存储器22用于存储程序指令，处理器21可以通过执行主存储器22中的程序指令，以实现本申请实施例提供的预测生存风险率的方法。

在一种可能的实现方式中，主存储器22可以独立于处理器21存在。主存储器22可以通过总线25与处理器21相连接，用于存储数据、指令或者程序代码。处理器21调用并执行主存储器22中存储的指令或程序代码时，能够实现本申请实施例提供的预测生存风险率的方法。

在另一种可能的实现方式中，主存储器22也可以和处理器21集成在一起。

存储介质23可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。作为示例，存储介质23可以用于本申请实施例中的训练样本数据。

通信接口24，用于预测装置20与其他设备(如终端等)通过通信网络连接，所述通信网络可以是以太网，无线接入网(radio access network，RAN)，无线局域网(wirelesslocal area networks，WLAN)等。通信接口24可以包括用于接收数据的接收单元，以及用于发送数据的发送单元。

总线25，可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图2中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

需要指出的是，图2中示出的结构并不构成对预测装置20的限定，除图2所示部件之外，预测装置20可以包括比图2所示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

需要说明的是，当上述的预测装置是服务器时，本申请实施例还提供一种预测生存风险率的系统(以下简称预测系统)，该预测系统可以包括终端和服务器，终端和该服务器之间通过有线或无线的方式连接通信。其中，该服务器中预置有上文所述的预设模型。

其中，终端可以用于接收用户输入的待预测样本的数据，服务器可以用于从终端接收待预测样本的数据，并在对接收到的待预测样本的数据处理完成后，向终端返回预测结果。

可选的，终端可以是手机、笔记本电脑、台式计算机等终端设备，本申请实施例对此不作限定。

本申请实施例还提供一种预设模型的训练装置(以下简称训练装置)，该训练装置可以是任意具有计算能力的计算设备。该训练装置的硬件说明可以参考上述预测装置的硬件描述，这里不再赘述。

应理解，该训练装置可以和上述的预测装置是同一个设备，也可以是不同的设备，本申请实施例对此不作限定。

下面结合附图，对本申请实施例提供的方法予以详细说明。

下面，首先对本申请实施例提供的预设模型的训练方法予以说明。

参考图3，图3示出了本申请实施例提供的预设模型的训练方法的流程示意图。该方法可以由上文所述的训练装置执行。该方法可以包括：

S101、获取训练样本集。

这里，训练样本集中包括多个训练样本的数据和每个训练样本的生存数据。

例如，如果训练样本是患者，则训练样本的数据即可以为该患者的病例数据。再例如，如果训练样本是一台设备，则训练样本的数据即可以为该设备相关的任何数据，例如设备的属性数据，设备的生产数据，等等。

其中，每个训练样本的数据可以包括训练样本的多个特征的数据，且每个训练样本的数据中所包括的特征的数据可以包括非欧数据。可以理解，每个训练样本所包括的特征的数量，可以相同，也可以不同。

可选的，对于训练样本的任一个特征，训练样本集中包括该任一个特征的训练样本的数量大于第一阈值。本申请实施例对第一阈值的取值不作具体限定。这样，可以保证有足够数量的训练样本都包括该任一个特征，这样，在解释训练得到的预设模型时所确定的该任一个特征对该预设模型的贡献度更加准确。

表1示出了训练样本集的一个示例。如表1所示，该训练样本集包括n个训练样本的数据，该n个训练样本分别为训练样本1、训练样本2、训练样本3、…、以及训练样本n。每个训练样本包括m个特征的数据，该m个特征分别为特征1、特征2、特征3、…、以及特征m。其中，n和m均为正整数。

表1

	特征1	特征2	特征3	…	特征m
						训练样本1	0.74	0.31	0.20	…	0.58
训练样本2	0.08	0.34	0.20	…	0.12
						训练样本3	0.49	0.74	0.18	…	0.78
…	…	…	…	…	…
						训练样本n	0.78	0.84	0.56	…	0.62

应理解，训练样本中所包括的特征与该训练样本训练得到的预设模型的应用场景相关。

示例性的，如果预设模型应用于医院场景下的生存分析，则一个训练样本的特征数据可以包括：患者的基础数据(包括患者的年龄和身体质量指数(Body Mass Index，BMI)等)、患者的血检数据(包括患者的血常规数据、血细胞数据、肝功能数据及肾功能数据等)、患者的生命体征数据(包括患者的体温、脉搏、心率、血压、呼吸及血氧等)、或患者的治疗记录(包括药物治疗时的药物名、药物种类和药物剂量，以及血浆治疗、通氧治疗等)等数据中的多种数据。

再示例性的，如果预设模型应用于工业场景下零件质量的生存分析，则一个训练样本的特征数据可以包括：零件的材料数据、生产零件的工艺数据、零件的出厂时间等数据中的多种数据。

可以看出，一个训练样本中的特征的种类可以有上百种，并且这些特征的数据包括非欧数据。

此外，每个训练样本的生存数据，即作为预设模型训练过程中计算损失函数时的真实值(或称为标签值)。其中，每个训练样本包括唯一的生存数据，该生存数据为截断数据(即时间事件数据)。

示例性的，表2示出了一组生存数据。其中，生存数据1可以是表1中的训练样本1的生存数据，生存数据2可以是表1中的训练样本2的生存数据，生存数据3可以是表1中的训练样本3的生存数据，…，生存数据n可以是表1中的训练样本n的生存数据。

以生存数据1为例，生存数据1中包括训练样本1在第10天时，训练样本1的结局事件发生，即事件状态值为“True/1”。以生存数据2为例，生存数据2中包括训练样本1在第14天时，训练样本2的结局事件未发生，即事件状态值为“False/0”。不再赘述。

表2

	时间(time)/天	事件(event)
			生存数据1	10	True/(1)
生存数据2	14	False/(0)
			生存数据3	9	False/(0)
…	…	…
			生存数据n	20	True/(1)

可选的，训练装置可以从外接存储器件上获取到训练样本集。其中，该外接存储器件中预存有训练样本集。

可选的，训练装置也可以通过通信接口(例如图2所示的通信接口24)，从其他设备接收到训练样本集。其中，该其他设备中预存有训练样本集。

需要说明的是，训练装置获取的训练样本集，可以是预处理过的训练样本集，也可以是未进行预处理过的训练样本集。

当训练装置获取的训练样本集，是未进行预处理过的训练样本集，则训练装置可以在获取到训练样本集后，对该训练样本集进行预处理，本申请实施例在此对预处理的具体内容不作限定。

作为示例，对训练样本集的预处理，可以是删除训练样本集中异常的训练样本(例如该训练样本中的特征数量小于第一阈值)，可以是删除训练样本中异常的特征数据(例如某个病例样本中，患者的身高是10m)，可以是删除训练样本集里所有训练样本中缺失值大于第二阈值的特征(缺失值大于阈值的特征，是指训练样本集里大于第二阈值数量的训练样本都不包括的特征)，也可以是对特征数据进行归一的数据，等等，本申请实施例对此不作具体限定。

S102、通过训练样本集中的训练样本的数据对初始模型进行训练，得到预设模型。

具体的，训练装置可以基于获取到的训练样本集中的训练样本的数据，对初始模型进行迭代训练，从而得到预设模型。这里，初始模型可以是设计人员预先设计的模型，该初始模型被设计为用于预测样本的生存风险率的模型。

其中，该初始模型可以包括门控网络和多个专家网络。该门控网络例如可以是神经网络分类器，该专家网络例如可以是RFCN。

其中，在每一次对模型进行训练时，门控网络用于根据接收到的训练样本获得每个专家网络对应的权重系数。多个专家网络分别用于对该训练样本进行学习，以输出各自学习的结果。这样，多个专家网络学习的结果按照门控网络所获得的该多个专家网络的权重系数进行加权求和，即可得到当前模型的输出值(或称为输出结果)，该输出值即为当前模型对训练样本学习后得到的预测值，该预测值即为当前模型预测到的该训练样本的生存风险率。

具体的，门控网络可以通过对接收的训练样本进行类型学习，进而根据学习到的类型为每个专家网络分配对应的权重。这里，门控网络是一个通过对训练样本进行自主学习并对训练样本进行分类的网络，门控网络对训练样本进行分类后的类型数量，等于初始模型中所包括的专家网络的数量。

可以看出，在门控网络为每个专家网络分配对应的权重时，训练样本的一种类型，对应一个专家网络。

进一步的，门控网络所确定的多个专家网络的权重，可以通过预设函数进行归一处理，以得到多个专家网络对应的权重系数。其中，经归一处理的多个权重系数的和为1。

示例性的，门控网络所确定的多个专家网络的权重，可以通过softmax函数进行指数归一处理。这里，通过softmax函数对多个数据进行指数归一的过程不作详述。

这样，根据每个专家网络对应的权重系数对每个专家网络输出的结果加权相乘并求和(即加权和)，即可得到当前模型对接收到的训练样本学习后得到的预测值。这一过程可以通过下述公式(2)表示。其中，每个专家网络均用于对训练样本进行学习，并预测出该训练样本的生存风险率。

公式(2)

其中，x表示训练样本，N为专家网络的数量，i表示N个专家网络中的第i个专家网络。F(x)表示模型对训练样本x学习后输出的生存风险率(即预测值)。G(x)表示门控网络输出的N个专家网络的权重，τ表示温度系数，用于指示Softmax对多个权重进行指数归一时的归一结果的平滑度，通常是预先设定的。Softmax(G(x)，τ)_i表示对门控网络输出的权重G(x)进行指数归一处理后得到的第i个专家网络对应的权重系数，f_i(x)表示第i个专家网络对训练样本x学习处理后的结果。

作为示例，以用于对初始模型进行训练的训练样本集中包括两种类型的训练样本(例如包括男性训练样本和女性训练样本)为例，参考图4，图4示出了本申请实施例提供的一种初始模型的结构示意图。如图4所示，初始模型40包括门控网络41和2个专家网络，2个专家网络分别为专家网络421和专家网络422。

其中，初始模型40接收到输入的训练样本1后，专家网络421对训练样本1进行学习处理后得到结果1，专家网络422对训练样本1进行学习处理得到结果2。

门控网络41对训练样本1学习处理后，可以基于学习到的训练样本1的类型，为专家网络421输出权重1，以及为专家网络422输出权重2。然后，softmax函数对门控网络输出的两个权重进行指数归一，以得到专家网络421的权重系数1和专家网络422的权重系数2。

这样，初始模型将权重系数1和专家网络421输出的结果1相乘得到的结果，以及将权重系数2和专家网络422输出的结果2相乘得到的结果进行加和，即可得到该初始模型对训练样本1学习后输出的预测值，该预测值即为该初始模型对训练样本1学习后预测到的训练样本1的生存风险率。

需要说明的是，上述初始模型里多个专家网络中的任一个专家网络，可以包括至少一个候选RFCN。

当该任一个专家网络中包括1个候选RFCN时，则该候选RFCN对训练样本学习处理后输出的结果，即为该任一个专家网络对训练样本学习处理后输出的结果。

当该任一个专家网络中包括多个候选RFCN时，则该任一个专家网络中还包括评估模块，该评估模块用于对每个候选RFCN对训练样本学习后得到的结果进行评估，并将满足预设条件的结果作为该任一个专家网络的输出结果。其中，“满足预设条件”的输出结果，可以是多个候选RFCN输出的结果中，最接近样本标签值的输出结果即为满足预设条件的输出结果。这样，可以提高模型预测的准确率。

作为示例，对于任一个专家网络而言，评估模块可以基于该专家网络中的每个候选RFCN对训练样本a学习后得到结果(即每个候选RFCN输出的训练样本a的预测值)，以及训练样本a的生存数据，计算每个候选RFCN的损失函数。然后将值最小的损失函数(损失函数最小即表示预测值最接近真实值)对应的候选RFCN所输出的结果，作为该任一个专家网络的输出值。

其中，本申请实施例对从多个候选RFCN的学习结果中评估性能最优的结果的具体实现方式不作具体限定。

应理解，同一个专家网络中的多个候选RFCN的网络结构均不相同。其中，候选RFCN的不同网络结构，例如可以是候选RFCN的跳跃连接或捷径连接跳过的网络结构/层数不同，本申请实施例对此不作限定。

还应理解，对于初始模型中所包括的多个专家网络而言，每个专家网络所包括的候选RFCN集合互不相同。可选的，该多个专家网络中的每个专家网络所包括的候选RFCN集合之间可以存在交集。

以初始模型包括3个专家网络为例，示例性的，专家网络1可以包括候选RFCN 1、候选RFCN 2以及候选RFCN3。专家网络2可以包括RFCN 1和候选RFCN 2。专家网络3可以包括RFCN 3和候选RFCN 4。

作为示例，参考图5，图5示出了本申请实施例提供的一种专家网络的结构示意图。如图5所示，专家网络421包括3个候选RFCN，分别为候选RFCN 511、候选RFCN 512以及候选RFCN 513。专家网络421还包括评估模块52。

如图5所示，当专家网络421接收到训练样本1，候选RFCN 511可以对训练样本1进行学习处理，得到结果1。类似的，候选RFCN 512可以对训练样本1进行学习处理，得到结果2，候选RFCN 513可以对训练样本1进行学习处理，得到结果3。

然后，评估模块52可以对结果1、结果2以及结果3进行评估，并确定出性能最优的结果。例如评估模块52确定性能最优的结果是结果2，则专家网络421将结果2输出。

这样，训练装置基于获取的训练样本对具有上文所述结构的初始模型进行迭代训练，即可得到预设模型。具体的，训练装置基于获取的训练样本对具有上文所述结构的初始模型进行迭代训练，得到预设模型的过程，可以描述如下：

训练装置将训练样本集中的训练样本1输入待训练模型。这里，当训练装置第一次向待训练模型输入训练样本时，则该待训练模型即为上文所述的初始模型。

这样，待训练模型接收到训练装置输入的训练样本1后，待训练模型中的每个专家网络可以对训练样本1进行学习处理，并输出各自的学习结果。每个专家网络所输出的学习结果，即为每个专家网络对训练样本1学习后输出的预测值。

待训练模型中的门控网络对训练样本1进行学习并分类，并基于学到的类型输出每个专家网络对应的权重。接着，训练装置对每个专家网络对应的权重进行归一处理后，从而确定出每个专家网络对应的权重系数。

可以理解，当待预测模型是初始模型时，即训练装置对初始模型的第一次训练，门控网络对训练样本1进行学习后，可以按照学习的结果随机的输出每个专家网络对应的权重。其中，权重最大的专家网络可以看做是与当前的训练样本1的类型对应专家网络。

接着，训练装置根据每个专家网络的权重系数，对多个专家网络输出的预测值进行加权相乘并求和，从而得到该待训练模型输出的训练样本1的预测值。应理解，训练样本1的预测值，即为该待预测模型预测到的训练样本1的生存风险率。

然后，训练装置可以基于待训练模型输出的预测值，以及训练样本1的生存数据(即真实值，或称为训练样本的标签值)计算损失函数。由于生存数据是截断数据。因此可选的，本申请实施例可以基于负对数似然(negative log-likelihood，NLL)分数来计算截断数据的损失函数。

应理解，训练装置可以基于计算待预测模型输出的预测值和训练样本1的生存数据，计算该待预测模型的损失函数。其中，待预测模型的损失函数通过反向传递，并按照每个专家网络的权重系数对每个专家网络的网络参数进行调节。可以理解，专家网络的网络参数调节量与该专家网络的权重系数成正比。例如，权重系数大的专家网络的网络参数调节量较大，权重系数小的专家网络的网络参数调节量较小。

还应理解，训练装置还可以基于每个专家网络的输出值和训练样本1的生存数据，计算每个专家网络对应的损失函数。基于多个专家网络的损失函数中最小的损失函数对应的专家网络，以及门控网络为该专家网络分配的权重系数，对门控网络的参数进行调节，从而使门控网络在下一次接收到与训练样本1具有相同或相近特征的训练样本后，为前述最小损失函数对应的专家网络分配较大的权重，从而实现使该专家网络在后续训练过程中，专门用于对与训练样本1具有相同或相近特征的训练样本进行学习。这样，通过多次学习，可以使得一个专家网络仅对一类具有相同或相近特征的样本进行学习。应理解，由于权重大的专家网络的输出值在待预测模型输出值中占比大，这样基于待预测模型的损失函数调节权重大的专家网络的网络参数时，调节量也是比较大的，因此相当于权重大的专家网络可以更多的学习到训练样本的特征。

这样，基于待预测样本对训练样本1的处理所获得的预测值计算得到损失函数对待预测模型的网络参数进行调节后，训练样本1即完成了对待训练模型的一次训练。

然后，训练装置可以向新的待训练模型中输入训练样本2，并参考训练样本1对待训练模型的训练过程，完成训练样本2对新的待训练模型的一次训练。

需要说明的是，在门控网络对训练样本2学习后为每个专家网络分配权重时，可以参考对训练样本1学习时的分类，为与训练样本2的类型对应专家网络分配较大的权重。

类似的，训练装置可以基于训练样本集中的训练样本，多次执行上述过程以实现对初始模型的迭代训练。当训练收敛，即得到本申请实施例所提供的预设模型。其中，该预设模型中的门控网络，用于对样本进行分类。以及该预设模型中的专家网络，用于对不同类型的样本进行生存风险率预测。可以理解，该预设模型的框架结构和上文所述的初始模型的框架结构相同。

通过上述S101-S102所述的方法训练得到的预设模型对待预测样本进行处理，即可预测测到待预测样本的生存风险率，进而根据待预测样本的生存风险率，即可确定出待预测样本的生存曲线，从而实现了对待预测样本的生存分析。

参考图6，图6示出了本申请实施例提供的一种预测生存风险率的方法的流程示意图。该方法可以由图2所示的预测装置执行，该预测装置中预置有通过S101-S102所述方法训练得到的预测模型。该方法可以包括：

S201、获取待预测样本的数据。

其中，预测装置获取待预测样本的数据的详细说明可以参考上文S101中训练装置获取训练样本的描述，这里不作赘述。

S202、通过预设模型对上述待预测样本的数据进行处理，以得到待预测样本的生存风险率。

具体的，预测装置可以将获取到的待预测样本的数据输入至预设模型，通过该预设模型对该待预测样本的数据进行处理，得到该待预测样本的生存风险率。

其中，待预测样本的生存风险率可以用于确定待预测样本的生存曲线，从而能够对待预测样本的生存分析。

其中，预设模型对上述待预测样本的数据进行处理，以得到待预测样本的生存风险率的过程，可以参考上文S102中待预测模型对训练样本1进行处理，得到训练样本1的预测值的过程的描述，这里不作赘述。

这样，基于预测模型预测到的待预测样本的生存风险率，和上文所述的公式(1)，即可确定出待预测样本的风险函数。

应理解，可以将待预测样本的特征数据作为公式(1)中x₁、x₂、…x_p表示协变量，expb₁·expb₂·…·expb_p即为预设模型预测到的待预测样本的生存风险率。

这样，当确定出待预测样本的风险函数后，该风险函数即可以反映出待预测样本的生存曲线。例如，如果待预测样本在某个时间的风险值较高，则说明在该时间待预测样本的生存率低。

这样，在本申请实施例提供的预测生存风险率的方法中，由于用于预测待预测样本的预设模型，是基非欧数据训练得到的，且该预设模型相当于是多个专家网络的集成融合，因此，通过本申请实施例提供的预测生存风险率的方法预测到的待预测样本的生存风险率的准确率较高。从而提高了基于生存风险率确定的待预测样本的风险函数的准确度，进而能够准确的反映出待预测样本的生存曲线。

此外，由上文训练模型的方法可知，用于训练预设模型的每个训练样本均包括很多特征，并且，训练样本的每个特征对训练得到的预设模型所输出的预测值的贡献也不尽相同。因此在实际应用中，如果能够确定出训练样本中每个特征对预设模型输出的预测值的贡献度，则可以确定出训练样本中每个特征对目标事件的发生的影响程度。例如不同的治疗对患者生存时间的影响程度。这样，基于每个特征对目标事件的发生的影响程度，可以指导真实场景中样本的优化改良。

为实现上述目的，本申请实施例可以通过对预设模型进行解释，来确定样本中每个特征对该样本预测值的贡献度。或者，本申请实施例还可以通过对样本进行解释，来分析该样本预测值的成因。这里，本申请实施例所述的对预设模型进行解释的方法，或对样本进行解释的方法，均可以由任意具有计算能力、且预置上文中所述的预设模型的设备执行。为简化描述，本申请实施例在下文中以预测装置执行对预设模型和样本进行解释的方法为例进行说明。

其中，预测装置对预设模型进行解释，可以包括对预设模型本身进行解释，对预设模型中的专家网络进行解释，或者对预设模型中的门控网络进行解释中的一种或多种。

以预测装置对预设模型本身进行解释为例，预测装置可以根据预设模型和多个训练样本，获取用于解释预设模型的蜂群图(beeswarm)。这里，蜂群图即用于展示样本中每个特征对预设模型输出的预测值的贡献度。

具体的，预测装置可以将多个训练样本分别输入预设模型，从而得到该多个训练样本各自对应的预测值。然后，预测装置可以基于该多个训练样本的特征数据、以及该多个训练样本各自对应的预测值，绘制蜂群图。其中，预测装置可以基于形状值(shap value)方法来绘制蜂群图。这里，本申请实施例对shap value方法的具体实现过程不作具体详述。

参考图7，图7示出了本申请实施例提供的一种对预设模型进行解释的方法示意图。如图7所示，在预设装置的显示屏上的界面70上，可以显示有预设模型的框架图。应理解，界面70可以是预设模型的用户端界面中的模型解释界面，界面70上的框架图中包括预设模型中门控网络71和2个专家网络的接口按钮(专家网络711和专家网络712)。

如图7中的(a)所示，当用户通过鼠标点击界面70上的“输入”按钮后，即可在输入样本界面选择需要输出的样本，并在确定后实现向预设模型输入本地存储的多个训练样本的目的。然后，用户可以通过点击界面70上的“输出”按钮后，预测装置的显示屏即可显示用于解释该预设模型的蜂群图，例如图7中的(b)所示的蜂群图。

如图7中的(b)所示，在界面71所显示的蜂群图中，灰色越深，表示特征值越大，灰色越浅，表示特征值越小。并且，该蜂群图的横坐标用于表示特征对预设模型输出的预测值的贡献度。

可以看出，对于特征1，当特征1的特征值较大时，特征1对预设模型输出的预测值的贡献度为负，且特征1的特征值越大(即灰色越深)，特征1对预设模型输出的预测值的贡献度越小(负值的绝对值越大，贡献度越小)；相反，当特征1的特征值较小时，特征1对预设模型输出的预测值的贡献度为正，且特征1的特征值越小(即灰色越浅)，特征1对预设模型输出的预测值的贡献度越大(正值越大，贡献度越大)。

类似的，对于特征9，当特征9的特征值较大时，特征9对预设模型输出的预测值的贡献度为正，且特征9的特征值越大(即灰色越深)，特征9对预设模型输出的预测值的贡献度越大(正值越大，贡献度越大)；相反，当特征9的特征值较小时，特征9对预设模型输出的预测值的贡献度为负，且特征9的特征值越小(即灰色越浅)，特征9对预设模型输出的预测值的贡献度越小(负值的绝对值越大，贡献度越小)。

可以理解，如果需要对预设模型中的门控网络进行解释时，用户即可在通过操作“输入”按钮以实现样本输入后，可以在界面70上点击“门控网络71”按钮，然后再点击“输出”按钮，这样，即可得到展示样本特征对门控网络输出值的贡献度。类似的，如果需要对预设模型中的任一个专家网络进行解释时，用户即可在通过操作“输入”按钮以实现样本输入后，可以在界面70上点击该任一个专家网络对应的按钮，然后再点击“输出”按钮，这样，即可得到展示样本特征对该任一个专家网络输出值的贡献度。

这样，通过使用多个样本对预设模型的解释，确定出样本的每个特征对预设模型的输出值的影响程度，即可实现对真实场景中的相关指导。

例如，如果用于对预设模型解释的多个样本的数据是多个癌症患者的病例样本数据，那么通过模型解释，当确定使用某种药物治疗(使用药物治疗即为样本的一个特征)对降低癌症患者的生存风险率贡献较大，即表明该药物治疗可以提高癌症患者的生存率。这样，即可指导临床医生对癌症患者的用药。

此外，当需要对任一个样本进行解释，预测装置可以根据该任一个样本和预设模型，获取用于解释该任一个样本的蜂群图。这里，蜂群图即用于展示该任一个样本中每个特征对预设模型输出的该样本的预测值的贡献度，这样即可以分析出该任一个样本预测值的成因。

具体的，预测装置可以将待解释样本输入预设模型，从而得到该待解释样本的预测值。然后，预测装置可以基于该待解释样本的特征数据、以及该待解释样本的预测值，绘制蜂群图。

作为示例，以表3所示的样本即为待解释样本为例：

表3

特征	PFS	Age	RM	NOX	RAD	LSTAT
							待解释样本	15.3	65.2	6.575	0.538	1	4.98

则参考图7，当用户通过鼠标点击界面70上的“输入”按钮，将表3所示的待解释样本输入预设模型。接着，用户可以通过点击界面70上的“输出”按钮，预测装置的显示屏即可显示用于解释该待解释样本的样本解释图，例如图7中的(c)所示的样本解释图。

如图7中的(c)所示，在界面72所显示的样本解释图中，待解释样本的预测值为24.1。其中，黑色区域箭头指向预测值增大的方向，白色区域箭头指向预测值减小的方向。可以看出，特征LSTAT对提高待解释样本的预测值的贡献最大(即最长黑色条框所示)，特征RM的值对降低待解释样本的预测值的贡献最大(即最长白色条框所示)。

这样，通过对单个样本的解释，即可确定出单个样本中不同的特征对该单个样本的生存风险率的影响程度，进而可以对该样本进行相关指导。例如，如果该单个样本是零件，通过预设模型对该零件解释后，当确定该样本的材料是材料a时，对提高该零件的生存风险率贡献较大，即表明基于材料a制造的零件的生存率低，即该零件的寿命最短。这样即可指导厂家避免使用材料a来制造零件。

可以看出，通过对模型或样本进行解释，可以在不同层次指导真实场景中对样本的优化改良。

在另一些实施例中，由于本申请实施例训练得到的预设模型中的门控网络，实质上是一个分类器。因此，本申请实施例还可以基于上述预设模型中的门控网络对样本集中的样本进行分类。这样，即可将样本集中的样本按照类型划分为多个组，即任一个组中的样本为同类样本。例如，门控网络可以将患者的电子病历样本划分为男性样本和女性样本。

这样，基于划分后的多组样本，可以绘制各组样本对应的生存曲线。可以理解，这里的每组样本中每个样本的生存数据是已知的。通过该方法，即实现了对不同类型样本生存曲线的对比分析。

作为示例，参考图8，图8示出了本申请实施例提供的一种预设模型将样本集中的样本分组后，各组样本的生存曲线的示意图。以样本是患者的电子病历样本，且电子病历样本的数量为177为例，本申请实施例提供的预设模型中的门控网络可以将患者的电子病历样本划分为样本组1和样本组2后，如果样本组1包括150个样本，样本组2包括27个样本，则基于样本组1和样本组2的生存数据，即可在同一坐标系系中绘制出样本组1和样本组2的生存曲线。如图所示，图8所示生存曲线1即为样本组1的生存曲线，生存曲线2即为样本组2的生存曲线。这样，从图中即可直观的看出样本组1和样本组2在相同时间的生存率的差异。

这样，通过对比不同类样本的生存曲线，可以看出不同类样本的生存曲线之间的差异。这样，通过领域专家对不同类的样本进行共同特征的查找分析，即可确定出决定生存曲线中生存率的原因，进而用于指导实践。

以图8所示的样本组1的生存曲线和样本组2的生存曲线为例，如图8所示，表示样本组1生存曲线的生存曲线1的生存率，整体低于表示样本组2生存曲线的生存曲线2生存率。这样，领域专家(即临床医生)即可通过医疗的专业分析，查找出每组样本中的共同特征，这样，该共同特征即可能为影响该组样本生存率的决定性因素。这样，基于分析结果，即可指导临床医生对患者的治疗方案进行调整。

为进一步对本申请实施例所提供方法中预设模型的一致性进行说明，下面通过具体示例进行描述：

示例一、肺癌药物A疗效的预测模型

具体的，以预先收集的肺癌药物A对385个患者的临床疗效数据为例，本申请实施例将该385个样本分为三个样本集。其中，样本集1包括177个样本，样本集2包括106个样本，样本集3包括102个样本。并且，样本集1的质量高于样本集2，样本集2的质量高于样本集3。这里，样本的质量高，例如可以是样本集中样本的缺失特征少，特征数量多，或者观测到样本结局事件(即患者死亡/康复)的样本数量多。

接着，本申请实施例将样本集1作为训练样本集，并基于上述S101-S102所述的方法训练得到预设模型1，并基于现有的coxPH方法训练得到模型2，以及基于DeepSurv方法训练得到模型3。

然后，以样本集2和样本集3作为验证样本集，对预设模型1、模型2以及模型3进行验证。

如表4所示，表4示出了预设模型1、模型2以及模型3经相同验证样本验证后的一致性(concordance index，C-index)指数。应理解，C-index指数用于来评价模型的预测能力。可以看出，基于相同验证样本，本申请实施例提供方法训练得到的预设模型1的C-index指数，高于现有coxPH方法训练得到的模型2的C-index指数，以及高于现有DeepSurv方法训练得到的模型3的C-index指数。

表4

示例2、临床疾病A的进展预测模型

在该示例中，医院A记录有2700个患者的临床数据，即医院A包括2700个样本。此外，医院B记录有1400个患者的临床数据，即医院B包括1400个样本。

这样，本申请实施例将医院A的样本作为训练样本，并通过上述S101-S102所述的方法训练得到预设模型，并基于10×交叉验证的方式，采用医院A的一部样本对模型进行内部验证，以及基于医院B的样本对模型进行外部验证。

其中，10×交叉验证是指：将样本集划分为10组，并将其中的9组样本作为训练样本来训练得到模型，并以剩余一组样本作为验证样本，对前述9组样本训练得到的模型进行测试验证。该过程重复10次，保证每一组样本都曾作为验证样本对模型进行测试验证。这样，将10次验证的结果求取平均，即可得到10×交叉验证的结果。

参考图9，图9示出了基于本申请实施例提供的方法和现有方法对医院A的样本训练得到模型进行内部验证和外部验证后的指示模型一致性的柱状结果图。

如图9所示，格纹柱用于表示基于现有DeepSurv方法对医院A的样本进行训练后得到的模型进行10×交叉验证后的C-index指数大小，以及对医院A的样本进行训练后得到的模型通过医院B的样本进行外部验证后的C-index指数大小。条纹柱用于表示基于现有coxnet方法(coxnet方法是coxPH方法改进后的方法)对医院A的样本进行训练后得到的模型进行10×交叉验证后的C-index指数大小，以及对医院A的样本进行训练后得到的模型通过医院B的样本进行外部验证后的C-index指数大小。白色柱用于表示基于本申请实施例所提供方法对医院A的样本进行训练后得到的模型进行10×交叉验证后的C-index指数大小，以及对医院A的样本进行训练后得到的模型通过医院B的样本进行外部验证后的C-index指数大小。

可以看出，基于相同的训练样本，相同的验证样本，本申请实施例所提供方法训练得到的预设模型的C-index指数，高于现有的DeepSurv方法和coxnet方法训练得到的模型的C-index指数。

综上，在本申请实施例提供的预测生存风险率的方法中，通过使用包括门控网络和多个专家网络的预设模型对待预测样本进行预测，使得该方法预测到的生存风险率的准确度更高，进而提高了基于生存风险率所确定的生存曲线的准确度。

此外，由于本申请实施例方法中采用的预设模型，可以通过端到端的方法训练得到，因此便于对模型在不同层次(整体和局部)进行解释，进而可以基于解释得到的样本特征对样本预测值的贡献度来指导真实场景下的样本优良改进。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对预测生存风险率的装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图10所示，图10示出了本申请实施例提供的一种预测生存风险率的装置100的结构示意图。预测生存风险率的装置100可以用于执行上述的预测生存风险率的方法，例如用于执行图6所示的方法。其中，预测生存风险率的装置100可以包括获取单元101和处理单元102。

获取单元101，用于获取待预测样本的数据。处理单元102，用于将待预测样本的数据输入至预设模型，通过该预设模型对待预测样本的数据进行处理，得到用于表示该待预测样本的生存风险的生存风险率。其中，预设模型包括门控网络和多个专家网络，该门控网络用于根据待预测样本的数据确定每个专家网络对应的权重系数，生存风险率为根据每个专家网络对应的权重系数对多个专家网络的输出值加权求和获得的结果。

作为示例，结合图6，获取单元101可以用于执行S201，处理单元102可以用于执行S202。

可选的，预测生存风险率的装置100还包括：确定单元103，用于基于待预测样本的生存风险率和基准风险函数，确定待预测样本的风险函数，其中，待预测样本的风险函数用于指示待预测样本在不同时间的生存率。

可选的，上述预测模型中所包括的多个专家网络中的任一个专家网络包括至少一个候选RFCN，任一个专家网络的输出值是至少一个候选RFCN的输出值中满足预设条件的输出值。

可选的，上述待预测样本的数据包括非欧几里德类型的数据。

可选的，预测生存风险率的装置100还包括：解释单元104，用于基于待预测样本的数据和待预测样本的生存风险率，对预设模型进行解释，以获得待预测样本的数据中不同特征数据对生存风险率的影响。

可选的，当待预测样本的数据是患者的病例数据，则解释单元104具体用于：基于患者的病例数据和患者的生存风险率，对预设模型进行解释，以获得患者的病例数据中不同特征数据对患者的生存风险率影响。

可选的，当待预测样本是设备的数据，则解释单元104具体用于：基于设备的数据和设备的生存风险率，对预设模型进行解释，以获得设备的数据中不同特征数据对设备的生存风险率的影响。

关于上述可选方式的具体描述可以参见前述的方法实施例，此处不再赘述。此外，上述提供的任一种预测生存风险率的装置100的解释以及有益效果的描述均可参考上述对应的方法实施例，不再赘述。

作为示例，结合图2，预测生存风险率的装置100中的获取单元101实现的功能可以通过图2中的通信接口24实现，处理单元102、确定单元103以及解释单元104实现的功能，可以通过图2中的处理器11执行图2中的主存储器22中的程序代码实现。

图11示出本申请实施例提供的用于承载计算机程序产品的信号承载介质的结构示意图，该信号承载介质用于存储计算机程序产品或用于存储计算设备上执行计算机进程的计算机程序。

如图11所示，信号承载介质110可以包括一个或多个程序指令，其当被一个或多个处理器运行时可以提供以上针对图6描述的功能或者部分功能。因此，例如，参考图6中S201～S202的一个或多个特征可以由与信号承载介质110相关联的一个或多个指令来承担。此外，图11中的程序指令也描述示例指令。

在一些示例中，信号承载介质110可以包含计算机可读介质111，诸如但不限于，硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等等。

在一些实施方式中，信号承载介质110可以包含计算机可记录介质112，诸如但不限于，存储器、读/写(R/W)CD、R/W DVD、等等。

在一些实施方式中，信号承载介质110可以包含通信介质113，诸如但不限于，数字和/或模拟通信介质(例如，光纤电缆、波导、有线通信链路、无线通信链路、等等)。

信号承载介质110可以由无线形式的通信介质113(例如，遵守IEEE 1902.11标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令可以是，例如，计算机可执行指令或者逻辑实施指令。

在一些示例中，诸如针对图6描述的预测生存风险率的装置可以被配置为，响应于通过计算机可读介质111、计算机可记录介质112、和/或通信介质113中的一个或多个程序指令，提供各种操作、功能、或者动作。

应该理解，这里描述的布置仅仅是用于示例的目的。因而，本领域技术人员将理解，其它布置和其它元素(例如，机器、接口、功能、顺序、和功能组等等)能够被取而代之地使用，并且一些元素可以根据所期望的结果而一并省略。另外，所描述的元素中的许多是可以被实现为离散的或者分布式的组件的、或者以任何适当的组合和位置来结合其它组件实施的功能实体。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种预测生存风险率的方法，其特征在于，包括：

获取待预测样本的数据；

将所述待预测样本的数据输入至预设模型，通过所述预设模型对所述待预测样本的数据进行处理，得到所述待预测样本的生存风险率HR；所述生存风险率用于表示所述待预测样本的生存风险；

其中，所述预设模型包括门控网络和多个专家网络，所述门控网络用于根据所述待预测样本的数据确定每个专家网络对应的权重系数，所述生存风险率为根据每个专家网络对应的权重系数对所述多个专家网络的输出值加权求和获得的结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述生存风险率和基准风险函数，确定所述待预测样本的风险函数，所述风险函数用于指示所述待预测样本在不同时间的生存率。

3.根据权利要求1或2所述的方法，其特征在于，所述多个专家网络中的任一个专家网络包括至少一个候选残差全连接神经网络RFCN，所述任一个专家网络的输出值是所述至少一个候选RFCN的输出值中满足预设条件的输出值。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述待预测样本的数据包括非欧几里德类型的数据。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法还包括：

基于所述待预测样本的数据和所述待预测样本的生存风险率，对所述预设模型进行解释，以获得所述待预测样本的数据中不同特征数据对所述生存风险率的影响。

6.根据权利要求5所述的方法，其特征在于，当所述待预测样本的数据是患者的病例数据，则基于所述待预测样本的数据和所述待预测样本的生存风险率，对所述预设模型进行解释，以获得所述待预测样本的数据中不同特征数据对所述生存风险率的影响，包括：

基于所述患者的病例数据和所述患者的生存风险率，对所述预设模型进行解释，以获得所述患者的病例数据中不同特征数据对所述患者的生存风险率的影响。

7.根据权利要求5所述的方法，其特征在于，当所述待预测样本是设备的数据，则基于所述待预测样本的数据和所述待预测样本的生存风险率，对所述预设模型进行解释，以获得所述待预测样本的数据中不同特征数据对所述生存风险率的影响，包括：

基于所述设备的数据和所述设备的生存风险率，对所述预设模型进行解释，以获得所述设备的数据中不同特征数据对所述设备的生存风险率的影响。

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述方法还包括：

利用训练样本的数据对初始模型进行训练，得到所述预设模型；其中，所述初始模型包括初始门控网络和多个初始专家网络。

9.根据权利要求8所述的方法，其特征在于，所述利用训练样本的数据对初始模型进行训练，包括：

将所述训练样本的数据输入所述初始模型中的所述初始门控网络和所述多个初始专家网络；

根据所述初始门控网络得到每个初始专家网络的权重系数，并根据每个初始专家网络对应的权重系数对所述多个初始专家网络的输出值加权求和，得到所述训练样本的预测生存风险率；

基于所述训练样本的预测生存风险率和所述训练样本的生存数据确定损失函数；

基于所述损失函数调节所述初始门控网络和所述多个初始专家网络的网络参数。

10.一种预测生存风险率的装置，其特征在于，包括：

获取单元，用于获取待预测样本的数据；

处理单元，用于将所述待预测样本的数据输入至预设模型，通过所述预设模型对所述待预测样本的数据进行处理，得到所述待预测样本的生存风险率HR；所述生存风险率用于表示所述待预测样本的生存风险；

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

确定单元，用于基于所述生存风险率和基准风险函数，确定所述待预测样本的风险函数，所述风险函数用于指示所述待预测样本在不同时间的生存率。

12.根据权利要求10或11所述的装置，其特征在于，所述多个专家网络中的任一个专家网络包括至少一个候选残差全连接神经网络RFCN，所述任一个专家网络的输出值是所述至少一个候选RFCN的输出值中满足预设条件的输出值。

13.根据权利要求10-12中任一项所述的装置，其特征在于，所述待预测样本的数据包括非欧几里德类型的数据。

14.根据权利要求10-13中任一项所述的装置，其特征在于，所述装置还包括：

解释单元，用于基于所述待预测样本的数据和所述待预测样本的生存风险率，对所述预设模型进行解释，以获得所述待预测样本的数据中不同特征数据对所述生存风险率的影响。

15.根据权利要求14所述的装置，其特征在于，当所述待预测样本的数据是患者的病例数据，则所述解释单元具体用于：

基于所述患者的病例数据和所述患者的生存风险率，对所述预设模型进行解释，以获得所述患者的病例数据中不同特征数据对所述患者的生存风险率影响。

16.根据权利要求14所述的装置，其特征在于，当所述待预测样本是设备的数据，则所述解释单元具体用于：

17.一种预测生存风险率的装置，其特征在于，包括：一个或多个处理器和存储器，所述一个或多个处理器被配置为调用存储在所述存储器中的程序指令，以执行如权利要求1-9中任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括程序指令，当所述程序指令在计算机或处理器上运行时，使得所述计算机或所述处理器执行权利要求1-9中任一项所述的方法。

19.一种计算机程序产品，其特征在于，当所述计算机程序产品在预测生存风险率的装置上运行时，使得所述装置执行如权利要求1-9中任一项所述的方法。