CN114223038A

CN114223038A - 用于估计中间治疗的有效性的方法

Info

Publication number: CN114223038A
Application number: CN202080017760.7A
Authority: CN
Inventors: 凌渥丹; 祁褎然; 汤琦
Original assignee: Sanofi SA
Current assignee: Sanofi SA
Priority date: 2019-03-01
Filing date: 2020-02-13
Publication date: 2022-03-22
Also published as: EP3931836A1; US20200275885A1; US11694773B2; US20230260606A1; JP7453988B2; WO2020180471A1; JP2022522483A

Abstract

一种用于估计医学治疗的治疗效果的计算机实现的方法，所述方法包括：从数据库接收数据集，所述数据集包括一组协变量矢量和一组应答指示符，每个协变量矢量包括相应患者的临床协变量，每个应答指示符与相应的协变量矢量相关联，其中所述一组应答指示符中的应答指示符在范围上变化；从所述数据库接收所述应答指示符的所述范围上的多个分割以限定对于所述应答指示符的多个应答类别；基于由所述多个分割指示的应答类别将每个应答指示符转换成相应的独热编码的矢量；基于每个协变量矢量和与所述协变量矢量相关联的相应的独热编码的矢量来训练神经网络模型；以及通过确定接受了所述医学治疗的患者的协变量矢量的第一子集和没有接受所述医学治疗的患者的协变量矢量的第二子集、并且对于一个或多个应答类别将(i)第一概率与(ii)第二概率进行比较来估计医学治疗的治疗效果，所述第一概率是所述协变量矢量的第一子集中的协变量矢量与所述一个或多个应答类别相关联的概率，所述第二概率是所述协变量矢量的第二子集中的协变量矢量与所述一个或多个应答类别相关联的概率，其中所述第一概率和所述第二概率是通过使用经训练的神经网络模型来计算的；以及提供所估计的治疗效果以用于在计算装置的图形用户界面上显示。

Description

用于估计中间治疗的有效性的方法

背景技术

在临床数据分析中进行应答者分析，以检查研究产品或医学实践的治疗效果，从而确定患者如何应答治疗。当患者对治疗的应答超过阈值时，患者被认为是应答者。

发明内容

本公开文本的实现方式包括用于估计医学治疗的治疗效果的计算机实现的方法。这些实现方式通过对患者的临床协变量(例如，血压、心率、体温等)应用神经网络模型，并且将已经使用所述医学治疗的患者的输出与未使用所述医学治疗的患者的输出进行比较来进行这种估计。医学治疗对患者的有效性可以通过指示患者身体如何应答所述医学治疗的应答指示符(例如，生物标记)来确定。

在一些实现方式中，所述方法包括：从数据库接收数据集，所述数据集包括一组协变量矢量和一组应答指示符，每个协变量矢量包括相应患者的临床协变量，每个应答指示符与相应的协变量矢量相关联，其中所述一组应答指示符中的应答指示符在范围上变化；从所述数据库接收所述应答指示符的所述范围上的多个分割以限定对于所述应答指示符的多个应答类别；基于由所述多个分割指示的应答类别将每个应答指示符转换成相应的独热编码的矢量；基于每个协变量矢量和与所述协变量矢量相关联的相应的独热编码的矢量来训练神经网络模型，所述神经网络模型利用非线性激活函数和损失函数；以及通过确定接受了所述医学治疗的患者的协变量矢量的第一子集和没有接受所述医学治疗的患者的协变量矢量的第二子集、并且对于一个或多个应答类别将(i)第一概率与(ii)第二概率进行比较来估计医学治疗的治疗效果，所述第一概率是所述协变量矢量的第一子集中的协变量矢量与所述一个或多个应答类别相关联的概率，所述第二概率是所述协变量矢量的第二子集中的协变量矢量与所述一个或多个应答类别相关联的概率，其中所述第一概率和所述第二概率是通过使用经训练的神经网络模型来计算的；以及提供所估计的治疗效果以用于在计算装置的图形用户界面上显示。其他实现方式包括被配置成执行在计算机存储装置上编码的方法的动作的对应系统、设备和计算机程序。

在一些实现方式中，所述方法包括：从数据库接收第一数据集，所述第一数据集包括一组协变量矢量和一组应答指示符，每个协变量矢量包括相应患者的临床协变量，每个应答指示符与相应的协变量矢量相关联，其中所述一组应答指示符中的应答指示符在范围上变化；从所述数据库接收所述应答指示符的所述范围上的多个分割以限定对于所述应答指示符的多个应答类别；用所述第一数据集训练神经网络模型(NNM)以获得第一NNM；自举所述第一数据集n次以获得n个第二数据集；用所述n个第二数据集中的每个第二数据集训练所述NNM，以获得n组第二NNM；对于每个协变量矢量，从所述第一NNM和所述n个第二NNM获得对于所述协变量矢量的n+1个预测应答，每个预测应答是通过将所述第一NNM和所述n个第二NNM中的相应一个应用于所述协变量矢量来获得的，并且对于每个应答类别，通过对于所述应答类别将指示函数应用于所述n+1个预测应答中的每个预测应答以获得对于所述应答类别的n+1个输出、并且通过归一化所述应答类别的所获得的n+1个输出的聚合来计算所述关联概率来估计指示所述协变量矢量与所述应答类别相关联的关联概率；通过确定接受了所述医学治疗的患者的协变量矢量的第一子集和没有接受所述医学治疗的患者的协变量矢量的第二子集、并且对于一个或多个应答类别将(i)所述第一子集的关联概率的第一归一化聚合与(ii)所述第二子集的关联概率的第二归一化聚合进行比较来估计医学治疗的治疗效果；以及提供所估计的治疗效果以用于在计算装置的图形用户界面上显示。

本公开文本还提供了一种或多种非暂时性计算机可读存储介质，其耦接到一个或多个处理器并且具有存储在其上的指令，所述指令在由所述一个或多个处理器执行时使得所述一个或多个处理器执行根据本文提供的方法的实现方式的操作。

本公开文本进一步提供了一种用于实现本文提供的方法的系统。所述系统包括一个或多个处理器以及耦接到所述一个或多个处理器的计算机可读存储介质，所述计算机可读存储介质具有存储在其上的指令，所述指令在由所述一个或多个处理器执行时使得所述一个或多个处理器执行根据本文提供的方法的实现方式的操作。

根据本公开文本的方法可以包括本文所述的方面和特征的任何组合。也就是说，根据本公开文本的方法不限于本文具体所述的方面和特征的组合，还包括所提供的方面和特征的任何组合。

除了其他优点之外，本实现方式提供了以下益处。本文提出的方法可以用于预测医学治疗对特定患者的有效性。对治疗效果的准确预测可以对医疗和健康系统提供显著改善，包括对特定患者开出被预测为对所述特定患者更有效的医学治疗的处方，以及从所述特定患者的处方中排除看起来不太有效的医学治疗，这可以导致患者的更快恢复、较少的由于采取不太有效的治疗而使患者遭遇的副作用，并且降低了治疗成本(包括货币、时间、使用的临床设施和医疗保健提供者)。

本实现方式通过使用神经网络模型来采取非参数方法，而不对模型的预测变量与患者的应答变量之间的关系做出线性假设。此方法优于对预测变量与应答变量之间的关系进行建模的广义线性模型。这样的线性模型可能遭受功率损失以及与线性假设的偏差。例如，应答端点可能不与感兴趣的协变量线性相关，或者患者特性(例如，协变量)可能不完全平衡。本公开文本提供了两种方法来克服这样的限制。在第一方法中，实现方式将连续应答变量离散化成分类变量，并且对分类应用神经网络模型而不做出线性假设，并且提供嵌入深度学习方法的自动特征表示能力。第二方法建立在第一方法之上，但不离散化连续应答变量。因此，本实现方式通过避免在预测变量与应答变量之间的关系中做出线性假设来改善线性方法上的估计准确度。

在附图和以下描述中阐述本公开文本的一个或多个实现方式的细节。根据描述和附图并且根据权利要求，本公开文本的其他特征和优点将是清楚的。

附图说明

图1描绘了可以用于执行本公开文本的实现方式的示例环境。

图2描绘了可以用于本公开文本的实现方式的示例前馈神经网络模型。

图3描绘了可以根据本公开文本的实现方式执行的示例过程。

图4A至图4B描绘了可以根据本公开文本的实现方式执行的示例过程。

图5是可以用于执行本公开文本的实现方式的示例计算机系统的示意性图示。

不同附图中相同的参考符号表示相同的元件。

具体实施方式

本公开文本的实现方式包括用于估计医学治疗的治疗效果的计算机实现的方法。这些实现方式还使用深度学习方法来预测具有特定临床协变量的患者是对医学治疗的应答者的概率。

图1描绘了可以用于执行本公开文本的实现方式的示例环境100。环境100展示了用户116，所述用户使用计算装置102来请求对治疗效果的估计。计算装置102例如通过网络110来与数据库106通信。数据库106存储样本患者的临床协变量数据。数据库106将此数据提供给计算装置102。计算装置102使用此数据来训练(深度)神经网络模型(NNM)并且提供对医学治疗(例如，总体而言或对于特定患者)的有效性的概率的估计。替代性地或另外地，数据库106可以将数据提供到包括一个或多个处理器104的计算装置108以执行估计程序。

NNM可以利用非线性激活函数(例如，softmax激活函数、修正线性单元(ReLu)激活函数)和损失函数(例如，交叉熵损失、最小方差(L₂))。

用于计算概率的NNM可以包括一个或多个前馈NNM。图2展示了可以用于本公开文本的实现方式的示例前馈NNM 200。NNM 200包括以前馈方式互连的多层计算单元。一层中的每个神经元具有到后续层的神经元的定向连接。链接相邻层中的神经元的激活函数(诸如，sigmoid、ReLU等)有许多选择。可以通过随机梯度下降算法来计算NNM的参数。可以通过基于NNM在验证集上的性能搜索NNM的超参数(例如，层数、每一层中的神经元数量等)来训练NNM，例如以避免过拟合问题和/或发现最低验证误差。

在一些实现方式中，仅使用一个前馈神经网络。这样的实现方式提供至少两个优点。首先，可以通过较低层中的连接来自动地处理多个输出之间的关系。其次，它在计算上是简单的并且提供在相对小的空间中进行快速超参数搜索的能力。NNM在此由f(X)表示，其中X表示协变量矢量。

图3和图4A至图4B描绘了可以根据本公开文本的实现方式执行以确定医学治疗的有效性的两个示例过程。为了便于描述，本文所述的过程分类为两种方法。本领域技术人员将理解，系统可以受益于这两种方法中的任一种或两种。

第一方法：

第一方法在图3中描绘并且可以由一个或多个计算装置(例如，图1中的计算装置102或108)执行。所述一个或多个计算装置例如从诸如数据库106的数据库接收数据集{(xi，yi)，i＝1，...，q}(302)。数据集包括一组协变量矢量X和一组应答指示符Y。每个协变量矢量xi包括相应患者的临床协变量。每个应答指示符(也可以被称为“端点应答”或“端点应答者”)yi与相应的协变量矢量xi相关联。

应答指示符在范围上变化。范围被分割为级C₁＜C₂＜...＜C_k∈supp(Y)。每个C_j表示一个应答类别。在一些实现方式中，所述一个或多个计算装置例如从数据库接收指示应答类别的分割(304)。在一些实现方式中，计算装置从操作者(例如，用户116)接收分割。

为了确定医学治疗的功效，对于每个应答类别计算患者的应答指示符的概率，即，P(Y＜C₁)、P(Y＜C₂)、...、P(Y＜C_k)。如果治疗可以导致一个或多个关键应答类别(例如，两个)的高概率，则可以确认药剂或治疗的功效。例如，可以研究与哮喘相关的关键生物标记的百分比变化(PCHG)以确定哮喘药物的有效性。生物标记的值越低指示越健康的状况；因此较低的PCHG指示医学治疗对哮喘的功效更好。在这个例子中，PCHG是应答指示符。可以使用-50％、-25％和0的三个分割将应答指示符的变化范围划分为应答类别C₁＜-50％、-50％＜C₂＜-25％、...、-25％＜C₃＜0和C4＞0。在这个例子中，PCHG落入类别C₁或C₂的概率越高，表明哮喘药物的有效性越高。

所述一个或多个计算装置基于由分割所指示的应答类别将在302中接收到的每个应答指示符转换成独热编码的矢量(306)。(独热编码的矢量是其中仅一个位“开”的矢量，例如，具有值1而不是0。)换言之，计算装置通过下式来生成每个x_i协变量矢量(及其相应的y_i应答指示符)的z_i矢量：

z_i＝(I(y_i＜C₁)，I(C₁≤y_i＜C₂)，...，I(C_k-1≤y_i＜C_k)，I(y_i≥C_k)) (1)

所述一个或多个计算装置用一组协变量矢量及其相应的独热编码的矢量(即，{xi,zi}i＝1,2,...,q)来训练NNM(308)，以获得经训练的NNM模型

将经训练的NNM应用于每个协变量矢量{xi}i＝1,...,q，经训练的NNM提供与协变量矢量相关联的应答类别的概率，即：

计算装置通过对数据{xi,yi}i＝1,2,...,q应用经训练的NNM来估计(310)医学治疗的治疗效果。为了这样做，计算装置确定(或从数据库接收)对于接受医学治疗的患者的协变量矢量的第一子集和对于没有接受医学治疗的患者的协变量矢量的第二子集。计算装置然后对于一个或多个应答类别将(i)第一概率与(ii)第二概率进行比较。第一概率是协变量矢量的第一子集中的协变量矢量与所述一个或多个应答类别相关联的概率，并且第二概率是协变量矢量的第二子集中的协变量矢量与所述一个或多个应答类别相关联的概率。计算装置从经训练的NNM接收第一概率和第二概率。所述一个或多个应答类别(对于其将第一概率与第二概率进行比较)可以是所有的应答类别或应答类别中的特定应答类别(例如，在以上例子中，应答类别C₁<-50％和-50％<C₂<-25％)。

更具体地，考虑C_j作为关键应答类别并将T作为表示治疗的X的分量(例如，T＝1表示治疗并且T＝0表示无治疗)，治疗效果通过下式来计算：

其中

并且

这样的聚合估计器(参见等式(3)和(4))改进了在具有相当大的样本大小的情况下估计治疗效果的准确度。由于协变量是相关的并且在(深)NNM中不存在线性假设，即使在协变量之间或在协变量与NNM的输出之间具有复杂关系，也可以应用包含真实固有关联的观察(例如，协变量矢量的分量、应答指示符)以获得准确的结果。

所述一个或多个计算装置提供所估计的治疗效果以供呈现。例如，计算装置可以提供所估计的治疗效果以用于在图形用户界面(例如，图1中的计算装置102的图形用户界面)上显示(312)。

如上所述，对于每个应答类别计算患者的应答指示符的概率，即，P(Y<C₁)、P(Y<C₂)、…、P(Y<C_k)。对应答指示符范围使用定序分类(或分割)可以对NNM的输出强加硬性约束。为了简化对NNM的训练，分割可以作为定类分类而不是定序分类来执行。这种定类分类可以提供不相交的应答类别，诸如，(Y<C1)、(C1≤Y<C2)、…、(Ck-1≤Y<Ck)、(Y≥Ck)。对于这些不相交的应答类别的NNM的输出将呈以下形式：

P(Y<C1)、P(C1≤Y<C2)、…、P(Ck-1≤Y<Ck)、P(Y≥Ck),

这在输出中产生k+1个分量。通过经训练的

和特定的一组协变量，计算装置可以通过累加和来获得定序分类的应答类别的估计概率：

这样的程序提供了以下优点：(i)一对一变换，其中没有信息损失；以及(ii)在变换之后获得标准分类问题，其可以被深度神经网络准确且高效地解决。

上述第一方法可以包括自举在302接收的数据。当没有足够的样本可用于训练神经网络时或者当期望比可用样本更多的样本用于训练时，自举可以是有益的。自举接收到的数据包括自举(或从其重采样)一组协变量矢量及其相应的应答指示符。原始数据和自举数据可以用于NNM的训练和/或验证。

第二方法：

第二方法在图4A至图4B中描绘并且可以由一个或多个计算装置(例如，图1中的计算装置102或108)执行。第二方法消除了将应答指示符(yi)转换(或变换)成独热编码器矢量(zi)。而是，NNM用于直接模拟协变量矢量X与应答指示符Y之间的关系。作为优点，消除应答指示符到编码器矢量的变换可以减少功率损失。

第二方法可以包括两级的自举。第一级是估计患者(或与患者相关联的协变量矢量)是对医学治疗的应答者的概率，并且基于这样的概率来计算医学治疗的有效性。第二级是提供所估计的概率周围的不确定性估计。

在第一级的自举中，第二方法将接收到的数据自举n次以获得n组自举数据。每一组自举数据用于训练NNM并获得相应的训练的NNMf^B(X)。第二方法然后收集由训练的NNM

对于每个协变量矢量(Xi)预测的预测应答指示符{y^(b_i),b_i＝1,...,n}。所述方法基于预测应答指示符(对于每个协变量矢量)在一个或多个特定应答类别内的概率来估计医学治疗的疗效。以下段落提供了第二方法的详细描述。

在第二方法中，所述一个或多个计算装置(如上所述)例如从诸如数据库106的数据库接收第一数据集{(xi,yi),i＝1,...,q}(402)。第一数据集包括一组协变量矢量X和一组应答指示符Y。每个协变量矢量xi包括相应患者的临床协变量。每个应答指示符yi与相应的协变量矢量xi相关联。

应答指示符在范围上变化。范围被分割为级C₁<C₂<...<C_k∈supp(Y)。每个C_j表示一个应答类别。在一些实现方式中，所述一个或多个计算装置例如从数据库接收指示应答类别的分割(404)。在一些实现方式中，计算装置从操作者(例如，用户116)接收分割。

所述一个或多个计算装置用第一数据集{(xi,yi),i＝1,...,q}训练NNM以获得第一NNM(406)。NNM可以包括前馈神经网络。训练可以包括使用多个超参数来训练NNM，以及为第一NNM选择具有最低验证误差的一组超参数(来自多个超参数)。

计算装置自举第一数据集n次以获得n组第二数据集{(xi,yi)(b_p)；i＝1,...,q；p＝1,…,n}(408)。计算装置用第二数据集中的每一个来训练NNM以获得n组第二NNM(410)。训练一个或多个第二NNM可以在与前面段落中描述的训练第一NNM的过程类似的过程中进行。

所述一个或多个计算装置从经训练的NNM(即，从第一NNM和n个第二NNM)获得对于第一数据集的每个协变量矢量的n+1个预测应答(412)。通过将第一NNM和n个第二NNM中相应的一个应用于协变量矢量来获得每个预测应答。所获得的协变量矢量x_i的预测应答可以表示为

{y^_i(b_p),bp＝1,...,n+1}。

协变量矢量是对医学治疗的应答者的概率可以指示具有类似于协变量矢量的临床协变量的患者将对医学治疗应答或已经应答的可能性。计算装置通过对于一个或多个关键应答类别估计协变量矢量的关联概率来估计协变量矢量x_i是对医学治疗的应答者的概率。例如，计算装置可以估计在404处标识的每个应答类别的协变量矢量x_i的关联概率(414)。

可以通过将指示函数应用于n+1个预测应答中的每一个以获得应答类别的n+1个输出，并且通过归一化所获得的n+1个输出的聚合，来计算协变量矢量x_i的应答类别的关联概率。换言之，所有应答类别C_j中的协变量矢量x_i的关联概率可以通过下式计算：

所述一个或多个计算装置基于与已经接受医学治疗的患者相关联的协变量矢量的关联概率和与未接受医学治疗的患者的协变量矢量的关联概率来估计医学治疗的治疗效果。更确切地，计算装置确定(或从数据库接收)对于接受了医学治疗的患者的协变量矢量的第一子集和对于没有接受医学治疗的患者的协变量矢量的第二子集(416)。计算装置然后对于一个或多个关键应答类别将(i)第一子集的关联概率的第一归一化聚合与(ii)第二子集的关联概率的第二归一化聚合进行比较(418)。换言之，计算装置通过下式来估计治疗效果：

其中t_i＝1表示治疗情况，并且t_i＝0表示无治疗情况。所述一个或多个关键应答类别可以包括所有的应答类别、或特定应答类别。

所述一个或多个计算装置提供所估计的治疗效果以供呈现。例如，计算装置可以提供所估计的治疗效果以用于在图形用户界面(例如，图1中的计算装置102的图形用户界面)上显示(420)。

除了上述程序之外，所述一个或多个计算装置可以通过使用第二级的自举来估计所估计的治疗效果的不确定性。在第二级中，通过m次自举第一数据集以获得m个第三数据集、计算对于m个第三数据集中的每个第三数据集的治疗效果以获得m个治疗效果、并且基于m个治疗效果的分布计算不确定性来估计不确定性。示例不确定性包括但不限于m个治疗效果的置信区间和标准偏差。

图5描绘了示例计算系统500的示意图。系统500可以用于执行关于根据本公开文本的第一方法或第二方法中的任一个的一个或多个实现方式所描述的操作。例如，系统500可以包括在本文讨论的任何或所有服务器组件或其他的一个或多个计算装置中。系统500可以包括一个或多个处理器510、一个或多个存储器520、一个或多个存储装置530以及一个或多个输入/输出(I/O)装置540。组件510、520、530和540可以使用系统总线550互连。

处理器510可以被配置成执行系统500内的指令。处理器510可以包括单线程处理器或多线程处理器。处理器510可以被配置成执行或以其他方式处理存储在存储器520或存储装置530中的一者或两者中的指令。对一个或多个指令的执行可以使得经由I/O装置540上的用户界面来显示或以其他方式呈现图形信息。

存储器520可以存储系统500内的信息。在一些实现方式中，存储器520是计算机可读介质。在一些实现方式中，存储器520可以包括一个或多个易失性存储器单元。在一些实现方式中，存储器520可以包括一个或多个非易失性存储器单元。

存储装置530可以被配置成为系统500提供大容量存储。在一些实现方式中，存储装置530是计算机可读介质。存储装置530可以包括软盘装置、硬盘装置、光盘装置、磁带装置或其他类型的存储装置。I/O装置540可以为系统500提供I/O操作。在一些实现方式中，I/O装置540可以包括键盘、指向装置或用于数据输入的其他装置。在一些实现方式中，I/O装置540可以包括输出装置，诸如，用于显示图形用户界面或其他类型的用户界面的显示单元。

所描述的特征可以在数字电子电路系统中实现，或者在计算机硬件、固件、软件或它们的组合中实现。所述设备可以在有形地体现在信息载体中(例如，在机器可读存储装置中)的计算机程序产品中实现以用于由可编程处理器执行，并且方法步骤可以由执行指令程序的可编程处理器执行，以通过对输入数据进行操作并生成输出来执行所描述的实现方式的功能。所描述的特征可以有利地在一个或多个计算机程序中实现，所述计算机程序可在包括至少一个可编程处理器的可编程系统上执行，所述至少一个可编程处理器被耦接以从数据存储系统、至少一个输入装置以及至少一个输出装置接收数据和指令，并向其传送数据和指令。计算机程序是一组指令，所述指令可以直接或间接地在计算机中使用以执行某种活动或引起某种结果。计算机程序可以以任何形式的编程语言编写，包括编译或解释语言，并且计算机程序可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适合在计算环境中使用的其他单元。

用于执行指令程序的合适处理器通过举例的方式包括通用和专用微处理器，以及任何类型计算机的唯一处理器或多个处理器之一。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的元件包括用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器。通常，计算机还可以包括用于存储数据文件的一个或多个大容量存储装置，或操作性地耦接以与其进行通信；这样的装置包括磁盘(诸如，内部硬盘和可移除盘)、磁光盘以及光盘。适合于有形地体现计算机程序指令和数据的存储装置包括所有形式的非易失性存储器，通过举例的方式包括半导体存储器装置(诸如，EPROM、EEPROM和闪存装置)、磁盘(诸如，内部硬盘和可移除盘)、磁光盘、以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用集成电路(ASIC)补充或者可以并入专用集成电路中。

为了提供与用户的交互，这些特征可以在计算机上实现，所述计算机具有用于向用户显示信息的显示装置(诸如，阴极射线管(CRT)或液晶显示器(LCD)监控器)、以及用户可以向计算机提供输入的键盘和指向装置(诸如，鼠标或轨迹球)。

这些特征可以在包括后端组件(诸如，数据服务器)的计算机系统、或者包括中间件组件(诸如，应用服务器或互联网服务器)的计算机系统、或包括前端组件(诸如，具有图形用户界面或互联网浏览器的客户端计算机)的计算机系统、或它们的任何组合中实现。系统的组件可以通过任何数字数据通信形式或介质(诸如，通信网络)进行连接。通信网络的例子包括例如局域网(LAN)、广域网(WAN)、以及形成互联网的计算机和网络。

计算机系统可以包括客户端和服务器。客户端和服务器通常彼此相隔遥远，并且典型地通过网络(诸如，所描述的网络)进行交互。客户端与服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。

此外，图中描绘的逻辑流程不需要所示的特定顺序或先后顺序来实现令人期望的结果。此外，可以提供其他步骤，或者可以从所描述的流程中消除步骤，并且可以向所描述的系统添加或从中移除其他组件。因此，其他实现方式在所附权利要求的范围内。

已经描述了本公开文本的许多实现方式。然而，应理解，在不脱离本公开文本的精神和范围的情况下，可以进行各种修改。因此，其他实现方式在所附权利要求的范围内。

Claims

1.一种由一个或多个处理器执行的计算机实现的方法，所述方法包括：

从数据库接收数据集，所述数据集包括：

一组协变量矢量，每个协变量矢量包括相应患者的临床协变量，以及

一组应答指示符，每个应答指示符与相应的协变量矢量相关联，其中所述一组应答指示符中的应答指示符在范围上变化；

从所述数据库接收所述应答指示符的所述范围上的多个分割以限定对于所述应答指示符的多个应答类别；

基于由所述多个分割指示的应答类别将每个应答指示符转换成相应的独热编码的矢量；

基于每个协变量矢量和与所述协变量矢量相关联的相应的独热编码的矢量来训练神经网络模型；以及

通过以下方式估计医学治疗的治疗效果：

确定接受了所述医学治疗的患者的协变量矢量的第一子集和没有接受所述医学治疗的患者的协变量矢量的第二子集，并且

对于一个或多个应答类别，将(i)第一概率与(ii)第二概率进行比较，所述第一概率是所述协变量矢量的第一子集中的协变量矢量与所述一个或多个应答类别相关联的概率，所述第二概率是所述协变量矢量的第二子集中的协变量矢量与所述一个或多个应答类别相关联的概率，

其中所述第一概率和所述第二概率是通过使用经训练的神经网络模型来计算的；以及

提供所估计的治疗效果以用于在计算装置的图形用户界面上显示。

2.根据权利要求1所述的方法，其中所述神经网络模型利用非线性激活函数和损失函数。

3.根据权利要求1所述的方法，其中在估计所述治疗效果时，所述一个或多个应答类别包括所述多个应答类别的所有。

4.根据权利要求1所述的方法，其中训练所述神经网络模型进一步包括自举所述一组协变量矢量和所述一组应答指示符。

5.根据权利要求1所述的方法，其中所述多个应答类别中的至少两个应答类别不相交。

6.根据权利要求1所述的方法，其中所述神经网络模型利用softmax激活函数和交叉熵损失函数。

7.根据权利要求1所述的方法，其中所述神经网络是前馈神经网络。

8.一种由一个或多个处理器执行的计算机实现的方法，所述方法包括：

从数据库接收第一数据集，所述第一数据集包括：

用所述第一数据集训练神经网络模型(NNM)以获得第一NNM；

自举所述第一数据集n次以获得n个第二数据集；

用所述n个第二数据集中的每个第二数据集训练所述NNM，以获得n组第二NNM；

对于每个协变量矢量：

从所述第一NNM和所述n个第二NNM获得对于所述协变量矢量的n+1个预测应答，每个预测应答是通过将所述第一NNM和所述n个第二NNM中的相应一个应用于所述协变量矢量来获得的，并且

对于每个应答类别：

通过以下方式来估计指示所述协变量矢量与所述应答类别相关联的关联概率：

对于所述应答类别，将指示函数应用于所述n+1个预测应答中的每个预测应答，以获得对于所述应答类别的n+1个输出，并且

通过归一化所述应答类别的所获得的n+1个输出的聚合来计算所述关联概率；

通过以下方式估计医学治疗的治疗效果：

对于一个或多个应答类别，将(i)所述第一子集的关联概率的第一归一化聚合与(ii)所述第二子集的关联概率的第二归一化聚合进行比较；以及

9.根据权利要求8所述的方法，其中所述一个或多个应答类别包括所述多个应答类别的所有。

10.根据权利要求8所述的方法，其进一步包括通过以下方式估计所述治疗效果的不确定性：

自举所述第一数据集m次以获得m个第三数据集；

对于所述m个第三数据集中的每个第三数据集计算治疗效果以获得m个治疗效果；

基于所述m个治疗效果的分布来计算所述不确定性。

11.根据权利要求10所述的方法，其中所述治疗效果的不确定性包括所述m个治疗效果的置信区间和标准偏差中的至少一个。

12.根据权利要求8所述的方法，其中所述NNM利用非线性激活函数和最小方差损失函数。

13.根据权利要求12所述的方法，其中所述非线性激活函数是修正线性单元(ReLU)函数。

14.根据权利要求8所述的方法，其中所述用所述第一数据集训练所述NNM以获得所述第一NNM包括：

使用多个超参数来训练所述NNM；以及

对于所述第一NNM选择具有最低验证误差的超参数集，所述超参数集选自所述多个超参数。

15.一种非暂时性计算机可读介质，其存储由计算机系统可执行以执行操作的一个或多个指令，所述操作包括：

接收数据集，所述数据集包括：

接收所述应答指示符的所述范围上的多个分割以限定对于所述应答指示符的多个应答类别；

基于每个协变量矢量和与所述协变量矢量相关联的相应的独热编码的矢量来训练神经网络模型，所述神经网络模型利用非线性激活函数和损失函数；以及

通过以下方式估计医学治疗的治疗效果：

16.根据权利要求15所述的非暂时性计算机可读介质，其中在估计所述治疗效果时，所述一个或多个应答类别包括所述多个应答类别的所有。

17.根据权利要求15所述的非暂时性计算机可读介质，其中训练所述神经网络模型进一步包括自举所述一组协变量矢量和所述一组应答指示符。

18.根据权利要求15所述的非暂时性计算机可读介质，其中所述多个应答类别中的至少两个应答类别不相交。

19.根据权利要求15所述的非暂时性计算机可读介质，其中所述神经网络模型利用softmax激活函数和交叉熵损失函数。

20.根据权利要求15所述的非暂时性计算机可读介质，其中所述神经网络是前馈神经网络。