CN107995992A

CN107995992A - 使用递归神经网络分析健康事件

Info

Publication number: CN107995992A
Application number: CN201680029107.6A
Authority: CN
Inventors: 格雷戈里·肖恩·科拉多; 杰弗里·阿德盖特·迪恩; 伊利亚·苏特思科韦尔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-07-27
Filing date: 2016-07-26
Publication date: 2018-05-04
Anticipated expiration: 2036-07-26
Also published as: US20170032241A1; JP6530084B2; KR101991918B1; CN107995992B; EP3274887A1; KR20170132842A; WO2017019706A1; JP2018526697A

Abstract

用于使用递归神经网络分析健康事件的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。一种方法包括获得健康事件的第一时间序列，其中所述第一时间序列包括在多个时间步中的每一个处与特定患者相关联的相应健康相关数据；使用递归神经网络处理所述健康事件的第一时间序列以生成针对所述第一时间序列的神经网络输出；以及从所述针对所述第一时间序列的神经网络输出生成健康分析数据，所述健康分析数据表征可能在所述时间序列中的最后时间步之后发生的未来健康事件。

Description

使用递归神经网络分析健康事件

技术领域

该说明书涉及使用递归神经网络分析健康事件。

背景技术

神经网络是采用非线性单元的一个或多个层以针对接收的输入来预测输出的机器学习模型。一些神经网络除了输出层之外包括一个或多个隐藏层。每个隐藏层的输出被用作网络中下一层的输入，所述下一层即下一个隐藏层或输出层。网络的每个层依据相应参数集合的当前值从接收的输入生成输出。

一些神经网络是递归神经网络。递归神经网络是接收输入序列并且从所述输入序列生成输出序列的神经网络。特别地，递归神经网络在当前时间步计算输出时能够使用来自之前时间步的一些或全部内部网络状态。

发明内容

总体上，该说明书中所描述主题的一个创新方面能够以方法来体现，所述方法包括以下动作：获得健康事件的第一时间序列，其中所述第一时间序列包括在多个时间步中的每一个处与特定患者相关联的相应健康相关数据；使用递归神经网络处理所述健康事件的第一时间序列以生成针对所述第一时间序列的神经网络输出；以及从所述针对所述第一时间序列的神经网络输出生成健康分析数据，所述健康分析数据表征可能在所述时间序列中的最后时间步之后发生的未来健康事件。

针对所述时间步中的一个或多个，在该时间步处的健康相关数据可以是来自预定令牌词汇的相应令牌。所述词汇中的每个令牌可以表示不同的健康事件。针对所述时间步中的一个或多个，在该时间步处的健康相关数据可以是被归类为影响所述特定患者的健康的其它健康相关数据。

获得所述第一时间序列可以包括：访问特定患者的电子医疗记录；识别所述电子医疗记录中的健康事件；针对所述电子医疗记录中所识别的每个健康事件，在所述词汇中确定表示该健康事件的令牌；以及生成包括按照对应的健康事件发生的时间排序的、表示所识别健康事件的令牌的时间序列。

所述递归神经网络可以包括一个或多个递归神经网络层，所述递归神经网络层被训练以共同处理所述第一时间序列以针对所述第一时间序列中的最后时间步生成网络内部状态。所述递归神经网络进一步可以包括输出层，所述输出层被训练以处理针对所述最后时间步的所述网络内部状态以生成包括多个可能健康事件中的一个的相应分数的神经网络输出。每个可能健康事件的相应分数可以表示所述可能健康事件是所述第一时间序列中的最后时间步之后的时间步处的健康事件的可能性。

生成所述健康分析数据可以包括使用相应分数生成识别一个或多个最高评分的健康事件的数据。

所述递归神经网络可以进一步包括多个逻辑回归节点。所述逻辑回归节点中的每一个可以对应于来自预定条件集合的相应健康相关条件。每个逻辑回归节点可以被训练以处理所述最后时间步的网络内部状态从而生成对应条件的未来条件分数。每个条件的未来条件分数可以表示所述健康相关条件将在所述时间步处的健康事件的指定时间段内被满足的可能性。

生成所述健康分析数据可以包括生成识别所述预定条件集合中的条件的可能性的数据。

可以获得识别附加健康事件的数据。可以通过在所述第一时间序列的最后时间步之后添加识别附加健康事件的数据而从所述第一时间序列生成经修改的时间序列。所述经修改的时间序列可以使用所述递归神经网络进行处理以生成所述经修改的时间序列的未来条件分数。可以确定所述第一时间序列的未来条件分数和所述经修改的时间序列的未来条件分数之间的改变。所述健康分析数据可以包括识别所述改变的数据。

可以提供所述健康分析数据以用于呈现给用户。

该方面的其它实施例包括对应的计算机系统、装置以及在一个或多个计算机存储设备上记录的计算机程序，它们均被配置成执行所述方法的动作。

一种一个或多个计算机的系统，能够被配置成通过使得在操作中导致系统执行所述动作的软件、固件、硬件或它们的组合被安装在所述系统上来执行特定操作或动作。一个或多个计算机程序能够被配置成通过包括指令来执行特定操作或动作，所述指令在被数据处理装置执行时使得所述装置执行所述动作。

可选地，以上和其它实施例均可以单独或组合地包括以下特征中的一个或多个。

可以实施该说明书中所描述主题的特定实施例从而实现以下优势中的一种或多种。递归神经网络能够有效地被用来分析健康事件的序列，例如从当前患者的电子医疗记录所得出的健康事件的序列。递归神经网络能够有效地被用来预测事件在时间序列中的最近事件的指定时段内发生的可能性，即使所述事件并未被包括在针对所述递归神经网络的可能输入集合中。递归神经网络状态能够有效地被用来识别对应于其它患者的其它时间序列，所述其它时间序列可以包括作为可能变为与当前患者相关联的未来健康事件的预测的健康事件。因此，该主题的实施例提供了用于处理健康事件的时间序列的有所改进的系统和方法。

能够向诸如医生或其它保健专业人员的用户提供表征递归神经网络的输出或者从由所述递归神经网络生成的输出所得出的输出的信息，这提高了保健专业人员向该专业人员的患者提供高质量保健的能力。例如，能够向保健专业人员提供有关可能变为与患者相关联的未来健康事件的有用信息，例如，可能成为与患者相关联的下一个健康事件的健康事件或者在该序列中的最近事件的指定时段内发生的事件将满足某些条件的可能性。此外，能够向保健专业人员提供识别提议的治疗对于事件发生可能性的潜在影响的信息，例如，提议的治疗会是否会减少或增加不期望的健康相关条件在未来针对患者得到满足的可能性。此外，能够向保健专业人员提供其保健记录在其历史中的一个时点类似于当前患者的患者的保健记录，或者提供那些患者的保健结果的概述。此外，在一些情况下，能够为保健专业人员生成警报，所述警报在所述保健人员提议采取的动作导致该患者的未来预测结果的风险明显增加的情况下被触发。此外，能够使用包括递归神经网络的保健分析系统来编制标准医疗实践，以发现治理和结果中的模式，分析现有医疗技术或保健系统，或者作出新颖的推荐或促成科学发现。

该说明书的一个或多个实施例的细节在附图和以下描述中被给出。主题的其它特征、方面和优势将由于该描述、附图和权利要求而变得显而易见。

附图说明

图1示出了示例保健分析系统。

图2是用于生成时间序列的健康事件数据的示例过程的流程图。

图3是用于从下一个输入分数生成时间序列的健康分析数据的示例过程的流程图。

图4是用于从网络内部状态生成时间序列的健康事件数据的示例过程的流程图。

图5是用于从未来条件分数生成时间序列的健康事件数据的示例过程的流程图。

图6是用于确定向时间序列添加事件对于未来条件分数的影响的示例过程的流程图。

图7示出了被配置成生成未来条件分数的示例递归神经网络。

图8是用于针对给定时间步生成未来条件分数的示例过程的流程图。

图9是用于训练递归神经网络以生成未来条件分数的示例过程的流程图。

相似的附图标号和标记在各图中指示相似的元素。

具体实施方式

该说明书总体上描述了一种能够使用递归神经网络从包括识别多个健康事件的数据的时间序列生成健康分析数据的系统。

图1示出了示例保健分析系统100。保健分析系统100是被实施为以下所描述的系统、组件和技术能够在其中实施的一个或多个位置的一个或多个计算机上的计算机程序的系统的示例。

保健分析系统100接收时间序列，并且通过使用递归神经网络110处理所述时间序列而从所接收的时间序列生成健康分析数据。例如，保健分析系统100能够接收时间序列102并且从时间序列102生成健康分析数据122。

所述时间序列是包括健康相关数据的序列，所述健康相关数据例如识别处于多个时间步中的每一个的健康事件的数据。每个时间序列包括与给定患者相关联的健康相关数据，其中所述时间序列中的健康相关数据所识别的健康事件按照时间进行排序，而使得最近发生的健康事件是处于所述序列中的最后时间步的健康事件。

在一些实施方式中，时间序列生成系统104从对应患者的电子医疗记录生成时间序列102。电子医疗记录是对应患者的健康信息的电子集合。例如，时间序列生成系统能够从电子医疗记录库106获得患者的电子医疗记录，并且通过识别所述电子医疗记录中的健康事件并且将所述健康事件按时间排序而从所述电子医疗记录生成时间序列102。特别地，时间序列102可以包括多个时间步中的每一个处的令牌序列，其中每个令牌表示在电子医疗记录中所识别的健康事件。在一些实施方式中，时间序列生成系统能够将识别健康事件发生的时间的数据附加至识别时间序列102中的健康事件的数据。

通常，在由保健分析系统100接收的时间序列中识别的健康事件可以包括症状、测试、测试结果、诊断、用药、结果等中的一个或多个，它们中的每一个由来自预定令牌词汇的令牌来表示。可选地，每个令牌与时间序列中识别健康事件发生的时间的数据进行合并。此外，在一些情况下，所述时间序列可以识别由来自词汇的令牌识别的那些以外的健康事件。例如，在一些实施方式中，时间序列中的健康事件还可以包括健康相关图像，例如X光或其它诊断图像；健康相关电子文档，例如医生在会面期间所生成的自由形式的笔记；或者上述二者。

进一步可选地，所述健康相关数据可以包括可以被归类为对患者健康有所影响的其它健康相关数据。例如，所述其它数据可以包括表征患者活动的数据或者由患者的设备所收集的其它健康相关数据，所述设备例如活动跟踪设备或者在移动设备上执行的活动跟踪应用。例如，所述活动数据可以包括识别患者在特定一天行进的距离、患者参与的锻炼或其它健身活动、患者摄入的饮食等等的数据。其它健康相关数据还可以包括可以被认为对患者的健康有所影响的其它数据，例如，患者的处方实现数据或者识别患者做出的购买的数据。

保健分析系统100使用递归神经网络110处理时间序列102以针对时间序列102生成网络输出。保健分析系统100还包括保健分析引擎120，其接收针对时间序列102的网络输出并且从所述网络输出针对时间序列102生成分析数据122。

通常，针对时间序列102的网络输出包括以下的一个或多个：下一个输入分数的集合112、未来条件分数的集合114，或者递归神经网络110的网络内部状态116。

递归神经网络110包括一个或多个递归神经网络层，所述递归网络层针对给定输入时间序列中的每个时间序列生成网络内部状态。在一些实施方式中，递归神经网络110还包括输出层、逻辑回归节点的集合，或者以上二者，它们接收网络内部状态并且对所述网络内部状态进行处理以针对时间步生成网络输出。此外，在一些实施方式中，所述递归神经网络还包括一个或多个其它类型的神经网络层，例如前馈层，例如完全连接层、卷积层、池化层、正规化层等。

特别地，每个递归神经网络层被配置成接收针对时间步的层输入并且计算所述时间步的所述层的层内部状态。所述递归神经网络层依据所述层的参数集合的当前值从之前时间步的层的层内部状态以及当前时间步的层输入来计算当前时间步的层内部状态。在一些实施方式中，一个或多个递归神经网络层被配置成在计算当前时间步的层内部状态时还使用其它内部状态，例如，来自其它先前时间步的层的内部状态、其它递归层的当前时间步或之前时间步的内部状态。如果当前时间步是序列中的第一时间步，则之前时间步的层内部状态是初始层内部状态，例如，如系统管理员所指定的或者如保健分析系统100所生成的。

如果在递归神经网络110中仅有一个递归神经网络层，则给定时间步的网络内部状态是所述递归神经网络层针对所述时间步的层内部状态。

如果递归神经网络110中有多个递归神经网络层，则层以序列中最低层到序列中最高层的顺序以被排列在序列中，并且共同处理时间步处的健康事件以针对所述时间步计算网络内部状态。如果递归神经网络100中有其它类型的神经网络层，则其它神经网络层能够被散布在序列中的各个位置，例如在第一递归层之前、在两个递归层之间、在所有递归层之后、或者这些的一些组合。针对给定时间步，递归神经网络110能够将来自每个递归神经网络层的层内部状态作为针对序列中处于所述层上方的递归神经网络层的层输入来提供。在一些实施方式中，一个或多个递归神经网络层被配置成还从序列中除了处于所述递归层下方的层以外的一个或多个其它层接收输入。

在一些实施方式中，序列中的一个或多个层能够被配置成在时间步的子集——例如在第一时间步——或者在每个时间步，作为层的层输入的一部分而接收全局输入、按记录的输入，或者此二者。全局输入是并不依赖于正由递归神经网络110处理的当前时间序列的输入。全局输入的示例是表征一年中的当前时间的数据，例如当前日期。按记录的输入是可以针对不同时间序列有所不同的输入。按记录的输入的示例可以包括与当前时间序列相关联的患者的遗传序列或者表征所述患者的其它信息，例如患者的人口统计信息。

在一些实施方式中，如果存在多个递归神经网络层，则时间步的网络内部状态是针对所述时间步的序列中的最高层的层内部状态。在一些其它实施方式中，保健分析系统100将时间步的层内部状态进行组合以生成时间步的网络内部状态。例如，保健分析系统100可以计算层内部状态的和、积或平均值，或者可以将层内部状态进行连结以生成网络内部状态。

在一些实施方式中，递归神经网络层是长短期记忆(LSTM)层。每个LSTM层包括一个或多个LSTM记忆块。每个LSTM记忆块可以包括一个或多个单元，每个单元包括输入门、忘记门和输出门的单元，它们允许单元存储单元之前的状态，以便例如用于生成当前激励或者被提供至LSTM神经网络的其它组件。

在其中递归神经网络110包括输出层的实施方式中，所述输出层被配置成针对每个时间步接收该时间步的网络内部状态并且针对该时间步生成下一个输入分数的集合。时间步的下一个输入分数的集合包括由令牌词汇中的令牌表示的每个健康事件的相应分数。一旦递归神经网络110已经被训练，给定健康事件的下一个输入分数表示该健康事件将是时间序列中的下一个健康事件的可能性。因此，在递归神经网络110包括输出层时，递归神经网络110是已经被训练以针对给定输入时间序列的每个时间步预测未来健康事件、即时间序列中的下一个时间步处的健康事件的网络。递归神经网络110能够使用例如通过时间反向传播训练技术之类的常规机器学习训练技术在训练序列上进行训练。

在这些实施方式中，时间序列102的下一个输入分数112是由输出层针对时间序列102中的最后时间步生成的下一个输入分数。

在其中递归神经网络110包括逻辑回归节点集合的实施方式中，该逻辑回归节点的集合被配置成在每个时间步接收该时间步的网络内部状态并且针对该时间步生成未来条件分数的集合。未来条件分数的集合包括预定条件集合中的每个条件的相应分数。给定条件的分数表示该条件将在当前时间步处的健康事件的指定时段内被满足的可能性。

条件可以包括由于事件发生而被满足的条件，例如由于由词汇中的令牌表示的健康事件的发生而被满足的条件。在一些情况下，附加于或替代于包括由于由词汇中的令牌表示的健康事件的发生而被满足的条件，预定条件集合中的条件还可以包括在当前时间步的健康事件的指定时段内发生并非由词汇中的令牌表示的事件时被满足的条件，即该事件并非递归神经网络110处理的时间序列中所包括的可能健康事件。因此，虽然能够满足预定条件集合中的条件的事件可能与由令牌表示的事件有所重叠，但是该条件集合也可能包括由于不在该集合中的其它事件的发生而被满足的条件。

参考图7和8对包括逻辑回归节点的集合的递归神经网络更详细地进行描述。下文参考图9对训练递归神经网络以预测条件被满足的可能性更详细地进行描述。

在这些实施方式中，时间序列102的条件分数114是由逻辑回归节点针对时间序列102中的最后时间步生成的未来条件分数。

在其中网络内部状态116被包括在针对时间序列102的网络输出中的实施方式中，时间序列102的网络内部状态116是由递归神经网络110针对该序列中的最后时间步生成的网络内部状态，或者是由递归神经网络110针对该序列中的多个时间步生成的网络内部状态的组合，例如网络内部状态的加权和、乘积或连结。

保健分析引擎120接收时间序列122的网络输出，并且针对时间序列102生成健康分析数据122并提供健康分析数据122以便诚信啊给用户，例如呈现给治疗对应于时间序列102的患者的医生。通常，健康分析数据122是表征可以与时间序列102相关联的未来事件、即可能在时间序列102中的当前最后健康事件之后发生的健康事件或其它事件的数据。

在其中针对时间序列102的神经网络输出包括下一个输入分数122的实施方式中，保健分析引擎120生成识别可能在时间序列102中接下来发生的健康事件的健康分析数据122。下文参考图3对从下一个输入分数针对时间序列生成健康分析数据进行更为详细的描述。

在其中针对时间序列102的神经网络输出包括网络内部状态116的实施方式中，保健分析引擎120生成识别来自其它时间序列的可能预测时间序列102中的未来事件的健康事件的健康分析数据122。特别地，保健分析引擎120从内部状态库130中存储的内部状态识别网络内部状态116的相似内部状态，并且使用该相似内部状态来确定来自其它时间序列的可能预测时间序列102中的未来事件的健康事件。内部状态库130存储在各个时间序列中的各个时间步生成的网络内部状态，并且将每个网络内部状态与识别针对其生成该网络内部状态的时间步和时间序列的数据相关联。下文参考图4对从网络内部状态针对时间序列生成健康分析数据进行更为详细的描述。

在针对时间序列102的神经网络输出包括未来条件分数114的实施方式中，保健分析引擎120生成表征条件的分数的健康分析数据122。下文参考图5对从未来健康条件分数针对时间序列生成健康分析数据进行更为详细的描述。

图2是用于针对时间序列生成健康事件数据的示例过程200的流程图。为了方便，过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。作为示例，经适当编程的例如图1的保健分析系统100的神经网络训练系统能够执行过程200。

所述系统接收输入时间序列(步骤202)。所述时间序列包括识别多个时间步中的每一个处的相应健康事件的数据。在一些实施方式中，所述时间序列从电子医疗记录得出并且包括从多个时间步中的每一个处的电子医疗记录识别相应健康事件的数据。所述序列中的健康事件可以按照时间排序，而使得最近发生的健康事件是处于序列中的最后时间步处的健康事件。

所述系统使用例如图1的递归神经网络110的递归神经网络处理输入时间序列以针对输入时间序列生成神经网络输出(步骤204)。

根据该实施方式以及递归神经网络的架构，由递归神经网络通过处理输入时间序列生成的神经网络输出可以包括下一个输入分数、未来条件分数或网络内部状态。

系统从神经网络输出针对时间序列生成健康分析数据(步骤206)。如上文所描述的，健康分析数据取决于由递归神经网络生成的神经网络输出的类型。

图3是用于从下一个输入分数生成时间序列的健康分析数据的示例过程300的流程图。为了方便，过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。作为示例，经适当编程的例如图1的保健分析系统100的神经网络训练系统能够执行过程300。

系统接收输入时间序列(步骤302)。

系统使用递归神经网络处理输入时间序列以针对输入时间序列生成下一个输入分数(步骤304)。递归神经网络包括一个或多个递归神经网络层、和被配置成针对时间序列中的每个时间步接收由递归神经网络针对时间步生成的网络内部状态并且针对时间序列生成下一个输入分数的集合的输出层。时间步的下一个输入分数的集合包括由令牌词汇中的令牌表示的每个健康事件的相应分数，其中给定健康事件的下一个输入分数表示该健康事件将是时间序列中的下一个健康事件——即时间序列中的下一个时间步处的健康事件——的可能性。

输入时间序列的下一个输入分数是由输出层针对时间序列中的最后时间步生成的下一个输入分数。

系统使用下一个输入分数识别一个或多个最高评分的健康事件(步骤306)。例如，系统能够选择预定数量的健康事件，所述健康事件具有最高的下一个输入分数、或者每个健康事件具有高于阈值的下一个输入分数。

系统提供识别最高评分的健康事件的数据、以及可选地提供表征每个最高评分的健康事件的下一个输入分数的数据，用于呈现给用户(步骤308)。因此，医生或其它用户能够与对应于输入时间序列的患者相关联地查看有关可能是下一个健康事件的健康事件的信息。

图4是用于从网络内部状态生成时间序列的健康事件数据的示例过程400的流程图。为了方便，过程400将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。作为示例，经适当编程的例如图1的保健分析系统100的神经网络训练系统能够执行过程400。

系统使用例如递归神经网络110的递归神经网络处理时间序列集合中的每一个以针对每个时间序列中的每个时间步生成网络内部状态(步骤402)。集合中的每个时间序列对应于不同的患者，例如从不同的电子医疗记录生成。递归神经网络包括一个或多个递归神经网络层和输出层、逻辑回归节点的集合，或者包括其二者。特别地，递归神经网络已经被训练以针对给定输入时间序列中的每个时间步从由神经网络针对当前时间步生成的内部状态预测未来事件，即在当前时间步处的事件之后发生的事件。例如，如果递归神经网络包括输出层，则递归神经网络可能已经被训练以预测时间序列中的下一个事件，即时间序列中的当前时间步之后的下一个时间步处的事件。作为另一个示例，如果递归神经网络包括逻辑回归节点的集合，则递归神经网络可能已经被训练以预测事件集合中的每一个是否将会在时间序列的当前时间步处的事件的指定时段内发生。

系统将网络内部状态存储在内部状态库中，并且将每个网络内部状态与识别针对其生成网络内部状态的时间步和时间序列相关联(步骤404)。在一些实施方式中，针对每个时间序列，系统将由系统针对时间序列中的每个时间步生成的网络内部状态存储在库中。在一些其它实施方式中，系统仅将网络内部状态的子集存储在库中，例如仅存储在时间序列中之前至少有阈值数量的其它健康事件的健康事件的网络内部状态。

系统接收健康事件的输入时间序列(步骤406)。

系统使用递归神经网络处理输入时间序列以针对输入时间序列确定序列内部状态(步骤408)。输入时间序列的序列内部状态是序列中的最后时间步处的健康事件的网络内部状态。

系统从内部状态库中选择与序列内部状态相似的一个或多个网络内部状态(步骤410)。系统通过计算虚拟内部状态和库中的网络内部状态之间的相似性量度——例如余弦相似性量度——来选择网络内部状态。例如，系统能够选择与虚拟内部状态具有最大余弦相似性的预定数量的网络内部状态或者与序列内部状态具有超过阈值相似性的余弦相似性的每个网络内部状态。在一些实施方式中，系统使用不同的距离量度例如欧几里德距离、汉明距离等来确定内部状态之间的相似性。类似地，系统还能够对内部状态进行正规化并且计算经正规化的内部状态之间的距离。

系统提供识别针对其生成相似网络内部状态的时间序列的数据用于呈现给用户(步骤412)。特别地，系统针对给定的相似网络内部状态提供识别在针对其生成网络内部状态的时间步之后发生的时间序列中针对其生成相似网络内部状态的健康事件的数据。由于生成序列内部状态和相似网络内部状态两者的递归神经网络被训练以从网络内部状态预测未来事件，并且所述相似网络内部状态与序列内部状态相似，所以在针对其生成给定网络内部状态的时间步之后发生的事件可能是输入时间序列中的未来事件、即在输入时间序列中的当前最后事件之后发生的事件的预测。也就是说，从针对其生成给定的相似网络内部状态的时间步，递归神经网络预计对应患者具有与递归神经网络针对对应于输入时间序列的当前患者所预计的未来相似的未来。因此，通过从网络内部状态查看后续事件，例如医生的用户可以被给予可能跟随在输入时间序列中的当前最后事件之后的事件——即可能针对当前患者发生的未来事件——的想法。

在一些其它实施方式中，系统还提供识别时间序列中的其它健康事件的数据以便作为识别针对其生成给定网络内部状态的时间序列的数据的一部分呈现给用户。

在一些实施方式中，不同于提供识别时间序列的数据用于呈现给用户，系统从时间序列中的后续事件计算统计并且提供所计算的统计用于呈现给用户。例如，系统可以确定时间序列中在针对其生成相似网络内部状态的时间步之后包括例如心脏病或中风之类的特定健康事件的比例。系统随后可以提供识别该比例的数据用于呈现给用户，例如以“预计X％的患者与体验特定健康事件的当前患者具有相似的未来”的形式。

在一些实施方式中，不同于将内部状态存储在内部状态库中，系统能够在接收到要与其它时间序列相比较的输入时间序列的任何时候针对每个其它时间序列重新计算内部状态。

图5是用于从未来条件分数生成时间序列的健康事件数据的示例过程500的流程图。为了方便，过程500将被描述为由位于一个或多个位置的一个或多个计算机的系统所执行。作为示例，经适当编程的例如图1的保健分析系统100的神经网络训练系统能够执行过程500。

系统接收输入时间序列(步骤502)。

系统使用例如递归神经网络110的递归神经网络处理输入时间序列以针对输入时间序列生成未来条件分数(步骤504)。未来条件分数包括预定条件集合中的每一个的未来条件分数。给定条件的未来条件分数表示将在输入时间序列中的最后时间步处的事件的指定时段内满足所述条件的可能性。

在一些实施方式中，递归神经网络包括一个或多个递归神经网络层以及逻辑回归节点的集合。每个逻辑回归节点在输入时间序列中的每个时间步针对预定条件集合中的对应条件生成未来条件分数。下文参考图7-9对包括生成未来条件分数的逻辑回归节点的递归神经网络进行更为详细的描述。在这些实施方式中，由递归神经网络针对输入时间序列中的最后时间步生成的未来条件分数的集合是输入时间序列的未来条件分数的集合。

在一些其它实施方式中，递归神经网络包括针对输入时间序列中的每个时间步生成下一个输入分数的集合的输出层，而并不包括逻辑回归节点。在这些实施方式中，系统生成多个可能的时间序列，其中每个包括时间序列中的当前最后时间步之后的指定数量的附加时间步以及每个附加时间步处的相应的可能健康事件。系统通过针对每个附加时间步执行具有指定宽度的波束搜索而生成多个可能时间序列。波束搜索的宽度定义了由系统在每个未来时间步考虑的最高评分的事件的数量。系统随后针对由于要针对其生成未来条件分数的事件之一的发生而被满足的每个条件确定包括满足序列中的附加时间步之一处的条件的事件的可能时间序列的比例。系统随后能够使用该比例作为对应条件的未来条件分数。可选地，系统能够使用事件在其中发生的可能时间序列的发生的可能性对事件的每次发生进行加权。可能时间序列发生的可能性例如可以是序列中的每个附加时间步处的健康事件的下一个输入分数的乘积。

系统提供识别未来条件分数的数据用于呈现给用户(步骤506)。例如，系统能够提供识别每个条件的数据以及每个条件的未来条件分数或者仅提供识别一个或多个最高评分的条件的数据用于呈现给用户。

在一些实施方式中，附加于或替代于提供识别未来条件分数的数据用于呈现给用户，系统能够确定治疗对于未来条件分数的影响并且提供识别该影响的数据用于呈现给用户。

图6是用于确定向时间序列添加事件对未来条件分数的影响的示例过程600的流程图。为了方便，过程600将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。作为示例，经适当编程的例如图1的保健分析系统600的神经网络训练系统能够执行过程600。

系统接收初始输入时间序列(步骤602)。

]系统针对初始输入时间序列确定未来条件分数(步骤604)。例如，系统能够如上文参考图5所描述的那样针对初始输入时间序列确定未来条件分数。

系统接收来自用户的识别附加健康事件的数据(步骤606)。例如，附加健康事件可以是要由医生为患者制定的潜在治疗。

系统通过将识别附加健康事件的数据——例如表示健康事件的令牌——附加至初始输入时间序列的末端而生成经修改的输入时间序列(步骤608)。

系统针对经修改的输入时间序列确定未来条件分数(步骤610)。例如，系统能够如上文参考图5所描述的那样针对经修改的输入时间序列确定未来条件分数。

系统确定通过将附加健康事件添加至输入时间序列所导致的未来条件分数的改变(步骤612)，并且提供识别该改变的数据用于呈现给用户(步骤614)。也就是说，系统计算经修改的输入时间序列的未来条件分数与初始输入时间序列的对应的未来条件分数之间的差，并且提供识别该差的数据用于呈现给用户。因此，医生能够查看潜在治疗对于某些条件将在未来得到满足的可能性的影响。

在一些实施方式中，系统能够响应于新事件被添加至时间序列而自动执行过程600。如果新事件导致条件的未来条件分数的增加大于阈值或者超出阈值，则系统能够生成警报以自动向用户通知该改变。例如，系统管理员或其它用户可以将一个或多个特定条件被满足指定为不期望的。系统因此能够响应于新事件被添加至时间序列而自动执行过程600，并且如果不期望的条件之一的未来条件分数跨过阈值分数或者增加了大于阈值增量，则生成警告以通知用户。

此外，在一些实施方式中，系统能够响应于接收到时间序列而自动从时间序列生成多个经修改的时间序列，其中每个经修改的时间序列将不同的可能输入健康事件添加至时间序列。可能输入健康事件可以是由词汇中的令牌表示的健康事件，例如由词汇中的令牌表示的一些或全部可能治疗。系统随后能够针对每个经修改的时间序列执行过程600，并且针对经修改的序列中的任一个确定一个或多个不期望的条件的未来条件分数是否以超过阈值的减量而减小。响应于针对给定的经修改时间序列确定不期望的条件的未来条件分数以超过阈值的减量有所减小，系统能够向用户提供识别被添加至时间序列的健康事件的信息以生成经修改的时间序列。因此，医生能够被给予对能够降低不期望的条件在未来被满足的可能性的附加治疗加以考虑的机会。

图7示出了被配置成生成未来条件分数的示例递归神经网络700。递归神经网络700是被实施为一个或多个位置的一个或多个计算机上的计算机程序的系统的示例，其中能够实施下文所描述的系统、组件和技术。

递归神经网络700接收包括多个时间步中的每一个处的相应输入的输入序列，并且针对每个时间步生成预定事件集合中的每个条件的相应未来条件分数。给定时间步处的给定条件的未来条件分数表示该条件将在该时间步处的输入时间的指定时段内被满足的可能性。

递归神经网络700包括一个或多个递归神经网络层710、多个逻辑回归节点720A-N，以及可选地输出层740。

如上文参考图1所描述的，针对每个时间步，一个或多个递归神经网络层710接收该时间步处的输入并且共同处理该输入以针对该时间步生成网络内部状态。

逻辑回归节点720A-720N中的每一个对应于来自预定条件集合的相应条件，并且被配置成根据相应参数集合的当前值来处理网络内部状态从而针对对应的事件生成未来条件分数。因此，在每个时间步，逻辑回归节点720A-720N中的每一个针对预定条件集合中的相应一个条件生成未来条件分数。

如果递归神经网络700包括输出层740，则输出层740被配置成接收时间步的网络内部状态，并且处理该内部状态以针对可能输入集合中的每个可能输入生成相应的下一个输入分数。给定可能输入的下一个输入分数表示该可能输入是输入序列中的下一个输入——即紧跟输入序列中的当前时间步处的输入——的可能性。

时间序列中的输入包括从表示可能输入事件集合的预定词汇中的令牌中选择的输入。递归神经网络700针对其生成未来条件分数的预定条件集合中的条件可以包括由于不由预定词汇中的令牌表示的事件——即不是可以被包括在由递归神经网络700处理的时间序列中的可能输入事件——由令牌表示的事件、或其二者的发生而被满足的条件。因此，虽然事件集合中满足递归神经网络700针对其生成未来条件分数的预定条件集合中的任意条件的事件可能与由令牌表示的事件有所重叠，但是该事件集合还可以包括并不处于该集合中的其它事件。

图8是用于针对给定时间步生成未来条件分数的示例过程800的流程图。为了方便，过程800将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。作为示例，经适当编程的例如图7的递归神经网络700的递归神经网络能够执行过程800。

系统接收针对时间步的输入，例如表示健康事件的令牌(步骤802)。

系统使用例如图7的递归神经网络层710的一个或多个递归神经网络层处理输入以针对时间步生成递归神经网络的网络内部状态(步骤804)。一个或多个神经网络层例如如上文参考图1所描述的那样生成网络内部状态。

系统使用例如图7的逻辑回归节点720A-720N的逻辑回归节点的集合中的每一个处理网络内部状态以生成未来条件分数的集合(步骤806)。逻辑回归节点中的每一个对应于来自预定条件集合中的相应条件，并且通过根据逻辑回归节点的参数集合的当前值处理内部状态而针对对应条件生成未来条件分数。

可选地，系统还使用例如图7的输出层740的输出层处理网络内部状态以针对可能输入集合中的每一个生成相应的下一个输入分数(步骤808)。输出层通过根据输出层参数集合的当前值处理网络内部状态而生成相应的下一个输入分数。

能够针对并不知道其期望输出、即系统针对输入所应当生成的神经网络输出的神经网络输入来执行过程800。系统还对训练序列集合中的输入、即由系统针对其应当预测的输出为已知的输入集合执行过程800以对系统进行训练，即针对递归神经网络层、逻辑回归节点以及一些实施方式中的输出层的参数确定训练值。特别地，能够作为例如通过时间反向传播训练技术的机器学习训练技术的一部分而对来自训练序列集合的输入反复执行过程800以训练神经网络。下文参考图9对示例训练处理进行更详细的描述。

图9是用于训练递归神经网络以生成未来条件分数的示例过程900的流程图。为了方便，过程900将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。作为示例，经适当编程的例如图7的递归神经网络700的递归神经网络能够执行过程900。

系统获得标记的训练序列(步骤502)。所获得的训练序列中的每个是多个时间步中的每一个处的输入的序列。每个训练序列在每个时间步还包括递归神经网络针对其生成未来条件分数的预定条件集合中的每个条件的相应指示符变量。给定时间步处的给定条件的指示符变量指示在从该时间步的输入的指定时段内是否满足所述条件。例如，指示符变量可以在条件被满足的情况下具有值1，并且在条件未被满足的情况下具有值0。因此，在每个时间步，标记的训练序列针对预定条件集合中的每个条件包括输入以及相应指示符变量。

在一些实施方式中，系统接收已经使用指示符变量标记的训练序列。在一些其它实施方式中，系统通过针对每个时间步的每个条件计算指示符变量而生成标记的训练序列。例如，系统能够针对训练序列中的给定时间步的给定输入确定所述输入何时发生并且访问识别满足预定条件集合中的条件的事件发生的数据。系统随后能够针对每个条件确定在时间步处的事件发生时的指定时段内是否满足所述条件并且相应地设置所述事件的指示符变量的值。

系统在标记的训练序列上训练一个或多个递归神经网络层、逻辑回归节点以及可选地输出层(步骤504)。特别地，系统通过执行机器学习技术的多次迭代而从参数的初始值确定递归神经网络层、逻辑回归节点和输出层的参数的经训练值。作为训练技术的一部分，系统对目标函数进行最小化或最大化。如果系统仅包括逻辑回归节点而并不包括输出层，则对于给定训练序列中的给定时间步而言，目标函数取决于由逻辑回归节点针对所述时间步生成的未来条件分数和所述时间步处的对应条件的指示符变量之间的误差。如果系统还包括输出层，则对于时间步而言，目标函数还取决于由输出层针对所述时间步生成的下一个输入分数和所述训练序列中的下一个时间步处的输入之间的误差。

如上所述，递归神经网络700能够处理包括识别与患者相关联的健康事件的数据的时间序列以生成未来条件分数。然而，递归神经网络700能够被训练以针对包括识别任意类型的时间事件的数据的时间序列——即包括识别按照那些事件随时间何时发生进行排序的事件的数据的任意时间序列——生成未来条件分数。

例如，递归神经网络700能够被训练以针对包括识别用户的财务报表中的交易资金的数据的时间序列生成未来条件分数，例如可能出现在银行报表上的银行交易、可能出现在信用卡报表上的信用卡交易等。该情境中的未来条件分数可以包括由进行的各种类型的财务交易满足的条件的分数、由发生的不是在财务报表中出现的类型的财务交易的事件——例如税务审计——满足的条件的分数、或其二者。

作为另一个示例，递归神经网络700能够被训练以针对包括识别股票市场交易的数据的时间序列生成未来条件分数。在此情境中，时间序列可以包括参与股票市场的单一实体或所有实体所进行的股票购买和出售。

作为另一个示例，递归神经网络700能够被训练以针对包括识别机器或电子器件——例如飞机、车辆、数据中心组件等——的维护记录的数据的时间序列生成未来条件分数。在此情境中的未来条件分数可以包括由各种类型的维护相关事件满足的条件的分数，以及由通常不在维护记录中出现的事件——例如，飞机的飞行故障——的发生满足的条件的分数。

该说明书中所描述的主题和功能操作的实施例能够在数字电子电路、有形体现的计算机软件或固件、包括该说明书中所公开的结构及其结构等同物的计算机硬件、或者以它们中一个或多个的组合中实施。该说明书中描述的主题的实施例能够被实施为一个或多个计算机程序，即编码在计算机存储介质上以由数据处理装置执行或者控制其操作的一个或多个计算机程序指令模块。替选地或附加地，该程序指令能够编码在人工生成的传播信号上，例如机器生成的电、光学或电磁信号，其被生成以对信息进行编码以便传输至适当接收器装置而由数据处理装置来执行。计算机存储介质可以是计算机可读存储设备、计算机可读存储基底、随机或串行访问存储器设备，或者它们中一个或多个的组合。

术语“数据处理装置”包含用于处理数据的所有类型的装置、设备和机器，例如包括可编程处理器、计算机、或者多个处理器或计算机。该装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合的代码。

计算机程序(也被称作或描述为程序、软件、软件应用、模块、软件模块、脚本或代码)能够以任意形式的编程语言进行编写，包括编译或解释语言、或者声明或过程语言，并且其能够以任意形式进行部署，包括作为独立程序或者作为适于在计算环境中使用的模块、组件、子程序或其它单元。计算机程序可以对应于文件系统中的文件，但是并非需要如此。程序能够被存储在保存有例如标记语言文档中所存储的一个或多个脚本的其它程序或数据的文件的一部分中，存储在专用于所讨论程序的单个文件中，或者存储在多个协同文件中，例如存储一个或多个模块、子程序或代码部分的文件。计算机程序可以被部署为在一台计算机或多台计算机上执行，所述多台计算机位于一个地点或者跨多个地点分布并且通过通信网络进行互连。

该说明书中所描述的过程和逻辑流能够由一个或多个可编程计算机来实施，所述可编程计算机执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来实行功能。所述处理和逻辑流还能够由例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)的专用逻辑电路实行，并且装置也能够被实施为专用逻辑电路。

适于执行计算机程序的处理器例如包括能够基于通用和专用的微处理器或者它们二者、或任何其它类型的中央处理器。通常，中央处理器将从只读存储器或随机访问存储器或者其二者接收指令和数据。计算机的实质性部件是用于实行或执行指令的中央处理器以及用于存储指令和数据的一个或多个存储器。通常，计算机还将包括一个或多个用于存储数据的大型存储设备、或者操作地耦合到大型存储设备以从其接收数据或将数据传输到其、或两者，大型存储设备例如磁、磁光盘或光盘。然而，计算机无需具有这样的设备。此外，计算机可以嵌入另一个设备之中，仅举出几个示例，所述设备例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器，或者便携式存储设备，例如通用串行总线(USB)闪存。

适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，例如包括半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或者结合于其中。

为了提供与用户的交互，该说明书中所描述主题的实施例可以在具有显示设备以及键盘和指示设备的计算机上实施，显示设备例如CRT(阴极射线管)或LCD(液晶显示器)监视器，用于向用户显示信息，并且指示设备例如鼠标或轨迹球，用户能够通过其向计算机提供输入。也可以使用其它类型的设备来提供与用户的交互；例如提供给用户的反馈可以是任意形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且来自用户的输入可以以任意形式被接收，包括声音、语音或触觉输入。此外，计算机能够通过向用户所使用的设备发送文档以及从该设备接收文档来与用户进行交互；例如，通过响应于从用户的客户端设备上的web浏览器接收到请求而向该web浏览器发送web页面。

该说明书所描述主题的实施例可以在如下的计算系统中实施：所述计算系统包括后端组件——例如作为数据服务器，或者包括中间件组件——例如应用服务器，或者包括前端组件——例如具有用户能够通过其与该说明书中所描述主题的实施方式进行交互的图形用户界面或Web浏览器的客户端计算机，或者所述计算系统包括一个或多个这样的后端、中间件或前端组件的任意组合。所述系统的组件能够通过例如通信网络的任意形式或介质的数字数据通信进行互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络进行交互。客户端和服务器的关系通过在各自计算机上运行并且彼此具有客户端-服务器关系的计算机程序建立。

虽然该说明书包含许多具体实施细节，但是这些并不应当被理解为对任何发明以及所要求保护的内容的范围进行限制，而是作为特定于特定发明的特定实施例的特征的描述。该说明书中以单独实施例为背景进行描述的某些特征也能够在单个实施例中以组合形式来实施。相反，以单个实施例为背景进行描述的各种特征也能够单独或以任意适当子组合在多个实施例中实施。此外，虽然特征在上文中可以被描述为以某种组合进行工作并且甚至最初要求如此，但是来自所要求组合的一个或多个特征在一些情况下可以脱离该组合，并且所要求的组合可以针对子组合或子组合的变体。

类似地，虽然在图中以特定次序描绘操作，但是这并不应当被理解为要求这样的操作以所示出的特定次序或以顺序次序来执行，或者要求执行所有图示的操作以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，以上所描述实施例中的各种系统组件的划分并不应当被理解为在所有实施例中都要求这样的划分，并且应当理解的是，所描述的程序组件和系统通常在单个软件产品中集成在一起或者被封装到多个软件产品中。

已经对该主题的特定实施例进行了描述。其它实施例处于以下权利要求的范围之内。例如，权利要求中所引用的动作可以以不同次序来执行并且仍然实现期望的结果。作为一个示例，附图中所描绘的处理并非必然要求所示出的特定次序或顺序次序以实现期望的结果。在某些实施方式中，多任务和并行处理可能是有利的。

Claims

1.一种方法，包括：

获得健康事件的第一时间序列，其中，所述第一时间序列包括在多个时间步中的每一个处与特定患者相关联的相应健康相关数据；

使用递归神经网络来处理健康事件的所述第一时间序列，以生成所述第一时间序列的神经网络输出；以及

根据所述第一时间序列的所述神经网络输出生成健康分析数据，所述健康分析数据表征可能在所述时间序列中的最后时间步之后发生的未来健康事件。

2.根据权利要求1所述的方法，其中，针对所述时间步中的一个或多个，在所述时间步处的健康相关数据是来自预定令牌词汇的相应令牌，所述词汇中的每个令牌表示不同的健康事件。

3.根据权利要求2所述的方法，其中，针对所述时间步中的一个或多个，在所述时间步处的健康相关数据是被归类为影响所述特定患者的健康的其它健康相关数据。

4.根据权利要求2或3所述的方法，其中，获得所述第一时间序列包括：

访问所述特定患者的电子医疗记录；

识别所述电子医疗记录中的健康事件；

针对所述电子医疗记录中所识别的每个健康事件，在所述词汇中确定表示该健康事件的令牌；以及

生成包括所述令牌的时间序列，所述令牌表示按照对应健康事件发生的时间进行排序的所识别的健康事件。

5.根据前述任一项权利要求所述的方法，其中，所述递归神经网络包括一个或多个递归神经网络层，所述递归神经网络层被训练以共同处理所述第一时间序列，以针对所述第一时间序列中的最后时间步生成网络内部状态。

6.根据权利要求5所述的方法，其中，所述递归神经网络进一步包括输出层，所述输出层被训练以处理所述最后时间步的所述网络内部状态，以生成神经网络输出，所述神经网络输出包括多个可能健康事件中的每个的相应分数，其中所述多个可能健康事件中的每个的所述相应分数表示所述可能健康事件是在所述第一时间序列中的所述最后时间步之后的时间步处的健康事件的可能性。

7.根据权利要求6所述的方法，其中，生成所述健康分析数据包括：使用所述相应分数来生成识别一个或多个最高评分的健康事件的数据。

8.根据权利要求5至7中任一项所述的方法，其中，所述递归神经网络进一步包括多个逻辑回归节点，其中，所述逻辑回归节点中的每一个对应于来自预定条件集合的相应健康相关条件，并且其中，每个逻辑回归节点被训练以处理所述最后时间步的所述网络内部状态，以生成对应条件的未来条件分数，其中，所述条件中的每个的所述未来条件分数表示将在所述时间步处的所述健康事件的指定时间段内满足所述健康相关条件的可能性。

9.根据权利要求8所述的方法，其中，生成所述健康分析数据包括：生成识别所述预定条件集合中的条件的可能性的数据。

10.根据权利要求8或9所述的方法，进一步包括：

获得识别附加健康事件的数据；

通过在所述第一时间序列的所述最后时间步之后添加识别所述附加健康事件的所述数据，来根据所述第一时间序列生成经修改的时间序列；

使用所述递归神经网络来处理所述经修改的时间序列，以生成所述经修改的时间序列的未来条件分数；以及

确定所述第一时间序列的未来条件分数和所述经修改的时间序列的未来条件分数之间的改变，其中，所述健康分析数据包括识别所述改变的数据。

11.根据前述任一项权利要求所述的方法，进一步包括：

提供所述健康分析数据以用于呈现给用户。

12.一种包括一个或多个计算机以及一个或多个存储指令的存储设备的系统，所述指令在由所述一个或多个计算机执行时使得所述一个或多个计算机实行根据前述任一项权利要求所述的方法。

13.一种在一个或多个非暂时性计算机可读介质上编码的计算机程序产品，所述计算机程序产品包括指令，所述指令在由一个或多个计算机执行时使得所述一个或多个计算机实行根据前述任一项权利要求所述的方法。