CN107851462A

CN107851462A - 使用循环神经网络分析健康事件

Info

Publication number: CN107851462A
Application number: CN201680038249.9A
Authority: CN
Inventors: 格雷戈里·肖恩·科拉多; 杰弗里·阿德盖特·迪恩
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-07-27
Filing date: 2016-07-26
Publication date: 2018-03-27
Anticipated expiration: 2036-07-26
Also published as: JP6530085B2; WO2017019707A1; KR20170132853A; US20170316313A1; US20170032243A1; CN107851462B; KR101953814B1; US10402721B2; EP3274888A1; JP2018527636A; US9652712B2

Abstract

提供了用于使用循环神经网络来分析健康事件的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。一种方法包括：处理健康事件的多个初始时间序列的每一个以针对初始时间序列的每一个来生成初始时间序列中的每个时间步的循环神经网络的相应的网络内部状态；针对初始时间序列中的每一个，将该时间序列中的时间步的网络内部状态中的一个或多个存储在储存库中；获得第一时间序列；使用循环神经网络来处理第一时间序列以生成第一时间序列的序列内部状态；以及选择很可能包括预测第一时间序列中的未来健康事件的健康事件的一个或多个初始时间序列。

Description

使用循环神经网络分析健康事件

技术领域

本说明书涉及使用循环神经网络来分析健康事件。

背景技术

神经网络是采用非线性单元的一层或多层来针对所接收的输入预测输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中下一层——即下一个隐藏层或输出层——的输入。网络的每一层根据相应的参数集合的当前值从接收到的输入生成输出。

一些神经网络是循环神经网络。循环神经网络是接收输入序列并且由该输入序列生成输出序列的神经网络。具体而言，循环神经网络可以将来自先前时间步的网络的一些或全部内部状态用在计算当前时间步的输出中。

发明内容

通常，本说明书中的主题的一个创新方面以方法体现，该方法包括下述动作：获得健康事件的多个初始时间序列，其中，该初始时间序列中的每一个包括在多个时间步中的每个时间步处的相应的健康相关数据；使用循环神经网络处理健康事件的多个初始时间序列中的每一个以针对该初始时间序列中的每一个，生成该初始时间序列中的每个时间步的循环神经网络的相应的网络内部状态，其中，循环神经网络已经被训练以接收输入时间序列，并且针对每个输入时间序列中的每个时间步，生成该时间步的网络内部状态并且预测在该时间步处根据该时间步的网络内部状态识别的健康事件之后发生的未来事件；针对多个初始时间序列中的每一个，将该时间序列中的时间步的网络内部状态中的一个或多个存储在内部状态储存库中；获得健康事件的第一时间序列；使用循环神经网络来处理健康事件的第一时间序列以生成第一时间序列的序列内部状态；以及使用第一时间序列的序列内部状态和内部状态储存库中的网络内部状态，从多个初始时间序列中选择很可能包括预测第一时间序列中的未来健康事件的健康事件的一个或多个初始时间序列。

选择一个或多个初始时间序列可以包括确定：内部状态储存库中与序列内部状态类似的网络内部状态。该方法可以进一步包括从多个初始时间序列中选择很可能包括预测第一时间序列中的未来健康事件的健康事件的初始时间序列，针对初始时间序列生成与该初始时间序列类似的网络内部状态。

确定内部状态储存库中与序列内部状态类似的网络内部状态可以包括：针对内部状态库中的网络内部状态中的每一个，计算网络内部状态和序列内部状态之间的相应的相似性度量。可以根据相似性度量来确定类似的网络内部状态。

可以将内部状态储存库中的每个网络内部状态与相应的时间步以及生成该网络内部状态所针对的相应的初始时间序列相关联。

该方法可以进一步包括提供用于呈现给用户的数据，该数据针对所选择的初始时间序列中的每一个，标识所选择的初始时间序列中处于在生成对应的网络内部状态所针对的时间步之后的时间步处的健康数据。

该方法可以进一步包括根据所选择的初始时间序列中处于在生成对应的网络内部状态所针对的时间步之后的时间步处的健康事件，计算标识特定健康事件的发生的频率的所述特定健康事件的统计量。提供所计算的统计量以供呈现给用户。

可以训练循环神经网络以针对每个输入训练序列中的多个时间步中的每一个，根据时间步的网络内部状态来生成多个可能健康事件中的每一个的相应分值。可能健康事件的每一个的相应的分值可以表示可能健康事件是在输入训练序列中的该时间步之后的时间步处的健康事件的可能性。

使用循环神经网络处理健康事件的第一时间序列以生成第一时间序列的序列内部状态可以包括针对第一时间序列中的每个时间步：使用循环神经网络处理标识该时间步的健康事件的数据以生成该时间步的网络内部状态；以及将第一时间序列中的最后一个时间步的网络内部状态选择为第一时间序列的序列内部状态。

健康事件的多个初始时间序列中的每一个可以与相应的患者相关联。在初始时间序列中的每个时间步处的健康相关数据可以与相应的患者相关联。

对初始时间序列中的每一个中的一个或多个时间步，该时间步处的健康相关数据可以是来自预定记号词汇表的相应的记号。词汇表中的每个记号表示不同健康事件。

对初始时间序列中的每一个的一个或多个时间步，该时间步的健康相关数据可以是被分类为影响相应的患者的健康的其他健康相关数据。

该方面的其他实施例包括相应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序，分别被配置为执行方法的动作。

一个或多个计算机的系统可以被配置借助于使操作时使得系统执行特定动作的软件、固件、硬件或它们的组合安装在系统上来执行该的操作或动作。一个或多个计算机程序可以被配置为借助于包括在由数据处理装置执行时使得该装置执行动作的指令来执行特定的操作或动作。

上述和其他实施例可以分别可选地包括单独或组合的一个或多个下述特征。

可以实现本说明书中所述的主题的特定实施例以便实现下述优点的一个或多个。循环神经网络可以有效地被用来分析一系列健康，例如从当前患者的电子病历导出的一系列健康事件。循环神经网络可以有效地被用于预测时间序列中最近事件的特定时间段内发生的事件的可能性，即使所述事件未被包括在循环神经网络的可能输入集合中。循环神经网络内部状态可以有效地被用于识别与其他患者相对应的其他时间序列，其可以包括预测可能变得与当前患者相关联的未来健康事件的健康事件。因此，本主题的实施例提供了用于处理健康事件的时间序列的改进的系统和方法。

诸如医生或其他健康护理专业人员的用户可以被提供表征循环神经网络的输出或从根据循环神经网络所生成的输出导出的输出的信息，从而改善了健康护理专业人员向专业的病人提供优质健康护理的能力。例如，可以向健康护理专业人员提供关于可能变得与当前患者相关联的未来健康事件——例如很可能是与患者相关联的下一健康事件的健康事件或者序列中的最近事件的指定时间段内发生的事件将满足某些条件的可能性的有用信息。此外，可向健康护理专业人员提供标识所构想的治疗对发生的事件的可能性的潜在影响的信息，例如，所提出的治疗是否可以减少或增加该患者未来满足的不期望的健康有关的条件的可能性。此外，可向健康护理专业人员提供其医疗记录在历史记录中的某一点类似于当前患者的患者的医疗记录，，或者被提供这些患者的健康护理效果的总结。此外，在一些情况下，可以为健康护理专业人员生成如果健康护理专业人员打算采取的动作致使该患者的未来预测效果的风险显著增加则触发的警报。此外，包括循环神经网络的健康护理分析系统可以被用于编纂标准的医疗实践，以发现治疗和效果的模式、分析现有的医疗技术或医疗系统，或提出新颖的建议或促进科学发现。

本说明书中描述的主题的一个或多个实施例的细节在附图和下面的描述中阐述。主题的其它特征、方面和优点根据说明书、附图和权利要求书将变得显而易见。

附图说明

图1示出了示例健康护理分析系统。

图2是用于生成时间序列的健康事件数据的示例过程的流程图。

图3是用于根据下一输入分值生成时间序列的健康分析数据的示例过程的流程图。

图4是用于根据网络内部状态生成时间序列的健康事件数据的示例过程的流程图。

图5是用于根据未来条件分值生成时间序列的健康事件数据的示例过程的流程图。

图6是用于确定将事件添加到时间序列对基于未来条件分值的影响的示例过程的流程图。

图7示出了被配置成生成未来条件分值的示例循环神经网络。

图8是用于生成给定时间步的未来条件分值的示例过程的流程图。

图9是用于训练循环神经网络以生成未来条件分值的示例过程的流程图。

各附图相似附图标记和名称指示相似的元件。

具体实施方式

本说明书大体描述一种系统，该系统能够使用循环神经网络，根据包括标识多个健康事件的数据的时间序列来生成健康分析数据。

图1示出了示例健康护理分析系统100。健康护理分析系统100是实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，其中可以实现下文所述的系统、组件和技术。

健康分析系统100接收时间序列并且通过使用循环神经网络110处理该时间序列来根据所接收的时间序列生成健康分析数据。例如，健康护理分析系统100可以接收时间序列102并且根据该时间序列102生成健康分析数据122。

时间序列是包括多个时间步中的每一时间步的健康相关数据——例如标识健康事件的数据的序列。每个时间序列包括与给定患者相关联的健康相关数据，其中健康事件由按时间排序的时间序列中的健康相关数据标识，使得最近发生的健康事件是序列中最后一个时间步的健康事件。

在一些实施方式中，时间序列生成系统104从对应患者的电子病历生成时间序列102。电子病历是对应患者的健康信息的电子集。例如，时间序列生成系统可以从电子病历储存库106获得患者的电子病历，并且通过识别电子病历中的健康事件以及按时间排序健康事件，由电子病历生成时间序列102间。具体而言，时间序列102可以包括多个时间步中的每个时间步的记号序列，其中每个记号表示在电子病历中标识的健康事件。在一些实施方式中，时间序列生成系统可以将标识健康事件发生的时间的数据附加到时间序列102中标识的健康事件的数据。

通常，由健康护理分析系统100接收的时间序列中所标识的健康事件可以包括症状、测试、测试结果、诊断、药物、效果等中的一个或多个，其中每一个由来自预定记号词汇表的记号表示。可选地，每个记号与时间序列中标识健康事件发生的时间的数据组合。另外，在一些情况下，时间序列可以标识除了由词汇表中的记号标识健康事件以外的健康事件。例如，在一些实施方式中，时间序列中的健康事件还可以包括与健康有关的图像，例如X射线或其他诊断图像、健康相关的电子文档——例如在就诊期间由医生生成的自由格式的笔记、或者两者兼而有之。

进一步可选地，健康相关数据可以包括可以被分类为影响患者健康的其他健康相关数据。例如，该其他数据可以包括表征患者的活动的数据或由患者的设备——例如在移动设备上执行的活动追踪设备或活动追踪应用——收集的其他健康相关数据。例如，活动数据可以包括标识患者在特定日行进的距离的数据、患者参与的锻炼或其他健身活动、患者所吃的食物等。其他健康相关数据还可以包括被认为影响患者健康的其他数据，例如患者的处方履行数据或者标识由患者进行的购买的数据。

健康护理分析系统100使用循环神经网络110来处理时间序列102以生成时间序列102的网络输出。健康护理分析系统100还包括健康护理分析引擎120，其接收对时间序列102的网络输出并且根据该网络输出来生成时间序列102的分析数据122。

通常，时间序列102的网络输出包括下述中的一个或多个：循环神经网络110的下一输入分值集合112、未来条件分值集合114或网络内部状态116。

循环神经网络110包括对给定输入时间序列的每个时间步，生成网络内部状态的一个或多个循环神经网络层。在一些实施方式中，循环神经网络110还包括输出层、逻辑回归节点集合或两者，其接收网络内部状态并且处理网络内部状态以生成时间步的网络输出。另外，在一些实施方式中，循环神经网络还可以包括一个或多个其他种类的神经网络层，例如前馈层，例如全连接层、卷积层、池化层、正则化层等。

具体而言，循环神经网络层中的每一个被配置为接收时间步的层输入并且对该时间步计算该层的层内部状态。循环神经网络层根据层的参数集合的当前值，从前一时间步的层的层内部状态和当前时间步的层输入，计算当前时间步的层的层内部状态。在一些实施方式中，一个或多个循环神经网络层被配置为还将其他内部状态用于计算时间步的层内部状态，例如，来自其他先前时间步的层的内部状态、其他循环层的当前时间步或先前时间步的内部状态。如果当前时间步是序列中的第一时间步，则前一时间步的层内部状态是初始层内部状态，例如由系统管理员指定的或者如由健康护理分析系统100生成。

如果在循环神经网络110中仅存在一个循环神经网络层，则给定时间步的网络内部状态是该时间步的循环神经网络层的层内部状态。

如果在循环神经网络110中存在多个循环神经网络层，则按从序列中的最低层到序列中的最高层的顺序来排列层，并且共同处理在该时间步的健康事件以计算该时间步的网络内部状态。如果在循环神经网络100中存在其他类型的神经网络层，则其他神经网络层可以散布在序列中的不同位置处，例如在第一循环层之前、在两个循环层之间、在所有循环层之后、或这些的一些组合。对于给定的时间步，循环神经网络110可以将来自每个循环神经网络层的层内部状态提供为该序列中该层上面的循环神经网络层的层输入。在一些实施方式中，循环神经网络层中的一个或多个被配置为还从序列中除循环层下面的层以外的一个或多个其他层接收输入。

在一些实施方式中，序列中的一个或多个层可以被配置为在时间步的子集处——例如在第一时间步处或者在每个时间步处接收作为层的层输入的一部分的全局输入、每记录输入、或两者。全局输入是不依赖于正由循环神经网络110处理的当前时间序列的输入。全局输入的一个示例是表征当前年内时间——例如当前日期的数据。每记录输入是对不同的时间序列可以不同的输入。每记录输入的示例可以包括与当前时间序列相关联的患者的基因序列或表征患者的其他信息，例如患者的群体特征信息。

在一些实施方式中，如果存在多个循环神经网络层，则时间步的网络内部状态是时间步的序列中的最高层的层内部状态。在一些其它实施方式中，健康护理分析系统100组合时间步的层内部状态以生成时间步的网络内部状态。例如，健康护理分析系统100可以计算层内部状态的总和、乘积或者平均值，或者可以串接(concatenate)层内部状态以生成网络内部状态。

在一些实施方式中，循环神经网络层是长短期记忆(LSTM)层。每个LSTM层包括一个或多个LSTM记忆块。每个LSTM记忆块可以包括一个或多个cell，每个cell包括输入门、遗忘门和输出门，其允许该cell存储该cell的先前状态，例如以用在生成电流激活或被提供到LSTM神经网络的其他组件。

在循环神经网络110包括输出层的实施方式中，输出层被配置为对每个时间步接收该时间步的网络内部状态并且生成该时间步的下一输入分值集合。时间步的下一组输入分值集合包括用于由记号词汇表中的记号表示的每个健康事件的相应分值。一旦已经训练循环神经网络110，给定健康事件的下一输入分值便表示该健康事件将成为时间序列中的下一健康事件的可能性。因此，当循环神经网络110包括输出层时，循环神经网络110是已经被训练以针对给定输入时间序列的每个时间步来预测未来健康事件——即时间序列中的下一时间步的健康事件的网络。可以使用常规机器学习训练技术——例如通过时间训练技术的反向传播——来在训练序列上训练循环神经网络110。

在这些实施方式中，时间序列102的下一输入分值112是由输出层针对时间序列102中的最后一个时间步生成下一输入分值。

在循环神经网络110包括逻辑回归节点集合的实施方式中，该逻辑回归节点集合被配置为在每个时间步接收该时间步的网络内部状态并且生成该时间步的未来条件分值集合。未来条件分值集合包括预定条件集合中的每个条件的相应分值。给定条件的分值表示在当前时间步的健康事件的指定时间段内将满足条件的可能性。

条件可以包括事件的发生——例如由词汇表中的记号表示的健康事件的发生——所满足的条件。在一些情况下，除了包括由词汇表中的记号表示的事件的发生所满足的条件之外或作为其替代，预定条件集合中的条件还可以包括当并非由词汇表中的记号表示的事件——即并非是在由循环神经网络110处理的时间序列中所包括的可能健康事件——在当前时间步的健康事件的指定时间段内时发生时所满足的条件。因此，在能够满足预定条件集合中的条件的事件可能与由记号表示的事件重叠的同时，条件集合还可以包括由不在该集合中的其他事件的发生所满足的条件。

参考图7和8，更详细地描述包括逻辑回归节点集合的循环神经网络。在下文中，参考图9来更详细地描述训练循环神经网络以预测条件被满足的可能性。

在这些实施方式中，时间序列102的条件分值114是逻辑回归节点针对时间序列102中的最后一个时间步所生成的未来条件分值。

在网络内部状态116被包括在时间序列102的网络输出中的实施方式中，时间序列102的网络内部状态116是由循环神经网络110针对该序列中的最后一个时间步生成的网络内部状态，或由循环神经网络110针对该序列中的多个时间步生成的网络内部状态的组合，例如网络内部状态的加权和、乘积或串接。

健康护理分析引擎120接收时间序列122的网络输出，并且生成时间序列102的健康分析数据122，以及提供健康分析数据122以供呈现给用户，例如治疗与时间序列102相对应的患者的医生。通常，健康分析数据122是表征可以与时间序列102相关联的未来事件，即在时间序列102中的当前最后一个健康事件之后可能发生的健康事件或其他事件的数据。

在时间序列102的神经网络输出包括下一输入分值112的实施方式中，健康护理分析引擎120生成健康分析数据122，该健康分析数据122标识在时间序列102中可能接下来发生的健康事件。在下文中，参考图3来更详细地描述由下一输入分值生成时间序列的健康分析数据。

在时间序列102的神经网络输出包括网络内部状态116的实施方式中，健康分析引擎120生成健康分析数据122，该健康分析数据122标识来自其他时间序列的很可能预测时间序列102中的未来事件的健康事件。具体而言，健康护理分析引擎120从存储在内部状态储存库130中的内部状态识别与网络内部状态116类似的内部状态，并且使用类似的内部状态来从其他时间序列中确定很可能预测时间序列102中的未来事件的健康事件。内部状态储存库130存储在各个时间序列中的各个时间步处生成的网络内部状态，并且将每个网络内部状态与标识时间步的数据以及针对其生成该网络内部状态的时间序列相关联。在下文中，参考图4来更详细地描述从网络内部状态生成时间序列的健康分析数据。

在时间序列102的神经网络输出包括未来条件分值114的实施方式中，健康分析引擎120生成表征条件的分值的健康分析数据122。在下文中，参考图5来更详细地描述由未来健康条件生成时间序列的健康分析数据。

图2是用于生成时间序列的健康事件数据的示例过程200的流程图。为了方便，过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，适当编程的神经网络训练系统——例如图1的健康护理分析系统100——可以执行过程200。

系统接收输入时间序列(步骤202)。该时间序列包括标识多个时间步中的每个时间步的相应的健康事件的数据。在一些实施方式中，时间序列从电子病历导出并且包括在多个时间步中的每个时间步根据电子病历识别相应的健康事件的数据。序列中的健康事件可以按时间排序，使得最近发生的健康事件是序列中的最后一个时间步的健康事件。

系统使用循环神经网络——例如图1的循环神经网络110来处理输入时间序列，以生成输入时间序列的神经网络输出(步骤204)。

取决于实施方式和循环神经网络的架构，由循环神经网络通过处理输入时间序列而生成的神经网络输出可以包括下一输入分值、未来条件分值或网络内部状态。

系统根据神经网络输出生成时间序列的健康分析数据(步骤206)。如上所述，健康分析数据取决于由循环神经网络生成的神经网络输出的种类。

图3是用于根据下一输入分值生成时间序列的健康分析数据的示例过程300的流程图。为了方便，过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，适当编程的神经网络训练系统——例如图1的健康护理分析系统100——可以执行过程300。

系统接收输入时间序列(步骤302)。

系统使用循环神经网络来处理输入时间序列以生成输入时间序列的下一输入分值(步骤304)。循环神经网络包括一个或多个循环神经网络层和输出层，该输出层针对时间序列中的每个时间步被配置为接收由循环神经网络层针对该时间步生成的网络内部状态并且生成该时间步的下一输入分值集合。时间步的下一输入分值集合包括由记号词汇表中的记号表示的每个健康事件的相应的分值，其中给定健康事件的下一输入分值表示该健康事件将是时间序列中的下一健康事件——即时间序列中的下一时间步处的健康事件——的可能性。

输入时间序列的下一输入分值是由输出层针对时间序列中的最后一个时间步所生成的下一输入分值。

系统使用下一输入分值来识别一个或多个最高得分的健康事件(步骤306)。例如，系统可以选择具有最高的下一输入分值的预定数目的健康事件或具有高于阈值的下一输入分值的每个健康事件。

系统提供标识最高得分健康事件的数据，并且可选地，提供表征每个最高得分健康事件的下一输入分值的数据以供呈现给用户(步骤308)。因此，医生或其他用户可以能够查看关于很可能是将和与输入时间序列相对应的患者相关联的下一个健康事件的健康事件的信息。

图4是用于根据网络内部状态生成时间序列的健康事件数据的示例过程400的流程图。为了方便，过程400将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，适当编程的神经网络训练系统——例如图1的神经网络训练系统100——可以执行过程400。

系统使用循环神经网络——例如循环神经网络110——来处理时间序列集合中的每一个以针对每个时间序列的每个时间步生成网络内部状态(步骤402)。该集合中的每个时间序列对应于不同的患者，例如，从不同的电子病历生成。循环神经网络包括一个或多个循环神经网络层和输出层、逻辑回归节点集合、或两者。具体而言，已经训练循环神经网络以针对给定的输入时间序列中的每个时间步，根据神经网络针对当前时间步生成的内部状态来预测未来事件，即在当前时间步处的事件之后发生的事件。例如，如果循环神经网络包括输出层，则可以已经训练循环神经网络以预测时间序列中的下一事件，即时间序列中的当前时间步之后的下一时间步的事件。作为另一示例，如果循环神经网络包括逻辑回归节点集合，则可以训练循环神经网络以预测事件集合中的每一事件是否发生在时间序列中的当前时间步处的事件的指定时间段内。

系统将网络内部状态存储在内部状态储存库中并将每个网络内部状态与标识针对其生成该网络内部状态的时间步和时间序列的数据相关联(步骤404)。在一些实施方式中，对于每个时间序列，系统将该系统针对时间序列中的每个时间步所生成的网络内部状态存储在储存库中。在一些其它实施方式中，系统仅在存储库中存储网络内部状态的子集，例如仅存储在时间序列中的至少阈值数目的其他健康事件之前的健康事件的网络内部状态。

系统接收健康事件的输入时间序列(步骤406)。

系统使用循环神经网络来处理输入时间序列以确定输入时间序列的序列内部状态(步骤408)。输入时间序列的序列内部状态是序列中最后一个时间步处的健康事件的网络内部状态。

系统从内部状态储存库中选择与序列内部状态类似的一个或多个网络内部状态(步骤410)。系统通过计算序列内部状态与存储库中的网络内部状态之间的相似性度量——例如余弦相似性度量来选择网络内部状态。例如，系统可以选择具有与序列内部状态的最大余弦相似度的预定数目的网络内部状态，或者具有超出阈值相似度的、与序列内部状态的余弦相似度的每个网络内部状态。在一些实施方式中，系统使用不同的距离度量来确定内部状态之间的相似性，所述距离度量例如欧几里得距离、汉明(Hamming)距离等等。同样地，系统还可以正则化内部状态，并且然后计算正则化内部状态之间的距离。

系统提供标识为针对其生成类似网络内部状态的时间序列的数据以供呈现给用户(步骤412)。具体而言，系统针对给定的类似的网络内部状态，提供标识在针对其生成该类似网络内部状态的时间序列中、发生在针对其生成该网络内部状态的时间步之后的健康事件的数据。因为生成序列内部状态和类似的网络内部状态二者的循环神经网络被训练以根据网络内部状态来预测未来事件，并且类似的网络内部状态与序列内部状态相似，所以在针对其生成给定网络内部状态的时间步之后发生的事件很可能预测输入时间序列中的未来事件，即在输入时间序列中的当前最后一个事件之后发生的事件。也就是说，从针对其生成该给定的类似网络内部状态的时间步开始，循环神经网络预期对应患者具有与循环神经网络对与输入时间序列相对应的当前患者预期的未来类似的未来。因此，通过根据网络内部状态观察后续事件，可以给予例如医生的用户可能在输入时间序列中的当前最后一个事件之后的事件——即对于当前患者可能发生的未来健康事件的构想。

在一些其它实施方式中，系统还提供标识时间序列中的其他健康事件数据，以供作为标识针对其生成给定网络内部状态的时间序列的数据的一部分来呈现给用户。

在一些实施方式中，不同于提供标识用于呈现给用户的时间序列的数据，系统根据时间序列中的后续事件来计算统计量，并且提供所计算的统计量以供呈现给用户。例如，系统可以确定在针对其生成类似网络内部状态的时间步之后，包括特定健康事件——例如心脏病发作或中风——的时间序列的比例。然后，系统可以提供标识该比例的数据以供呈现给用户，例如以“X％的患者预期具有与经历了特定健康事件的当前患者相似的未来”的形式。

在一些实施方式中，不同于将内部状态存储在内部状态储存库中，系统每当接收到将与其他时间序列进行比较的输入时间序列时，就可以重新计算每个其他时间序列的内部状态。

图5是用于根据未来条件分值生成时间序列的健康事件数据的示例过程500的流程图。为了方便，过程500将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，适当编程的神经网络训练系统——例如图1的神经网络训练系统100——可以执行过程500。

系统接收输入时间序列(步骤502)。

系统使用循环神经网络——例如循环神经网络110——来处理输入时间序列以生成输入时间序列的未来条件分值(步骤504)。未来条件分值包括预定条件集合中的每一个的相应的未来条件分值。给定条件的未来条件分值表示在输入时间序列中的最后一个时间步处的事件的指定时间段内将满足该条件的可能性。

在一些实施方式中，循环神经网络包括一个或多个循环神经网络层和逻辑回归节点集合。每个逻辑回归节点在输入时间序列中的每个时间步处，根据所述预定条件集合生成对应条件的未来条件分值。在下文中，参考图7-9来详细地描述包括生成未来条件分值的逻辑回归节点的循环神经网络。在这些实施方式中，循环神经网络针对输入时间序列中的最后时间步所生成的未来条件分值集合是输入时间序列的未来条件分值集合。

在一些其他实施方式中，循环神经网络包括输出层并且不包括逻辑回归节点，该输出层针对输入时间序列中的每个时间步生成下一输入分值的集合。在这些实施方式中，系统生成多个可能时间序列，其均包括在时间序列中的当前最后时间步之后的指定数目的附加时间步以及在每个附加时间步处的相应的可能健康事件。系统通过执行具有每个附加时间步的指定宽度的束搜索(beam search)来生成多个可能的时间序列。束搜索的宽度限定了系统在每个未来时间步中考虑的最高得分事件的数目。然后，系统针对将生成其未来条件分值的事件之一的发生所满足的条件中的每一个，确定该序列中包括满足附加时间步中的一个处的条件的事件的可能时间序列的比例。然后，系统可以使用该比例作为相应条件的未来条件分值。可选地，系统可以使用发生其中的事件的可能时间序列的发生可能性来对事件的每一发生进行加权。可能时间序列发生的可能性可以是例如序列中的每个附加时间步处的健康事件的下一输入分值的乘积。

系统提供标识未来条件分值的数据以供呈现给用户(步骤506)。例如，系统可以提供标识每个条件和每个条件的未来条件分值的数据，或者仅提供标识一个或多个最高得分条件的数据以供呈现给用户。

在一些实施方式中，除了提供用于呈现给用户的标识未来条件分值的数据之外或者作为其替代，系统可以确定治疗对未来条件分值的影响，并且提供标识该影响的数据以供呈现给用户。

图6是用于确定将事件添加到时间序列对未来条件分值的影响的示例过程600的流程图。为了方便，过程600将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，适当编程的神经网络训练系统——例如图1的神经网络训练系统100——可以执行过程600。

系统接收初始输入时间序列(步骤602)。

系统确定初始输入时间序列的未来条件分值(步骤604)。例如，系统可以如上参考图5所述，确定初始输入时间序列的未来条件分值。

系统从用户接收标识附加健康事件的数据(步骤606)。例如，附加健康事件可以是医生将对患者开处方的潜在治疗。

系统通过将标识附加健康事件的数据——例如表示健康事件的记号附加到初始输入时间序列的末尾来生成修改的输入时间序列(步骤608)。

系统确定修改的输入时间序列的未来条件分值(步骤610)。例如，系统可以如上参考图5所述确定初始输入时间序列的未来条件分值。

系统确定通过将附加健康事件添加到输入时间序列而致使的未来条件分值的变化(步骤612)，并且提供标识该变化的数据以供呈现给用户(步骤614)。也就是说，系统计算经修改的输入时间序列的未来条件分值与初始输入时间序列的对应未来条件分值之间的差，并且提供标识该差的数据以供呈现给用户。因此，医生能够查看潜在治疗对将来满足某些条件的可能性的影响。

在一些实施方式中，系统可以响应于新事件被添加到时间序列而自动地执行过程600。如果新事件致使条件的未来条件分值以多于阈值而增加或增加到超过阈值，则系统可以生成警报以自动地通知用户该变化。例如，系统管理员或其他用户可以将被满足的一个或多个特定条件规定为不期望。然后，系统可以响应于新事件被添加到时间序列而自动地执行过程600，并且生成警报以通知用户不期望条件中的一个的未来条件分值是否跨越阈值分值或增加了多于阈值增量。

另外，在一些实施方式中，系统可以响应于接收到时间序列而根据时间步自动地生成多个修改的时间序列，其中每个修改的时间序列将不同的可能输入健康事件添加到时间序列。可能输入健康事件可以是由词汇表中的记号表示的健康事件的子集，例如由词汇表中的记号表示的一些或全部可能的治疗。然后，系统可以针对每个修改的时间序列执行过程600，并且针对任一修改的序列确定一个或多个不期望条件的未来条件分值是否减少了多于阈值减少量。响应于针对给定的修改的时间序列确定不期望条件的未来条件分值降低了多于阈值减少量，系统可以向用户提供标识被添加到时间序列以生成修改的时间序列的健康事件的信息。因此，可以给予医生机会来考虑会减少未来被满足的不期望条件的可能性的附加治疗方法。

图7示出被配置为生成未来条件分值的示例循环神经网络700。循环神经网络700是被实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，其中，能实现下文所述的系统、组件和技术。

循环神经网络700接收输入序列，该输入序列包括在多个时间步中的每个时间步的相应的输入，并且对每个时间步，生成预定事件集合中的每一个条件的相应未来条件分值。给定时间步处的给定条件的未来条件分值表示在时间步处的输入的指定时间段内条件被满足的可能性。

循环神经网络700包括一个或多个循环神经网络层710、多个逻辑回归节点720A-N、以及可选地包括输出层740。

如上参考图1所述，对于每个时间步，一个或多个循环神经网络层710接收该时间步处的输入，并且共同处理该输入以生成时间步的网络内部状态。

逻辑回归节点720A-720N中的每一个对应于来自预定条件集合的相应的条件，并且被配置为在每个时间步处接收该时间步的网络内部状态，并且根据相应的参数集合的当前值来处理该网络内部状态以生成相应事件的未来条件分值。因此，在每个时间步，逻辑回归节点720A-720N中的每一个针对预定条件集合中的的条件中的相应条件来生成未来条件分值。

如果循环神经网络700包括输出层740，则输出层740被配置为接收该时间步的网络内部状态，并且处理该内部状态以针对可能输入集合中的每一可能输入来生成相应的下一输入分值。给定可能输入的下一输入分值表示该可能输入是输入序列中的下一输入——即紧跟在输入序列中的当前时间步的输入之后的可能性。

时间序列中的输入包括从表示可能输入事件集合的预定词汇表中的记号中选择的输入。预定条件集合中的、循环神经网络700针对其生成未来条件分值的条件可以包括并非由预定词汇表中的记号表示的事件——即并非可能被包括在由循环神经网络700处理的时间序列中的可能输入事件、由记号表示的事件、或两者的发生所满足的条件。因此，在事件集合中满足预定条件集合中循环神经网络700针对其生成未来条件分值的任何条件的事件可能与由记号表示的事件重叠的同时，事件集合还可以包括不在该集合中的其他事件。

图8是用于生成给定时间步的未来条件分值的示例过程800的流程图。为了方便，过程800将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，适当地编程的循环神经网络——例如图7的循环神经网络700——可以执行过程300。

系统接收时间步的输入，例如表示健康事件的记号(步骤802)。

系统使用一个或多个循环神经网络层——例如图7的循环神经网络层710——来处理输入以针对该时间步生成循环神经网络的网络内部状态(步骤804)。一个或多个神经网络层生成网络内部状态，例如如上参考图1所述。

系统使用逻辑回归节点集合——例如图7的逻辑回归节点720A-720N——中的每一个来处理网络内部状态，以生成未来条件分值集合(步骤806)。每个逻辑回归节点对应于来自预定条件集合的相应的条件，并且通过根据逻辑回归节点的参数集合的当前值处理内部状态来生成对应条件的未来条件分值。

可选地，系统还使用输出层——例如图7的输出层740——来处理网络内部状态，以生成可能输入集合中的每一个的相应的下一输入分值(步骤808)。输出层通过根据输出层参数集合的当前值处理网络内部状态来生成相应的下一输入分值。

可以针对其所需输出——即针对神经网络输入应当由系统生成的神经网络输出——未知的所述神经网络输入执行过程800。系统还可以对训练序列集合中的输入——即应当由系统预测的输出为已知的输入集合——执行过程800，以便训练系统——即确定循环神经网络层、逻辑回归节点以及在一些实施方式中输出层的参数的训练值。具体而言，可以在来自训练序列集合的输入上重复地执行过程800，以作为训练神经网络的机器学习训练技术的一部分，例如穿过时间反向传播(back-propagation through time)训练技术。在下文中，参考图9来更详细地描述示例训练过程。

图9是用于训练循环神经网络以生成未来条件分值的示例过程900的流程图。为了方便，过程900将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，适当编码的循环神经网络——例如图7的循环神经网络700——可以执行过程700。

系统获得标记的训练序列(步骤502)。每个获得的训练序列是多个时间步中的每一个的输入序列。每个训练序列在每个时间步处还包括循环神经网络针对其生成未来条件分值的预定条件集合中的每个条件的相应的指示变量。给定时间步处的给定条件的指示变量指示自该时间步处的输入起的特定时间段内是否满足条件。例如，如果条件满足，则指示器变量可以具有值1，并且如果条件不满足则具有值0。因此，在每个时间步，标记的训练序列包括预定条件集合中的每个条件的输入和相应的指示变量。

在一些实施方式中，系统接收已经用指示变量标记的训练序列。在一些其他实施方式中，系统通过在每个时间步处计算每个条件的指示符变量来生成标记的训练序列。例如，系统可以针对训练序列的给定时间步处的给定输入，确定该输入何时发生并且访问标识满足预定条件集合中的条件的事件的发生的数据。然后，系统可以针对每个条件来确定条件是否在该时间步处的输入发生时的指定时间段内得到满足，并相应地设置事件的指示变量的值。

系统在标记的训练序列上训练一个或多个循环神经网络层、逻辑回归节点、以及可选地训练输出层(步骤504)。具体而言，系统通过执行机器学习训练技术的多次迭代，根据参数的初始值确定循环神经网络层、逻辑回归节点和输出层的参数的训练值。作为训练技术的一部分，系统最小化或最大化目标函数。如果系统仅包括逻辑回归节点而不包括输出层，则目标函数针对在给定训练序列中的给定时间步，依赖于由逻辑回归节点针对该时间步生成的未来条件分值与该时间步处的对应条件的指示变量之间的误差。如果系统还包括输出层，则目标函数针对该时间步还取决于由输出层针对该时间步生成的下一输入分值与训练序列中的下一时间步处的输入之间的误差。

如上所述，循环神经网络700可以处理包括标识与患者相关联的健康事件的数据的时间序列以生成未来条件分值。然而，循环神经网络700可以被训练以生成时间序列的未来条件分值，所述时间序列包括标识任何类型的时间事件的数据，即包括标识按那些事件随时间推移何时发生排序的事件的任何时间序列。

例如，可以训练循环神经网络700以生成时间序列的未来条件分值，所述时间序列包括标识在用户的财务报表中发现的交易的数据，例如可能出现在银行对账单上的银行交易、可能出现在信用卡账单上的信用卡交易等等。在该场境(context)下的未来条件分值可以包括由所做的各种类型的金融交易所满足的条件的分值、由所发生的并非出现在财务报表中的金融交易的事件——例如税务审计——满足的条件的分值、或两者兼而有之。

作为另一个示例，可以训练循环神经网络700以生成包括标识股市交易的数据的时间序列的未来条件分值。在该场境下，时间序列可以包括参与股票市场的单个实体或所有实体的股票购买和销售。

作为另一个示例，可以训练循环神经网络700以生成时间序列的未来条件分值，所述时间序列包括标识机械或电子设备——例如飞机、车辆、数据中心组件等——的维护记录的数据。在该场境下的未来条件分值可以包括由各种类型的维修相关事件满足的条件的分值以及由发生通常不出现在维修记录中的事件——例如飞机的飞行中故障——所满足的条件的分值。

在本说明书中描述的主题和功能操作的实施例可以在数字电子电路中、在有形实施的计算机软件或固件、在计算机硬件——包括在本说明书中公开的结构及其结构等同物中实现，或者在它们的一个或多个的组合中实现。在本说明书中描述的主题的实施例可以被实现为一个或多个计算机程序——即计算机程序指令的一个或多个模块，其被编码在有形非瞬时程序载体上以用于由数据处理装置执行或控制数据处理装置的操作。替选地或另外地，程序指令可以被编码在人工生成的传播信号上——例如机器生成的电、光或电磁信号，其被生成以编码用于传输到合适的接收机设备以由数据处理装置执行的信息。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器或它们中的一个或多个的组合。

术语“数据处理装置”涵盖用于处理数据的各种装置、设备、和机器，包括例如可编程处理器、计算机，或多个处理器或计算机。装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，装置还可以包括为所讨论的计算机程序创建执行环境的代码，所述计算机程序例如构成处理器固件、协议栈、数据库管理系统、操作系统，或它们中的一个或多个的组合的代码。

计算机程序(也被称为或描述为程序、软件、软件应用、模块、软件模块、脚本、或代码)可以以任何形式的编程语言编写，包括编译或解释语言或者声明性或过程语言，并且它可以以任何形式部署，包括作为独立程序或作为适于在计算环境中使用的电路、组件、子例程或其它单元。计算机程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据——例如存储在标记语言文档中的一个或多个脚本——的文件的一部分中、专用于所讨论的程序的单个文件中、或者在多个协同文件中——例如存储一个或多个模块、子程序或代码部分的文件。计算机程序可以被部署为在一个计算机上或在位于一个地点或跨多个地点分布并通过通信网络互连的多个计算机上执行。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路——例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)——执行，并且装置也可以被实现为该专用逻辑电路。

适合于执行计算机程序的计算机包括例如基于通用微处理器和专用微处理器或两者，以及任何种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于实现或执行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备——例如磁盘、磁光盘或光盘，或者可操作地耦合以从其接收数据或向其传输数据。然而，计算机不需要具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、或便携式存储设备——例如通用串行总线(USB)闪存驱动器，这里仅举几个示例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；和CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在具有以下的计算机上实现：显示设备——例如，CRT(阴极射线管)或LCD(液晶显示器)监视器，其用于向用户显示信息，以及键盘和例如鼠标或轨迹球的指示设备——用户可以通过它们向计算机提供输入。其他类型的设备也可以用于提供与用户的交互；例如，在大多数实施方式中，提供给用户的反馈可以是任何形式的感官反馈，例如视觉反馈、听觉反馈、或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。此外，计算机可以通过向用户使用的设备发送文档并从其接收文档来与用户进行交互：例如，通过响应于从用户的客户端设备上的web浏览器接收的请求，将网页发送到该web浏览器。

在本说明书中描述的主题的实施例可以实现在计算系统中，该计算系统包括例如作为数据服务器的后端组件，或者包括例如应用服务器的中间件组件，或者包括例如具有图形用户界面或Web浏览器的客户端计算机的前端组件——用户可以通过该Web浏览器与本说明书中描述的主题的实施方式交互，或者包括一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可以通过任何形式或介质的数字数据通信——例如通信网络——互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。

尽管本说明书包含许多具体实施细节，但是这些不应被解释为对本发明的范围的限制，而是被解释为特定于本文所述的具体实施例的特征的描述。在本说明书中在分开实施例的场境中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的场境中描述的各种特征也可以在多个实施例中分开地或以任何合适的子组合来实现。此外，虽然特征可以在上面描述为在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合的一个或多个特征在一些情况下可以从组合中去除，并且所要求保护的组合可以针对子组合或子组合的变体。

类似地，虽然在附图中以特定顺序描绘操作，但是这不应被理解为要求这些操作以所示的特定顺序或以依序执行或者所有所图示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以集成在单个软件产品中或封装到多个软件产品中。

已经描述了主题的特定实施例。其他实施例在所附权利要求书的范围内。例如，权利要求中所记载的动作可以以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或连续顺序以实现期望的结果。在某些实施方式中，多任务和并行处理可能是有利的。

Claims

1.一种方法，包括：

获得健康事件的多个初始时间序列，其中所述初始时间序列中的每一个包括在多个时间步中的每个时间步处的相应的健康相关数据；

使用循环神经网络处理所述健康事件的多个初始时间序列中的每一个，以针对所述初始时间序列中的每一个，生成所述初始时间序列中的每个时间步的所述循环神经网络的相应的网络内部状态，其中，所述循环神经网络已经被训练以接收输入时间序列，并且针对每个输入时间序列中的每个时间步，生成所述时间步的网络内部状态并且预测在所述时间步处根据所述时间步的网络内部状态识别的健康事件之后发生的未来事件；

针对所述多个初始时间序列中的每一个，将该时间序列中的时间步的网络内部状态中的一个或多个存储在内部状态储存库中；

获得健康事件的第一时间序列；

使用所述循环神经网络来处理所述健康事件的第一时间序列以生成所述第一时间序列的序列内部状态；以及

使用所述第一时间序列的序列内部状态和所述内部状态储存库中的网络内部状态，从所述多个初始时间序列中选择很可能包括预测所述第一时间序列中的未来健康事件的健康事件的一个或多个初始时间序列。

2.如权利要求1所述的方法，其中，选择一个或多个初始时间序列包括：

确定所述内部状态储存库中与所述序列内部状态类似的网络内部状态；以及

从所述多个初始时间序列中选择很可能包括预测所述第一时间序列中的未来健康事件的健康事件的初始时间序列，针对所述初始时间序列生成与所述初始时间序列类似的网络内部状态。

3.如权利要求2所述的方法，其中，确定所述内部状态储存库中与所述序列内部状态类似的网络内部状态包括：

针对所述内部状态储存库中的每个网络内部状态，计算所述网络内部状态和所述序列内部状态之间的相应的相似性度量；以及

根据所述相似性度量来确定类似的网络内部状态。

4.如权利要求2或3所述的方法，进一步包括：

将所述内部状态储存库中的每个网络内部状态与相应的时间步以及生成该网络内部状态所针对的相应的初始时间序列相关联。

5.如权利要求4所述的方法，进一步包括：

提供用于呈现给用户的数据，所述数据针对所选择的初始时间序列中的每一个，标识所选择的初始时间序列中处于在生成对应的网络内部状态所针对的时间步之后的时间步处的健康事件。

6.如权利要求4或5所述的方法，进一步包括：

根据所选择的初始时间序列中处于在生成对应的网络内部状态所针对的时间步之后的时间步处的健康事件，计算标识特定健康事件的发生的频率的所述特定健康事件的统计量；以及

提供所计算的统计量以供呈现给用户。

7.如前述权利要求中的任一项所述的方法，其中，所述循环神经网络被训练以针对每个输入训练序列中的所述多个时间步中的每一个，根据所述时间步的网络内部状态来生成多个可能健康事件中的每一个的相应分值，其中，每个可能健康事件的相应分值表示所述可能健康事件是在所述输入训练序列中的该时间步之后的时间步处的健康事件的可能性。

8.如前述权利要求中的任一项所述的方法，其中，使用所述循环神经网络处理所述健康事件的第一时间序列以生成所述第一时间序列的序列内部状态包括针对所述第一时间序列中的每个时间步：

使用所述循环神经网络处理标识该时间步的健康事件的数据以生成该时间步的网络内部状态；以及

将所述第一时间序列中的最后一个时间步的网络内部状态选择为所述第一时间序列的序列内部状态。

9.如前述权利要求中的任一项所述的方法，其中，所述健康事件的多个初始时间序列中的每一个与相应的患者相关联，并且其中，在该初始时间序列中的每个时间步处的健康相关数据与相应的患者相关联。

10.如权利要求9所述的方法，其中，对每个所述初始时间序列中的一个或多个时间步，该时间步处的健康相关数据是来自预定记号词汇表的相应的记号，词汇表中的每个记号表示不同的健康事件。

11.如权利要求10所述的方法，其中，对每个所述初始时间序列中的一个或多个时间步，该时间步处的健康相关数据是被分类为影响相应的患者的健康的其他健康相关数据。

12.一种系统，包括一个或多个计算机和一个或多个存储设备，所述存储设备存储指令，所述指令在由所述一个或多个计算机执行时使得所述一个或多个计算机执行任一前述权利要求所述的方法。

13.一种计算机程序产品，所述计算机程序产品被编码在一个或多个非瞬时计算机可读介质上，所述计算机程序产品包括指令，所述指令在由一个或多个计算机执行时使得所述一个或多个计算机执行权利要求1至11中的任一项所述的方法。