CN104572583A

CN104572583A - 用于数据致密化的方法和系统

Info

Publication number: CN104572583A
Application number: CN201410499775.8A
Authority: CN
Inventors: 胡建英; 王飞; 周家雨
Original assignee: International Business Machines Corp
Current assignee: Core Usa Second LLC; GlobalFoundries Inc
Priority date: 2013-10-10
Filing date: 2014-09-26
Publication date: 2015-04-29
Anticipated expiration: 2034-09-26
Also published as: CN104572583B; DE102014113692A1; US20150106115A1

Abstract

一种用于数据致密化的系统和方法，包括：将患者数据表示为针对每个患者的稀疏患者矩阵。稀疏患者矩阵被分解成多个矩阵，包括表明患者数据的医学概念的概念矩阵和表明医学概念的时间关系的演化矩阵。稀疏患者矩阵中的遗漏信息基于多个矩阵使用处理器来推算，以提供致密的患者矩阵。

Description

用于数据致密化的方法和系统

技术领域

本发明涉及数据致密化，具体而言，涉及用于改进的表型的电子医学记录的致密化。

背景技术

患者电子医学记录(EMR)是从任何医疗保健设置中的一次或多次就诊中生成的纵向患者健康信息的系统集合。纵向EMR表型的有效利用是许多现代医学信息学研究问题的关键，例如疾病早期诊断、疗效比较研究以及患者危险分层。

关于纵向EMR的一个挑战是数据稀疏性。当处理稀疏矩阵时，许多现有方法将稀疏矩阵的零值看作实际的零，并使用概括统计从稀疏矩阵中构建特征向量，然后将这些特征向量馈送到计算模型中以执行特定任务。然而，该方法不适于医学领域，因为零项不是实际的零，而是遗漏值(例如，患者没有来访，因此没有对应记录)。因此，以这种方式构建的特征向量可能是不准确的。因此，计算模型的性能将受到影响。

发明内容

一种用于数据致密化的方法包括将患者数据表示为针对每个患者的稀疏患者矩阵。稀疏患者矩阵被分解成多个矩阵，包括表明患者数据的医学概念的概念矩阵和表明医学概念的时间关系的演化矩阵。稀疏患者矩阵中的遗漏信息基于多个矩阵使用处理器来推算，以提供致密的患者矩阵。

一种用于数据致密化的系统包括矩阵形成模块，其被配置为将患者数据表示为针对每个患者的稀疏患者矩阵。分解模块被配置为将稀疏患者矩阵分解成多个矩阵，其中多个矩阵包括表明患者数据的医学概念的概念矩阵和表明医学概念的时间关系的演化矩阵。推算模块被配置为基于多个矩阵使用处理器推算稀疏患者矩阵中的遗漏信息，以提供致密的患者矩阵。

根据以下结合附图阅读的说明性实施例的详细描述，这些及其它特征和优点将变得显而易见。

附图说明

本公开内容将参考以下附图在以下优选实施例的描述中提供详情，其中：

图1是示出根据一个说明性实施例的患者矩阵致密化的应用的高级概览的框图/流程图；

图2是示出根据一个说明性实施例的用于纵向电子医学记录数据的致密化的系统的框图/流程图；

图3是根据一个说明性实施例的示例性纵向患者矩阵；

图4是示出根据一个说明性实施例的用于纵向电子医学记录数据的致密化的方法的框图/流程图；

具体实施方式

根据本原理，提供了用于纵向电子医学记录(EMR)的致密化的系统和方法。关于使用EMR数据的一个挑战方面是数据稀疏性。本原理提出了通过探索特征维度和时间维度两者的结构来推算那些遗漏项(即，矩阵中的零)的值，从而对稀疏患者矩阵进行致密化的框架。

具体地，在优选实施例中，每个患者的患者矩阵被分解或因式分解成医学概念映射矩阵和概念值演化矩阵。通过基于群的性质制定优化问题来推算遗漏项。对于医学概念在患者之间彼此互不相同的异类群，对于每个患者，学习个人概念矩阵。对于患者的医学概念彼此很相似的同类群，在该群患者中共享概念矩阵。然后，对优化问题求解，以对每个患者确定致密医学概念映射矩阵和致密概念值演化矩阵。然后，患者矩阵被还原为医学概念映射矩阵和概念值演化矩阵的积，以推算患者矩阵中的遗漏值。以这种方式，提供患者EMR的更致密的表示，并且这些医学概念的值随着时间平滑地演变。因此，被还原的患者矩阵更加致密，并可用于导出比从原始EMR矩阵中获得的特征向量具有更高预测能力的特征向量。

所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。

也可以把这些计算机程序指令在计算机、其它可编程数据处理装置、或其他设备上加载，从而产生，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在说明书中提到的本原理的“一个实施例”或“实施例”及其其它变形意味着结合该实施例描述的特定特征、结构、特性等被包含在本原理的至少一个实施例中。因此，出现在整个说明书各处的短语“在一个实施例中”或“在实施例中”以及任何其它变形并不一定全部指代相同实施例。

应当认识到，以下形式“/”、“和/或”以及“至少一个”中的任何一个的使用，例如在“A/B”、“A和/或B”以及“A和B中的至少一个”的情况下，旨在包含仅选择第一所列选项(A)、或者仅选择第二所列选项(B)的、或者选择两个选项(A和B)。作为进一步的例子，在“A、B和/或C”和“A、B和C中的至少一个”的情况下，这样的措辞旨在包含仅选择第一所列选项(A)、或者仅选择第二所列选项(B)、或者仅选择第三所列选项(C)、或者仅选择第一和第二所列选项(A和B)、或者仅选择第一和第三所列选项(A和C)、或者仅选择第二和第三所列选项(B和C)、或者选择全部三个选项(A和B和C)。显然，本领域及相关领域的技术人员可以将其扩展至所列出的许多项。

现在参考附图，其中类似的标记表示相同或相似的元件，首先参考图1，根据一个实施例，说明性地描绘了示出用于致密化的示例性应用100的系统/方法的高级概览的框图/流程图。对患者数据执行致密化以用于预测建模。

在框102中提供采用纵向EMR数据形式的患者数据。EMR数据是关于单个患者或者一群患者的电子健康信息的系统集合。在框104中，EMR数据中的每个患者基于可用的EMR医学事件被表示为纵向患者矩阵。每个纵向患者矩阵具有特征维度和时间维度。这允许利用可能的时间信息。然而，EMR数据中的每个患者被表示为矩阵会导致在时间上极其稀疏的患者记录。

在框106中，稀疏纵向患者矩阵通过基于现有的特征信息和时间信息推算遗漏信息来进行致密。致密化优选地包括将患者矩阵分解成医学概念映射矩阵和概念值演化矩阵。制定优化问题以对致密的医学概念映射矩阵和概念值演化矩阵求解。致密的患者矩阵被还原为医学概念映射矩阵和概念值演化矩阵的积。致密的患者矩阵包括基于现有的特征维度和时间维度推算的遗漏信息。在下文中将进一步详细地描述致密化。在框108中，致密化导致每个患者的致密患者矩阵。

在框110中，基于致密患者矩阵构建特征向量。在框112中，特征向量可用于预测建模(k最近邻、逻辑回归等)。

存在许多用于处理患者纵向矩阵中的遗漏信息的其它方法。然而，这些方法中的每一个都具有缺陷。这些方法包括以下的方法。1)案例删除：除去具有遗漏值的样本。然而，案例删除在大多数或者所有样本都具有遗漏项的情况下不适用。2)变量删除：除去具有遗漏值的变量。变量删除在所有变量具有遗漏项时或者在变量没有被很好定义(例如，在每个患者具有不同数量的时间点时的时间设置)的情况下不适用。3)统计推算：应用均值推算(或者条件均值)或者回归推算。统计推算在大多数数据是遗漏时不适用。4)在建立模型时避免使用遗漏值：在模型推理期间避免遗漏值。这在大多数数据是遗漏时不适用。5)基于秩/迹范数的矩阵填充(matrixcompletion)：低秩假设在极其稀疏的数据中非常有效，然而具有高计算复杂度，这对于高维度医学数据是禁止的。6)经由低秩因式分解的矩阵填充：有效的方法，然而不考虑EMR内的结构(例如，特征概念、时间平滑度)，并且还独立地处置每个矩阵(例如，不考虑患者之间的关联性)。

现在参考图2，示出了根据一个说明性实施例的用于纵向EMR数据的致密化的系统200的框图/流程图。系统200对数据(例如，纵向患者EMR)进行致密，以使得可更准确地表型患者并允许更准确的预测建模。

应当理解，本原理的实施例可以被应用在多个不同的应用中。例如，本原理可以在整个应用中以医疗保健分析来讨论。然而，应当理解，本原理不受此限制。相反，本原理的实施例可以在用于数据致密化的任何应用中使用。

系统200可包括系统或者工作站202。系统202优选地包括一个或多个处理器208和用于存储患者医学记录、应用、模块和其它数据的存储器210。系统202还可包括用于查看的一个或多个显示器204。显示器204可以准许用户与系统202及其部件和功能进行交互。这还可以通过用户接口206便利化，用户接口206可包括鼠标、操纵杆或者任何其它外围或控制以准许用户与系统202和/或其设备之间的交互。应当理解，系统202的部件和功能可以被集成到一个或多个系统或工作站中，或者可以是更大的系统或工作站的一部分。例如，系统202可以执行更大的医疗保健分析系统的预处理。其它应用也可预见。

系统202可以接收输入212，其可以包括(例如，纵向患者)数据214。在一个实施例中，患者数据214可以包括具有一群患者的患者信息的EMR数据。该群患者可以被确定为与特定应用或者疾病(例如，充血性心力衰竭CHF)相关联的患者。EMR数据记录每个患者的随着时间的医学事件。医学事件可以包括例如诊断、药物、临床笔记等。也可以使用其它类型的事件。

在一个示例性实施例中，诊断事件是最结构化、最可行和最有信息的事件，并且是用于构建危险预测的特征的主要候选。诊断事件通常采用国际疾病分类9(ICD9)编码的形式，伴随以各种粒度良好定义的特征组，诸如诊断组(DxGroup)和更高级别分层条件类别(HCC)。例如，编码401.1良性高血压属于DxGroup 401原发性高血压，DxGroup 401原发性高血压是HCC 091高血压的子类别。

根据EMR数据的危险预测中的一个重要步骤是从EMR事件中构建特征向量，其用作分类器的输入。特征构建的目标是捕获足够的对于特定危险预测任务信息量大的临床细微差别。传统上，特征向量直接从原始的EMR数据中导出。代替地，系统202首先对每个患者构建纵向患者矩阵。每个矩阵是二维的，具有特征维度和时间维度。保持时间维度可允许经由患者的时间信息的改进的患者矩阵。

在该群患者中，每个患者与称为操作标准日期的疾病状态日期相关联，在该日期上，患者被分类为案例患者(即，被疾病感染的)或者控制患者。典型的危险预测任务是预测患者在某一时期后的某个时间的疾病状态。在给定过去的医学记录下，该时期被称为预测窗口。因此，对于训练和测试预测模型，在操作标准日期之前的预测窗口内的所有记录被认为是不可见的。

矩阵形成模块216构建每个患者的纵向患者矩阵。每个纵向患者矩阵具有两个维度：特征维度和时间维度。构建这种矩阵的一种方式是在两个维度中都使用最精细的粒度，例如，使用医学事件的类型作为特征维度的特征空间，并使用“天”作为时间维度的单位。然而，以这种方式形成的矩阵可能太稀疏而不可用。作为补救，可以使用每周聚集的时间，每个医学特征在一个时间点的值由在那一周内对应的医学事件的计数给出。由于医学特征能够以不同的粒度获取，因此，数据中的稀疏性可以适度地被减小。粒度的选择不应当太粗糙，否则，更精细级别特征内的预测信息可能在获取期间丢失。应当注意，即使在这些预处理步骤之后，所构建的患者矩阵仍然很稀疏。

参考图3并继续参考图2，示出了根据一个说明性实施例的示例性纵向患者矩阵300。所示出的矩阵300具有特征维度和时间维度。患者的医学特征在时间(例如，周)上进行表示。每一列302表示医学概念(例如，肾病)，其包括一组医学特征(即，非零项)。表示300在时间上非常稀疏。稀疏性可以是患者具有不同长度的记录或者其它原因的结果。稀疏矩阵中的零表示遗漏信息，而非实际的零。

返回图2，从每个纵向患者矩阵中提取概括统计以构建特征向量(例如，用于分类器、回归和聚类等)。由于患者具有不同长度的记录，因此，通常定义感兴趣的观察窗口，从该观察窗口中提取所有患者的概括统计。

在特征构建过程期间，由于原始EMR数据中的极其稀疏性，在纵向患者矩阵中存在许多零。然而，将这些零看作实际零的传统方法不适用于医学领域，因为这些零实际上表示遗漏信息(例如，没有来访)。为了解决这个问题，纵向患者矩阵被认为是全矩阵，零被认为是遗漏信息。

系统202呈现了在利用每个患者的终身医学记录构建特征向量之前对部分观察的纵向患者矩阵进行致密的新颖框架。系统202探索在特征维度和时间维度两者上的结构，并且促进每个患者的时间平滑度。

分解模块216被配置为对纵向患者矩阵执行矩阵因式分解或分解。矩阵因式分解导致用于每个患者的两个矩阵：医学概念映射矩阵和概念值演化矩阵。假设有n个具有EMR记录的患者在群中可用，总共有p个医学特征。在特征构建之后，形成具有大小p×t_i的n个纵向患者矩阵X_i，其由于遗漏项而是稀疏的。对于第i个患者，时间维度是t_i，即，在预测窗口之前存在覆盖t_i时间跨度的医学事件记录。第i个患者的基准(groundtruth)被表示为X_(i)∈R^p×ti，其中，在某些位置可观察的元素的索引由集合Ω_(i)给出。假设医学特征可被映射到具有更低维度k的某一医学概念空间，以使得每个医学概念可被视作若干观察的医学特征的组合。具体地，假设全纵向患者矩阵X_(i)可由低秩矩阵X_(i)≈U_(i)V_(i)估计，该低秩矩阵可被分解成提供医学概念映射的稀疏矩阵U_(i)∈R^p×k和给出这些医学概念随着时间在患者上起作用的时间演化的致密矩阵V_(i)∈R^k×ti。U_(i)被称为具有大小p×k的医学概念映射矩阵，V_(i)被称为具有大小k×t_i的概念值演化矩阵。对于每个患者，假设这些医学概念的值随着时间平滑地演化。给定一组部分观察的纵向患者矩阵的观察值和位置，本原理学习它们的医学概念映射矩阵和概念值演化矩阵。

推算模块220被配置为从医学概念映射矩阵U_(i)和概念值演化矩阵V_(i)的积中推算遗漏项的值。推算模块220基于该群患者的性质而应用致密化制定。基于个人的方法被应用于异类群，而基于共享的方法被应用于同类群。

在异类群患者中，每个患者的医学概念互不相同。假设表示Ω_(i)的补集。同样假设表示投影运算符，如下所示：

用于异类患者的基于个人的方法可通过解决每个患者的以下问题来制定，如下所示：

其中，表示正则化项，其对我们的假设进行编码并防止学习过度拟合。还对医学概念矩阵U_(i)施加非负约束，因为EMR数据中医学事件的计数总是正的，基于这些医学事件的有意义的医学概念应当具有正值。现在讨论导致所期望的致密化的中适当的正则化项的设计。

稀疏性：只有几个重要的医学特征对于每个医学概念是期望的，以使得所述概念是可解读的。因此，在医学概念映射矩阵U_(i)中经由对U_(i)稀疏诱导l₁范数来引入稀疏性。非负约束可能已经带来某一数量的稀疏性，已经表明，对于非负矩阵因式分解，稀疏性正则化可改进该分解。

过度拟合：为了克服潜在的过度拟合，在概念值演化矩阵V_(i)上引入l₂正则化。表明正则化还改进逆问题的数值条件。

时间平滑度：患者矩阵描述患者的医学特征随着时间的连续演化。因此，沿着时间维度，在直观意义上，施加时间平滑度，以使得纵向患者矩阵的一列的值接近于它前一列和下一列的值。为此，概念值演化矩阵V_(i)的列上引入时间平滑度正则化，其描述在医学概念上的平滑演化。加强时间平滑度的一个常用的策略是通过惩罚成对差异：

{| | V_{(i)} R_{(i)} | |}_{F}^{2} = Σ_{j = 1}^{ti - 1} (V_{(i)} (:, j) - V_{(i)} (:, j + 1))

其中R_(i)∈R^ti×ti+1是时间平滑度耦合矩阵，其被如下定义：如果i＝j，则R_(i)(j,k)＝1，如果i＝j+1，则R_(i)(j,k)＝-1，否则，R_(i)(j,k)＝0。

在方程式(2)的损耗函数中，低秩矩阵的值在观察位置处将要接近于X_(i)，这可在直接求解时导致高复杂度。备选方式是引入中间矩阵S_(i)，以使得其中U_(i)V_(i)将要接近于S_(i)。从X_(i)到U_(i)V_(i)间接传播信息的直接优点是可导出非常高效的方法和数据结构，其导致求解大规模问题的能力。为此，对每个患者提出以下基于个人的学习模型：

\begin{matrix} \min_{{S_{i}}, {U_{i}}, {V_{i}}} Σ_{i = 1}^{n} \frac{1}{{2 t}_{i}} {| | S_{(i)} - U_{(i)} V_{(i)} | |}_{F}^{2} + λ_{1} {| | U_{(i)} | |}_{1} + \\ λ_{2} Σ_{i = 1}^{n} \frac{1}{{2 t}_{i}} {| | V_{(i)} | |}_{F}^{2} + λ_{3} Σ_{i = 1}^{n} \frac{1}{{2 t}_{i}} {| | V_{(i)} R_{(i)} | |}_{F}^{2} \end{matrix} - - - (4)

约束:

在同类群患者中，如果患者的医学概念彼此很相似，则可假设所有患者共享相同的医学概念映射矩阵U_(i)∈R^p×k。因此，提出了以下用于同类群的基于共享的方法：

\begin{matrix} \min_{{S_{(i)}}, U, {V_{(i)}}} Σ_{i = 1}^{n} \frac{1}{{2 t}_{i}} {| | S_{(i)} - U V_{(i)} | |}_{F}^{2} + λ_{1} {| | U | |}_{1} + \\ λ_{2} Σ_{i = 1}^{n} \frac{1}{{2 t}_{i}} {| | V_{i} | |}_{F}^{2} + λ_{3} Σ_{i = 1}^{n} \frac{1}{{2 t}_{i}} {| | V_{(i)} R_{(i)} | |}_{F}^{2} \end{matrix} - - - (5)

约束:

由于所有患者的致密化现在经由共享概念映射而被耦合，因此，基于共享的方法制定的直接优点是可在患者之间传递知识，这尤其在每个患者的可用信息非常有限且患者是同类时有吸引力。已经发现，基于共享的方法对于同类群患者比基于个人的方法执行得更好。

来自基于个人的方法和基于共享的方法的制定是非凸的。求解模块222应用块坐标下降优化来获得局部解。应当注意，对于每个患者，方程式(4)中基于个人的方法的子问题是在方程式(5)中基于共享的方法的问题在给定n＝1下的特例。因此，提出了一种优化方程式(5)的方法。

步骤1：给定和求解U⁺：

U^{+} = \underset{U &GreaterEqual; 0}{\arg \min} Σ_{i = 1}^{n} \frac{1}{{2 t}_{i}} {| | S_{(i)}^{-} - {UV}_{(i)}^{-} | |}_{F}^{2} + λ_{1} {| | U | |}_{1} - - - (6)

这是标准的非负l₁正则化问题，可使用可伸缩的最优一阶方法(诸如谱投影梯度、近端拟牛顿法等)有效地求解。

步骤2：给定U⁺和求解

\begin{matrix} {V_{(i)}^{+}} = \underset{{V_{(i)}^{+}}}{\arg \min} Σ_{i = 1}^{n} \frac{1}{{2 t}_{i}} {| | S_{(i)}^{-} - U^{+} V_{(i)} | |}_{F}^{2} + \\ λ_{2} Σ_{i = 1}^{n} \frac{1}{{2 t}_{i}} {| | V_{(i)} | |}_{F}^{2} + λ_{3} Σ_{i = 1}^{n} \frac{1}{{2 t}_{i}} {| | V_{(i)} R_{(i)} | |}_{F}^{2} \end{matrix} - - - (7)

应当注意，这些项对于每个患者是解耦的，其给出了以下的最小化问题：

{V_{(i)}^{+}} = \underset{V_{(i)}}{\arg \min} \frac{1}{2} {| | S_{(i)}^{-} - U^{-} V_{(i)} | |}_{F}^{2} + \frac{λ_{2}}{2} {| | V_{(i)} | |}_{F}^{2} + \frac{λ_{3}}{2} {| | V_{(i)} R_{(i)} | |}_{F}^{2} - - - (8)

在方程式(8)中的问题可使用现有的优化求解器来求解。另外，由于问题是平滑的，因此，它允许简单的解析解。在引理1中示出结果。

引理1：假设

Q_{1} Λ_{1} Q_{1}^{T} = U^{T} U + λ_{2} I, Q_{2} Λ_{2} Q_{2}^{T} = λ_{3} R_{(i)} R_{(i)}^{T}

是特征值分解，并且方程式(8)的问题允许解析解：

V_{(i)}^{*} = Q_{1} \hat{V} Q_{2} - - - (9)

其中，

{\hat{V}}_{j, k} = \frac{D_{j, k}}{Λ_{1} (j, j) + Λ_{2} (k, k)} . - - - (10)

步骤3：给定U⁺和求解

{S_{(i)}^{+}} = \underset{{S_{(i)}}}{\arg \min} Σ_{i = 1}^{n} \frac{1}{{2 t}_{i}} {| | S_{(i)} - U^{+} V_{(i)}^{+} | |}_{F}^{2} - - - (11)

约束:

该问题是约束的欧几里得投影，并针对每个被解耦。用于每一个的子问题允许由给出的闭合解。

块坐标下降优化在下文的伪代码1中概述。在实施方式中，初始概念演化矩阵随机生成，被设置为因此，的初始值由给出。由于问题是非凸的，因此，容易落入局部极小值。逃离局部极小值的一个方式是通过在方法收敛之后轻微地干扰V_(i)来“重启”该方法，并计算新的解。在许多解之中，选择具有最低函数值的解。

伪代码1：求解方程式(5)的基于共享的方法的块坐标下降方法。给定n＝1，该方法还求解方程式(4)中每个患者的基于个人的方法。

输入：观察位置每个患者的观察项的值初始解稀疏参数λ₁、参数λ₂、平滑参数λ₃、因数k。

输出：U⁺、

对于所有i，设置

while真do

通过经由l₁求解器求解方程式(6)来更新U⁺

通过计算方程式(9)来更新

更新

if U⁺和收敛then

return U⁺和

end if

对所有i，设置

V_{(i)}^{-} = V_{(i)}^{+}

和

S_{(i)}^{-} = S_{(i)}^{+}

end while

对于大规模问题，矩阵S_(i)的存储、O(d²)级别计算是过高的。然而，应当注意，在每次迭代中，的“低秩+稀疏”结构指示无需存储全矩阵，而是存储取决于k和稀疏剩余矩阵的两个更小的矩阵。该结构可用于大大加速方程式(6)和(7)的计算。在以下的讨论中，表示为

求解U：方程式(6)的主要计算成本在于评估损耗函数和平滑部分的梯度。利用S_(i)的结构的优点，表明可使用的特殊结构来避免所有过高的O(d²)级别运算。

首先应用梯度评估，如在方程式(12)中：

\begin{matrix} {&dtri;}_{U} (Σ_{i = 1}^{n} \frac{1}{{2 t}_{i}} {| | S_{(i)} - {UV}_{(i)} | |}_{F}^{2}) \\ = Σ_{i = 1}^{n} \frac{1}{t_{i}} (U (V_{(i)} V_{(i)}^{T}) - U_{S_{(i)}} (V_{S_{(i)}} V_{(i)}^{T}) + S_{S_{(i)}} V_{(i)}^{T}) \end{matrix} - - - (12)

然后，对目标函数求解，如在方程式(13)中：

\begin{matrix} Σ_{i = 1}^{n} \frac{1}{{2 t}_{i}} {| | S_{(i)} - {UV}_{(i)} | |}_{F}^{2} \\ = Σ_{i = 1}^{n} \frac{1}{{2 t}_{i}} tr (S_{(i)}^{T} S_{(i)} - {2 S}_{(i)}^{T} {UV}_{(i)} + V_{(i)}^{T} U^{T} {UV}_{(i)}) \\ = Σ_{i = 1}^{n} \frac{1}{{2 t}_{i}} (\begin{matrix} tr (V_{S_{(i)}}^{T} (U_{S_{(i)}}^{T} U_{S_{(i)}} V_{S_{(i)}})) + tr (S_{S_{(i)}}^{T} S_{S_{(i)}}) + \\ 2 tr ((S_{S_{(i)}}^{T} U_{S_{(i)}}) V_{S_{(i)}}) + tr (V_{(i)}^{T} (U^{T} {UV}_{(i)})) - \\ 2 tr (V_{S_{(i)}}^{T} (U_{S_{(i)}}^{T} {UV}_{(i)})) - 2 tr ((S_{S_{(i)}}^{T} U) V_{(i)}) \end{matrix}) \end{matrix} - - - (13)

对于损耗函数的评估，可表明在给定如在以下步骤中讨论的S_(i)的特殊结构下，如果所有患者具有t时间片，则复杂度是O(k²npt)。类似地，计算梯度的复杂度同样由O(k²npt)给出。因此，在优化中，每次迭代的计算成本相对于n、p和t是线性的，因此，S_(i)的特殊结构可大大加速一阶优化方法。

求解V：项U^TS_(i)可使用如上所述类似的策略被再次有效地计算。回顾在求解中，需要对两个矩阵：R^kxk矩阵U^TU和R^txt三角矩阵执行特征值分解。矩阵被配备特殊的结构：矩阵U^TU是低秩矩阵，矩阵是三角矩阵(即，非常稀疏的矩阵)，这些矩阵的特征值分解可有效地解出。应当注意，时间维度的复杂性并不太关键，因为在大多数EMR群中，患者的时间维度通常小于1000。回顾EMR数据的最精细的时间单位是天。使用周粒度，1000个时间维度覆盖多达20年的记录。考虑到这个，使用Matlab^TM内置特征值分解，其在普通台式计算机上对1000时间维度矩阵通常花费小于1秒。

在方程式(4)和(5)的制定中，需要估计患者矩阵的维度。维度可通过验证方法选择，如对于其它正则化参数所做的。作为备选，启发式秩估计可用于通过检查概念映射矩阵U的QR分解中的信息来自适应地设置矩阵的维度，假设所有患者的维度信息在几次更新迭代之后被共同地积累在U中。该方法被概述如下。

在指定的更新迭代之后，对UE＝Q_UR_U执行经济的QR因式分解，其中E是置换矩阵，以使得置换后的|diag(R_U)|＝[r₁,...,r_k]是非递增的。表示Q_p＝r_p/r_p+1，Q_max＝max(Q_p)，位置由p_max给出。则：

τ = \frac{(K - 1) Q_{\max}}{\underset{p &NotEqual; p_{\max}}{Σ} Q_{i}} - - - (14)

大的τ指示在p_max元素之后Q_i的幅度的大的下降，因此，因素k被减小到p_max，仅保留U的第一p_max列和每个演化矩阵V的第一p_max行。经验上，已经表明维度估计与基于共享的方法(即，患者是同类的)一起工作良好。然而，对于基于个人的方法，由于患者的完整性是独立的，因此，如果维度估计被应用于每个患者，则每一个患者具有不同于其他患者的维度。这在分析患者时施加了困难，且因此，维度估计并不用于基于个人的方法。

系统202对患者数据214进行致密以提供致密的数据226作为输出224。致密的数据226可包括每个患者的致密的纵向患者矩阵。致密的纵向患者矩阵可通过首先使用例如概括统计从致密的纵向患者矩阵中构建特征向量来用于预测建模(例如，使用分类器)。也可以预见其它应用。有利地，实验结果已经表明在应用了本原理的致密化后，预测性能显著改进。

现在参考图4，示出了根据一个说明性实施例的用于纵向EMR数据的致密化的方法的框图/流程图。在框402中，对于每个患者，患者数据被表示为稀疏患者矩阵。患者数据优选地包括一群患者的随着时间记载医学事件的EMR数据。稀疏患者矩阵优选地包括特征维度和时间维度。在框404中，稀疏患者矩阵中的零被看作遗漏信息。

在框406中，稀疏患者矩阵被分解(即，矩阵分解或因式分解)成包括概念矩阵和演化矩阵的多个矩阵。概念矩阵表明患者数据的医学概念。演化矩阵表明医学概念的时间关系。在框408中，时间平滑度被并入演化矩阵中。

在框410中，基于多个矩阵推算稀疏患者矩阵中的遗漏信息，以提供致密的患者矩阵。优选地，遗漏信息从多个矩阵的积中推算。分解和推算遗漏信息同时执行。在一个实施例中，如果群是异类的(即，每个患者的医学概念彼此互不相同)，则在框412中，对群中的每个患者，学习个人概念矩阵。在这种情况下，对每个患者，学习方程式(4)中的模型。在另一个实施例中，如果群是同类的(即，群中的患者的医学概念是相似的)，则在框414中，在群之中共享概念矩阵。在这种情况下，对每个患者学习方程式(5)中的模型。

推算遗漏信息优选地包括求解优化问题(即，基于同类或异类群而确定的模型)，以确定致密的概念矩阵和致密的演化矩阵。致密的患者矩阵被还原为致密的概念矩阵和致密的演化矩阵的积。致密的患者矩阵可通过构建特征向量(例如，通过概括统计)而用在例如预测模型(即，分类器)中。

已经描述了用于改进的表型的纵向EMR的致密化的系统和方法的优选实施例(其旨在说明性而非限制性)，应当注意，本领域技术人员可根据以上教导进行修改和变形。因此，应当理解，可以在所公开的特定实施例中进行改变，而这些改变在如权利要求所概述的本发明的范围内。因此，已经用专利法所要求的具体细节和特殊性描述了本发明的方法，所要求和期望保护的内容被阐述在权利要求书中。

Claims

1.一种用于数据致密化的方法，包括：

将患者数据表示为针对每个患者的稀疏患者矩阵；

将所述稀疏患者矩阵分解成多个矩阵，所述多个矩阵包括表明所述患者数据的医学概念的概念矩阵和表明所述医学概念的时间关系的演化矩阵；以及

基于所述多个矩阵，使用处理器推算所述稀疏患者矩阵中的遗漏信息，以提供致密的患者矩阵。

2.如权利要求1所述的方法，其中，所述遗漏信息在所述稀疏患者矩阵中用零表示。

3.如权利要求1所述的方法，其中，推算遗漏信息包括：基于一群患者的性质，制定优化问题。

4.如权利要求3所述的方法，其中，推算遗漏信息包括：在所述群是异类的情况下，学习每个患者的个人概念矩阵。

5.如权利要求3所述的方法，其中，推算遗漏信息包括：在所述群是同类的情况下，在所述群之中共享所述概念矩阵。

6.如权利要求3所述的方法，还包括：求解所述优化问题以对所述多个矩阵进行致密。

7.如权利要求6所述的方法，还包括：确定致密的患者矩阵为所述多个矩阵的积。

8.如权利要求3所述的方法，还包括：通过块坐标下降来求解所述优化问题。

9.如权利要求8所述的方法，其中，所述优化问题的解包括具有最低函数值的局部极小值。

10.如权利要求1所述的方法，其中，分解和推算同时执行。

11.一种用于数据致密化的系统，包括：

矩阵形成模块，其被配置为将患者数据表示为针对每个患者的稀疏患者矩阵；

因式分解模块，其被配置为将所述稀疏患者矩阵分解成多个矩阵，所述多个矩阵包括表明所述患者数据的医学概念的概念矩阵和表明所述医学概念的时间关系的演化矩阵；以及

推算模块，其被配置为基于所述多个矩阵，使用处理器推算所述稀疏患者矩阵中的遗漏信息，以提供致密的患者矩阵。

12.如权利要求11所述的系统，其中，所述遗漏信息在所述稀疏患者矩阵中用零表示。

13.如权利要求11所述的系统，其中，所述推算模块还被配置为基于一群患者的性质，制定优化问题。

14.如权利要求13所述的系统，其中，所述推算模块还被配置为在所述群是异类的情况下，学习每个患者的个人概念矩阵。

15.如权利要求13所述的系统，其中，所述推算模块还被配置为在所述群是同类的情况下，在所述群之中共享所述概念矩阵。

16.如权利要求13所述的系统，还包括：求解模块，其被配置为求解所述优化问题以对所述多个矩阵进行致密。

17.如权利要求16所述的系统，其中，所述求解模块还被配置为确定致密的患者矩阵为所述多个矩阵的积。

18.如权利要求13所述的系统，还包括：求解模块，其被配置为通过块坐标下降求解所述优化问题。

19.如权利要求18所述的系统，其中，所述优化问题的解包括具有最低函数值的局部极小值。