CN104699939A

CN104699939A - 组合知识和数据驱动的洞察的患者风险分层的方法和系统

Info

Publication number: CN104699939A
Application number: CN201410679827.XA
Authority: CN
Inventors: 胡建英; 钱步月; 王飞; 王骏; 王翔
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-12-05
Filing date: 2014-11-24
Publication date: 2015-06-10
Also published as: DE102014116177A1; US20150161346A1; US10978208B2

Abstract

本发明涉及一种组合知识和数据驱动的洞察的患者风险分层的方法和系统。一种用于患者分层的系统和方法包括基于患者相似性图的相似性结构，从所述患者相似性图中的患者确定第一组患者群体。基于与所述患者关联的专家领域知识，标识第二组患者群体。使用处理器排列所述第一组和所述第二组中的患者，以便对患者进行分层。

Description

组合知识和数据驱动的洞察的患者风险分层的方法和系统

技术领域

本发明涉及风险群体标识，更具体地说，涉及从患者相似性网络中组合知识驱动的洞察和数据驱动的洞察以便进行风险群体标识。

背景技术

个性化护理是现代医疗信息学中的一个主要趋势，其中关键步骤是将患者群划分为同质群体，以便可以针对每个群体构造定制治疗计划。患者风险分层可以被视为一种特定的患者群划分方式，以便每个群体中的患者共享具有不良结果的类似风险，例如，充血性心脏衰竭(CHF)的发作。

风险分层的一个主要挑战是患者临床状况的异质性。例如，CHF患者具有不同的并存病，例如糖尿病、肾病、肺病等。在不同的并存病群体中，促成风险的医疗特征或者风险因素不同。即使对于跨越不同患者群体的常见风险因素，它们对风险评分的贡献也可以明显不同。例如，哮喘是心脏病的已知风险因素，但它对于患有其它现有肺病的患者促成的心脏病风险远多于患有糖尿病的患者。因此，使用一组共享风险因素构造通用风险预测模型可能不是最佳的风险分层方法。以下操作更有意义：首先将患者群划分为具有一致临床状况的风险群体，然后使用来自每个群体的定制风险因素构造预测模型。

为了准确地划分患者群，应从领域专家(例如，医生)引入现有知识。一方面，引入此领域知识(通常以已知风险因素的形式)非常重要，因为它们反映重要的医疗洞察，这些洞察通过广泛的临床研究验证。另一方面，此领域知识大多不完整，因为领域专家仅可以在其专业知识领域中提供指导，这不可能涵盖任何给定患者群的所有相关医疗方面。

发明内容

一种用于患者分层的方法包括基于患者相似性图的相似性结构，从所述患者相似性图中的患者确定第一组患者群体。基于与所述患者关联的专家领域知识，标识第二组患者群体。使用处理器排列所述第一组和所述第二组中的患者，以便对患者进行分层。

一种用于患者分层的系统包括数据驱动的标识模块，其被配置为基于患者相似性图的相似性结构，从所述患者相似性图中的患者确定第一组患者群体。知识驱动的标识模块被配置为基于与所述患者关联的专家领域知识，标识第二组患者群体。匹配模块被配置为使用处理器排列所述第一组和所述第二组中的患者，以便对患者进行分层。

从以下将结合附图阅读的对本发明的示例性实施例的详细说明，本发明的这些和其它特性和优点将变得显而易见。

附图说明

本公开将在参考以下附图的对优选实施例的以下说明中提供细节，这些附图是：

图1是示出根据一个示例性实施例的患者风险分层系统的高级框图/流程图；

图2是示出根据一个示例性实施例的用于患者风险分层的系统的框图/流程图；

图3示出根据一个示例性实施例的示例性患者相似性网络图；

图4示出根据一个示例性实施例的具有仅从数据驱动的洞察标识的风险群体的示例性患者相似性网络图；

图5示出根据一个示例性实施例的具有注入其中的知识驱动的洞察的示例性患者相似性网络图；

图6示出根据一个示例性实施例的具有来自数据驱动的洞察和知识驱动的洞察两者的风险群体的示例性患者相似性网络图；以及

图7是示出根据一个示例性实施例的用于患者风险分层的方法的框图/流程图。

具体实施方式

根据本原理，通过组合知识驱动和数据驱动的洞察，提供用于患者风险分层的系统和方法。本原理形成目标函数，其接收患者相似性图和专家知识领域(例如，已知风险因素)作为输入，并且输出符合已知风险因素的一组患者风险群体。形成目标函数以便基于患者相似性图的相似性结构，从患者相似性图中的患者确定第一组患者风险群体。基于与所述患者关联的专家领域知识，标识第二组患者风险群体。排列所述第一组和第二组中的患者，以便对患者进行分层。本原理可以发现未由知识驱动的风险因素涵盖的数据驱动的风险群体。基于块坐标下降(Block Coordinate Descent)提出有效解，以便对所述目标函数进行求解。

有利地，本原理基于图，因此可以从患者相似性网络标识风险群体而无需访问原始临床特征。此外，本原理可以引入不完整并且非常稀少的领域知识。

所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括—但不限于—电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括—但不限于—无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的各个方面的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其它设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article ofmanufacture)。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。

附图中的流程图和框图显示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本说明书中对本原理的“一个实施例”或“一实施例”以及它们的其它变型的引用指结合该实施例描述的特定特性、结构或特征等被包括在本原理的至少一个实施例中。因此，本说明书的各种位置中出现的短语“在一个实施例中”或“在一实施例中”以及任何其它变型不一定都指同一实施例。

应该理解，使用以下“/”、“和/或”以及“至少一个”(例如，在“A/B”、“A和/或B”以及“A和B的至少一个”的情况下)的任意一个都旨在包含仅选择第一列出的选项(A)，或者仅选择第二列出的选项(B)，或者选择两个选项(A和B)。作为进一步实例，在“A、B和/或C”以及“A、B和C的至少一个”的情况下，这种措词旨在包含仅选择第一列出的选项(A)，或者仅选择第二列出的选项(B)，或者仅选择第三列出的选项(C)，或者仅选择第一和第二列出的选项(A和B)，或者仅选择第一和第三列出的选项(A和C)，或者仅选择第二和第三列出的选项(B和C)，或者选择所有三个选项(A和B和C)。这可以扩展到列出的项数，如所属技术领域和相关技术领域的普通技术人员很容易地显而易见的那样。

现在参考附图，其中相同标号表示相同或相似的元素，首先参考图1，示例性地示出根据一个实施例的患者风险分层系统100的高级概述的框图/流程图。患者风险分层系统100包括新颖的半监管式学习框架，以便进行数据和知识驱动的患者风险群体探索。

电子病历(EMR)数据库102包括患者群的医疗事件数据。可以基于相关条件(例如，疾病、解剖等)选择患者群。采用EMR数据库102以便生成患者相似性网络104。患者相似性网络104包括图，该图具有作为患者的节点和作为患者相似性的边。领域专家106可以包括医生或其它专家。领域专家106优选地提供一组已知风险因素108。

患者风险分层系统110接收患者相似性网络104和已知风险因素108作为输入。执行风险群体标识112，这导致符合那些提供的风险因素108的一组患者风险群体114。从风险群体114提取风险因素116，并且针对每个风险因素估计风险评分118。风险因素116和关联的风险评分118例如可以在个性化医疗保健供给系统120中使用，以便进行患者相似性学习、指导式风险分层、临床路径研究、可视化等。

应该理解，尽管针对患者和医疗状况讨论本发明以便在医疗领域中应用，但本发明并不限于此。例如，本发明可以适用于从具有不完整知识的任何数据确定群体。还在本原理的上下文中构想其它应用。

现在参考图2，示例性地示出根据一个实施例的用于患者风险分层的系统200的框图/流程图。患者风险分层系统200允许将专家领域知识引入风险群体发现过程中，以便确保所标识的群体具有临床意义并且一致。

系统200可以包括患者风险分层系统或工作站202。系统202优选地包括一个或多个处理器208和存储器210，以便存储应用、模块和其它数据。系统202还可以包括一个或多个显示器204以便查看。显示器204可以允许用户与系统202及其组件和功能交互。这可以通过用户接口206进一步促进，用户接口206可以包括鼠标、操纵杆或者任何其它外围设备或控件，以便允许用户与系统202和/或其设备交互。应该理解，系统202的组件和功能可以表示为一个或多个分离系统或工作站，或者可以集成为较大系统或工作站(例如，个性化医疗保健供给系统)的一部分。

系统202可以接收输入212，输入212可以包括患者相似性网络214和领域知识216。患者相似性网络214可以包括图，其中节点表示患者并且边表示患者之间的相似性(例如，相似的医疗状况)。患者相似性网络214优选地从数据驱动的洞察(例如，EMR数据库中的患者数据)形成。领域知识216优选地包括来自专家(例如，医生)的有关一个或多个(但优选地并非所有)患者的已知风险因素。但是，领域知识216还可以包括其它信息，例如某些患者接受的治疗(药物、疗程等)、临床路径(时序分析)，或者来自备选源的其它信息。

暂时参考图3，示例性地示出根据一个实施例的示例性患者相似性网络图300。患者相似性网络图包括示例性节点302和边304。节点302表示患者。边304表示两个节点302之间的相似性，例如，相似的医疗状况。

假设包含n个患者的群并且其相似性矩阵为W∈R^nxn，该矩阵的第(i,j)个表项对患者i和患者j之间的临床相似性进行编码。W是对称的。假设Δ是对应的规范化后的图拉普拉斯算子(Laplacian)。假设具有c个知识驱动的风险因素216，并且Y＝[y₁,....,y_c]∈{0,1}^nxc对这些因素与患者的关联进行编码，即，y_ij＝1意味着患者i具有风险因素j(以便患者i属于风险群体j；注意，这种群体分配可以重叠，即，一个患者可以基于他/她具有的风险因素而属于多个群体)，否则y_ij＝0。假设表示标记的患者的索引集合，并且c′是风险群体总数。假设c′＞c，即，某些风险群体未见过并且具有未知风险因素。假设F＝[f₁,....,f_c]∈{0,1}^nxc是到知识驱动的风险群体的患者分配矩阵，并且G＝[g₁,....,g_c′]∈{0,1}^nxc′是到所有潜在风险群体的患者分配矩阵。

在公式(1)中形成以下目标。

其中α,β,γ,μ＞0是所有加权参数。目标是最小化将在以下部分中讨论中每个项的含义。

数据驱动的标识模块218被配置为基于非监管式学习，仅使用数据驱动的洞察(即，患者相似性网络214)标识风险群体。从EMR数据库或其它医疗数据源提取数据驱动的洞察以便构建患者相似性网络图300，从而同一风险群体中的患者根据其临床状况而与彼此相似。可以通过相关条件(例如，疾病、解剖等)标记风险群体。风险群体的患者可以与诸如糖尿病、心率失常、青光眼之类的风险因素关联。但是，仅使用数据驱动的洞察标识的风险群体可能不完整，例如，具有未见过的类别(即，未知风险群体)、缺失的风险因素等。

数据驱动的标识模块218在公式1中形成群体项：注意，G是到所有c’个潜在风险群体的患者分配。该群体项表示对图结构Δ进行的数据驱动的探索。γ确定G将在多大程度上偏重于图的规范化后的最小割(min-cut)。

暂时参考图4，示例性地示出根据一个实施例的示例性患者相似性网络图400。患者相似性网络图400被示出具有仅使用数据驱动的洞察标识的风险群体402、404、406、408。风险群体是在患者相似性网络图400中通过医疗状况标记的类别。例如，风险群体402可以被标记为“皮肤病”，其具有诸如皮肤病、皮肤恶性肿瘤之类的风险因素，风险群体404可以被标记为“心脏病”，其具有诸如心率失常、慢性缺血性心脏病之类的风险因素，风险群体406可以具有未知标签，其具有诸如糖尿病、慢性肾衰竭之类的风险因素，并且风险群体408可以被标记为“眼病”，其具有诸如青光眼、白内障之类的风险因素。如可以从风险群体406看到的，仅使用数据驱动的洞察标识的风险群体可能不完整(例如，未见过的类别、缺失的风险因素等)。

再次参考图2，知识驱动的标识模块220被配置为使用半监管式学习，优选地以已知风险因素的形式，使用领域专家216标识风险群体。数据驱动的标识模块218和知识驱动的标识模块220可以使用相同的患者相似性网络或不同的患者相似性网络。这允许将从一个领域获得的知识驱动的洞察和从另一个领域获得的数据驱动的洞察相组合。知识驱动的标识模块220在公式1中形成拟合项和平滑项。

知识驱动的标识模块220在公式1中形成拟合项：注意，F是到c个知识驱动的风险群体的患者分配。该项管理F必须在多大程度上与输入知识Y拟合。下标意味着拟合仅应用于标记的患者。α确定F可以在多大程度上偏离Y。当α→∞时，不允许改变已知标签。

知识驱动的标识模块220还在公式1中形成平滑项：该项实施半监管式学习的邻域假设，即，如果两个患者在图中高度相似，则他们可能属于同一风险群体。较大的β将使F更多地偏重于由Δ编码的图结构。

匹配模块222被配置为根据成对关系，匹配通过数据驱动的洞察和知识驱动的洞察标识的风险群体。匹配模块222在公式1中形成匹配项：该项(注意μ之前的负号)根据成对关系最大化分配F和分配G之间的一致性。的值是F和G针对其关系保持一致的患者对的总数。μ确定G和F彼此的必须接近程度。

求解模块224被配置为对公式1的目标函数进行求解，以便标识符合输入领域知识216的一组风险群体和/或标识不与输入领域知识216关联的附加风险群体。这导致标识的风险群体228作为输出226。

如果F和G被视为两组变量，则可以采用块坐标下降(BCD)类型的方法以便对公式1进行求解。该方法是迭代方法，以便在每次迭代时，F或G针对另一个固定并且最小化在这种情况下，固定G对F进行求解导致图转导，而固定F对G进行求解导致规范化后的最小割。遗憾的是，对交替最小化过程的任何一个步骤进行求解都在其原始形式方面是NP困难的。下面将示出如何放宽目标以便允许有效解。

为了对放宽后的版本的公式1进行求解，首先将F和G从二进制分配放宽到软分配。放宽后的目标变成公式2。

s.t.G^TG＝I_c′,G≥0

I_c′是c′xc′单位矩阵。G的正交性约束将停止平凡解。注意，不必针对F提出相同约束，因为F已经通过拟合项约束到适当的Y。

在放宽之后，如果给出固定G，则针对以下公式对F进行求解：

可以以闭合形式对公式3中的目标进行求解：

F = (1 - ρ) {(I_{n} - ρ (S + \frac{μ}{β} {GG}^{T}))}^{- 1} Y, - - - (4)

其中，ρ＝α/(α+β)并且S＝I_n-Δ。

如果给出固定F，则针对以下公式对G进行求解：

s.t.G^TG＝I_c′，G≥0

公式5等价于：

s.t.G^TG＝I_c′,G≥0

因为FF^T是核，所以保持正半定核。

公式6是具有非负性约束的标准图最小割目标，并且可以通过乘法更新规则对其进行求解：

ο是阿达玛乘积。G可以通过针对S执行谱聚类产生的簇分配进行初始化。

保证交替最小化过程收敛，因为公式(2)中的目标具有下限。下面在伪代码1中总结了对公式1进行求解的过程。

伪代码1：风险群体分析

输入：相似性图W，输入标签Y∈{0,1}^nxc，参数c′,β,γ,μ＝1，ρ；

输出：群体指标矩阵

规范化图核：S←D^-1/2WD^-1/2，其中D是W的次数矩阵；

计算规范化后的拉普拉斯算子：Δ←I_n-S；

针对S执行c′向谱聚类，并且将G∈{0,1}^n×c′初始化为对应的群体分配矩阵；

重复：

直到||G-G′||<∈；

返回G；

现在将讨论伪代码1的实现。

设置β,γ,μ：因为比率μ/β和μ/γ是唯一的问题，不失一般性地可以将μ固定为1。1/γ＞0确定公式6中FF^T对S的影响。较小的γ将使G更多地偏重于F而不是S。为了平衡两个核(S和FF^T)的影响，注意S的最重要割来自其第二大奇异向量(其最大奇异向量是常数向量)，并且FF^T的最重要割来自其最大奇异向量。假设SVD(X,k)表示返回第k大奇异值X的函数，则γ可以设置为：

γ＝SVD(FF^T,1)/SVD(S,2) (8)

这将FF^T的影响缩放到相同级别的S的规范化后的最小割。同样，比率1/β控制公式4中FF^T对S的影响。因为应该在该实现中保留Y中的给定标签，所以将β设置为大数值以便1/β将很小(例如，0.1)。

设置ρ：ρ∈(0,1)是图结构和输入标签之间的权衡因素。较大的ρ将使F更多地偏重于规范化后的最小割。在该实现中，使用简单的试探法设置ρ：

公式9将ρ的值限定在a₁和a₂之间，并且当标记的节点数量增加时，ρ的值将减小(因此F必须更严格地符合Y)。

设置c′：在理想情况下，c′＞c是患者群中的风险群体的真实数量。c′优选地由领域专家设置。如果没有足够的领域知识，则可以以两种不同方式设置c′。一种方式是设置c′＝c+1，这基本上将所有风险群体合并为一个元群体。另一种方式是通过正则化矩阵估计c′。

复杂性：在每次迭代内部，本方法的复杂性由使用局部和全局一致性(LLGC，公式4)以及非负最小割(公式6)的学习的复杂性控制。LLGC的复杂性通过计算nxn矩阵的伪逆矩阵控制，在最糟糕的情况下该伪逆矩阵是O(n³)。非负规范化后的最小割的复杂性是O(n²k)，其中k是收敛所需的迭代次数。需要额外的O(n²c’)时间以便使用c’向谱聚类初始化G。

现在参考图5，示例性地示出根据一个实施例的示例性患者相似性网络图500。患者相似性图500示出注入知识驱动的洞察。知识驱动的洞察是来自领域专家(例如，医生)的数据。本发明允许以已知风险因素或来自领域专家的其它数据的形式，将知识驱动的洞察引入到患者相似性网络图500。例如，领域专家可以确定患者节点502可以与严重的慢性肾病风险因素关联，这可以用于标识与该风险因素关联的风险群体。本发明通过尝试使标识的风险群体符合给定风险因素来实施此知识。

现在参考图6，示例性地示出根据一个实施例的示例性患者相似性网络图600。患者相似性网络图600包括使用数据驱动和知识驱动的洞察标识的风险群体602、604、606、608。例如，风险群体602可以被标记为“皮肤病”，其具有诸如皮肤病、皮肤恶性肿瘤之类的风险因素，风险群体604可以被标记为“心脏病”，其具有诸如心率失常、慢性缺血性心脏病之类的风险因素，风险群体606可以被标记为“肾病”，其具有诸如慢性肾衰竭、急性肾衰竭之类的风险因素，并且风险群体608可以被标记为“眼病”，其具有诸如青光眼、白内障之类的风险因素。使用数据驱动和知识驱动的洞察标识的风险群体更具可解释性，因为它们符合领域知识，并且解决了底层网络中的模糊性。标识的风险群体可以用于提取附加风险因素和风险评分，它们例如可以在个性化医疗保健供给系统中使用。

本发明引入知识驱动的洞察和数据驱动的洞察两者。有利地，本发明基于图，因此可以从患者相似性网络标识风险群体而无需访问原始临床特征。本发明还可以引入不完整并且非常稀少的领域知识。

现在参考图7，示例性地示出显示根据一个实施例的用于患者分层700的方法的框图/流程图。在方框702，形成目标函数。在方框704，所述目标函数可以基于患者相似性图的相似性结构，从所述患者相似性图中的患者确定第一组患者群体。可以从患者数据(例如，EMR数据库)形成所述患者相似性图。在方框706，所述患者相似性图包括表示患者的节点和表示患者之间的相似性的边。所述患者相似性图对患者的原始特征具有受限的访问。

在方框708，所述目标函数可以基于与患者关联的专家领域知识，标识第二组患者群体。第二组患者群体优选地包括不完整信息(例如，未见过的类别)。在方框710，所述专家领域知识包括具有关联风险因素和/或已知风险因素的已知风险群体。在方框712，所述目标函数可以包括排列第一组和第二组中的患者，以便对患者进行分层。在方框714，排列患者可以包括标识不与专家领域知识关联的附加患者群体。在方框716，排列患者可以包括最大化被分配到第一组的患者和被分配到第二组的患者之间的一致性。

在方框718，迭代地最小化目标函数直到收敛。这可以包括应用块坐标下降。

已描述了用于通过组合知识驱动和数据驱动的洞察进行患者风险分层的系统和方法的优选实施例(它们旨在是示例性的而非限制性的)，应该注意，所属技术领域的技术人员可以根据上述教导进行修改和变型。因此，应该理解，可以在所公开的特定实施例中进行更改，这些更改在所附权利要求概述的本发明的范围内。以专利法要求的细节和特殊性描述本发明的各方面之后，在所附权利要求中给出证书专利要求保护和期望保护的内容。

Claims

1.一种用于患者分层的方法，包括：

基于患者相似性图的相似性结构，从所述患者相似性图中的患者确定第一组患者群体；

基于与所述患者关联的专家领域知识，标识第二组患者群体；以及

使用处理器排列所述第一组和所述第二组中的患者，以便对患者进行分层。

2.根据权利要求1中所述的方法，其中排列患者包括标识不与所述专家领域知识关联的附加患者群体。

3.根据权利要求1中所述的方法，其中排列患者包括最大化被分配到所述第一组的患者和被分配到所述第二组的患者之间的一致性。

4.根据权利要求1中所述的方法，其中所述专家领域知识包括与所述患者关联的已知风险因素。

5.根据权利要求1中所述的方法，其中所述第二组患者群体不完整。

6.根据权利要求5中所述的方法，其中所述第二组患者群体包括未见过的类别。

7.根据权利要求1中所述的方法，其中所述患者相似性图包括表示患者的节点和表示患者之间的相似性的边。

8.根据权利要求1中所述的方法，其中确定、标识和排列包括形成目标函数，并且迭代地最小化所述目标函数直到收敛。

9.根据权利要求1中所述的方法，其中所述患者群体包括针对医疗状况的患者风险群体。

10.一种用于患者分层的系统，包括：

数据驱动的标识模块，其被配置为基于患者相似性图的相似性结构，从所述患者相似性图中的患者确定第一组患者群体；

知识驱动的标识模块，其被配置为基于与所述患者关联的专家领域知识，标识第二组患者群体；以及

匹配模块，其被配置为使用处理器排列所述第一组和所述第二组中的患者，以便对患者进行分层。

11.根据权利要求10中所述的系统，其中所述匹配模块还被配置为标识不与所述专家领域知识关联的附加患者群体。

12.根据权利要求10中所述的系统，其中所述匹配模块还被配置为最大化被分配到所述第一组的患者和被分配到所述第二组的患者之间的一致性。

13.根据权利要求10中所述的系统，其中所述专家领域知识包括与所述患者关联的已知风险因素。

14.根据权利要求10中所述的系统，其中所述第一组患者群体不完整。

15.根据权利要求14中所述的系统，其中所述第一组患者群体包括未见过的类别。

16.根据权利要求10中所述的系统，其中所述患者相似性图包括表示患者的节点和表示患者之间的相似性的边。

17.根据权利要求10中所述的系统，其中所述数据驱动的标识模块、所述知识驱动的标识模块和所述匹配模块被配置为形成目标函数，并且求解模块被配置为迭代地最小化所述目标函数直到收敛。

18.根据权利要求10中所述的系统，其中所述患者群体包括针对医疗状况的患者风险群体。