CN113272912A

CN113272912A - 使用似然比范式的用于表型驱动临床基因组的方法和装置

Info

Publication number: CN113272912A
Application number: CN201980085346.7A
Authority: CN
Inventors: P·N·鲁宾逊
Original assignee: Jackson Laboratory
Current assignee: Jackson Laboratory
Priority date: 2018-10-22
Filing date: 2019-10-21
Publication date: 2021-08-17
Also published as: EP3871232A4; EP3871232A1; US20210343414A1; WO2020086433A1

Abstract

用于提供临床决策支持的方法和设备。方法包括：接收患者的表型信息；针对多种疾病中的每种疾病，确定所接收的表型信息中包括的每个表型特征的似然比；基于每个表型特征的似然比，确定针对多种疾病中的每种疾病的复合似然比；至少部分地基于所确定的复合似然比，对多种疾病进行排序；以及显示经排序的多种疾病中的至少一些疾病。

Description

使用似然比范式的用于表型驱动临床基因组的方法和装置

背景技术

候选基因和疾病的表型驱动的优先排序是针对罕见疾病的基因组诊断的公认方法。一些常规方法使用人类表型本体论(HPO)来标注通过外显子组或基因组测序而在被研究的个体中观察到的表型异常集合。HPO的最新版本包含被布置为有向无环图的13726个项，其中边表示子类关系；这些项中的13559个标识表型异常。例如，肾皮质异常形态是肾形态异常的一个子类。HPO项目附加地提供了7074种罕见疾病的由HPO项和元数据构建的计算疾病模型，HPO项和元数据基于表征疾病的表型异常、遗传模式以及在许多情况下疾病的发病年龄或者疾病的表型特征和整体特征频率来定义疾病。例如，7型Meckel综合征通过动脉导管未闭(HP：0001643)来表征，其频率为7例产前发作的患者中的2例。

发明内容

在某些方面，本公开提供了临床决策支持工具，临床决策支持工具基于对所观察的患者表型和/或基因型的似然比分析来评估患者患有特定疾病的概率。具体地，一些实施例针对基因组诊断的方法，该方法利用临床似然比框架来提供对候选诊断的后验概率的估计以及针对每个观察表型的优势比和所观察的遗传变异的预测致病性，从而为临床医生提供关于每个个体表型异常的贡献可以解释的结果。遗传变异的优势比附加地提供了在一般人群中，基因怀有罕见的、预测的致病变异趋势的量度。

一些实施例针对临床决策支持系统，临床决策支持系统包括至少一个计算机处理器以及其上存储有多个计算机可读指令的至少一个存储设备，多个计算机可读指令在由至少一个计算机处理器执行时，执行方法。方法包括：接收患者的表型信息；针对多种疾病中的每种疾病，确定所接收的表型信息中包括的表型特征中的每个表型特征的似然比；基于每个表型特征的似然比，确定针对多种疾病中的每种疾病的复合似然比；至少部分地基于所确定的复合似然比，对多种疾病进行排序；以及显示经排序的多种疾病中的至少一些疾病。

一些实施例针对提供临床决策支持的方法。方法包括：接收患者的表型信息；针对多种疾病中的每种疾病，确定所接收的表型信息中包括的表型特征中的每个表型特征的似然比；基于每个表型特征的似然比，确定针对多种疾病中的每种疾病的复合似然比；至少部分地基于所确定的复合似然比，对多种疾病进行排序；以及显示经排序的多种疾病中的至少一些疾病。

一些实施例针对使用多个指令编码的非暂时性计算机可读介质，多个指令在由至少一个计算机处理器执行时，执行方法。方法包括：接收患者的表型信息；针对多种疾病中的每种疾病，确定所接收的表型信息中包括的表型特征中的每个表型特征的似然比；基于每个表型特征的似然比，确定针对多种疾病中的每种疾病的复合似然比；至少部分地基于所确定的复合似然比，对多种疾病进行排序；以及显示经排序的多种疾病中的至少一些疾病。

应当理解，前述概念和以下更详细讨论的附加概念的所有组合(假设这样的概念不相互矛盾)被认为是本文所公开的发明主题的一部分。

附图说明

将参考以下附图来描述本技术的各种非限制性实施例。应当理解，附图不一定按比例绘制。

图1图示了根据一些实施例的用于提供临床决策支持的过程；

图2图示了根据一些实施例的用于计算患者患有特定疾病的后验概率的过程；

图3A至图3C图示了根据一些实施例的使用本文所述的技术的对于给定患者的表型特征的输入集合，排序在前三位的疾病候选的信息；

图4A至图4C图示了根据一些实施例的使用本文所述的技术的对于给定患者的表型特征的不同输入集合，排序在前三位的疾病候选的信息；

图5图示了根据一些实施例的使用本文描述的技术的对于给定患者的表型特征的输入集合，排序在最高位的疾病候选的信息；

图6图示了根据一些实施例的使用不同数目的表型项的模拟结果；以及

图7示意性地图示了可以在其上实现一些实施例的基于计算机的系统的组件。

具体实施方式

外显子组测序和基因组测序是用于对大量DNA进行快速测序的技术，并且可以被用于测试家族遗传疾病。在外显子组测序中，人类基因组中提供蛋白质制造指令的所有DNA部分(被称为外显子)被测序。外显子组测序允许标识任何基因的蛋白质编码区域中的变异。在基因组测序中，个体DNA中所有核苷酸的顺序被确定并且基因组的任何部分中的变异可以被标识。

外显子组和基因组测序通常揭示出数十种或数百种变异，这些变异被普通的计算框架预测为有害的，并且因此对此类数据的分析通常采用一些附加的指标来对基因进行优先级排序。表型方法将被调查者的观察到的表型异常与计算基因模型进行比较，并且寻找既具有预测的致病变异、又与表型异常(例如，临床症状、症状或作为医学检查的一部分而观察到的其他异常)与患者的观察表型异常相容的疾病相关联的基因。发明人已认识到，用于表型驱动的基因组诊断的当前技术具有许多缺点，这些缺点代表了在专家中心之外成功实现基因组测试的障碍。例如，常规方法通常将结果呈现为候选基因或疾病的有序列表；然而，如果考虑到基因组诊断的总体成功率在50％或更低，人们可能会认为，在许多情况下，排序第一的基因实际上并不是好的候选。为此，一些实施例涉及用于提供对排序在前的预测的良好程度的度量的计算技术。附加地，发明人已认识到，向临床用户提供用于理解计算预测原因的信息的方法将为此类用户提供更有用的临床决策支持工具。

本文描述的技术的一些实施例涉及将临床似然比(LR)框架应用于表型驱动的基因组诊断，以解决现有技术的至少一些缺点的计算技术。似然比被定义为给定测试结果在患有目标疾病的个体中的概率除以相同结果在没有目标疾病的个体中的概率。本文所述的LR框架允许通过将个体似然比相乘来组合多个测试结果，并且还将先验概率与后验概率相关联，使得其可以被用来指导临床决策。本文所述的临床LR框架使得基于表型和/或基因型的计算决策支持系统能够在可以涵盖数百或数千种疾病的鉴别诊断中评估特定疾病的相对优劣。

图1图示了根据一些实施例的用于提供临床决策支持的过程100。在动作110中，患者的基因数据和/或表型数据被接收。例如，用户界面可以被呈现给用户，并且用户可以将基因数据和/或表型数据中的至少一些输入到用户界面中。基因数据和/或表型数据中的至少一些可以以某些其他方式来提供，以进行处理。例如，从患者收集的样本可以被分析，并且患者的基因数据可以基于分析来被确定。所确定的基因数据可以作为一个或多个分析技术的输入来提供，以下将对此进行更详细的描述。在一些实施例中，所接收的表型数据可以包括一个或多个HPO特征或项，一个或多个HPO特征或项描述了HPO项目的计算疾病模型中的特定表型。

过程100然后前进至动作120，在动作120中，所接收的表型和/或基因型信息被用于确定多个候选疾病中的每种疾病的后验概率。后验概率是对于给定的输入基因型和/或表型特征集合、患者患病可能性的度量。本文描述的技术的实施例使用似然比分析范例来确定后验概率。以下更详细地描述根据一些实施例的如何计算似然比的示例。过程100然后进行到动作130，在动作130中，多个候选疾病基于所确定的后验概率被排序。例如，具有较高后验概率的候选疾病可以比具有较低后验概率的候选疾病排序更高(患者更可能患有该疾病)。

过程100然后进行到动作140，在动作140中，经排序的候选疾病中的至少一些疾病以及指示特定基因型和/或表型特征对总体后验概率的贡献程度的信息被显示给用户。尽管某些常规的基于表型的临床基因组技术可以提供可能候选疾病的列表，但是患者患有每个候选疾病的概率以及描述哪些特征或因素对总概率产生多大强度影响的信息通常不会被计算并且被显示给用户。发明人已认识到，在用户界面上提供使得临床医生能够理解为什么一种候选疾病被排序较高的信息，并且提供有关哪些特征有助于排序较高的信息，可以为临床医生提供更有效的临床决策支持工具。例如，通过标识显著正面或负面影响后验概率的特定表型特征，临床医生可以验证用户具有那些表型特征来确保疾病诊断准确。过程100然后可选地进行到动作150，在动作150中，至少部分地基于候选疾病的排序列表而确定的临床管理推荐(例如，治疗推荐)例如可以被提供在用户界面上。

图2图示了根据一些实施例的用于在给定基因型和/或表型特征的输入集合的情况下确定疾病的后验概率的过程200。在动作210中，似然比针对作为过程输入提供的每个表型特征而确定。以下更详细地描述用于计算特征的似然比h_i的示例技术。过程200然后进行到动作220，在动作220中，如果基因信息被提供作为输入，则似然比针对基因信息中包括的每个基因型来确定。例如，特定疾病可能与特定基因变异具有已知关联。如本文所使用的，“基因型”指代在给定基因处观察到的变异的总计数。对于某些疾病(例如，具有常染色体显性遗传)，基因中的单个(杂合子)变异可能触发疾病。对于其他疾病(例如，具有常染色体隐性遗传)，需要两个变异，即，具有纯合基因型(母体和父系染色体上相同变异的两个副本)或者同一基因中的两个不同变异(复合杂合基因型)。因此，如果患者具有与特定疾病相关联的特定基因变异和基因型，则可以指示患者患有疾病。备选地，如果患者没有特定的基因变异，则可以指示患者没有特定疾病。过程200然后进行到动作230，在动作230中，复合似然比被确定。在仅提供表型信息作为输入的实施例中，复合似然比可以基于针对作为输入提供的个体表型特征而确定的似然比。在既包括表型信息又包括基因信息作为输入的实施例中，复合似然比可以进一步至少部分地基于针对每种基因型确定的(多个)似然比。过程200然后进行到动作240，在动作240中，疾病的后验概率基于复合似然比来确定。

基于似然比的模型

针对可疑但未知的孟德尔疾病，被调查患者的基于LR的临床检查模型可以如下定义。每个记录的表型观察被定义为临床测试。除了描述被调查者(在下文中，被调查者被称为“渊源者(proband)”)的表型异常的本体项(例如，HPO项)列表之外，根据例如外显子组、基因组或基因组实验而确定的基因数据集被用作似然比分析的输入。在基于LR的模型中，具有分子和分母的“优势比”可以被用于表示与未观察到表型的机率相比，在观察到表型的情况下，疾病存在的机率。对于分子，基于文献生物治疗，在HPO项目的计算疾病模型(或某些其他合适的数据库)中记录具有疾病D的人患有由HPO项h_i编码的表型异常的概率，被表示为f_i,D，或者如果没有更详细的信息，则可以认为是100％。对于许多疾病和特征，特征的总体频率是已知的；例如，19/437(～4％)的1型神经纤维瘤病患者患有癫痫发作。另一方面，患有该疾病的个体中有338/442(～87％)具有多个乳咖啡色斑。

当渊源者没有所述疾病时，优势比的分母是表型特征的概率。尽管可能很难为普通人群中的大约13000个HPO表型异常中的每种疾病计算该量，但是易于处理且并非不切实际的模型可以是，正在接受基因组诊断的任何渊源者患有某种基因疾病。以此假设为基础，可以使用除D以外的其他基因疾病中HPO特征h_i的总体患病率来计算似然比的分母。例如，如果HPO数据库中的疾病D和总共7000种疾病中的13种其他疾病通过特征h_i来表征并且假设所有疾病的先验概率均等，则如果渊源者不受疾病D影响，则渊源者具有特征h_i的概率为13/7000。

似然比

似然比(LR)是根据一些实施例的用于计算测试准确性的度量。LR被定义为给定测试结果在具有目标疾病的患者中的概率除以相同结果在不具有目标疾病的人中的概率。阳性测试结果(LR+)的LR被定义为具有目标疾病D_j的个体具有阳性测试结果的概率x除以不具有目标疾病D_j的个体具有阳性测试结果的概率：

其中测试的灵敏度(真实阳性率)是被正确标识的患有疾病D_j的个体的比例，而特异性或真实阴性率是被正确标识为未受影响的不患有疾病D_j的个体的比例。似然比的定义可以被扩展到多个测试。假设X＝(x₁,x₂,…,x_n)是n个测试结果的数组。在测试是独立的假设下，LR为：

阴性测试结果的似然比LR^-＝(1–sensitivity)/specificity。如果使用阴性测试结果(例如，在渊源者中排除了所讨论的表型异常)，则可以类似地执行以下考虑。

后验概率指代在给定来自测试结果X的信息的情况下，患者患病的概率，并且然后可以被计算为：

其中p是D_j的先验概率。根据同类群组，先验概率可以被定义为疾病的人群患病率，或者可以通过对被测同类群组中疾病发生频率的某种其他估计来定义。

针对表型的似然比

例如，使用人类表型本体论(HPO)的项来表示正在使用一些实施例进行研究的渊源者的体征和症状以及其他表型异常，人类表型本体论(HPO)的项提供了描述人类表型异常的结构化、全面且定义明确的类别集合(项)。产生n个表型观察结果集合的临床门诊被建模并编码为HPO项h₁、h₂、…、h_n。每个表型项相对于特定疾病D_j的似然比被定义为：

假设测试是独立的并且n个HPO项的似然比根据等式(2)来获得。

对于给定疾病D_j的具有表型异常的概率

在一些实施例中，等式(4)的分子基于项h_i与标注疾病D_j的表型项集合的关系来确定。在一些实施例中，评估以下更详细描述的四种情况(i)-(iv)来确定等式(4)的分子。

(i)h_i与在数据库中标注D_j的项之一相同。

在该情况下，P(h_i|D_j)＝f_i,Dj，即，在患有疾病D_j的个体中，表型特征的频率为h_i。例如，如果Dj的疾病模型基于其中患有D_j的10个人中有7个人具有特征hi，则f_i,Dj＝0.7。如果没有关于h_i的频率的可用信息，则一些实施例可以定义f_i,Dj＝1(或者表示疾病特征的平均频率的某个其他默认值)。

(ii)h_i是在数据库中标注D_j的一个或多个项的源始。

由于本体中子类层级结构的标注传播规则，D_j被隐式标注到标注项集合的所有源始。例如，如果某些疾病D的计算疾病模型包括HPO项极性白内障(HP：0010696)，则疾病被隐式地标注为亲代项白内障(HP：0000518)。例如，具有极性白内障的任何人也必然更普遍地可以被认为患有白内障。通过扩展，该关系对于项的更远后代也是适用的。因此，在一些实施例中，被标注为显式标注疾病D_j的任何项的源始的项h_i的概率被定义为：

其中anc(h_j)是返回项h_j的所有祖先的集合的函数，而annot(D_j)是返回所有显式标注疾病D_j的所有HPO项的集合的函数。

(iii)h_i是标注D_j的一个或多个项的子代。

在该情况下，h_i是疾病D_j的项h_j的子代(例如，其特定子类)。例如，疾病D_j可能被标注为Syncope(HP：0001279)，而查询项h_i可能是“体位性晕厥”(HP：0012670)，这是本体中Syncope的子项。附加地，Syncope还有另外两个子项，即，颈动脉窦晕厥(HP：0012669)和Vasovagal晕厥(HP：0012668)。根据一些实施例，疾病D_j中晕厥的频率(例如，0.72)可以使用加权因子1除以h_j的子项的总数来加权(因此在该示例中，将使用频率0.72x1/3＝0.24)。如果h_i不是h_j的直接子代，则该定义可以被递归地应用。例如，如果项h_j具有包括h_k的三个子项，并且h_i与h_k的两个子项之一相同，则频率可以被加权为(1/3x1/2＝1/6)。

(iv)h_i既不是数据库中标注了D_j的任何项的源始或子代。

在该情况下，h_i与表征疾病D_j的任何项无关。例如，如果疾病D_j仅以心血管异常为特征，则发现听力障碍(HPO项h_i)可以被认为与疾病D_j无关。在该情况下，项“h_i”仅通过根表型项而与D_j的任何项连接，并且必须一直上升到表型本体的根，以找到听力障碍和心血管异常的公共源始(HP：0000365)，则室间隔缺损(HP：0001629)。原则上，此类发现可以使用人群患病率来建模，因为例如，诸如近视的发现在普通人群中相对普遍，并且也可以在孟德尔疾病患者中发现，而不一定与疾病有因果关系。但是，实际上，可能无法获得有关由大约13000个HPO项表示的表型发现的人群患病率的可靠数据。因此，在一些实施例中，该概率可以被设置为任意小的数(例如，对于以下更详细描述的分析为1：20000)。

在疾病D_j不存在的情况下，具有表型异常h_i的概率

等式(4)的分母在给定渊源者没有某些疾病D_j的情况下，指定测试结果的概率。由于与上述原因类似的原因，对于一般人群而言，概率可能是难以计算的。然而，一些实施例被配置为假设所有被测人员都患有某种(未知)孟德尔疾病，则通过对整个HPO语料库(具有N种疾病)中特征的总频率简单地求和来估计该概率。

等式(6)可以针对N种疾病中的每一种来单独计算。备选地，因为在实践中，等式(6)可以在相对大量的疾病(例如，＞7000种疾病)上求和，所以一些实施例使用以下近似值，以下近似值允许对任意疾病D_j预先计算

基因型的似然比

预测任何给定基因型的相关性的一些实施例利用以下概念。存在真正但不可观察的致病性，其被定义为基因变异对基因及其编码的导致疾病的基因产物的生化功能的有害作用。基于计算致病性得分(范围为从0(预测良性)至1(最大致病性预测))来进行针对变异的致病性预测。假设经测序的个体患有疾病(D)，而与个体没有相关疾病且变异来自人群背景(B)，则本文描述的模型具有使得能够计算所观察的基因型的似然值的两个分布。在一些实施例中，使用编码外显子中或内含子任一端处的高度保守的二核苷酸序列处的任何变异的得分。所估计的变异种群频率从例如gnomAD数据库或其他数据库中导出，这些数据库包含有关基因变异种群频率的信息。

一些实施例与疾病遗传的假定模式相关。对于常染色体显性遗传(AD)疾病，所观察的基因型(G)致病(即，被测序的个体患有疾病D)或不致病(即，被测序的个体没有疾病D)的比率可能是感兴趣的。假设基因g中有n个观察到的变异(v₁、v₂、…、v_n)，并且对于i∈{1，...，n}，所计算的致病性得分为s(v_i)。为简单起见，假定n个变异已被布置为使得s(v₁)≥s(v₂)≥…≥s(v_n)。

应当指出，在ClinVar中被分类为致病性的大多数变异被分配了高于某个任意阈值(诸如0.8(例如，在ClinVar中被分类为致病性的变异中的98.7％高于阈值0.8))的致病性得分，假设得分低于阈值的绝大多数变异是良性的，并且大多数致病变异的得分均高于阈值(附加中性变异也是如此，其无法通过计算将其与致病变异区分开的)。为了评估候选变异并且对其进行评分，一些实施例将致病性得分分布划分为两个区域(bin)N和P，其中区域N不是所预测的非致病性区域并且具有范围[0,0.8]的致病性得分，以及区域P表示所预测的非致病性区域并且致病性得分为[0.8,1]。尽管实际上在中性变异和致病变异之间没有严格的致病力得分划分，但是一些实施例使用分区作为将基因变异的权重降低的一种方式，其通常显示出所预测的致病性变异并且往往在外显子组测序中被发现为假阳性结果，诸如，许多粘蛋白和HLA基因。

一些实施例针对给定基因的变异是否引起疾病的情况，使用单独的分布来将区域P中观察的等位基因的预期计数建模为泊松分布。对于常染色体显性遗传疾病，预期导致引起变异的杂合性疾病，并且因此λ^P,D＝1；对于常染色体隐性遗传疾病，λ^P,D＝2。观察与疾病无关的基因中的区域P中的变异的概率可以基于一般人群中此类变异的频率进行估计；该概率可以被表示为λ^P,B。在普通人群中，不同的基因具有不同的预测致病变异分布。在普通人群中的这样的变异频率较低的基因中观察到预测致病性变异可以被解释为对变异为真阳性提供了支持。λ^P,B可以基于来自gnomAD资源的可用总体频率数据，通过在独立性假设下对单独变量的频率求和来计算。尽管该方法可能高估了每个外显子组/基因组的变异的总体频率，但在某些实施例中，如下所示，该方法被用于降低受影响基因的权重。返回变异的预期致病性的函数被表示为“路径(path)”，并且返回变异的最大种群频率的函数被表示为“频率(freq)”。该参数针对每个基因来单独计算。变异i被分配给基因g的事实被表示为v_i∈g。

参数

是致病性得分在区域P中的基因g中变异的预期计数。较小的数(例如，ε＝10^-5)可以被添加到和中，以避免在后续步骤中被零除，因为一些基因在种群数据中的区域P中可能没有显示任何变异。对于与常染色体显性疾病相关联的基因，计算如下进行。假设存在疾病D_j，它与基因g中的突变、区域P中的一个预测致病性变异v'以及区域N中的k个其他预测非致病性变异先关联(变异v'的致病性得分因此高于k个其他变异中的任一个)。根据一些实施例的模型假定区域N中的任何变异与疾病无关并且具有基因g是否与疾病因果相关的相同概率。针对基因g所观察的基因型被标记为gt(g)。

一个或多个变异导致疾病的过程可以通过复合分布来建模。泊松分布对所观察的致病性得分在区域P中的变异数进行建模，并且参数为p＝s(v')的伯努利分布确定了等位基因致病的概率。因此，令{X_n}是相互独立的随机变量序列，每个随机变量可以取值0(针对非致病)或1(针对致病)。N个这样的变量的总和为S_N＝X₁+X₂+…X_n，其中S_N表示真正致病的等位基因计数(例如，对于常染色体显性遗传，预期S_N＝1，对于常染色体隐性遗传，S_N＝2)。

这导致复合分布：

Pr{S_n＝k}＝Binom(k；n，p)Pois(k；λ) (9)

可以看出，这等效于参数为λp的泊松分布。因此，为了计算似然比，可以如下替换参数λ^P,D和λ^P,Bg以及p＝s(v_i)。

这将具有使得偏爱区域P中具有最大致病性得分(s(v')＝1)并且在种群中具有最小区域P变异频率的单个变异的基因的效果(如果是这样的情况，则λ^P,Bg＝εLR(g)≈36788)。

如果在区域P中观察到基因g中的k>1个变异，则变异的平均致病性得分s^avg可以被建模为：

再次，对于常染色体显性遗传疾病，λ^P,D＝1，而λ^P,Bg是基因g的区域P变异的预期种群计数。例如，如果在具有λ^P,Bg＝2.7的基因g中观察到三个区域P变异，其平均致病性得分为0.93，则LR(g)≈0.25。根据一些实施例，用于评估常染色体隐性遗传疾病的过程是相似的，除了λ^P,D＝2。

注意到，在男性中X染色体上的半合子变异被当前的变异调用软件称为纯合子，对于隐性和显性X染色体疾病，λ^P,D可以被设置为2。

标识已知致病性变异

存在多个基因疾病中的致病性变异的数据库，包括ClinVar和人类基因突变数据库(HGMD)，其包含超过十万个先前表征的致病性变异。如果找到了这些变异之一，即使在以人群中预测的致病性变异的频率很高为特征的基因(诸如TTN)中，结果也可以被视为支持与基因中的变异相关的诊断。在这样的情况下，可以分配1000到1的任意似然比。

针对没有区域P变异的基因评分

无论基因证据是否可用于支持候选诊断，本文描述的技术的一些实施例被设计为起作用。如果例如被测序的个体受到尚未标识其致病基因的孟德尔疾病的影响，则如果存在良好的表型匹配，则本文所述的分析程序可以将疾病包括在总体结果中。因此，可以从HPO数据库中孟德尔疾病的总体似然比得分中省略基因型得分，其中HPO数据库具有当前尚不清楚的分子基础。如果已知某疾病的分子基础是基因g中的突变，但是在该基因中未发现区域P变异或根本没有变异，则常染色体显性疾病的似然比得分可以被指定为1/20，反映了在存在某个致病性变异的情况下，丢失变异的概率约为5％。该步骤的直觉感觉是，如果在基因中未找到任何候选变异，则应进行一些权重降低，但是假定外显子组/基因组测序中假阴性结果的普遍性很高，不希望从根本上降低本来很强的候选的权重。

基因型-表型似然比组合得分

本文描述的技术的一些实施例将变异调用格式(VCF)文件和HPO项列表作为输入，HPO项表示在被测序的个体中观察到的表型异常集合。对于HPO数据库中已标识出致病性疾病基因的多达4000种孟德尔疾病中的每种疾病，均提取所有预测的致病性(区域P)变异，并计算其平均致病性得分。然后基于如上所述的变异的基因型和预测致病性来计算基因型得分。如上所述，针对每个表型特征来计算似然比。则某种疾病D_j的最终似然比得分为：

对候选进行排序

本文描述的技术的一些实施例针对在HPO疾病数据库中表示的每个疾病来计算等式(14)的似然比得分。疾病然后根据后验概率来排序。

示例应用

如上所述，除了描述被调查者的表型异常的HPO项(或来自其他合适本体论的项)的列表之外，一些实施例采用来自外显子组、基因组、或基因组实验的VCF文件作为输入。使用本文描述的技术进行的处理的输出是候选诊断的排序列表，每个候选诊断均被分配有后验概率。每个表型本体项被认为是诊断测试，并且似然比针对每个项来计算，似然比表示在渊源者具有候选诊断的情况下，渊源者具有所述项的概率除以渊源者在没有候选诊断的情况下的渊源者不具有所述项的概率。与基因组诊断的一些常规方法相反，本文描述的技术包括在鉴别物中没有已知相关疾病基因的疾病。但是，如果疾病基因是已知的，则基于观察到的一种或两种致病等位基因的期望值，根据疾病的遗传方式以及观察到的普通人群中被称为基因致病性变异的概率，针对所观察的基因的基因型来计算似然比。各个似然比被相乘来获得复合似然比，复合似然比与每个疾病的先验概率一起用于计算后验概率，后验概率被用于对疾病进行排序。

图3A至图3C图示了本文所述的技术用于具有马凡综合症(MFS)、升主动脉瘤、晶体异位、蛛网膜炎和脊柱侧凸的特征的渊源者的应用。特征胃食管反流是一项常见但不相关(偶然的)发现，用于检验似然比技术标识无关表型发现的能力。通过显示条来显示分析结果，条的大小与每个被测特征的似然比的十进制对数成比例。支持差异诊断的特征指向图中心的垂直线的右侧，而对差异诊断不利的特征指向中心垂直线的左侧。

给定输入特征集合，似然比技术将MFS正确地标识为7000种候选疾病中排序最高的候选疾病(后验概率为0.9999)。在该示例案例中的外显子组测序显示，在MFS的致病基因FBN1中已标识杂合变异。图3A中示出的结果的图形显示指示每个特征对整体预测的贡献程度。升主动脉夹层是相对罕见的特征(具有高特异性)，其中LR为1529：1。另一方面，脊柱侧凸更为常见，并且因此特异性较低，并且具有仅为17.2的LR。针对图3A所示的诊断，巧合发现胃食管反流的LR为5.38x10-4，或者大约1860：1。

排序第二的候选疾病，具有器官异位的马凡体质，其特征不是升主动脉夹层，因此该相对特异的查询项的LR显著降低了如图3B所示的该诊断的后验概率。器官异位的马凡综合征是一种罕见的疾病，没有已知的疾病基因，因此基因型不影响其得分。相反，如果在与候选疾病相关联的基因中未标识出预测的致病性变异，则基因型得分可以基于假阴性基因型结果5％的估计概率来计算。Loeys-Dietz综合征2型(如图3C所示)就是这种情况，它是马凡综合征的重要鉴别诊断，但在该示例中得分较低，是因为在其相关疾病基因TGFBR2中未发现突变。

针对常染色体隐性疾病的方法类似，不同之处在于基因型得分利用在受影响的个体中存在两个致病等位基因的期望值来计算。图4A示出了具有表型特征的查询结果，表型特征是1型高磷酸盐血症性智力低下综合征的经典表现。对应疾病基因PIGV中双等位基因预测的致病变异的基因型导致该基因型的LR得分高于显性疾病，这是因为观察到与疾病无关的两种预测致病变异的可能性要小于观察到一种致病变异的可能性。在该查询中，斜视(斜视眼)作为无关项而被包括在该查询中。

第二最佳候选，染色体10q26缺失综合征(如图4B所示)，其特征在于斜视，并且因此图4B示出了在该情况下，该项是有贡献的，但是其他两个特征与染色体10q26缺失综合征不匹配。图4C示出了模拟情况，其中在1型高磷酸盐血症性智力低下综合征(PIGV)的疾病基因中仅发现了一种预测致病性变异。像这样的情况并不罕见，需要临床判断来评估是否应进行附加的研究来标识推测的第二突变(例如，WES/WGS诊断遗漏的结构变异)。本文描述的技术为此发现分配了正数但较小的似然比，这可能比排除基因更有用，因为杂合基因型在常染色体隐性遗传疾病中不是病因。

与常规技术相比，本文描述的似然比方法的另一益处是LR方法提供了有关预测强度的一些信息。鉴于外显子组/基因组测序的总体诊断率低于50％(取决于研究)，在许多情况下，即使排序最高的候选也可能不是好的候选。根据本文所述的技术确定的似然比借助后验概率提供了预测强度的估计，后验概率在前两个示例中被计算为接近100％。

图5示出了其中使用常规技术无法建立诊断的模拟查询的结果。图5示出了排序最高的候选疾病，科斯特洛综合症。即使对于这个排序最高的候选，也有一些特征无法“匹配”候选诊断(例如，塔利普斯钙皮外翻、宽鼻子)，因此，最高候选的后验概率仅为1.2％。这表明科斯特洛综合征可能不是正确的诊断，并且临床医生可能需要寻找其他地方以继续进行鉴别诊断过程。

基于语义相似度算法的一些常规方法在每个查询项以及被用于标注数据库中的每种疾病的项之间寻找最佳匹配，并且对每个项的语义相似度得分求平均。相反，根据本文描述的技术确定的似然比得分涉及任意数量的单独似然比的乘积，因此原则上，如果附加项是正确候选的良好匹配，将更多的项添加为算法的输入可以继续改进复合似然比。另一方面，不相关项可能会降低似然比，并且因此增加的噪声量可能会对排序产生不利影响。

为了测试这些影响，计算仿真使用变化的参数设置来执行。对于每个仿真，计算渊源者被仿真为具有疾病d，疾病d具有从疾病d的标注中抽取的总计为N＝1，…，10的HPO项以及从整个本体论中随机抽取的K＝0，…，4个无关(“噪声”)HPO项。如果对于疾病d而言，少于N个项可用，则选择标注d的所有术语。为了仿真不准确或不精确表型的影响，原始项被亲代项(更一般的)代替(噪声项没有改变)的仿真被执行。如图6所观察到的，整体性能随着N个项的数目的增加而增加，直到N＝7，甚至在由于亲代替换了原始项而产生了附加噪声项和不精确性的情况下，正确的诊断在超过50％的时间中居于首位。

在图7中示出了可以与本文提供的本公开的任何实施例结合使用的计算机系统1000的例示性实现方式。计算机系统1000包括一个或多个计算机硬件处理器1010和一个或多个制品，一个或多个制品包括非暂时性计算机可读存储介质(例如，存储器1020和一个或多个非易失性存储设备1030)。(多个)处理器1010可以以任何合适的方式控制向存储器1020和(多个)非易失性存储设备1030写入数据以及从存储器1020和(多个)非易失性存储设备1030读取数据。为了执行本文所述的任何功能，(多个)处理器1010可以执行一个或多个非暂时性计算机可读存储介质(例如，存储器1020)中存储的一个或多个处理器可执行指令，一个或多个非暂时性计算机可读存储介质可以用作存储用于由(多个)处理器1010执行的处理器可执行指令的非暂时性计算机可读存储介质。

在一些实施例中，计算机系统1000还包括向(多个)处理器1010提供信息的化验系统1100。化验系统1100可以使用一个或多个有线或无线通信网络而被通信地耦合至(多个)处理器1010。在一些实施例中，(多个)处理器1010可以与化验系统集成在集成设备中。例如，(多个)处理器1010可以在还包括化验系统1100的设备内布置的芯片上实现。

化验系统1100可以被配置为对来自患者的生物样本执行化验来确定患者的基因信息。如上所述，从化验系统1100确定的基因信息然后被提供给(多个)处理器1010，以包括在似然比临床基因组分析中。

在一些实施例中，计算机系统1000还包括与(多个)处理器1010通信的用户界面1200。用户界面1200可以被配置为至少部分地基于从(多个)处理器1010输出的似然比临床基因组分析的结果而为医疗服务专业人员提供治疗推荐。

本文在一般意义上使用术语“程序”或“软件”来指代可用于对计算机或其他处理器(物理或虚拟)进行编程来实现如上所述的实施例的各个方面的任何类型的计算机代码或处理器可执行指令集。附加地，根据一个方面，在被执行时执行本文提供的本公开的方法的一个或多个计算机程序不必驻留在单个计算机或处理器上，而是可以以模块化的方式分布在不同的计算机或处理器之间，以实现本文所提供的公开内容的各个方面。

处理器可执行指令可以具有许多形式，诸如由一个或多个计算机或其他设备执行的程序模块。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。通常，程序模块的功能可以被组合或分布。

此外，数据结构可以以任何合适的形式而被存储在一个或多个非暂时性计算机可读存储介质中。为了简化说明，数据结构可以被示出为具有借助数据结构中的位置而相关的字段。同样地，这样的关系可以通过为字段分配具有在字段之间传递关系的非暂时性计算机可读介质中的位置的存储来实现。但是，任何合适的机制可以被用来建立数据结构的字段中的信息之间的关系，包括借助使用指针、标签或者在数据元素之间建立关系的其他机制。

各种发明构思可以被体现为已提供示例的一个或多个过程。可以以任何合适的方式对作为每个过程的一部分执行的动作进行排序。因此，可以构造这样的实施例，其中动作以与所示出的顺序不同的顺序来执行，即使在例示性实施例中被示为顺序动作，也可以包括同时执行一些动作。

如本文在说明书和权利要求书中所使用的，在提及一个或多个元素的列表时，短语“至少一个”应被理解为是指选自元素列表中的任一个或多个元素的至少一个元素，但不一定包括元素列表内具体列出的每个元素中的至少一个，并且不排除元素列表中元素的任何组合。该定义还允许除了短语“至少一个”所引用的元件列表内具体标识的元素之外，无论与那些具体标识的元素有关还是无关，可以可选地存在其他元素。因此，例如，“A和B中的至少一个”(或者等效地，“A或B中的至少一个”，或者等效地“A和/或B中的至少一个”)在一个实施例中，可以指代可选地在不存在B的情况下，包括多于一个A(并且可选地包括B以外的元素)的至少一个；在另一实施例中，可以指代可选地在不存在A的情况下，包括多于一个B(并且可选地包括除A以外的元素)的至少一个；在又一实施例中，指代可选地包括多于一个A的至少一个以及可选地包括多于一个B的至少一个(以及可选地包括其他元素)等。

如本文在说明书和权利要求书中使用的短语“和/或”应被理解为是指如此结合的元素中的“一个或两个”，即，在某些情况下结合地存在且在其他情况下分离地存在的元素。使用“和/或”列出的多个元素应以相同的方式解释，即，如此连接的元素中的“一个或多个”。除了由“和/或”子句明确标识的元素之外，还可以可选地存在其他元素，无论与那些具体标识的元素相关还是无关。因此，作为非限制性示例，当与诸如“包括”的开放式语言结合使用时，对“A和/或B”的引用在一个实施例中，可以仅指代A(可选地包括除B之外的元素)；在另一实施例中，可以仅指代B(可选地包括除A以外的元素)；在又一实施例中，可以指代A和B(可选地包括其他元素)等。

在权利要求中用于修改权利要求元素的序数术语(诸如，“第一”、“第二”、“第三”等)本身并不表示一个权利要求元素相对于另一权利要求元素的任何优先权、优先级或顺序或执行方法动作的时间顺序。这样的术语仅用作标记，以将具有特定名称的一个权利要求元素与具有相同名称的另一元素区别开(但用于序数术语)。本文所使用的措词和术语出于描述的目的，而不应被认为是限制性的。“包括(including/comprising)”、“具有”及其变型的使用意在涵盖其后列出的项和附加项。

已详细描述了本文描述的技术的若干实施例，本领域技术人员将容易想到各种修改和改进。这样的修改和改进旨在落入本公开的精神和范围内。因此，前述描述仅是示例性的，而无意作为限制。技术仅由所附权利要求书及其等效物来限定。

Claims

1.一种临床决策支持系统，包括：

至少一个计算机处理器；以及

其上存储有多个计算机可读指令的至少一个存储设备，所述多个计算机可读指令在由所述至少一个计算机处理器执行时，执行方法，所述方法包括：

接收患者的表型信息；

针对多种疾病中的每种疾病，确定所接收的所述表型信息中包括的表型特征中的每个表型特征的似然比；

基于所述表型特征中的每个表型特征的所述似然比，确定针对所述多种疾病中的每种疾病的复合似然比；

至少部分地基于所确定的所述复合似然比，对所述多种疾病进行排序；以及

显示经排序的所述多种疾病中的至少一些疾病。

2.根据权利要求1所述的临床决策支持系统，其中所述方法还包括：

基于所确定的所述复合似然比，确定所述患者患有所述多种疾病中的每种疾病的后验概率，并且

其中至少部分地基于所确定的所述复合似然比对所述多种疾病进行排序包括至少部分地基于所确定的所述后验概率对所述多种疾病进行排序。

3.根据权利要求2所述的临床决策支持系统，其中所述方法还包括：

显示信息，所述信息描述所述表型特征中的一个或多个表型特征对针对所显示的多种疾病中的每种疾病确定的所述后验概率的贡献。

4.根据权利要求1所述的临床决策支持系统，其中所述方法还包括：

至少部分地基于经排序的所述多种疾病中排序最高的疾病确定治疗推荐信息；以及

向用户提供所确定的所述治疗推荐信息。

5.根据权利要求2所述的临床决策支持系统，其中所述方法还包括：

接收所述患者的基因型信息；以及

基于所接收的所述基因型信息确定所述后验概率。

6.根据权利要求5所述的临床决策支持系统，其中所述方法还包括：

显示描述所述基因型信息对针对所显示的多种疾病中的每种疾病确定的所述后验概率的贡献的信息。

7.根据权利要求5所述的临床决策支持系统，其中所述基因型信息包括所述患者的基因序列信息。

8.根据权利要求7所述的临床决策支持系统，其中所述方法还包括：

估计所述基因序列中包括的基因变异的致病性，其中估计所述基因变异的所述致病性基于针对所述基因变异的计算致病性得分。

9.根据权利要求2所述的临床决策支持系统，其中所述方法还包括：

针对所述多种疾病中的每种疾病，确定所接收的所述基因型信息中包括的基因型的似然比，并且

其中基于所接收的所述基因型信息确定所述后验概率包括：基于所确定的所述基因型的所述似然比确定所述后验概率。

10.根据权利要求9所述的临床决策支持系统，其中所述方法还包括：

基于所确定的所述基因型的所述似然比和所确定的所述表型特征的所述似然比，确定组合的基因型-表型似然比得分，并且

其中患者患有所述多种疾病中的每种疾病的后验概率包括基于所述组合的基因型-表型似然比得分确定所述后验概率。

11.一种提供临床决策支持的方法，所述方法包括：

接收患者的表型信息；

显示经排序的所述多种疾病中的至少一些疾病。

12.根据权利要求11所述的方法，还包括：

其中至少部分地基于所确定的所述复合似然比来对所述多种疾病进行排序包括至少部分地基于所确定的所述后验概率对所述多种疾病进行排序。

13.根据权利要求12所述的方法，还包括：

显示描述所述表型特征中的一个或多个表型特征对针对所显示的多种疾病中的每种疾病确定的所述后验概率的贡献的信息。

14.根据权利要求11所述的方法，还包括：

向用户提供所确定的所述治疗推荐信息。

15.根据权利要求12所述的方法，还包括：

接收所述患者的基因型信息；以及

基于所接收的所述基因型信息确定所述后验概率。

16.根据权利要求15所述的方法，还包括：

17.根据权利要求15所述的方法，其中所述基因型信息包括所述患者的基因序列信息。

18.根据权利要求16所述的方法，还包括：

19.根据权利要求12所述的方法，还包括：

20.根据权利要求19所述的方法，还包括：

其中所述患者患有所述多种疾病中的每种疾病的后验概率包括基于所述组合的基因型-表型似然比得分确定所述后验概率。

21.一种用多个指令编码的非暂时性计算机可读介质，所述指令在由至少一个计算机处理器执行时执行方法，所述方法包括：

接收患者的表型信息；

显示经排序的所述多种疾病中的至少一些疾病。

22.根据权利要求21所述的非暂时性计算机可读介质，其中所述方法还包括：

其中至少部分地基于所确定的所述复合似然比来对所述多种疾病进行排序包括至少部分地基于所确定的所述后验概率来对所述多种疾病进行排序。

23.根据权利要求22所述的非暂时性计算机可读介质，其中所述方法还包括：

接收所述患者的基因型信息；以及

基于所接收的所述基因型信息来确定所述后验概率。

24.根据权利要求23所述的非暂时性计算机可读介质，其中所述方法还包括：