CN115023762A - 用于疾病驱动因素的诊断和排序的表型谱相似性分析的方法和系统 - Google Patents

用于疾病驱动因素的诊断和排序的表型谱相似性分析的方法和系统 Download PDF

Info

Publication number
CN115023762A
CN115023762A CN202080094522.6A CN202080094522A CN115023762A CN 115023762 A CN115023762 A CN 115023762A CN 202080094522 A CN202080094522 A CN 202080094522A CN 115023762 A CN115023762 A CN 115023762A
Authority
CN
China
Prior art keywords
individual
phenotype
disease
profile
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080094522.6A
Other languages
English (en)
Inventor
张贻谦
吴捷
N·迪米特洛瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN115023762A publication Critical patent/CN115023762A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于表征个体的一个或多个基因或通路与疾病的相关性的方法(100),包括:(i)获得(110)个体的表型谱,个体的表型谱包括表型特性以及差异基因和蛋白质表达信息;(ii)标识(120)与个体表型谱相似的经存储的表型谱的一个或多个数据库;(iii)至少部分地基于基因通路的已知疾病/表型关联与个体的表型谱之间的相似性,确定(130)基因通路与个体表型谱的相关性;(iv)至少部分地基于基因的已知疾病/表型关联与个体的表型谱之间的相似性,确定(140)基因与个体表型谱的相关性;以及(v)报告(150)与个体表型谱最相关的一个或多个基因通路和/或一个或多个基因。

Description

用于疾病驱动因素的诊断和排序的表型谱相似性分析的方法 和系统
技术领域
本公开总体上涉及基于表型相似性分析来表征基因和/或通路(pathway)的相关性的方法和系统。
背景技术
随着利用不同类型的分子信息的技术变得更容易以更低的成本获得,为同一样本生成多种类型的组学(-moic)数据(例如,基因组、转录组、蛋白质组和表观遗传组)变得越来越普遍。这使得能够更好地理解底层复杂生物系统的工作方式。诸如分别基于
Figure BDA0003763830680000011
和下一代测序(NGS)技术(它们支持同时提取DNA、RNA乃至蛋白质数据)的
Figure BDA0003763830680000012
Vantage 3D和
Figure BDA0003763830680000013
TruSight Tumor 170等商业分析的推出进一步推动了对多组学(multi-omic)数据分析的需求。
多组学数据分析的一个潜在用途是确定包括疾病在内的表型(phenotype)的遗传原因或关联。多组学数据分析和表型比较将能够在不同的分子水平下进行分析,以揭示涉及诸如基因组畸变、表观遗传因素、顺式/反式作用(cis/trans-acting)基因调控和/或基因通路激活/抑制等状况的机制,这些状况一起导致了表型或疾病表现(manifestation)。然而,目前针对表型分析和比较的机制未能说明对表型的足够不同的潜在影响,因此未能揭露所有的变异以及疾病的其他基因组因素。
发明内容
存在针对在基因样本中标识更多致病变异的方法和系统的持续需要。本公开涉及基于在几种类型的组学数据上建立的多水平功能影响的综合证据来标识基因样本中的致病变异的发明性方法和系统。本文的各种实施例和实施方式针对标识与个体表型谱相似的经存储的表型谱的一个或多个数据库的系统和方法。该系统至少部分地基于一个或多个基因通路的已知疾病/表型关联与个体的表型谱之间的相似性,确定该一个或多个基因通路与个体表型谱的相关性。该系统还至少部分地基于一个或多个基因的已知疾病/表型关联与个体的表型谱之间的相似性,确定该一个或多个基因与个体表型谱的相关性。
通过对个体患者样本的多组学数据应用综合分析,利用基于在多组学数据上建立的多水平功能影响的综合证据的更高的排序,每个患者样本中的致病变异被更有效地标识。这种方法还有助于用户更彻底地研究疾病的分子机制或者正在研究的其他表型。
总的来说,在一个方面,是一种用于使用相关性分析系统表征一个或多个基因或通路与个体的疾病的相关性的方法。该方法包括:(1)获得个体的表型谱,包括目标个体的一个或多个表型特性、来自目标个体的差异基因表达信息和来自目标个体的差异蛋白质表达信息;(ii)使用经存储的表型谱的数据库来标识与个体表型谱相似的经存储的表型谱(诸如与特定疾病相关联的经存储的表型谱)的一个或多个数据库;(iii)至少部分地基于一个或多个基因通路的已知疾病/表型关联与个体的表型谱之间的相似性,确定该一个或多个基因通路与个体表型谱的相关性;(vi)至少部分地基于一个或多个基因的已知疾病/表型关联与个体的表型谱之间的相似性,确定一个或多个基因与个体表型谱的相关性;以及(v)报告与个体表型谱最相关的一个或多个基因通路和/或一个或多个基因。
根据一个实施例,个体的表型谱还包括目标个体的一个或多个表型特性的权重。
根据一个实施例,标识与个体表型谱相似的经存储的表型谱的一个或多个数据库包括个体表型谱与经存储的表型谱之间的每个成对比较的相似性得分。
根据一个实施例,标识与个体表型谱相似的经存储的表型谱的一个或多个数据库包括选择具有最高相似性得分的一个或多个经存储的表型谱。
根据一个实施例,确定一个或多个基因通路与个体表型谱的相关性包括标识与个体的一个或多个表型特性潜在相关联的一个或多个基因通路。
根据一个实施例,确定一个或多个基因通路与个体表型谱的相关性包括排除其中通路的检测活性和通路的预期活性方向相反的任何通路。
根据一个实施例,确定一个或多个基因与个体表型谱的相关性包括标识与个体的一个或多个表型特性潜在相关联的一个或多个基因。
根据一个实施例,确定一个或多个基因与个体表型谱的相关性包括排除其中基因的检测活性和基因的预期活性方向相反的任何基因。
根据一个方面,是一种系统被配置为表征一个或多个基因或通路与个体疾病的相关性。该系统包括:个体的表型谱,包括目标个体的一个或多个表型特性、来自目标个体的差异基因表达信息和来自目标个体的差异蛋白质表达信息;以及处理器,被配置为:(i)使用经存储的表型谱的数据库来标识与个体表型谱相似的经存储的表型谱的一个或多个数据库;(ii)至少部分地基于一个或多个基因通路的已知疾病/表型关联与个体的表型谱之间的相似性,确定该一个或多个基因通路与个体表型谱的相关性;(iii)至少部分地基于一个或多个基因的已知疾病/表型关联与个体的表型谱之间的相似性,确定该一个或多个基因与个体表型谱的相关性;以及(iv)报告与个体表型谱最相关的一个或多个基因通路和/或一个或多个基因。
根据一个实施例,该系统还包括:用户界面,被配置为提供与个体表型谱最相关的一个或多个基因通路和/或一个或多个基因的报告。
根据一个方面,是一种用于标识与查询表型谱相似的一个或多个经存储的表型谱的方法。该方法包括:(i)生成或获得查询表型谱的权重;(ii)将加权的查询表型谱与加权的经存储的表型谱的数据库进行比较;(iii)标识与加权的查询表型谱相似的至少一个加权的经存储的表型谱;(iv)执行加权函数以组合加权的查询表型谱以及至少一个加权的经存储的表型谱的权重,包括创建相似性得分并且确定加权的查询表型谱与至少一个加权的经存储的表型谱之间的匹配表型项的有效数量;(v)对相似性得分和匹配表型项的数量执行关联测试,以确定包括两个谱之间的关联的统计显著性的相似性值和/或p值;以及(vii)报告至少一个加权的经存储的表型谱及该至少一个加权的经存储的表型谱的确定的相似性值和/或p值。
在各种实现方式中,处理器或控制器可以与一个或多个存储介质(本文统称为“存储器”,例如易失性和非易失性计算机存储器(诸如RAM、PROM、EPROM和EEPROM、软盘、光盘、磁带等))相关联。在一些实现方式中,存储介质可以编码有一个或多个程序,当在一个或多个处理器和/或控制器上执行时,这些程序执行本文讨论的至少一些功能。各种存储介质可以固定在处理器或控制器内,或者可以是可移动的,使得存储在其上的一个或多个程序可以被加载到处理器或控制器中以便实现本文讨论的各个方面。术语“程序”或“计算机程序”在本文中以通用意义使用,以指代可用于对一个或多个处理器或控制器进行编程的任何类型的计算机代码(例如,软件或微代码)。
应该理解,前述概念和下面更详细讨论的附加概念的所有组合(假设这些概念不是相互不一致的)被设想是本文公开的发明主题的一部分。具体地,出现在本公开末尾的要求保护的主题的所有组合被认为是本文公开的发明主题的一部分。还应理解,本文明确采用的、也可能出现在通过引用而并入的任何公开内容中的术语应该被赋予与本文公开的特定概念最一致的含义。
参考下文描述的(多个)实施例,各种实施例的这些和其他方面将变得显而易见并得到阐述。
附图说明
在附图中,贯穿不同的视图,相同的附图标记通常指代相同的部分。此外,附图不一定按比例绘制,相反,重点通常放在说明各种实施例的原理上。
图1是根据一个实施例的用于基于表型相似性分析来表征基因和/或通路的相关性的方法的流程图。
图2是根据一个实施例的用于将数据库中的一个或多个表型谱标识为与生成的表型谱相似的方法的流程图。
图3是根据一个实施例的用于确定一个或多个基因通路与表型的相关性的方法的流程图。
图4是根据一个实施例的用于确定一个或多个基因与表型的相关性的方法的流程图。
图5是根据一个实施例的用于使用相关性分析系统基于表型相似性分析来表征基因和/或通路的相关性的方法的流程图。
图6是根据一个实施例的相关性系统的示意表示。
具体实施方式
本公开描述了基于表型相似性分析来表征基因和/或通路的相关性的系统和方法的各种实施例。更一般地,申请人已经认识到并理解,提供使用相关性分析系统表征一个或多个基因或通路与个体疾病的相关性的方法将是有益的。该系统获得个体的表型谱,包括目标个体的一个或多个表型特性、来自目标个体的差异基因表达信息和来自目标个体的差异蛋白质表达信息。该系统标识与个体表型谱相似的经存储的表型谱的一个或多个数据库。该系统至少部分地基于基因通路的已知疾病/表型关联与个体的表型谱之间的相似性,确定一个或多个基因通路与个体表型谱的相关性。该系统至少部分地基于基因的已知疾病/表型关联与个体的表型谱之间的相似性,确定一个或多个基因与个体表型谱的相关性。该系统可选地报告与个体表型谱最相关的一个或多个基因通路和/或一个或多个基因。
参考图1,在一个实施例中,是使用表型分析系统基于表型相似性分析来表征一个或多个基因和/或通路的相关性的方法100的流程图。表型分析系统可以是本文描述或以其他方式设想的任何系统,并且可以包括本文描述或以其他方式设想的任何组件。
在该方法的步骤110,接收表型谱(phen_1)。表型谱(phenotype profile)可以从任何来源(包括表型和/或表型信息的本地或远程数据库)推导、生成或获得。目标个体的表型谱包括目标个体的一个或多个表型特性、来自目标个体的差异基因表达信息、来自目标个体的差异蛋白质表达信息和/或其他信息。例如,目标个体可以包括被研究的人,诸如患有可能具有或可能不具有遗传成分的疾病的个体。目标个体的其他示例包括参与非疾病相关研究的个体,在该研究中,特定表型的遗传成分是研究对象。目标个体的表型特性可以是任何表型成分,诸如疾病状况或特定表型。
在该方法的步骤120,系统将数据库中的一个或多个表型谱标识为与生成的表型谱相似。参考图2,是用于将数据库中的一个或多个表型谱标识为与生成的表型谱相似的方法(200)的流程图。
在该方法的步骤210,对接收的表型的一个或多个表型特性进行加权。加权可以包括本领域已知的任何加权方法。根据一个实施例,表型特性的权重可以是-1与1之间的值,其中数值(magnitude)指示表型特性的表现程度(degree of manifestation),并且负值指示表型特性的否定。表型特性的权重可以由系统的用户(诸如临床医生)基于他们的观察和对该表型特性的诊断分析来分配。替代地和/或附加地,表型特性的权重可以由系统基于该表型特性的诊断分析来分配。表型特性的诊断分析可以包括来自任何观察、测试或该特性的其他分析的数据,包括但不限于成像数据、感知数据、EMR数据和/或其他临床数据。这些加权的表型特性可以被存储在存储器或其他数据结构中,并且各自将在该数据结构中与接收到的目标个体的表型相关联。
根据一个实施例,对接收到的目标个体的表型的一个或多个表型特性进行加权导致生成的表型谱(phen_1,weight_1)。这种生成的表型谱(其可选地被存储在存储器或其他数据结构中)用于该方法的进一步步骤。
在该方法的步骤220,系统将生成的表型谱与数据库中的多个表型谱进行比较。目标是评估生成的表型谱与数据库中的多个表型谱中的一个或多个表型谱的相似(resemblance)。数据库包括可以来自任何来源的多个表型谱。根据一个实施例,数据库中的多个表型谱包括多个不同的性状(trait)、疾病和其他状况的表型。
根据一个实施例,数据库可选地包括所有表型对的相似性,其中1指示表型对中的两个表型之间的完全匹配,0指示表型对中的两个表型之间的完全不匹配。因为在大多数情况下,表型对是完全不相关的,因此只有那些具有非零相似性得分的表型对需要被指定。相似性还可以包括1与0之间的任何数字。这可以按需、分批生成,或者当新的表型谱被添加到数据库时生成。
在步骤230,基于步骤220中的比较,系统标识在数据库中与生成的表型谱最相似的一个或多个表型谱。对相似表型谱的标识可以通过用于比较两个表型谱的任何方法来完成。比较可以考虑或不考虑生成的表型谱和/或数据库表型谱的加权。例如,系统可以为生成的表型谱与数据库表型谱之间的每个成对比较生成相似性得分,并且可以选择具有最高相似性得分的一个或多个数据库表型谱。然后,具有最高相似性得分的一个或多个数据库表型谱可以被用于该方法的后阶段的步骤。
根据一个非限制性实施例,可以使用以下过程来标识数据库中与生成的表型谱最相似的一个或多个表型谱,尽管该过程的任何元素可以被修改或去除,并且可以添加其他元素。此外,可以利用非常不同的过程来标识数据库中与生成的表型谱最相似的一个或多个表型谱。根据该过程,利用了以下步骤:
●对于根据谱1和谱2(phen_1[i]和phen_2[j])连接的每一对表型特性(其中phen_2、weight_2是表型特性的向量以及来自与第一个表型谱相似的第二个表型谱的对应的权重),其中i和j是两个向量的索引,根据以下等式计算得分矩阵:
score[i,j]=fw(weight_1[i],weight_2[j])*s[i,j] (等式1)
其中s[i,j]是phen_1[i]与phen_2[j]之间的预定义相似性得分;并且fw()是以weight_1[i]和weight_2[j]作为输入的加权函数。取决于假设和目标的不同,下面是fw()的一些可能定义:(1)fw=weight_1[i]*weight_2[j];(2)fw=1–absolute(weight_2[i]-weight_1[j]);以及(3)fw=1–absolute(max(weight_2[i]-weight_1[j],0))。注意,fw可以是负值,这意味着在两个谱中,对应的表型表现方向相反。
●使用以下等式生成sum_weight_1和sum_weight_2:
sum_weight_1=sum(absolute(weight_1))
sum_weight_2=sum(absolute(weight_2)) (等式2)●然后,可以通过以下过程(Loop_1)生成类似的表型谱:
○对于其中行score[i,]全为零的任何i,移除score中的行i以及phen_1和weight_1的第i个元素;
○对于其中列score[,j]全为零的任何j,移除score中的列j以及phen_2和weight_2的第j个元素;
○求所有索引对{l,m}∈P,其中score[l,m]==max(score);
○如果P中只有一个索引对,那么in=l;jn=m;
○否则从P中选择可以最大化用户定义的效用函数(utility function)的最佳对,例如
■utility_max=0;
■对于每个{l,m}∈P
●使用y1=max(score[-l,m])计算phen_1[l]的下一个最高可能得分(注意,负索引-m指示列m被排除在矩阵score之外,同时保留所有其他列);
●使用y2=max(score[-l,m])计算phen_2[m]的下一个最高可能得分(注意,负索引-l指示行l被排除在矩阵score之外,同时保留所有其他行);
●utility=(score[l,m]-y1)+(score[l,m]-y2);
以及
●如果utility>utility_max,那么in=l;jn=m;utility_max=penalty;
○使用诸如以下各项的数据条目在match_results表中注册条目:
{phen_1[in],phen_2[jn],score[in,jn],weight_1[in],weight_2[jn],s[in,jn]};
○从score中移除行in以及phen_1和weight_1的第in个元素;
○从score中移除列jn以及phen_2和weight_2的第jn个元素;
以及
○从Loop_1开始重复,直到phen_1或phen_2为空。
●替代地,也可以基于相似性矩阵s来匹配表型项,然后使用以下等式来计算得分:
score[in,jn]=fw(weight_1[in],weight_2[jn])*s[in,jn] (等式3)
●match_val=match_results中所有的得分(score)条目的总和;因为fw可能是负的,所以match_val也可能是负的,这意味着两个谱具有相反的总体表型表现。
●match_fract_1=max(match_val,0)/sum_weight_1;
●match_fract_2=max(match_val,0)/sum_weight_2;
Figure BDA0003763830680000091
Figure BDA0003763830680000092
其中β的默认值为1,并且返回的值被称为match_fract_1和match_fract_2的调和平均数。用户可以增加(减小)β的值,以使得权重match_fract_1低于(高于)match_fract_2。
●match_mean_ari=(match_fract_1+match_fract_2)/2
●在混淆矩阵中定义以下参数:
○(1)N=n_phen(其为分析中考虑的背景表型条目的总数);
○(2)K=round(sum_weight_2);
○(3)n=round(sum_weight_1);以及
○(4)k=round(max(match_val,0))。
○其中round(x)是将x四舍五入到最接近的整数值的函数。基于费希尔的精确测试,衡量两个表型谱的关联的统计证据的p值可以经由以下等式来生成:
Figure BDA0003763830680000101
替代地,也可以基于用于关联测试的任何其他适当的方法来生成p_val。
因此,在步骤230,系统基于计算的相似性得分和p值,标识数据库中与生成的表型谱最相似的一个或多个表型谱,并对所标识的表型谱进行排序。
在该方法的步骤240,记录或以其他方式标注或持久地标识数据库中与生成的表型谱最相似的一个或多个表型谱。例如,所标识的一个或多个表型谱可以以数据表或其他数据格式或数据结构被存储。作为另一示例,可以生成或存储指向所标识的一个或多个表型谱的指针。作为另一示例,可以(诸如经由打印或显示的报告)报告所标识的一个或多个表型谱的标识。根据一个实施例,该报告包括以下项中的一项或者多项:
●与生成的表型谱类似的一个或多个所标识的数据库表型谱(phen_2),可选地包括概述匹配的数据库表型谱的有效数量的值(match_val);
●生成的表型谱(phen_1)与一个或多个所标识的数据库表型谱(phen_2)中的每个表型谱之间的关联的p值(p_val)。根据一个实施例,因为测试针对表型相似唯一所在的方向,所以p值应该是单侧的,并且因此可以随着匹配的数据库表型谱的数量而减少;
●分数(fractional)值(match_fract_1),其指示参考第一表型谱的有效匹配;
●分数值(match_fract_2),其指示参考第二表型谱的有效匹配;
●包括match_fract_1和match_fract_2的几何平均数的值(match_mean_geo);包括match_fract_1和match_fract_2的调和平均数的值(match_mean_har);和/或包括match_fract_1和match_fract_2的算术平均数的值(match_mean_ari);
●数据结构(match_results),包括概述来自第一表型谱和第二表型谱的表型之间的最佳匹配的表或其他数据结构或格式,其具有一个或多个以下字段以及其他可能的字段:
○phen_1–谱1中与phen_2匹配的表型项;
○phen_2–谱2中与phen_1匹配的表型项;
○score–衡量来自两个谱的phen_1和phen_2的相关性的值;
○weight_1–输入数据中定义的phen_1的权重;
○weight_2–输入数据中定义的phen_2的权重;和/或
○s–输入数据中定义的phen_1与phen_2之间的相似性得分。
许多其他字段也是可能的。
回到图1中的方法100,在该方法的步骤130,系统基于基因通路的已知疾病/表型关联与目标个体的疾病/表型谱之间的相似性,确定一个或多个基因通路与表型的相关性。根据一个实施例,系统通过找到与患者直接相关联的表型的联合(union)或通过他们的诊断的疾病的疾病-表型映射,接收或生成目标个体的表型列表(patient_phen)。参考图3是用于确定一个或多个基因通路与表型的相关性的方法(300)的流程图。
在该方法的步骤310,系统接收或取回输入信息,以确定基因通路与目标个体的表型的相关性。输入信息包括,例如,从来自目标个体的样本获得的差异基因表达数据、从来自目标个体的样本获得的差异蛋白质表达数据、通路活性预测、关于患者的疾病和表型的信息以及从来自目标个体的样本获得的关于一个或多个变异的基于基因的表达调控状态和得分的信息。根据一个实施例,基于基因的表达调控状态和得分(gene_reg_results)针对从来自目标个体的样本中获得的拷贝数变异(CNV)和表观遗传因素而被修饰或以其他方式被调节。基于基因的表达调控状态和得分以及拷贝数变异(CNV)和表观遗传因素(包括调节的过程)可以经由在共同提交的美国专利申请第62/940,444号中描述的过程而获得(该申请的全部内容在此出于所有目的而引入作为参考),尽管其他过程也是可能的。
根据一个实施例,在该方法的步骤320,系统标识与目标个体的一个或多个表型潜在相关联的一个或多个基因通路,并且确定通路的活性在来自目标个体的样本中是中性的、上调的还是下调的。与目标个体的一个或多个表型潜在相关联的基因通路可以由系统标识或者在步骤310中以其他方式由系统接收。每个基因通路可以包括通用或非正式标识(path_id)、名称(path_name)和预测的通路活性得分(path_activity)。根据一个实施例,path_id和path_status可以在诸如KEGG、Reactome或Pathway Commons之类的外部基因通路数据库中被预定义。根据一个实施例,存在用于通过分析患者的基因表达数据来预测通路活性得分(path_activity)和相应分类(path_status)的现有算法。
根据一个实施例,为了确定通路活性是上调的、下调的还是中性的,系统可以将预测的通路活性得分(path_activity)与预定的或用户确定的上限或阈值以及预定的或用户确定的下限或阈值进行比较。如果预测的通路活性得分(path_activity)大于用户定义的上限或阈值,则通路活性被标识为是上调的(path_status=“Up”)。如果预测的通路活性得分(path_activity)低于用户定义的下限或阈值,则通路活性被标识为是下调的(path_status=“Down”)。否则,预测的通路活性得分(path_activity)被标识为是中性的(path_status=“Neutral”)。
在该方法的步骤330,系统基于所标识的基因通路,对被标识为与患者的表型相关联的疾病执行表型谱相似性测试。系统首先生成包括所标识的基因通路中的一个或多个基因通路的所有疾病关联的概要的表或其他数据结构或格式(path_disease)。例如,这可以从具有疾病或表型与基因通路之间的关联的通路-疾病数据库(诸如KEGG、Reactome和其他数据库)中获得。根据一个实施例,表(path_disease)包括一条或多条以下信息,尽管其他多条信息也是可能的:
●从通路-疾病数据库中取回的相关联的疾病的标识(disease_id)和名称(disease_name),其中值可以是“Up(上)”、“Down(下)”或“Unknown(未知)”;以及
●通路-疾病相干性状态(path_disease_status),其为指示path_status是否与path_disease_dir一致的分类变量;
○如果取回的path_disease_dir=“Unknown”或类似的指示符,则将path_disease_status值设置为“Unknown Direction”;
○否则,如果path_status=“Neutral(中性)”或类似的指示符,则path_disease_status值被设置为“Neutral Pathway Activity(中性通路活性)”;
○否则,如果path_status=path_disease_dir,则将path_disease_status值设置为“Agreed Direction(一致方向)”;以及
○否则,path_disease_status被设置为“Opposite Direction(相反方向)”
然后,系统基于所标识的基因通路,对被标识为与患者的表型相关联的每种疾病(disease_id、disease_name)执行表型谱相似性测试。表型谱相似性测试可以产生针对疾病的score和pval,然后其被输入到path_disease表中。
在该方法的步骤340,系统生成包括通路中的所有基因的疾病关联的概要(gene_disease)的表或其他数据结构或格式。例如,这可以从具有基因与疾病之间的关联的基因-疾病数据库(诸如OMIM等)中获得。根据一个实施例,表或数据结构(gene_disease)包括一条或多条以下信息,尽管其他多条信息也是可能的:
●从通路数据库取回的附属于通路的基因(gene);
●基因(gene)的调控状态(gene_reg_status),其基于gene_reg_results中记录的对特定通路中其直接下游目标的其最强调控影响,其中值可以是“Agreed Direction(一致方向)”、“Unknown Direction(未知方向)”、“Non-DE(非DE)”、“Opposite Direction(相反方向)”和“No Evidence(无证据)”;
●基于基因(gene)的差异表达和预测的通路活性状态(path_status)而计算的基因(gene)对特定通路的活性的调控状态(gene_path_status):
○如果gene没有被有差异地表达,那么gene_path_status=“Non-DE”;否则,如果path_status=“Neutral”,那么gene_path_status=“Neutral Pathway Activity”;否则,如果在通路上基因的调控方向是未知的,那么gene_path_status=“Unknown Direction”;否则,如果基因的差异表达与通路活性状态正确地对齐(方向相同),则gene_path_status=“Agreed Direction”;否则gene_path_status=“Opposite Direction”。
●disease_id、disease_name=从基因-疾病数据库中取回的与gene相关联的疾病的id和名称;
●从基因-疾病数据库中取回的与疾病相关联的基因的调控方向(gene_disease_dir);
●用于基因对相关联的疾病(disease_id、disease_name)的调控效应的基因-疾病状态(gene_disease_status),其基于基因的差异表达和提取的基因-疾病调控方向(gene_disease_dir)而被计算:
○如果gene_disease_dir=“Unknown”,那么gene_disease_status=“UnknownDirection”;否则,如果gene没有被有差异地表达,那么gene_disease_status=“Non-DE”;否则,如果(gene是上调的且gene_disease_dir==“Up”)或者(gene是下调的且gene_disease_dir==“Down”),则gene_disease_status=“Agreed Direction”;否则gene_disease_status=“Opposite Direction”。
然后,系统对每种疾病(disease_id、disease_name)执行表型谱相似性测试,以评估其与患者表型谱的关联。表型谱相似性测试可以产生针对疾病的score和pval,然后其被输入到gene_disease表中。
在该方法的步骤350,排除了其中检测活性和预期活性方向相反的所有通路-疾病关联或基因-疾病关联。例如,基于包括所标识的基因通路中的一个或多个基因通路的所有疾病关联的概要的表或其他数据结构或格式(path_disease)中的信息,以及包括通路中的所有基因的疾病关联的概要(gene_disease)的表或其他数据结构或格式中的信息,排除了具有“Opposite Direction”(方向相反)的path_disease_status、gene_reg_status、gene_path_status或gene_disease_status的所有通路-疾病关联或基因-疾病关联。
然后,系统确定与具有最高表型谱相似性测试score或最低pval的所选疾病关联,并且与所选疾病关联相关联的以下值被设置如下:
●disease=与最匹配患者表型谱的通路或其附属基因相关联的疾病;
●assoc_disease=与disease相关联的基因/通路的列表;
●score_disease=疾病关于患者的表型谱的表型谱相似性测试得分;以及
●pval_disease=疾病关于患者的表型谱的表型谱相似性测试p值。
因此,系统标识与通路及其附属基因相关联的所有表型项(phen)的集合,该集合是通过基于疾病-表型数据库对与所选疾病相关联的所有表型执行联合合并而获得的。
在该方法的步骤360,系统对与特定通路和患者的表型谱相关联的聚集表型(phen)执行表型谱相似性测试。表型谱相似性测试可以产生聚集表型与患者的总体疾病/表型谱之间的相似性得分(score_phen),以及聚集表型与患者的总体疾病/表型谱之间的关联的p值(pval_phen)。
在该方法的步骤370,记录或以其他方式标注或持久地标识分析的结果。例如,结果可以以数据表或其他数据格式或数据结构被存储。作为另一示例,可以(诸如经由打印或显示的报告)报告结果。根据一个实施例,报告包括以下项中的一项或多项:
●path_id、path_name–基因通路的id和名称;
●path_status–预测的通路活性状态,例如可以是“Up”、“Down”或“Neutral”;
●path_activity–预测的通路活性得分;
●disease–已知与可以最匹配患者的疾病/表型谱的通路或其附属基因相关联的疾病;
●assoc_disease–与disease相关联的基因的列表;如果该通路与disease具有直接关联,则也应将该通路包括在列表中;
●score_disease–衡量disease与患者的总体疾病/表型谱之间的相似性的匹配得分;
●pval_disease–disease与患者的总体疾病/表型谱之间的关联的p值;
●phen–通过基因/通路-疾病-表型映射来与通路及其附属基因相关联的所有表型项的集合;
●score_phen–通路的表型集合与患者的总体疾病/表型谱之间的相似性得分;
●pval_phen–phen与患者的总体疾病/表型谱之间的关联的p值;
●path_disease–概述通路-疾病关联的表,其可以可选地包括以下字段:
○disease_id、disease_name–已知与通路直接地相关联的疾病的id和名称;
○path_disease_dir–与疾病相关联的通路的调控方向。值可以是“Up”、“Down”或“Unknown”;
○path_disease_status–指示path_status是否与path_disease_dir一致的分类变量。值可以是“Agreed Direction”、“Unknown Direction”、“Neutral PathwayActivity”和“Opposite Direction”;
○score–disease与患者的总体疾病/表型谱之间的相似性得分;和/或
○pval–disease与患者的总体疾病/表型谱之间的关联的p值。
●gene_disease–概述通路中的所有基因的疾病关联的表,其可选地包括以下字段:
○gene–附属于通路的基因的符号;
○gene_reg_status–指示基因对其针对特定通路定义的直接基因目标的最强类型的表达调控效应的分类变量。它可以基于gene_reg_results(基于基因的表达调控状态和得分模块的输出)来计算。值可以是“Agreed Direction”、“Unknown Direction”、“Non-DE”、“Opposite Direction”和“No Evidence”;
○gene_path_status–指示基因的差异表达是否与根据通路定义的通路活性状态一致的分类变量。值可以是“Agreed Direction”、“Unknown Direction”、“Non-DE”、“Neutral Pathway Activity”和“Opposite Direction”;
○disease_id、disease_name–与gene相关联的疾病的id和名称
○gene_disease_dir–与疾病相关联的基因的调控方向。值可以是“Up”、“Down”或“Unknown”;
○gene_disease_status–指示gene_status是否与gene_disease_dir一致的分类变量。值可以是“Agreed Direction”、“Unknown Direction”、“Non-DE”和“OppositeDirection”;
○score–disease与患者的总体疾病/表型谱之间的相似性得分;和/或
○pval–disease与患者的总体疾病/表型谱之间的关联的p值。
许多其他字段也是可能的。
回到图1中的方法100,在该方法的步骤140,系统基于基因的已知疾病/表型关联与目标个体的疾病/表型谱之间的相似性,确定一个或多个基因与表型谱的相关性。根据一个实施例,系统通过找到与患者直接地相关联的表型的联合或通过他们的诊断的疾病的疾病-表型映射,接收或生成目标个体的表型列表(patient_phen)。参考图4是用于确定一个或多个基因与表型的相关性的方法(400)的流程图。
在方法400的步骤410处,系统接收或取回输入信息,以确定基因与目标个体的表型的相关性。输入信息包括在方法的步骤130中获得的例如从来自目标个体的样本获得的差异基因表达数据、从来自目标个体的样本获得的差异蛋白质表达数据、通路活性预测、关于患者的疾病和表型的信息以及关于通路相关性的信息。
根据一个实施例,系统标识与目标个体的一个或多个表型潜在相关联的一个或多个基因,并且确定在来自目标个体的样本中该基因的活性是中性的、上调的还是下调的。在步骤410中,与目标个体的一个或多个表型潜在相关联的基因可以由系统标识或以其他方式由系统接收。
在该方法的步骤420,系统对与基因和患者的表型谱相关联的每种疾病执行表型谱相似性测试。系统首先生成包括基因的所有疾病关联的概要的表或其他数据结构或格式(gene_disease)。例如,这可以从具有疾病和基因之间的关联性的基因-疾病数据库中获得。根据一个实施例,表(gene_disease)包括一条或多条以下信息,尽管其他多条信息也是可能的:
●从基因-疾病数据库中取回的相关联的疾病的标识(disease_id)和名称(disease_name);
●与取回的疾病相关联的基因-疾病调控方向(gene_disease_dir),其也可以从基因-疾病数据库中被取回;以及
●基因-疾病相干性状态(gene_disease_status),其为指示基因的差异表达是否与gene_disease_dir一致的分类变量。
○如果取回的gene_disease_dir=“Unknown”或类似指示符,那么gene_disease_status值被设置为“Unknown Direction”;
○否则,如果gene没有被有差异地表达,那么gene_disease_status值被设置为“Non-DE”;
○否则,如果gene是上调的且gene_disease_dir=“Up”或gene是下调的且gene_disease_dir=“Down”,那么gene_disease_status值被设置为“Agreed Direction”;以及
○否则gene_disease_status值被设置为“Opposite Direction”。
然后,系统基于所标识的基因对被标识为与患者的表型相关联的疾病(disease_id、disease_name)执行表型谱相似性测试。表型谱相似性测试可以产生针对疾病的score和pval,然后其被输入到gene_disease表中。
在该方法的步骤430,系统生成包括涉及基因(gene)的所有基因通路的疾病关联的概要(path_disease)的表或其他数据结构或格式。根据一个实施例,表或数据结构(path_disease)包括以下信息中的一条或多条,尽管其他多条信息也是可能的:
●通路标识、名称、预测的活性状态以及通路的得分(path_id、path_name、path_status、path_activity);
●基因(gene)的调控状态(gene_reg_status),其基于基因使用gene_reg_status对通路中其直接下游目标的最强影响;
●基因(gene)对通路活性的调控状态(gene_path_status),其基于基因(gene)的差异表达和预测的通路活性状态(path_status)而被计算:
○如果gene没有被有差异地表达,那么gene_path_status=“Non-DE”;否则,如果path_status=“Neutral”,那么gene_path_status=“Neutral Pathway Activity”;否则,如果在通路上基因的调控方向是未知的,那么gene_path_status=“Unknown Direction”;否则,如果基因的差异表达与通路活性状态正确地对齐(方向相同),那么gene_path_status=“Agreed Direction”;否则gene_path_status=“Opposite Direction”。
●disease_id、disease_name=与通路相关联的疾病的id和名称;
●与疾病相关联的通路的调控方向(path_disease_dir);
●通路-疾病相干性状态(path_disease_status),其为指示path_status是否与path_disease_dir一致的分类变量
○如果path_disease_dir=“Unknown”,那么path_disease_status=“UnknownDirection”;否则,如果path_status=“Neutral”,那么path_disease_status=“NeutralPathway Activity”;否则,如果path_status=path_disease_dir,那么path_disease_status=“Agreed Direction”;否则path_disease_status=“Opposite Direction”。
然后,系统基于所标识的基因对被标识为与患者的表型相关联的每种疾病执行表型谱相似性测试。表型谱相似性测试可以产生针对疾病的score和pval,然后它们被输入到path_disease表中。
在该方法的步骤440,排除了其中检测活性和预期活性方向相反的所有基因-疾病关联或通路-疾病关联。例如,基于包括基因(gene)的疾病关联的概要的表或其他数据结构或格式(gene_disease)中的信息,以及包括涉及基因(gene)的所有基因通路的疾病关联的概要的表或其他数据结构或格式(path_disease)中的信息,排除了具有“方向相反”的gene_disease_status、gene_reg_status、gene_path_status或path_disease_status的所有基因-疾病关联或通路-疾病关联。
根据一个实施例,系统还基于包括涉及基因(gene)的所有基因通路的概要的表或其他数据结构或格式(path_disease)对以下各项进行计数:(1)n_path_dys_fcn=基因在其中起作用的失调基因通路的数量;(2)n_path_dys=涉及基因的失调基因通路的数量;以及(3)n_path=涉及基因的基因通路的数量。
在该方法的步骤450,系统从gene_disease表和path_disease表中选择具有最高表型谱相似性测试score或最低pval的疾病关联,并且与所选疾病关联相关联的以下值被设置如下:
●disease_overall=与最匹配患者的表型谱的基因或其附属通路相关联的疾病;
●score_overall=疾病关于患者的表型谱的表型谱相似性测试得分;以及
●pval_overall=疾病关于患者的表型谱的表型谱相似性测试p值。
类似地,系统从gene_disease表中选择最匹配的疾病关联(disease)及其对应的相似性得分(score_disease)和p值(pval_disease)。
类似地,系统基于从path_disease表(涉及基因的所有基因通路的疾病关联的概要)中选择的疾病关联来标识具有最佳匹配的疾病关联的通路。
根据一个实施例,系统标识失调(path_status=“Up”or“Down”)且其基因起作用(gene_reg_status<>{“Non-DE”,“Opposite Direction”,“No Evidence”})的通路。从这些通路中,系统标识具有最高得分或最低p值的最佳匹配的疾病关联。系统将该通路的id、其相关联的疾病及其表型谱相似性得分和p值分别分配给变量path_dys_fcn、disease_path_dys_fcn、score_path_dys_fcn、pval_path_dys_fcn。
根据一个实施例,系统标识失调(path_status=“Up”or“Down”)的通路。从这些通路中,系统找到具有最高得分或最低p值的最佳匹配的疾病关联。然后,系统将该通路的id、其相关联的疾病及其表型谱相似性得分和p值分别分配给变量path_dys、disease_path_dys、score_path_dys、pval_path_dys。
根据一个实施例,系统标识具有最高得分或最低p值的最佳匹配的疾病关联的通路,并且将该通路的id、其相关联的疾病及其表型谱相似性得分和p值分别分配给变量path、disease_path、score_path、pval_path。
在该方法的步骤460,系统标识与通路及其附属基因相关联的所有表型项(phen)的集合,该集合是通过基于疾病-表型数据库执行与所选疾病相关联的所有表型的联合合并而获得的。然后,系统对基因的聚集表型(phen)和患者的表型谱执行表型谱相似性测试。表型谱相似性测试可以产生聚集表型与患者的总体疾病/表型谱之间的相似性得分(score_phen),以及针对聚集表型与患者的总体疾病/表型谱之间的关联的p值(pval_phen)。
在该方法的步骤470,记录或以其他方式标注或持久地标识分析的结果。例如,结果可以以数据表或其他数据格式或数据结构被存储。作为另一示例,可以(诸如经由打印或显示的报告)报告结果。根据一个实施例,报告包括针对每个基因的以下一项或多项:
●gene_reg_status–指示基因对其直接基因目标的最强类型的表达调控效应的分类变量(基于基因的表达调控状态和得分模块的输出)。值可以是“Agreed Direction”、“Unknown Direction”、“Non-DE”、“Opposite Direction”和“No Evidence”;
●n_path_dys_fcn–基因在其中起作用的失调的基因通路的数量
●n_path_dys–涉及基因的失调的基因通路的数量;
●n_path–涉及基因的基因通路的数量;
●disease_overall、score_overall、pval_overall–与以正确调控方向最匹配患者的疾病和表型的基因或其附属通路相关联的疾病,以及针对该疾病的对应的表型谱相似性测试得分和p值;
●disease、score_disease、pval_disease–与以正确调控方向最匹配患者的疾病和表型的基因直接地相关联的疾病,以及针对该疾病的对应的表型谱相似性测试得分和p值;
●phen、score_phen、pval_phen–以正确调控方向通过其疾病关联与基因相关联的所有表型项的集合,以及针对该表型集合的对应的表型谱相似性测试得分和p值;
●path_dys_fcn、disease_path_dys_fcn、score_path_dys_fcn、pval_path_dys_fcn–失调的特定基因通路(其中基因起作用并且与以正确调控方向最匹配患者的疾病和表型的疾病相关联)、与该通路相关联的最匹配的疾病、及其表型谱相似性测试得分和p值;
●path_dys、disease_path_dys、score_path_dys、pval_path_dys–失调的(无论基因是否起作用)且与以正确调控方向最匹配患者的疾病和表型的疾病相关联的特定基因通路、与该通路相关联的最匹配的疾病、及其表型谱相似性测试得分和p值;
●path、disease_path、score_path、pval_path–失调或未失调的且与以正确调控方向最匹配患者的疾病和表型的疾病相关联的特定基因通路、与该通路相关联的最匹配的疾病、及其表型谱相似性测试得分和p值;
●gene_disease–概述基因与以下一个或多个字段的所有疾病关联的表:
○disease_id、disease_name=从基因-疾病数据库中取回的相关联的疾病的id和名称;
○gene_disease_dir–与疾病相关联的基因调控方向,其可以从基因-疾病数据库中被取回。值可以是“Up”、“Down”或“Unknown”;
○gene_disease_status–指示基因的差异表达(up/down)是否与gene_disease_dir一致的分类变量。值可以是“Agreed Direction”、“Unknown Direction”、“Non-DE”和“Opposite Direction”;以及
○针对疾病的score和pval-通过对疾病和患者的表型谱应用表型谱相似性测试或者其他方法而得到
●path_disease–概述涉及基因的所有通路的疾病关联的表,其具有以下字段中的一个或多个字段:
○path_id、path_name–基因通路的id和名称;
○path_status–预测的通路活性状态,其可以是“Up”,“Down”or“Neutral”;
○path_activity–预测的通路活性得分;
○gene_reg_status–指示基因对针对该特定通路定义的其直接基因目标的最强类型的表达调控效应的分类变量。其可以基于gene_reg_results(基于基因的表达调控状态和得分模块的输出)来计算。值可以是“Agreed Direction”、“Unknown Direction”、“Non-DE”、“Opposite Direction”和“No Evidence”;
○gene_path_status–指示基因的差异表达是否与根据通路定义的通路活性状态一致的分类变量。值可以是“Agreed Direction”、“Unknown Direction”、“Non-DE”、“Neutral Pathway Activity”和“Opposite Direction”;
○disease_id、disease_name–与该通路相关联的疾病的id和名称;
○path_disease_dir–与疾病相关联的通路的调控方向。值可以是“Up”、“Down”或“Unknown”;
○path_disease_status–指示path_status是否与path_disease_dir一致的分类变量。值可以是“Agreed Direction”、“Unknown Direction”、“Neutral PathwayActivity”和“Opposite Direction”;
○score–disease与患者的总体疾病/表型谱之间的相似性得分;以及
○pval–disease与患者的总体疾病/表型谱之间的关联的p值。
在该方法的步骤150,系统生成包括最终信息的报告。这可以包括将该信息以数据表或其他数据格式存储,或者经由打印或显示的报告来存储。
在该方法的步骤160,用户可以至少部分地基于如本文描述或以其他方式设想的一个或多个状态或得分,对通过该方法标识的多个变异、基因和/或通路进行筛选和/或排序。作为一个示例,系统可以创建和报告被标识为包括特定效应的变异、基因和/或通路的列表,并且根据该效应的潜在强度的可能性对它们进行排序。
在该方法的步骤170,根据一个实施例,健康护理专业人员、研究人员或其他用户可以接收由系统生成且包括本文描述或以其他方式设想的任何信息的报告,并且利用该报告来诊断、监测和/或治疗个体。例如,接收个体可以审阅报告,并且将在该报告中标识的一个或多个变异、基因和/或通路标识为可能涉及受试者的表型,且因此可能是治疗和/或干预的目标。根据一个实施例,一旦进行了标识,接收个体或代表接收个体的人实施治疗或干预以医治该表型。例如,这可以包括基于所标识的变异、基因和/或通路与特定药物或干预之间的已知关联的特定医学治疗。根据另一实施例,一旦进行了标识,接收个体或代表接收个体的人可以将该信息用于研究目的,以标识潜在的治疗和/或干预。因此,在变异、基因和/或通路,检查变异、基因和/或通路的分析方法和系统的输出,以及个体的治疗或研究之间,可以存在直接的关系。
参考图5,在一个实施例中,是用于使用相关性分析系统基于表型相似性分析来表征基因和/或通路的相关性的方法700的流程图。相关性分析系统可以是本文描述或以其他方式设想的任何系统,并且可以包括本文描述或以其他方式设想的任何组件。
参考图6,在一个实施例中,是被配置为表征在基因组样本中标识的基因组变异的功能影响的相关性分析系统600的示意图。系统600可以是本文描述或以其他方式设想的任何系统,并且可以包括本文描述或以其他方式设想的任何组件。
根据一个实施例,系统600包括经由一个或多个系统总线612互连的处理器620、存储器630、用户接口640、通信接口650和存储装置660中的一个或多个。将会理解,图6在某些方面构成了抽象概念,并且系统600的组件的实际组织可以不同于所示出的并且比所示出的更复杂。
根据一个实施例,系统600包括处理器620,处理器620能够执行存储在存储器630或存储装置660中的指令,或者以其他方式处理数据,以例如执行该方法的一个或多个步骤。处理器620可以由一个或多个模块形成。处理器620可以采取任何合适的形式,包括但不限于微处理器、微控制器、多个微控制器、电路、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、单个处理器或多个处理器。
存储器630可以采取任何合适的形式,包括非易失性存储器和/或RAM。存储器630可以包括各种存储器,诸如例如L1、L2或L3高速缓存或系统存储器。这样,存储器630可以包括静态随机存取存储器(SRAM)、动态RAM(DRAM)、闪存、只读存储器(ROM)或其他类似的存储器设备。存储器可以存储操作系统等。RAM被处理器用来临时存储数据。根据一个实施例,操作系统可以包含代码,当由处理器执行时,该代码控制系统600的一个或多个组件的操作。将显而易见的是,在处理器以硬件实现本文描述的一个或多个功能的实施例中,可以省略在其他实施例中被描述为对应于这种功能的软件。
用户接口640可以包括用于使能与用户的通信的一个或多个设备。用户接口可以是允许传送和/或接收信息的任何设备或系统,并且可以包括用于接收用户命令的显示器、鼠标和/或键盘。在一些实施例中,用户接口640可以包括可以经由通信接口650呈现给远程终端的命令行界面或图形用户界面。用户接口可以位于系统的一个或多个其他组件中,或者可以位于远离系统的位置,并且经由有线和/或无线通信网络进行通信。
通信接口650可以包括用于使能与其他硬件设备的通信的一个或多个设备。例如,通信接口850可以包括被配置为根据以太网协议进行通信的网络接口卡(NIC)。此外,通信接口650可以根据TCP/IP协议实现用于通信的TCP/IP栈。用于通信接口650的各种替代或附加的硬件或配置将是显而易见的。
存储装置660可以包括一个或多个机器可读存储介质,诸如只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光学存储介质、闪存设备或类似的存储介质。在各种实施例中,存储装置660可以存储由处理器620执行的指令或者处理器620可以操作的数据。例如,存储装置660可以存储用于控制系统600的各种操作的操作系统661。
将显而易见的是,被描述为存储在存储装置660中的各种信息可以附加地或替代地被存储在存储器630中。在这方面,存储器630也可以被认为构成存储设备,并且存储装置660可以被认为是存储器。各种其他布置将是显而易见的。此外,存储器630和存储装置660都可以被认为是非暂时性机器可读介质。如本文所使用的,术语“非暂时性”将被理解为排除暂时性信号,而是包括所有形式的存储装置,包括易失性和非易失性的存储器。
虽然相关性系统600被示为包括每个所描述的组件中的一个,但是各种组件在各种实施例中可以是重复的。例如,处理器620可以包括多个微处理器,这些微处理器被配置为独立地执行本文描述的方法,或者被配置为执行本文描述的方法的步骤或子例程,使得多个处理器协作来实现本文描述的功能。此外,在云计算系统中实现系统600的一个或多个组件的情况下,各种硬件组件可以属于单独的物理系统。例如,处理器620可以包括第一服务器中的第一处理器和第二服务器中的第二处理器。许多其他变化和配置是可能的。
根据一个实施例,相关性系统600的存储装置660可以存储一个或多个算法和/或指令,以执行本文描述或以其他方式设想的方法的一个或多个功能或步骤。例如,处理器620可以包括表型相似性指令662、通路相关性指令663、基因相关性指令664和/或报告生成指令或软件665,以及许多其他算法和/或指令,以执行本文描述或以其他方式设想的方法的一个或多个功能或步骤。
根据一个实施例,表型相似性指令662引导系统将数据库中的一个或多个表型谱标识为与生成的表型谱相似。参考图2,是用于将数据库中的一个或多个表型谱标识为与生成的表型谱相似的方法(200)的流程图。
根据一个实施例,通路相关性指令663引导系统基于基因通路的已知疾病/表型关联与目标个体的疾病/表型谱之间的相似性,确定一个或多个基因通路与表型的相关性。根据一个实施例,系统通过找到与患者直接地相关联的表型的联合或通过他们的诊断的疾病的疾病-表型映射,接收或生成目标个体的表型列表(patient_phen)。参考图3是用于确定一个或多个基因通路与表型的相关性的方法(300)的流程图。
根据一个实施例,基因相关性指令664引导系统基于基因的已知疾病/表型关联与目标个体的疾病/表型谱之间的相似性,确定一个或多个基因与表型的相关性。根据一个实施例,系统通过找到与患者直接地相关联的表型的联合或通过他们的诊断的疾病的疾病-表型映射,接收或生成目标个体的表型列表(patient_phen)。参考图4是用于确定一个或多个基因与表型的相关性的方法(400)的流程图。
根据一个实施例,报告生成指令664引导系统生成包括关于由系统执行的分析的信息的报告。可以为任何格式或输出方法(诸如文件格式、可视显示或任何其他格式)生成报告。报告可以包括基于文本的文件或包括报告信息的其他格式。
报告生成指令或软件664可以引导系统将生成的报告或信息存储在临时和/或长期存储器或其他存储装置中。这可以是系统600内或与系统600相关联的本地存储装置,或者可以是从系统600或经由系统600接收报告或信息的远程存储装置。附加地和/或替代地,报告或信息可以被传送或以其他方式传输到另一系统、接收方、过程、设备和/或其他本地或远程位置。
报告生成指令或软件664可以引导系统向用户或其他系统提供生成的报告。例如,系统可以在用户界面上可视地显示信息,用户界面可以是屏幕或其他显示器。
基因组研究和精准医疗中的一个主要挑战是从成百上千的候选变异中标识出实际引起疾病症状的突变和/或基因,这对于科学发现或标识潜在的治疗目标是必要的。虽然基于调用质量、群体等位基因频率、基因模型注释、已知疾病关联和预测致病性的标准变异筛选方法可以缩小候选变异的范围,但是基因表达、CNV、表观遗传学和其他数据的多组学数据分析对于进一步解释疾病的(多个)分子机制来说至关重要,这有助于阐明疾病病因和治疗选项。
本文描述或以其他方式设想的多组学数据分析框架的一个用例是通过在基因组研究中对数百个样本的DNA和RNA全外显子组测序(whole exome sequencing,WES)数据执行分析来促进引起或影响疾病的变异、基因和/或通路的发现。通过比较每个候选变异的携带者与非携带者之间的外显子/基因/转录表达以及使用外部数据库(例如表达/剪接数量性状基因座、启动子/增强子图谱等),该框架可以评估变异是否对等位基因特异性表达、选择性剪接、目标基因的调控、基因通路等有任何影响。如本文所描述的,生成的基于变异的状态和得分然后可以用于根据其潜在的功能影响对变异、基因和/或通路进行筛选和排序。
除了基于变异的功能影响评估,科学家还可以获得对单个基因和/或通路的功能影响的见解。这可以通过使用本文描述或以其他方式设想的框架分析病例与控制样本之间的差异基因表达来完成。参考外部数据库(诸如KEGG、Reactome和Pathway Commons)中的通路定义,该框架可以评估基因是否对其紧接/附近的下游目标基因或整体通路活性有任何影响。如果CNV、甲基化或其他表观遗传学数据是可用的,则该框架可以评估组合的CNV和表观遗传学对每个基因的影响。这与基因表达结果的组合可以进一步指示基因的差异表达或任何调控效应是否确实是由CNV或表观遗传因素驱动的。通过仔细和系统地考虑从不同组学数据中获得的多层证据,科学家可以通过解释其对基因目标和通路的潜在影响来查明致病突变。
以类似的方式,临床医生可以使用本文描述或以其他方式设想的框架来分析DNA和RNA WES数据,以标识患者中的致病突变或基因。当评估基于变异的功能影响时,如果一个患者的数据不足,则可以采用来自其他研究的携带者和非携带者的基因表达数据。使用本文描述或以其他方式设想的框架,临床医生可以通过解释分子机制来查明致病突变和基因。例如,如果发现疾病是由导致通路活性上调的基因突变引起的,那么可以给患者施用已知抑制该通路活性的药物,以试图治愈疾病或减轻症状。
因此,根据一个实施例,本文描述或以其他方式设想的方法和系统包括许多不同的实践应用。例如,系统或方法的输出可以是包括所表征的多个状态和/或得分中的一个或多个状态或得分的报告,以及其他报告、状态和信息。该报告具有许多用途,包括由医生或其他保健专业人员或研究人员用来确定特定个体(诸如癌症患者或罕见遗传疾病的患者,以及许多其他可能的个体)的表型中涉及的变异、基因和/或通路。该系统可以生成报告,该报告不仅包括可能在特定个体的表型中涉及的变异、基因和/或通路的列表,而且该报告还可以包括最可能的变异、基因和/或通路的排序,和/或可能的变异、基因和/或通路的最大影响的排序,和/或具有最支持影响的证据的变异、基因和/或通路的排序。
根据另一实施例,系统可以用于诊断状况。例如,临床医生可能观察到某些表型和症状,但是可能无法基于这些观察做出准确的诊断。根据本文描述或以其他方式设想的方法和系统,创建表型谱,并且可以应用或生成权重。然后,本文描述的表型谱相似性测试可以用于将表型列表与表型谱数据库进行比较,该表型谱数据库与一个或多个疾病诊断相关联。具有最高得分或最低p值的存储表型谱显示出与所查询的表型谱的最佳关联,可以促进诊断和/或附加的查询。根据一个实施例,所描述的一个或多个方法或步骤可以是自动化的。例如,系统可以被设计成直接或从患者的医疗记录中获取图像、扫描和/或任何其他数据(体温、血压等),然后可以确定或生成具有表现水平的表型列表,创建具有相应权重的表型谱,执行相似性测试,并且提出或生成一个或多个诊断或附加的测试。许多其他选项是可能的。
本文描述的方法和系统包括几个限制,每个限制包括并分析数百万条信息。例如,由系统接收或生成的变异信息和相关表达(和潜在的其他)信息可能包括多达1000个潜在的变异、基因、通路和其他用于分析的数据点。类似地,该过程的每个步骤都包括对这1000个潜在的变异、基因、通路和其他数据点的分析,从而构成数百万次计算。这是人类大脑无法执行的事情,即使是用钢笔和铅笔。
本文定义和使用的所有定义应该被理解为经由字典定义、通过引用并入的文献中的定义和/或所定义术语的普通含义来进行控制。
说明书和权利要求中使用的不定冠词“一”和“一个”,除非明确指示相反意思,否则应该被理解为意味着“至少一个”
本文在说明书和权利要求中使用的短语“和/或”应该被理解为意味着如此结合的元素中的“任一个或两个”,即在一些情况下结合存在而在其他情况下分离存在的元素。用“和/或”列出的多个元素应该以相同的方式解释,即如此结合的元素中的“一个或多个”。除了由“和/或”从句具体标识的元素之外,还可以可选地存在其他元素,无论其与具体标识的那些元素是相关还是不相关。
如说明书和权利要求书中所使用的,“或”应该被理解为具有与上面定义的“和/或”相同的含义。例如,当分隔列表中的项时,“或”或“和/或”应该被解释为包含性的,即包括至少一个,但也包括多个或一系列元素中的一个以上的元素,并且可选地包括附加的未列出的项。只有明确指示相反意思的术语(诸如“……中的仅一个”或“……中的正好一个”)或者当在权利要求中使用时的“由……组成”将指代包括多个或一系列元素中的正好一个元素。一般而言,本文使用的术语“或”仅应该被解释为在前面带有排他性术语(诸如“任一个”、“……中的一个”、“……中的仅一个”或“……中的正好一个”)时指示排他性的替代方案(即“一个或另一个,但不是两个”)。
如说明书和权利要求中所使用的,引用一个或多个元素的列表的短语“至少一个”应该被理解为意味着从元素列表中的元素中的任何一个或多个元素中选择的至少一个元素,但是不一定包括该元素列表内具体列出的每个元素中的至少一个,并且不排除该元素列表中的任何元素组合。该定义还允许除了在短语“至少一个”所指代的元素列表内具体标识的元素之外,元素可以可选地存在,无论其与具体标识的那些元素是相关还是不相关。
还应理解,除非明确指示相反意思,否则在本文要求保护的包括多于一个步骤或动作的任何方法中,该方法的步骤或动作的次序不必限于该方法的步骤或动作被叙述的次序。
在权利要求以及上面的说明书中,所有过渡短语(诸如“包括(comprising)”、“含有(including)”、“携带”、“具有”、“包含”、“涉及”、“保持”、“包括有”等)都应该被理解为开放式的,即,意味着包括但不限于。只有过渡短语“由……组成”和“基本上由……组成”应该分别是封闭或半封闭的过渡短语。
虽然本文已经描述和示出了几个发明性实施例,但是本领域普通技术人员将容易地想到用于执行功能和/或获得结果和/或本文描述的一个或多个优点的各种其他部件和/或结构,并且这样的变型和/或修改中的每一个被认为是在本文描述的发明性实施例的范围内。更一般地,本领域技术人员将容易理解,本文描述的所有参数、尺寸、材料和配置都是示例性的,并且实际的参数、尺寸、材料和/或配置将取决于使用(多个)发明性教导的一个或多个具体应用。本领域技术人员将会认识到或者能够仅使用常规实验来证明本文描述的具体发明性实施例的许多等同物。因此,应该理解的是,前述实施例仅通过示例的方式呈现,并且在所附权利要求及其等同物的范围内,发明性实施例可以另外以不同于具体描述和要求包括的方式来实践。本公开的发明性实施例针对本文描述的每个单独的特征、系统、物品、材料、套件和/或方法。此外,两个或多个这样的特征、系统、物品、材料、套件和/或方法的任何组合,如果这样的特征、系统、物品、材料、套件和/或方法不是相互矛盾的,则其被包括在本公开的发明性范围内。

Claims (15)

1.一种用于使用相关性分析系统(600)表征一个或多个基因或通路与个体的疾病的相关性的方法(100),包括:
获得(110)所述个体的表型谱,所述个体的所述表型谱包括所述目标个体的一个或多个表型特性、来自所述目标个体的差异基因表达信息和来自所述目标个体的差异蛋白质表达信息;
使用经存储的表型谱的数据库,标识(120)与所述个体表型谱相似的经存储的表型谱的一个或多个数据库;
至少部分地基于一个或多个基因通路的已知疾病/表型关联与所述个体的表型谱之间的相似性,确定(130)所述基因通路与所述个体表型谱的相关性;
至少部分地基于一个或多个基因的已知疾病/表型关联与所述个体的表型谱之间的相似性,确定(140)所述基因与所述个体表型谱的相关性;以及
报告(150)与所述个体表型谱最相关的一个或多个基因通路和/或一个或多个基因。
2.根据权利要求1所述的方法,其中所述个体的所述表型谱还包括所述目标个体的表型特性中的一个或多个表型特性的权重。
3.根据权利要求1所述的方法,其中标识与所述个体表型谱相似的经存储的表型谱的一个或多个数据库包括:所述个体表型谱与所述经存储的表型谱之间的每个成对比较的相似性得分。
4.根据权利要求3所述的方法,其中标识与所述个体表型谱相似的经存储的表型谱的一个或多个数据库包括:选择具有最高相似性得分的一个或多个经存储的表型谱。
5.根据权利要求1所述的方法,其中确定一个或多个基因通路与所述个体表型谱的相关性包括:标识与所述个体的一个或多个表型特性潜在相关联的一个或多个基因通路。
6.根据权利要求1所述的方法,其中确定一个或多个基因通路与所述个体表型谱的相关性包括:排除其中通路的检测活性和通路的预期活性方向相反的任何通路。
7.根据权利要求1所述的方法,其中确定一个或多个基因与所述个体表型谱的相关性包括:标识与所述个体的一个或多个表型特性潜在相关联的一个或多个基因。
8.根据权利要求1所述的方法,其中确定一个或多个基因与所述个体表型谱的相关性包括:排除其中基因的检测活性和基因的预期活性方向相反的任何基因。
9.一种被配置为表征一个或多个基因或通路与个体的疾病的相关性的系统(600),包括:
所述个体的表型谱,包括所述目标个体的一个或多个表型特性、来自所述目标个体的差异基因表达信息和来自所述目标个体的差异蛋白质表达信息;以及
处理器(620),被配置为:(i)使用经存储的表型谱的数据库来标识与所述个体表型谱相似的经存储的表型谱的一个或多个数据库;(ii)至少部分地基于一个或多个基因通路的已知疾病/表型关联与所述个体的表型谱之间的相似性,确定所述基因通路与所述个体表型谱的相关性;(iii)至少部分地基于一个或多个基因的已知疾病/表型关联与所述个体的表型谱之间的相似性,确定所述基因与所述个体表型谱的相关性;以及(iv)报告与所述个体表型谱最相关的一个或多个基因通路和/或一个或多个基因。
10.根据权利要求9所述的系统,还包括:
用户界面(640),所述用户界面(640)被配置为提供与所述个体表型谱最相关的一个或多个基因通路和/或一个或多个基因的报告。
11.根据权利要求9所述的系统,其中标识与所述个体表型谱相似的经存储的表型谱的一个或多个数据库包括:所述个体表型谱与所述经存储的表型谱之间的每个成对比较的相似性得分。
12.根据权利要求9所述的系统,其中确定一个或多个基因通路与所述个体表型谱的相关性包括:标识与所述个体的一个或多个表型特性潜在相关联的一个或多个基因通路。
13.根据权利要求9所述的系统,其中确定一个或多个基因通路与所述个体表型谱的相关性包括:排除其中通路的检测活性和通路的预期活性方向相反的任何通路。
14.根据权利要求9所述的系统,其中确定一个或多个基因与所述个体表型谱的相关性包括:标识与所述个体的一个或多个表型特性潜在相关联的一个或多个基因。
15.一种用于标识与查询表型谱相似的一个或多个经存储的表型谱的方法(200),包括:
生成或获得(210)查询表型谱的权重;
将加权的查询表型谱与加权的经存储的表型谱的数据库进行比较(220);
标识(230)与所述加权的查询表型谱相似的至少一个加权的经存储的表型谱;
执行加权函数(230)以组合所述加权的查询表型谱的权重和所述至少一个加权的经存储的表型谱的权重,包括创建相似性得分并且确定所述加权的查询表型谱与所述至少一个加权的经存储的表型谱之间的匹配表型项的有效数量;
对所述相似性得分和匹配表型项的所述有效数量执行关联测试(230),以确定包括所述两个谱之间的关联的统计显著性的相似性值和/或p值;以及
报告(240)所述至少一个加权的经存储的表型谱和所述至少一个加权的经存储的表型谱的确定的相似性值和/或p值。
CN202080094522.6A 2019-11-26 2020-11-20 用于疾病驱动因素的诊断和排序的表型谱相似性分析的方法和系统 Pending CN115023762A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962940485P 2019-11-26 2019-11-26
US62/940,485 2019-11-26
PCT/EP2020/082792 WO2021105005A1 (en) 2019-11-26 2020-11-20 Method and system for phenotypic profile similarity analysis used in diagnosis and ranking of disease-driving factors

Publications (1)

Publication Number Publication Date
CN115023762A true CN115023762A (zh) 2022-09-06

Family

ID=73554417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080094522.6A Pending CN115023762A (zh) 2019-11-26 2020-11-20 用于疾病驱动因素的诊断和排序的表型谱相似性分析的方法和系统

Country Status (3)

Country Link
US (1) US20240038326A1 (zh)
CN (1) CN115023762A (zh)
WO (1) WO2021105005A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113270144B (zh) * 2021-06-23 2022-02-11 北京易奇科技有限公司 一种基于表型的基因优先级排序方法和电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100210025A1 (en) * 2006-08-15 2010-08-19 Victor Chang Cardiac Research Institute Limited Common Module Profiling of Genes
WO2015006643A2 (en) * 2013-07-12 2015-01-15 Immuneering Corporation Systems, methods, and environment for automated review of genomic data to identify downregulated and/or upregulated gene expression indicative of a disease or condition

Also Published As

Publication number Publication date
WO2021105005A1 (en) 2021-06-03
US20240038326A1 (en) 2024-02-01

Similar Documents

Publication Publication Date Title
Yan et al. Network approaches to systems biology analysis of complex disease: integrative methods for multi-omics data
Calderon et al. Inferring relevant cell types for complex traits by using single-cell gene expression
Abegaz et al. Principals about principal components in statistical genetics
Holzinger et al. Integrating heterogeneous high-throughput data for meta-dimensional pharmacogenomics and disease-related studies
US11710540B2 (en) Multi-level architecture of pattern recognition in biological data
US20140067280A1 (en) Ancestral-Specific Reference Genomes And Uses Thereof
Ding et al. A survey of SNP data analysis
Ahmed et al. Early detection of Alzheimer's disease using single nucleotide polymorphisms analysis based on gradient boosting tree
Balick et al. Overcoming constraints on the detection of recessive selection in human genes from population frequency data
WO2019242445A1 (zh) 病原体操作组的检测方法、装置、计算机设备和存储介质
Van den Berge et al. Normalization benchmark of ATAC-seq datasets shows the importance of accounting for GC-content effects
CN115023762A (zh) 用于疾病驱动因素的诊断和排序的表型谱相似性分析的方法和系统
US20190189248A1 (en) Methods, systems and apparatus for subpopulation detection from biological data based on an inconsistency measure
Kim Bioinformatic and Statistical Analysis of Microbiome Data
US20190042697A1 (en) Computer-implemented methods for automated analysis and prioritization of variants in datasets
CN107710206B (zh) 用于根据生物学数据的亚群检测的方法、系统和装置
Patel et al. Big data analytics of genomic and clinical data for diagnosis and prognosis of cancer
Malick et al. Bioinformatics Analysis of Differentially Expressed Gene's in Breast Cancer Using DESeq2
US20230386612A1 (en) Determining comparable patients on the basis of ontologies
Das et al. A statistical perspective of gene set analysis with trait-specific QTL in molecular crop breeding
Ji et al. Optimal distance metrics for single-cell RNA-seq populations
Marić et al. Approaches to metagenomic classification and assembly
Evans A SNP microarray analysis pipeline using machine learning techniques
Abid et al. Discriminant analysis for the eigenvalues of variance covariance matrix of FFT scaling of DNA sequences: an empirical study of some organisms
Gonzalez et al. Essentials in Metagenomics (Part II)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination