CN116075898A

CN116075898A - 用于确定基因相似性的方法和系统

Info

Publication number: CN116075898A
Application number: CN202180057081.7A
Authority: CN
Inventors: 吴必名; S·巴拉苏不拉曼尼安; J·雷德
Original assignee: Regeneron Pharmaceuticals Inc
Current assignee: Regeneron Pharmaceuticals Inc
Priority date: 2020-06-12
Filing date: 2021-06-11
Publication date: 2023-05-05
Also published as: EP4165639A1; CA3182083A1; WO2021252883A1; US20220036970A1

Abstract

公开了用于确定基因之间的相似性的方法。

Description

用于确定基因相似性的方法和系统

相关申请交叉引用

本申请要求于2020年6月12日提交的美国临时申请第63/038,504号的优先权，所述美国临时申请通过引用整体并入本文。

背景技术

将高通量DNA测序应用于人队列已经实现了从开发罕见和常见遗传变异的综合目录(Genomes Project,C.等人,《自然(Nature)》2010；467:1061；Tennessen JA等人,《科学(Science)》2012；337:64)到阐明孟德尔疾病的新型致病基因(Chong JX等人,《美国人类遗传学期刊(Am J Hum Genet)》2015；97:199；Yang Y等人,《美国医学会杂志(JAMA)》,2014；312:1870)的遗传发现，并且已发现罕见的变体与常见的复杂疾病有关(Do R等人,《自然》2015；518:102；Holm H等人,《自然遗传学(Nat Genet)》2011；43:316；Steinberg S等人,《自然遗传学》,2015；47:445)。

最新的发现受助于对罕见的“人类敲除基因”的发现(MacArthur DG等人,《科学》2012；335:823；Sulem P等人,《自然遗传学》2015；47:448；Lim ET等人,《公共科学图书馆遗传学(PLoS Genet)》2014；10:e1004494)。在一些情况下，将序列数据库与流行病学数据(LiAH等人,《自然遗传学》2015；47:640)或结构化临床记录中捕获的临床表型(Sulem P等人,《自然遗传学》2015；47:448；Lim ET等人,《公共科学图书馆遗传学》2014；10:e1004494)联系起来以利于发现变体与表型之间的关联。(Gudbjartsson DF等人,《自然遗传学》2015；47:第435-44页；Consortium UK等人,《自然》2015；526:82)。

此类努力促进了一些治疗靶标的发现。例如，已经鉴定了与有利的脂质谱和冠心病风险降低相关联的PCSK9基因(Kathiresan,S.和C.Myocard Infarction,《新英格兰医学期刊(N Engl J Med)》2008；358:2299)和APOC3基因(Pollin TI等人,《科学》2008；322:1702)中的功能丧失(LoF)突变，并且这些发现已促进了靶向那些基因的产物的治疗剂的开发。

然而，需要进一步阐明影响健康和疾病的遗传因素以及基于这种信息开发靶向治疗剂，以推动精准医学的实施，并鉴定更多用于药理学干预的生物靶标。鉴定推定的生物靶标的一种方法是在可获得遗传变体和表型信息的一大群受试者中在统计学上将所关注的变体与表型相关联(或反之亦然)(例如，威康信托基金会病例控制协会(Wellcome TrustCase Control Consortium),《自然)》2007；447:661；心脏与衰老研究基因组流行病学协作体队列(Cohorts for Heart and Aging Research in Genomic EpidemiologyConsortium),《循环：心血管遗传学(Circulation:Cardiovascular Genetics)》2009；2:73)。具有此类富含表型的电子健康记录的个体的大规模测序为理解遗传变体及其对表型的影响提供了史无前例的机会。常规方法，如全基因组关联研究(GWAS)和全外显子组关联研究(ExWAS)，鉴定了将遗传变体与研究下的表型联系起来的统计学显著关联。此类关联通常激发旨在解释对应基因的生理作用的假设和研究。与单性状关联相反，来自同一基因内多个独立变体的多种表型的关联模式可能会另外的阐明其生物学作用。此类关联特征的不可知论评估可以潜在地将了解较少的基因与充分研究的基因联系起来，并揭示新颖的功能关系。

发明内容

公开了包括以下的方法：对于多个表型中的每个表型，确定指示多个基因中的每个基因的至少一个变体与所述多个表型中的表型之间的关联的关联评分；对于所述多个基因中的每个基因，基于所述关联评分确定指示所述多个基因中的每个基因与所述多个表型中的每个表型之间的代表性关联的基因水平关联评分；基于所述基因水平关联评分生成基因表型评分矩阵，其中对于所述多个基因中的每个基因，所述基因表型评分矩阵包括所述多个表型中的每个表型的所述基因水平关联评分；接收所关注的基因的选择；基于所述选择，在基因表型评分矩阵中确定所述所关注的基因的基因水平关联评分；在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因；以及将所述一个或多个基因中的基因鉴定为与所述所关注的基因相关联的所述基因。

公开了包括以下的方法：对于多个表型中的每个表型，确定指示多个基因中的每个基因的至少一个变体与所述多个表型中的表型之间的关联的关联评分；对于所述多个基因中的每个基因，基于所述关联评分确定指示所述多个基因中的每个基因与所述多个表型中的每个表型之间的代表性关联的基因水平关联评分；以及基于所述基因水平关联评分生成基因表型评分矩阵，其中对于所述多个基因中的每个基因，所述基因表型评分矩阵包括所述多个表型中的每个表型的所述基因水平关联评分。

公开了包括以下的方法：接收所关注的基因的选择；基于所述选择，在基因表型评分矩阵中确定所述所关注的基因的基因水平关联评分，其中对于多个基因中的每个基因，所述基因表型评分矩阵包括多个表型中的每个表型的基因水平关联评分；在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因；以及将所述一个或多个基因中的基因鉴定为与所述所关注的基因相关联的所述基因。

公开了包括以下的方法：对于多个表型中的每个表型，生成变体表型关联数据结构；对于所述基因型表型关联数据结构中的每个基因，确定基因水平关联评分；基于所述基因水平关联评分生成基因表型评分矩阵数据结构；以及基于靶基因和所述基因表型评分矩阵数据结构确定与所述靶基因相关联的一个或多个基因。

公开了包括向受试者施用治疗剂的方法，其中所述受试者已确定具有与靶基因相关联的具体的表型集，其中所述治疗剂改变与所述靶基因相关联的一个或多个基因的表达，并且其中与所述靶基因相关联的一个或多个基因的改变的表达向所述受试者提供治疗效果。

公开了被配置成执行所公开的方法中的任何方法的设备。

公开了被配置成执行所公开的方法中的任何方法的系统。

公开了计算机可读介质，其上具有处理器可执行指令实施例，所述处理器可执行指令实施例被配置成使设备执行所公开的方法中的任何方法。

所公开的方法和组合物的另外的优点将部分地在以下描述中阐述，并且部分地将从描述中理解，或者可以通过实践所公开的方法和组合物来获悉。所公开的方法和组合物的优点将通过所附权利要求书中特别指出的元素和组合来实现和获得。应当理解，前述一般描述和以下详细描述两者均仅是示例性和解释性的，并且不限制所要求保护的本发明。

附图说明

并入本说明书中且构成本说明书的部分的附图展示了所公开的方法和组合物的若干实施例，并且连同说明书一起，作用于解释所公开的方法和组合物的原理。

图1示出了示例方法。

图2示出了示例变体表型关联数据结构。

图3示出了示例基因水平关联数据结构。

图4示出了示例基因表型评分矩阵。

图5示出了示例方法。

图6示出了示例方法。

图7示出了基因表型评分矩阵数据结构中的所关注的基因的选择。

图8示出了将主成分分析(PCA)应用于基因表型评分矩阵的示例方法。

图9A-D示出了与用于鉴定相关基因的各种方法相关联的平均F1评分。

图10示出了示例操作环境。

图11示出了示例方法。

图12示出了示例方法。

图13示出了示例方法。

图14示出了示例方法。

具体实施方式

通过参考其中包含的特定实施例和实例的下述详细描述以及附图及其之前和之后的描述，可更容易地理解所公开的方法和组合物。

应当理解，所公开的方法和组合物不限于所描述的特定方法、方案和试剂，因为这些可能会变化。还应当理解，本文所使用的术语仅用于描述特定实施例的目的，并不旨在限制本发明的范围，所述本发明的范围仅受所附权利要求的限制。

必须注意，如在本文中和所附权利要求书中所使用的，单数形式“一个/一种(a/an)”和“所述(the)”包含复数指代物，除非上下文另有明确规定。因此，例如，提及“TCR”包含多个此类TCR，提及“右旋糖聚体(dextramer)”是指本领域技术人员已知的一种或多种右旋糖聚体及其等效物等。

术语“受试者”或“供体”可以指动物，如哺乳动物物种(优选地人)或禽类(例如，鸟)物种。更具体地，受试者或供体可以是脊椎动物，例如哺乳动物如小鼠、灵长类动物、猿或人。动物包含农场动物、运动动物和宠物。受试者或供体可以是健康的个体、具有症状或体征或被怀疑患有疾病或对疾病具有易感性的个体、或需要疗法或怀疑需要疗法的个体。在一些实施例中，受试者供体是人，如患有或怀疑患有癌症的人。

如本文所使用的，术语“条形码”通常是指可以与分子(例如，右旋糖聚体，细胞)连接以传达关于分子的信息的标记。例如,DNA条形码可以是与每个右旋糖聚体连接的多核苷酸序列，并且共同的测序条形码可以是在测序期间连接的多核苷酸序列。然后可以对条形码进行测序。多个序列上相同条形码的存在可以提供关于序列起点的信息。例如，条形码可以指示序列来自特定右旋糖聚体。条形码还可以指示序列来自特定细胞/右旋糖聚体组合。

如本文所使用的，术语“测序”或“测序仪”是指用于确定生物分子，例如核酸，如DNA或RNA的序列的许多技术中的任一种技术。示例性测序方法包含但不限于靶向测序、单分子实时测序、外显子测序、基于电子显微镜的测序、panel测序、晶体管介导的测序、直接测序、随机鸟枪法测序、桑格二脱氧终止测序、全基因组测序、通过杂交测序、焦磷酸测序、双链体测序、循环测序、单碱基延伸测序、固相测序、高通量测序、大规模平行信号测序、乳液PCR、低变性温度共扩增-PCR(COLD-PCR)、多重PCR、通过可逆染料终止子测序、配对末端测序、短期测序、核酸外切酶测序、通过连接测序、短读测序、单分子测序、边合成边测序、实时测序、反向终止子测序、纳米孔测序、454测序、Solexa基因组分析仪测序、SOLiD^TM测序、MS-PET测序和其组合。在一些实施例中，测序可以由基因分析仪，例如从因美纳公司(Illumina)或应用生物系统公司(Applied Biosystems)商购获得的基因分析仪进行。

“多核苷酸”、“核酸”、“核酸分子”或“寡核苷酸”是指通过核苷间键接合的核苷(包含脱氧核糖核苷、核糖核苷或其类似物)的线性聚合物。通常，多核苷酸包括至少三个核苷。寡核苷酸的大小的范围通常为从几个单体单元，例如3-4个单体单元到数百个单体单元。除非另有说明，否则每当多核苷酸由一系列字母，如“ATGCCTG”表示时，应当理解，核苷酸从左到右按5'→3'次序，并且“A”表示腺苷，“C”表示胞嘧啶，“G”表示鸟苷，并且“T”表示胸苷。如在本领域中标准的，字母A、C、G和T可以用于指碱基本身、核苷或包括碱基的核苷酸。

术语“DNA(脱氧核糖核酸)”是指包括脱氧核糖核苷的核苷酸链，所述脱氧核糖核苷各自包括四个核碱基之一，即腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)。术语“RNA(核糖核酸)”是指包括四种类型的核糖核苷的核苷酸链，所述核苷酸链各自包括四个核碱基之一，即A、尿嘧啶(U)、G和C。某些核苷酸对以互补方式彼此特异性结合(被称为互补碱基配对)。在DNA中，腺嘌呤(A)与胸腺嘧啶(T)配对，并且胞嘧啶(C)与鸟嘌呤(G)配对。在RNA中，腺嘌呤(A)与尿嘧啶(U)配对，并且胞嘧啶(C)与鸟嘌呤(G)配对。当第一核酸链与由与第一链中的核苷酸互补的核苷酸构成的第二核酸链结合时，两条链结合形成双链。如本文所使用的，“核酸测序数据”、“核酸测序信息”、“核酸序列”、“核苷酸序列”、“基因组序列”、“基因序列”，或“片段序列”或“核酸测序读段”表示指示核苷酸碱基(例如，腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶或尿嘧啶)在如DNA或RNA等核酸的分子(例如，全基因组、全转录组、外显子组、寡核苷酸、多核苷酸或片段)中的次序的任何信息或数据。应当理解，本教导设想了使用所有可用种类的技术、平台或科技获得的序列信息，包含但不限于：毛细管电泳、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸鉴定系统、焦磷酸测序、基于离子或pH的检测系统和基于电子签名的系统。

如本文所使用的，术语“遗传变体”或“变体”是指核苷酸序列，其中所述序列与群体中最普遍的序列不同，例如在本文所描述的SNP的情况下相差一个核苷酸。例如，核苷酸序列中的一些变异或取代改变密码子，使得编码不同的氨基酸，产生遗传变体多肽。术语“遗传变体”还可以指这样的多肽，其中在不改变所编码的多肽的氨基酸序列的位置上，序列不同于群体中最普遍的序列(即，保守性变化)。遗传变体多肽可以由风险单体型编码，由保护性单体型编码，或者可以由中性单体型编码。遗传变体多肽可与风险相关联，与保护相关联，或者可以为中性。

遗传变体的非限制性实例包含移码变体、终止密码子获得变体、起始密码子丢失变体、剪接受体变体、剪接供体变体、终止密码子丢失变体、框内插入缺失(inframeindel)、错义变体、剪接区变体、同义变体和拷贝数变体。拷贝数变体的非限制性类型包含缺失和重复。

“任选的”或“任选地”意指随后描述的事件、环境或材料可能或可能不发生或存在，并且所述描述包含其中事件、环境或材料发生或存在的情况，以及其中其不发生或不存在的情况。

贯穿本说明书的具体实施方式和权利要求书，单词“包括(comprise)”和单词的变体，如“包括(comprising和comprises)”，意指“包含但不限于(including but notlimited to)”，并且不旨在排除例如其它添加剂、成分、整数或步骤。具体地，在表述为包括一个或多个步骤或操作的方法中，具体设想每个步骤包括所列出的内容(除非所述步骤包含限制性术语，如“由…组成”)，这意味着每个步骤不旨在排除，例如未在步骤中列出的其它添加剂、成分、整数或步骤。

“示例性”意指“…的实例”并且不旨在传达优选的或理想的配置的指示。“如(suchas)”不是以限制性的意义使用，而是出于说明的目的。

范围在本文中可以表示为从“约”一个特定值和/或至“约”另一个特定值。当表达此类范围时，除非上下文另有具体指示，否则还具体考虑并认为公开的是从一个特定值和/或到另一个特定值的范围。类似地，当通过使用先行词“约”将值表示为近似值时，应当理解，除非上下文另有具体指示，否则所述特定值形成应被视为公开的另一个具体考虑的实施例。将进一步理解，除非上下文另有具体指示，否则每个范围的端点相对于另一端点，以及独立于另一端点都是显著的。最后，应理解，除非上下文另有具体指示，否则也具体考虑包含在明确公开范围内的所有个别值和值的子范围，并且应被视为公开的。无论在特定情况下是否明确公开了这些实施例中的一些或全部实施例，前述内容都适用。

如在图1中所示出的，公开了用于分析全基因组关联研究(GWAS)和/或全外显子组关联研究(ExWAS)的结果的方法100。方法100可以包括在步骤110处确定指示基因的变体与表型之间的关联的关联评分。方法100可以包括在步骤120处基于关联评分确定每个基因的指示每个基因与表型之间的代表性关联的基因水平关联评分。方法100可以包括在步骤130处基于基因水平关联评分生成基因表型评分矩阵。

在步骤110处，确定指示基因的变体与表型之间的关联的关联评分可以包括进行与GWAS和/或ExWAS相关联的统计学关联分析。一方面，进行的统计学关联分析是GWAS统计学分析(van der Sluis S等人,《PLOS遗传学(PLOS Genetics)》2013；9:e1003235；Visscher PM等人,《美国人类遗传学期刊(Am J Hum Genet)》2012；90:7)。在GWAS分析中，确定哪些基因或遗传变体与所关注的表型相关联。在一个方面，遗传变体数据从受试者的基因组测序获得，系统中含有所述受试者的遗传变体和表型数据。在另一个方面，遗传变体数据从受试者的外显子组(例如，全外显子组)测序获得，系统中含有所述受试者的遗传变体和表型数据。

在另一个方面，进行的统计学关联分析是ExWAS统计学分析(Majewski,J.等人,(2011).外显子组测序对您有什么作用？(What can exome sequencing do for you？)《医学遗传学杂志(J.Med.Genet.)》48,580-589)。ExWAS通过对基因组的功能区的探索天然地扩展来自全基因组关联研究的发现。ExWAS已被广泛用于剖析复杂疾病的遗传组构和定量性状(Lee,S.等人,(2014).罕见变体关联分析：研究设计和统计学检验(Rare-variantassociation analysis:study designs and statistical tests.)《美国人类遗传学杂志(Am.J.Hum.Genet.)》95,5-23)。外显子变体，特别是功能丧失变体，倾向于展示出最显著的效应大小，从而产生用于检测的最大功率。关于脂质性状的近期证据提供了支持，即罕见变体可以是血统特异性的(Lu,X.等人,(2017).外显子组芯片元分析鉴定了导致脂质水平和冠状动脉疾病的新型基因座和东亚特异性编码变体(Exome chip meta-analysisidentifies novel loci and East Asian–specific coding variants that contributeto lipid levels and coronary artery disease.)《自然遗传学》49,1722-1730.)。因此，检查跨不同血统组的外显子变体增强了新型基因座的鉴定。

一方面，GWAS和/或ExWAS的结果，统计学分析可以包括一个或多个汇总统计。在一实施例中，一个或多个汇总统计可以源自回归分析结果。回归分析可以包含例如线性回归、混合线性回归、多元线性回归、逻辑回归、多元逻辑回归、其组合等。一个或多个汇总统计可以被称为关联评分。关联评分指示变体与表型和/或基因与表型之间的关联水平。关联评分可以包含例如Z评分、基于费舍尔方法的统计、秩和统计、p值、其组合等。一方面，GWAS和ExWAS结果可以通过进行GWAS或ExWAS研究和进行统计学关联分析来确定，或者可以从公众可访问的网站、发布的补充材料或通过与研究者合作获得。

在一实施例中，源自全表型关联研究(PheWAS)统计学分析的数据(Denny JC等人,《自然生物技术(Nature Biotechnol)》2013；31:1102)可以经受一种或多种统计学技术以导出可以与所公开的方法和系统一起使用的数据。在PheWAS研究中，确定与一种或多种所关注的基因或遗传变体相关联的表型。在PheWAS中，可以鉴定和分析一种或多种具体遗传变体与一种或多种生理和/或临床结果和表型之间的关联。一方面，可以利用算法分析电子病历(EMR)和电子健康记录(EHR)数据。在另一个方面，可以分析在观察队列研究中收集的数据。源自PheWAS的数据通常不包含指示表型与变体，而非变体与表型的关联的关联评分。在一实施例中，可以将一种或多种统计学技术应用于PheWAS数据以导出指示变体与表型之间和/或基因与表型之间的关联水平的关联评分。如此源自PheWAS数据的关联评分可以与本文所描述的方法和系统一起使用。

不管是确定还是以其它方式获取的关联评分，都可以存储于变体表型关联数据结构200中，如在图2中所示出的。可以使用任何合适的数据结构。可以针对作为GWAS和/或ExWAS的一部分的每个表型生成变体表型关联数据结构200。变体表型关联数据结构200可以存储在计算装置(例如，存储器系统1010)的存储器内和/或在计算装置的存储器内操纵。变体表型关联数据结构200可以包括一列或多列和一行或多行，从而导致在行和列的交点处产生一个或多个单元。在一实施例中，变体表型关联数据结构200可以包括逻辑表。可以生成逻辑表，使得逻辑表包括多个逻辑行，每个所述逻辑行包含变体标识符以鉴定每个所述逻辑行，每个所述逻辑行对应于信息记录。可以生成逻辑表，使得逻辑表包括多个逻辑列，所述多个逻辑列与所述多个逻辑行相交以定义多个逻辑单元，每个所述逻辑列包含用于鉴定每个所述逻辑列的列标识符。多个逻辑单元中的每个逻辑单元可以包括与变体标识符相关联并且对应于列标识符的数据。列标识符可以包括“变体ID”、“基因ID”、“变体类型”和/或“关联评分”中的一者或多者。一方面，设想了另外的列标识符。例如，另外的关联评分列标识符可以用于支持多个关联评分。变体表型关联数据结构200可以包括每个基因的一行或多行，因为每个基因可以具有一个或多个变体。变体表型关联数据结构200的关联评分列指示评分指示变体与表型的关联的度量。例如，在变体表型关联数据结构200中，基因A的变体1A具有与通过举例表示为S1A,P1的表型1(P1)的关联评分。在一实施例中，S1A,P1可以是评分，如Z评分、基于费舍尔方法的统计、秩和统计、p值、其组合等。在一实施例中，评分可以源自回归分析的结果。回归分析可以包含例如线性回归、混合线性回归、多元线性回归、逻辑回归、多元逻辑回归、其组合等。在一实施例中，可以生成多个变体表型关联数据结构200,其中每种变体表型关联数据结构具有一个表型。

返回图1，方法100可以包括在步骤120处基于关联评分确定每个基因的指示每个基因与表型之间的代表性关联的基因水平关联评分。基因水平关联评分的确定可以包括确定给定基因的最高值(例如，最大值)或最低值(例如，最小值)的关联评分。变体表型关联数据结构200可以用于根据关联评分表示什么来确定给定基因的关联评分是最高或最低。在一实施例中，变体表型关联数据结构200包括多于一个关联评分列(例如,z评分和p值)。在此类实施例中，可以确定用于确定关于基因水平关联评分的关联评分。

基因水平关联评分可以存储在基因水平关联数据结构300中，如在图3中所示出的。可以使用任何合适的数据结构。基因水平关联数据结构300可以存储在计算装置(例如，存储器系统1010)的存储器内和/或在计算装置的存储器内操纵。基因水平关联数据结构300可以包括一列或多列和一行或多行，从而导致在行和列的交点处产生一个或多个单元。在一实施例中，基因水平关联数据结构300可以包括逻辑表。可以生成逻辑表，使得逻辑表包括多个逻辑行，每个所述逻辑行包含用于鉴定每个所述逻辑行的基因标识符，每个所述逻辑行对应于信息的记录。可以生成逻辑表，使得逻辑表包括一个或多个逻辑列，所述一个或多个逻辑列与所述多个逻辑行相交以定义多个逻辑单元，每个所述逻辑列包含用于鉴定每个所述逻辑列的列标识符。多个逻辑单元中的每个逻辑单元可以包括与基因标识符相关联并且对应于列标识符的数据。列标识符可以包括“基因ID”和“关联评分”中的一者或多者。一方面，设想了另外的列标识符。与变体表型关联数据结构200相比，基因水平关联数据结构300可以仅包括每个基因的一行，因为基因水平关联评分是与基因的一个变体相关联的代表性评分。基因水平关联数据结构300的关联评分列指示变体表型关联数据结构200中的每个基因的最大z值。可以为每个变体表型关联数据结构生成基因水平关联数据结构300。

返回图1，方法100可以包括在步骤130处基于基因水平关联评分生成基因表型评分矩阵。生成基因表型评分矩阵可以包括访问多个基因水平关联数据结构并将所述多个基因水平关联数据结构组装到基因表型评分矩阵中。基因水平关联数据结构可以存储在基因表型评分矩阵数据结构400中，如在图4中所示出的。可以使用任何合适的数据结构。基因表型评分矩阵数据结构400可以存储在计算装置(例如，存储器系统1010)的存储器内和/或在计算装置的存储器内操纵。基因表型评分矩阵数据结构400可以被配置成表示作为GWAS和/或ExWAS的一部分的每个基因和每个表型的基因水平关联评分。

基因表型评分矩阵数据结构400指示基因与表型之间的关联评分，并且可以用于作出推荐。例如，每个基因可以具有对应行，并且每个表型可以在基因表型评分矩阵数据结构400中具有对应列，并且任何给定基因与表型之间的关联评分可以通过对应于给定基因行和给定表型列的交点的基因表型评分矩阵数据结构400中的值来指示。基因表型评分矩阵数据结构400包含许多基因和表型，并且因此可以非常大。例如，如果10,000个基因和10,000表型均在基因表型评分矩阵数据结构400，则基因表型评分矩阵数据结构400可以具有10,000乘10,000的尺寸，远远超过用于人类精神处理的能力。如本文所描述的，如果基因表型评分矩阵数据结构400的大小减小，则处理可以更快速地并且以更少的资源进行。

基因表型评分矩阵数据结构400可以包括一列或多列和一行或多行，从而导致在行和列的交点处产生一个或多个单元。在一实施例中，基因表型评分矩阵数据结构400可以包括逻辑表。可以生成逻辑表，使得逻辑表包括多个逻辑行，每个所述逻辑行包含用于鉴定每个所述逻辑行的基因标识符，每个所述逻辑行对应于信息的记录。可以生成逻辑表，使得逻辑表包括多个逻辑列，所述多个逻辑列与所述多个逻辑行相交以定义多个逻辑单元，每个所述逻辑列包含用于鉴定每个所述逻辑列的列标识符。多个逻辑单元中的每个逻辑单元可以包括与基因标识符相关联并且对应于表型标识符的数据。列标识符可以包括“基因ID”、“表型1”、“表型2”和/或“表型3”中的一者或多者。一方面，设想了另外的列标识符，具体地，每个表型的一个列标识符。基因表型评分矩阵数据结构400可以包括每个基因的一行。基因表型评分矩阵数据结构400的表型N列指示行中的基因和列中的表型的基因水平评分，从而指示基因(通过变体的方式)与表型的关联的度量。例如，在基因表型评分矩阵数据结构400中，基因A具有与通过举例表示为SA,P1的表型1(P1)的关联评分。在一实施例中，可以生成单个基因表型评分矩阵数据结构400以表示GWAS和/或ExWAS的结果。

在一实施例中，可以使用一个或多个过滤器过滤基因表型评分矩阵以去除变体表型关联对。所述一个或多个过滤器可以包括基因映射过滤器、关联质量过滤器、连锁不平衡(LD)聚集、其组合等。基因映射过滤器可以过滤掉排除未映射到蛋白质编码基因或映射到基因间区的变体。关联质量过滤器可以过滤掉细胞计数小于最小阈值的变体表型关联对。最小阈值可以是例如来自约10至约20的最小阈值和/或包含约10至约20的最小阈值(例如，细胞计数<10)。可以在阈值下应用连锁不平衡(LD)聚集(例如，r²＝0.5)以去除具有经考虑的每个表型的指数变体的高LD的变体。阈值可以是例如来自约0至约1的阈值和/或包含约0至约1的阈值。在一实施例中，较高阈值可以导致去除高LD中的变体。对于给定表型，指数变体是在LD聚集内具有最显著的统计学关联(例如，最小P值)的变体。

在一实施例中，可以生成一个或多个基因表型评分矩阵(GPSM)。

“最佳|Z|GPSM(X_z)”基于注释基因(i)和表型(j)的所有变体之间关联的Z评分的最大绝对值来定义基因(i)表型(j)评分。

在X_z沿着行和列轴线分别应用分位数归一化后，“归一化最佳|Z|GPSM(X_z,N)”X_z通过对相同元素的归一化值求平均值来重新分配每个元素的值。

“最佳-log10(Pval)GPSM(X_p)”基于注释基因(i)和表型(j)的所有变体之间关联-log10(Pval)的Z评分的最大值来定义基因(i)表型(j)评分。

在X_p沿着行和列轴线分别应用分位数归一化后，“归一化最佳-log10(Pval)(X_p,N)”X_p通过对相同元素的归一化值求平均值来重新分配每个元素的值。

一个或多个基因表型评分矩阵可以存储为一个或多个基因表型评分矩阵数据结构。

图5示出了用于生成基因表型评分矩阵的数据流。生成多个变体表型关联数据结构200，每个表型一个。分析变体表型关联数据结构200以确定每个变体表型关联数据结构200中每个基因的基因水平关联评分，并且用于生成多个基因水平关联评分数据结构300。最后，多个基因水平关联评分数据结构300用于生成基因表型评分矩阵数据结构400，所述基因表型评分矩阵数据结构表示每个基因和每个表型的基因水平关联评分。

一旦生成，基因表型评分矩阵数据结构400就可以用于确定一个或多个基因之间的独特关联。如在图6中所示出的，公开了用于分析基因表型评分矩阵数据结构的方法600。方法600可以包括在步骤610处接收所关注的基因的选择。方法600可以包括在步骤620处基于选择在基因表型评分矩阵中确定所关注的基因的基因水平关联评分。方法600可以包括在步骤630处在基因表型评分矩阵中确定与和所关注的基因的基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因。方法600可以包括在步骤640处将一个或多个基因中的基因鉴定为与所关注的基因相关联的基因。

在步骤610处，接收所关注的基因的选择可以包括例如从用户接收基因标识符作为输入。可以向用户呈现基因表型评分矩阵中存在的基因的列表作为选择选择。一方面，可以接收对多个所关注的基因的选择。例如，用户可以选择或以其它方式输入“基因B”的基因标识符。

在620处，基于选择，在基因表型评分矩阵中确定所关注的基因的基因水平关联评分可以包括在基因表型评分矩阵中确定含有所关注的基因的基因水平关联评分的所关注的基因行。例如，所关注的基因行可以通过搜索基因表型评分矩阵来确定基因标识符，所述基因标识符与在步骤610处选择的所关注的基因相匹配。可以使用用于搜索基因表型评分矩阵的任何合适的技术。如在图7中所示出的，可以搜索基因表型评分矩阵数据结构400，以在步骤610处接收基因标识符。与基因标识符“基因B”的选择相关联的所关注的基因行指示为“x_GOI”。所关注的基因的行可以用于确定基因B和作为GWAS和/或ExWAS的一部分的任何表型的基因水平关联评分。

返回图6，方法600可以包括在步骤630处在基因表型评分矩阵中确定与和所关注的基因的基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因。在一实施例中，在基因表型评分矩阵中确定与和所关注的基因的基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因可以包括在基因表型评分矩阵中确定含有与所关注的基因行中的基因水平关联评分相似的基因水平关联评分的一行或多行。在一实施例中，基因表型评分矩阵的行的值可以被载体化，并且可以确定所关注的基因行的载体与基因表型评分矩阵的其它行的每个载体之间的差。可以应用一种或多种技术来确定行之间的相似性，例如，一种或多种相关技术(例如，皮尔逊r(Pearson r)、斯皮尔曼(Spearman)、Kendall's(肯德尔))、流式Fisher算法、一种或多种集群或邻居图技术(例如,PCA+集群、t-SNE、UMAP)、其组合等。

一种用于确定x_GOI与一个或多个其它行(x_i)中的每一行之间的相似性的通用框架为：

其中d_i是指示基因i与所关注的基因之间的相似性的统计值，并且R是基于与所关注的基因的相似性的n-1基因的排序。

在一实施例中，主成分分析(PCA)方法可以用于确定与所关注的基因行相似的一行或多行。可以将加权的PCA应用于基因表型评分矩阵。每个基因可以投影到顶部/第一个主成分(PC1)上。候选基因可以基于其与所关注的基因的PC1差异(例如,PC1差异越小，与所关注的基因越相似)进行排序。

如在图8中所指示的，在一实施例中，基因表型评分矩阵810可以在应用PCA之前减少。大基因表型评分矩阵810可能存在若干技术问题。基因表型评分矩阵810可能需要大量的存储器以用于存储和处理。将基因表型评分矩阵810加载到存储器中也需要很长时间，如当基因表型评分矩阵810在分布式环境(例如，互联网)中使用时。矩阵归约算法可以用于减小大基因表型评分矩阵810的大小。可以根据多种技术生成减少的基因表型评分矩阵(也称为基因表型评分子矩阵820)。在一实施例中，可以使用例如矩阵分解算法，如单值分解(SVD)，减少基因表型评分矩阵810的大小。

在一实施例中，可以通过首先将阈值应用于基因表型评分矩阵810中的基因水平关联评分来生成基因表型评分子矩阵820。可以将含有不满足阈值的基因水平关联评分的任何列从基因表型评分矩阵810中去除以生成基因表型评分子矩阵820。

如上文所描述的，基因表型评分矩阵810(或子矩阵820)的每一行可以被视为载体。主成分分析(PCA)可以用于确定载体之间的相似性。PCA涉及将许多(可能)相关变量转换成(较小)数目的不相关变量称为主成分的数学程序。第一个主成分尽可能地说明数据的可变性，并且每个后续成分尽可能地说明剩余的可变性。

可以确定加权的子矩阵830，并将PCA应用于加权的子矩阵830。结果是投影(PC1)840。投影840可以用于确定任何基因载体(行)与所关注的基因载体(所关注的基因行)之间的相似性。投影840中的任何给定载体与所关注的基因850的载体之间的差可以用于对任何给定基因与所关注的基因的关联性进行排序。例如，基因载体860在所关注的基因850的载体之间具有最小差异。因此，与基因载体860相关联的基因可以被排序为最类似于所关注的基因的基因。

在一实施例中，本发明的方法可以使用加权的PCA方法对基因-基因相似性进行排序。公开了输入四个变量以计算所关注的基因(g)和基因表型评分矩阵(X)中表示的其它n-1候选基因之间的成对相似性的功能f(X,g,α,β)。此处α和β是确定计算结果并且可以基于如本文所描述的参考数据集进行优化的超参数。

鉴于X的n行各自表示一个基因并且p列各自表示表型，因此x_i,j表示j^th表型的i^th基因的评分。x_i是含有每个表型的基因i的p评分的p-载体并且x_g表示所关注的基因(g)。基于以下所述步骤计算x_i与x_g之间的相似性。

首先，可以基于g和α提取子矩阵M。对于给定X，存在n×p基因表型评分，并且α是设定预定阈值的百分位数值。然后，使用此类阈值来选择g的高评分表型。例如，如果

是X中所有值的第75个百分位数，则L是与表型(列)相对应的k指数列表，其中g评分高于

从X中提取子矩阵M＝{X_j}_j∈L以用于下游计算。M具有n行和k列。

然后，可以基于β来确定权重系数w和加权的子矩阵N的矢量。使用提取的子矩阵M＝{X_j}_j∈L，X_j表示含有来自包含g的每个基因的表型j的n评分的j^th列。k-矢量m_g表示所选k高评分表型的g的评分。为了实现不同表型的评分的可调整加权，通过其中预定β≥0的

来计算每个表型j的权重系数w_j∈[0,1]。因此，加权的子矩阵N＝{w_j·X_j}_j∈L。

可以确定g与候选基因之间的第一主成分(PC1)的数值差异。在获得加权的子矩阵N(n×p)之后，N可以基于每列的平均值居中，计算协方差矩阵C，并且通过对角化获得特征矩阵V(p×p)。在顶部/第一主成分上的所有n基因的数值投影通过以下计算：

Y_PC1＝NV₁

其中V₁(p×1)是特征矩阵V的第一列，Y_PC1(n×1)是其中y_i,PC1是i^th基因的PC1评分的行。g和剩余的n-1基因之间的PC1评分的差异可以通过d_i,PC1＝y_i,PC1-y_g,PC1来确定。

可以校正来自经验无效模拟的基因特异性“偏差”。各种因素，如基因大小和对突变的耐受性，可以使候选基因的PC1评分和随后的d_i,PC1产生偏差，不考虑所选的所关注的基因(g)。为了补偿此类偏差，可以基于输入X、α和β确定每个基因i的校正因子b_i。具体地，随机基因g_s首先通过来自X的表型置换模拟，表示为行矢量x_gs(1×p)。使用g_s作为所关注的基因，计算步骤1-3中所描述的所有n个基因的d_i,PC1。可以对另外999个随机模拟的g_s重复计算，并获得平均值

随后，可以将基因i的校正因子b_i计算为

然后可以基于候选基因与g的相似性对其进行排序。对于给定的X,g,α,β集，可以基于n-1个基因与g之间的校正PC1差异以升序对其进行排序，其中对于基因i，

可以通过计算针对10,000个模拟基因的无效分布的Z评分来进一步估计每个

的显著性。

返回图6，方法600可以包括在步骤640处将一个或多个基因中的基因鉴定为与所关注的基因相关联的基因。在一实施例中，将一个活多个基因的基因鉴定为与所关注的基因相关联的基因可以包括确定与一个或多个基因载体相关联的基因标识符，所述基因载体根据与所关注的基因载体的关联性/相似性来排序。所得基因标识符列表可以输出到输出装置，如显示装置。

在一些方面，可以确定鉴定为与所关注的基因相关联的一个或多个基因处于与所关注的基因相同的生物通路中。例如，所鉴定的基因可以在相同的代谢通路、信号传导通路或遗传通路中发挥作用。一旦确定一个或多个所鉴定的基因可以与所关注的基因相关联，就可以改变一个或多个所鉴定基因的表达以确定改变的表达对所关注的基因可能具有的影响。可替代的，可以改变所关注的基因的表达，以确定其对一个或多个所鉴定的基因的影响。改变表达可以包含增加表达或减少表达。在一些方面，减少表达可以包括完全消除所有基因表达，如敲除基因。

在一些方面，确定一个或多个所鉴定的基因处于特定的生物通路中。例如，如果确定一个或多个所鉴定的基因处于疾病通路中，则可以靶向一个或多个所鉴定的基因以帮助治疗疾病。在一些方面，一个或多个所鉴定的基因的表达增加可以对确定为其一部分的通路/疾病具有积极影响。因此，直接或间接导致一个或多个所鉴定基因的表达增加的治疗剂可以用于提供治疗效果，包含治疗疾病。在一些方面，治疗剂可以是但不限于化学化合物、肽、蛋白质、抗体或核酸。

在一些方面，一个或多个所鉴定的基因可以与所关注的基因和具体表型集相关联。因此，如果确定受试者具有与特定疾病或病状相关联的具体表型集，则可以靶向所述一个或多个所鉴定的基因以帮助至少治疗所述具体表型集。在一些方面，这些称为表型特异性治疗。公开了包括向受试者施用治疗剂的方法，其中所述受试者已确定具有与靶基因相关联的具体的表型集，其中所述治疗剂改变与所述靶基因相关联的一个或多个基因的表达，并且其中与所述靶基因相关联的一个或多个基因的改变的表达向所述受试者提供治疗效果。可以使用本文所公开的方法确定与靶基因相关联的一个或多个基因。在一些方面，改变的表达是与靶基因相关联的一个或多个基因的表达增加，其中表达增加提供治疗效果。在一些方面，改变的表达是与靶基因相关联的一个或多个基因的表达减少，其中表达减少提供治疗效果。例如，在患有心力衰竭的受试者中，具体表型集可以是但不限于肺充血、肥胖、肌无力和高血压。因此，所公开的方法可以用于鉴定与已知涉及这些心力衰竭表型的所关注的基因相关联的一个或多个基因。在一些方面，一个或多个所鉴定的基因可以用于治疗具体的心力衰竭表型或向所述具体的心力衰竭表型提供治疗效果。在一些方面，不示出那些具体表型的患有心力衰竭的受试者将不用靶向与具体表型集相关联的一个或多个所鉴定的基因的治疗剂治疗。

在一些方面，迄今未表征的所关注的基因的功能可以由在确定/已知涉及众所周知的生物机制中的此类基因时与其相似的基因推断。因此，已建立的实验测定可以用于测试关于所关注的基因的功能的假设。例如，如果已知调节脂质转运的多个基因与所关注的基因相关联，则可以在所关注的基因的表达改变的细胞中进行测量脂质转运的体外测定。

在一些方面，由于对某些表型/病状集的具体治疗兴趣，选择所关注的基因。如果与所关注的基因相关联的一个或多个所鉴定的基因是现有治疗剂的分子靶标，则这些所鉴定的基因/现有治疗靶标与所关注的基因之间的已建立的连接可以激励现有药物的再利用。此处，现有治疗剂可以是抗体、小分子化合物、mRNA分子或其它生物制剂。

在一些方面，所关注的基因旨在作为某些模型生物体，例如小家鼠(Musmusculus)和斑马鱼(Danio rerio)中的敲除靶标，但所选生物体中不存在所关注的基因的同源物。如果与所关注的基因相关联的一个或多个所鉴定基因的同源物存在于所选生物体中，则所公开的方法所强调的连接可以提出可替代的建模靶标。

在一些方面，由于各种原因，可用于治疗干预的所关注的基因可能不适合调节。在此类情况下，通过所公开的方法鉴定的相似的相关基因可以是适合治疗操纵的更有吸引力的靶标。

在一些方面，可以将一组所鉴定的基因连同所关注的基因一起作为基因集处理。源自基因组关联研究的所得基因集可以用作基因集富集分析的输入数据集以分析基因表达数据。

在一些方面，所关注的基因可以基于通过所公开的方法确定的连接基因的知识来诊断某个表型/疾病，并且因此有利于发现已知病状的新基因。

在一些方面，所关注的基因中的遗传变体和通过所公开的方法确定的其它相关基因可以共同地告知药物(药物基因组学)的功效。因此，鉴定相关基因可以有助于为各种研究提供信息。

使用本文所公开的方法，生成来自4,273个表型的全外显子组关联分析的汇总统计的基因表型评分矩阵X。使用来自英国生物样本库(UK Biobank)的具有欧洲血统的150,000个个体的全外显子组序列及其对应的电子健康记录进行关联分析。

使用ACAN、PCSK9和LRP5作为所关注的基因(GOI)，所公开的方法基于与GOI的预测相似性对19,012个基因进行排序。下表列出了每个GOI排序前20的候选基因。

为了产生含有与所选所关注的基因相关的基因列表的参考数据集(g)，从通路共享(www.pathwaycommons.org)提取人通路注释，并且从七个数据库-Reactome、NCI通路相互作用数据库、PANTHER、INOH、NetPath、PathBank和虚拟代谢人编译原始数据。在归一化基因同一性之后，编译3,826个通路，共同覆盖10,814个基因。对于每个所关注的基因(g)，其所属的所有通路的结合被用作相关基因R_g的最终列表。

当给定所关注的基因(g)时，为了检查α和β的不同值对所公开的方法鉴定高度相关的基因的能力的影响，比较了10,814个基因的排序前100的候选者(T¹⁰⁰))，并计算了在α和β范围内的平均F1评分

具体地，

其中对于每个所关注的基因(g)

另外地，使用以下方法确定高度相关的基因：皮尔逊相关性、斯皮尔曼相关性和目前公开的方法。基于来自每种方法的排序前100的候选者，通过将排序前100的候选者与对应参考集进行比较来计算F1评分，并且随后计算10,814个GOI的F1评分的平均值。对于排序方法(随机选择、皮尔逊相关性、斯皮尔曼相关性和目前公开的方法)中的每一个排序方法，针对从公开的生物通路编译的参考集和其成员彼此之间没有生物连接的三个模拟参考集计算平均F1评分。如在图9A-D中所示出的，模拟参考集1(图9B)和模拟参考集2(图9C)中的相关基因列表的平均大小为489，其与生物参考集(图9A)中的相关基因列表的平均大小相当。如在图9D中所示出的，模拟参考集3中的相关基因列表的平均大小为5,000。如在图9A-D中所示出的，平均而言，对于给定GOI，根据本发明的方法的排序前100的候选者包含的通路成员比基于当前参照集的两种相关方法(以及随机选择)都多。对于从前20名和前50名候选者计算的平均F1评分，类似的趋势是一致的。这些结果证明，通常被称为通路的生物相关基因可以从在样品大小和表型多样性两者中具有足够规模的人类遗传关联结果进行不可知的映射。然而，从GWAS/ExWAS关联结果鉴定这些相关基因需要适合于这些类型的数据的定制方法，所述类型的数据可能是嘈杂且不完整的。如在图9A中所示出的，与目前所公开的方法相比，如皮尔逊或斯皮尔曼等经典相关方法表现不佳。基于当前参考集，使用皮尔逊相关性或斯皮尔曼相关性鉴定相关基因至所关注的基因与随机选择相当或更差，从而破坏了练习的目标。因此，所公开的方法代表了对用于鉴定基因之间的生物学显著相似性的现有技术的技术改进。此类改进直接影响可以基于基因和/或生物通路相似性向受试者施用的治疗性处理。

为了突出本发明的方法在从关联中提取有意义的生物关系时尤其更好，还针对在没有任何生物基础的情况下随机合成的三个模拟参考集计算每种排序方法的10,814个GOI的平均F1评分。如在图9B-D中所示出的，本发明的方法与其它相关方法相当，并且针对在没有任何生物基础的情况下随机合成的三个模拟参考集进行随机选择。

图10是描绘环境1000的框图，所述环境包括通过网络1004连接的计算装置1001和服务器1002的非限制性实例。一方面，可以在如本文所描述的计算装置上执行任何所描述的方法的一些步骤或所有步骤。计算装置1001可以包括一个或多个计算机，所述计算机被配置成存储关联数据1003(例如，GWAS和/或ExWAS关联结果、变体表型关联数据结构、基因水平关联评分数据结构、基因表型评分矩阵数据结构等)、相似性模块1005(例如，被配置成用于执行所公开的方法中的任何方法的软件)等中的一或多者。服务器1402可以包括被配置成存储另外的关联数据1003的一个或多个计算机。多个服务器1002可以通过网络1004与计算装置1001通信。在一实施例中，服务器1002可以包括由GWAS和/或ExWAS生成的数据的储存库。

计算装置1001和服务器1002可以是数字计算机，其就硬件架构来说通常包含处理器1008、存储器系统1010、输入/输出(I/O)接口1012和网络接口1014。这些组件(1008、1010、1012和1014)通过本地接口1016通信地耦接。本地接口1016可以是例如但不限于如本领域已知的一个或多个总线或其它有线或无线连接。本地接口1016可以具有实现通信的另外的元素(其为了简单起见而被省略)，如控制器、缓冲器(缓存)、驱动器、中继器和接收器。进一步地，本地接口可以包含用于实现前述组件之间的适当通信的地址、控制和/或数据连接。

处理器1008可以是用于执行特别是存储在存储器系统1010中的软件的硬件装置。处理器1008可以是任何定制或可商购获得的处理器、中央处理器(CPU)、与计算装置1001和服务器1002相关联的若干个处理器中的辅助处理器、基于半导体的微处理器(呈微芯片或芯片集的形式)，或者通常是用于执行软件指令的任何装置。当计算装置1001和/或服务器1002正在操作时，处理器1008可以被配置成执行存储在存储器系统1010内的软件，以与存储器系统1010进行数据通信，以及根据软件一般控制计算装置1001和服务器1002的操作。

I/O接口1012可以用于从一个或多个装置或组件接收用户输入和/或将系统输出提供到一个或多个装置或组件。用户输入可以通过例如键盘和/或鼠标提供。系统输出可以通过显示器装置和打印机(未示出)提供。I/O接口1012可以包含例如串行端口、并行端口、小型计算机系统接口(SCSI)、红外(IR)接口、射频(RF)接口和/或通用串行总线(USB)接口。

网络接口1014可以用于在网络1004上从计算装置1001和/或服务器1002发送和接收。网络接口1014可以包含例如10BaseT以太网适配器、100BaseT以太网适配器、LAN PHY以太网适配器、令牌环适配器、无线网络适配器(例如，WiFi、蜂窝、卫星)或任何其它合适的网络接口装置。网络接口1014可以包含用以在网络1004上实现适当通信的地址、控制和/或数据连接。

存储器系统1010可以包含易失性存储器元素(例如，随机存取存储器(RAM，如DRAM、SRAM、SDRAM等))和非易失性存储器元素(例如，ROM、硬盘驱动器、磁带、CDROM、DVDROM等)中的任一个或组合。此外，存储器系统1010可以并入电子、磁性、光学和/或其它类型的存储介质。注意，存储器系统1010可以具有分布式架构，其中各种组件彼此远程定位，但可以由处理器1008访问。

存储器系统1010中的软件可以包含一个或多个软件程序，所述一个或多个软件程序中的每一个包括用于实现逻辑功能的可执行指令的有序列表。在图10的实例中，计算装置1001的存储器系统1010中的软件可以包括关联数据1003、相似性模块1005和合适的操作系统(O/S)1018。在图10的实例中，服务器1002的存储器系统1010中的软件可以包括关联数据1003和合适的操作系统(O/S)1018。操作系统1018基本上控制其它计算机程序的执行，并提供调度、输入-输出控制、文件和数据管理、存储器管理以及通信控制和相关服务。

关联数据1003(例如，基因表型评分矩阵数据结构400)可以表示为多维阵列(例如，一维阵列的阵列)。当处理(例如，分拣)给定矩阵元素(例如，关联评分)时，其值和相关信息，或对其值和相关信息的指针移动到各种存储器位置和阵列寄存器并且从各种存储器位置和阵列寄存器移动。如本文所使用的，阵列注册或简单地注册是能够存储一个或多个位或数据字的存储器电路。矩阵数据(其包含矩阵的矩阵元素)以各种矩阵存储格式中的任一个矩阵存储格式存储在存储器系统1010中；即，用于将矩阵的零矩阵元素和/或非零矩阵元素存储在存储器系统1010中以及用于定位此类存储的矩阵元素的格式。此类矩阵存储格式的实例包含压缩稀疏行(CSR)格式、压缩稀疏列(CSC)格式和坐标格式。在CSR格式中，矩阵元素数据和列索引以阵列格式存储为对。另一阵列存储每一列的行开始地址；这些指针可以用于查找存储行的存储器位置。在CSC格式中，矩阵元素数据值和行索引以阵列格式存储为对。另一阵列存储每一行的列开始地址。坐标格式以阵列格式一起存储与矩阵元素有关的数据，此类相关数据包含矩阵元素数据值、行索引和列索引。以此类方式存储关联数据(例如，基因表型评分矩阵数据结构400)表示偏离了传统GWAS、ExWAS和/或PheWAS关联数据是如何存储的。此类储存的直接结果是增加的处理速度和效率，这表示与用于评估基因相似性的现有技术相比有所改进。

出于说明的目的，应用程序和其它可执行程序组件如操作系统1018在本文中以离散块展示，尽管认识到此类程序和组件可以在不同时间驻留在计算装置1001和/或服务器1002的不同存储组件中。相似性模块1005的实施方案可以存储在某种形式的计算机可读介质上或跨某种形式的计算机可读介质传输。所公开的任何方法均可由计算机可读介质上包含的计算机可读指令来执行。计算机可读介质可以是可由计算机存取的任何可用介质。举例而言并且不意味着限制，计算机可读介质可包括“计算机存储介质”和“通信介质”。“计算机存储介质”可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。示例性计算机存储介质可以包括RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其它光存储器、磁带盒、磁带、磁盘存储器或其它磁存储装置，或可用于存储所需信息并且可由计算机访问的任何其它介质。

在一实施例中，相似性模块1005可以被配置成执行基因相似性分析操作的一些操作或全部操作，并且可以在执行后处理之前将中间结果存储到存储器系统1010以生成输出矢量(例如，与所关注的基因相关联、相关、类似等的基因)。也就是说，系统1000接收或以其它方式确定作为相似性模块1005的输入而提供的所关注的基因(或基因)的初始输入矢量。另外，系统1000可以通过相似性模块1005生成、检索或以其它方式确定变体表型关联数据结构、基因水平关联评分数据结构和/或基因表型评分矩阵数据结构(关联数据1003)。相似性模块1005包括对输入矢量和基因表型评分矩阵数据结构进行操作以执行基因相似性分析操作的逻辑，所述基因相似性分析操作涉及矩阵矢量操作的迭代以鉴定与输入矢量中指定的基因(或基因)相关的基因表型评分矩阵数据结构中的基因。

应当理解，输入矢量可以包括任何数目的基因，并且一般可以在1个基因到数百个基因或数千个基因的范围内。在一些说明性实施例中，输入矢量可以是共同包括N*M个输入矩阵的多个输入矢量中的一个输入矢量。例如，N*M个输入矩阵的每个输入矢量可以在基因相似性分析操作期间作为单独的矩阵矢量操作单独地处理。基因表型评分矩阵数据结构可以表示N*N个正方形矩阵，其可以包括数百个或数千个基因和/或表型及其评分。

相似性模块1005可能需要多次迭代来进行基因相似性分析操作。例如，概念分析操作可以利用矩阵矢量操作的多次迭代来实现收敛结果，尽管可以使用更多或更少的迭代。在基因表型评分矩阵数据结构代表至多数百个或数千个基因、表型和评分并且输入矢量代表潜在的数百个或数千个基因的情况下，进行这些多次迭代所需的处理资源是相当大量的。

由相似性模块1005生成的结果包括一个或多个输出矢量，所述一个或多个输出矢量指定与输入矢量中的基因相关的基因表型评分矩阵数据结构中的基因。一个或多个输出矢量中的每个非零值指示相关基因。值本身指示基因之间的关系的强度。结果可以存储在存储器系统1010中，并且由于潜在大规模输入矩阵和矢量，结果可以非常大。

作为后处理的一部分，相似性模块1005检索存储在存储器系统1010中的输出矢量结果，并对输出矢量结果进行排序操作。排序操作基本上根据输出矢量中的强度值对基因进行排序，使得排序最高的基因排序高于其它基因。相似性模块1005然后输出最终N元素输出矢量，从而表示与所关注的基因相关的基因的排序列表。

在一实施例中，相似性模块1005可以被配置成全部或部分地执行方法1100，如在图11中所示出的。方法1100可以由单个计算装置、多个电子装置等全部或部分地执行。方法1100可以包括在1110处，对于多个表型中的每个表型，确定指示多个基因中的每个基因的至少一个变体与所述多个表型中的表型之间的关联的关联评分。关联评分可以指示所述至少一个变体与所述表型相关联的可能性。关联评分可以从GWAS和/或ExWAS数据确定。关联评分可以包括Z评分、基于费舍尔方法的统计、秩和统计、p值或其组合中的一者或多者。关联评分可以源自GWAS和/或ExWAS数据的回归分析。

方法1100可以包括在1120处，对于所述多个基因中的每个基因，基于所述关联评分确定指示所述多个基因中的每个基因与所述多个表型中的每个表型之间的代表性关联的基因水平关联评分。确定基因水平关联评分可以包括对于基因，确定与所述表型相关联的一个或多个变体，对于所述一个或多个变体中的每个变体，确定关联评分；以及基于所述关联评分确定所述基因的所述基因水平关联评分。基于所述关联评分确定所述基因的所述基因水平关联评分可以包括将具有最高值的所述关联评分确定为基因水平关联评分，或将所述关联评分的平均值确定为所述基因水平关联评分。

方法1100可以包括在1130处，基于所述基因水平关联评分生成基因表型评分矩阵，其中对于所述多个基因中的每个基因，所述基因表型评分矩阵包括所述多个表型中的每个表型的所述基因水平关联评分。

方法1100可以包括在1140处接收所关注的基因的选择。接收所关注的基因的选择可以包括接收与所述所关注的基因相关联的基因标识符。

方法1100可以包括在1150处，基于所述选择，在所述基因表型评分矩阵中确定所述所关注的基因的基因水平关联评分。基于所述选择在所述基因表型评分矩阵中确定所述所关注的基因行可以包括在所述基因表型评分矩阵中确定包括与所述所关注的基因相关联的所述基因标识符的行。

方法1100可以包括在1160处，在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因。在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因可以包括确定所述所关注的基因的汇总关联评分与所述基因表型评分矩阵中的一个或多个其它基因的汇总关联评分之间的成对相似性。在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因可以包括基于所述基因表型评分矩阵生成减少的基因表型评分矩阵；对所述减少的基因表型评分矩阵进行加权；将主成分分析(PCA)程序应用于经加权的减少的基因表型评分矩阵；以及基于所述PCA程序对所述一个或多个基因与所述所关注的基因的关联性进行排序。

方法1100可以包括在1170处将一个或多个基因中的基因鉴定为与所关注的基因相关联的基因。将所述一个或多个基因中的基因鉴定为与所述所关注的基因相关联的所述基因可以包括基于排序的关联性从所述一个或多个基因鉴定与所述所关注的基因相关联的所述多个基因。

方法1100可以进一步包括生成变体表型关联数据结构，所述变体表型关联数据结构包括针对所述多个基因中的每个基因的所述至少一个变体和所述至少一个变体的所述关联评分。

方法1100可以进一步包括过滤所述变体。过滤所述变体可以包括以下中的一项或多项：排除不映射到蛋白质编码基因的一个或多个变体；排除映射到基因间区的一个或多个变体；排除低于最小细胞计数的一个或多个变体；或排除与超过阈值的连锁不平衡(LD)相关联的一个或多个变体。

方法1100可以进一步包括生成基因表型评分矩阵数据结构。生成所述基因表型评分矩阵数据结构可以包括生成逻辑表，其中所述逻辑表包括：多个逻辑行，每个所述逻辑行包含用于鉴定每个所述逻辑行的基因标识符，每个所述逻辑行对应于信息的记录；多个逻辑列，所述多个逻辑列与所述多个逻辑行相交以定义多个逻辑单元，每个所述逻辑列包含用于鉴定每个所述逻辑列的表型标识符，并且其中所述多个逻辑单元中的每个逻辑单元包括汇总关联评分。

与所述所关注的基因相关联的所述基因可以与一个或多个生物通路相关联。所述一个或多个生物通路可以是信号传导通路、遗传通路和/或代谢通路。可以改变与所述所关注的基因相关联的所述基因的表达。

方法1100可以进一步包括确定与所述所关注的基因相关联的所述基因的功能，以及进行实验以评估所述所关注的基因是否与所述功能相关联。

方法1100可以进一步包括：确定与所述所关注的基因相关联的所述基因是治疗剂的分子靶标，以及进行实验以评估所述治疗剂是否与和所述所关注的基因相关的病状相关联。

所述所关注的基因可以包括生物体中的敲除靶标，并且方法1100可以进一步包括确定第一生物体中不存在所述敲除靶标；确定与所述第一生物体中存在的所述所关注的基因相关联的基因的同源物；以及利用所述同源物作为所述敲除靶标。

方法1100可以进一步包括确定治疗剂对所述所关注的基因的调节与负效应相关联，以及进行实验以评估所述治疗剂对与所述所关注的基因相关联的所述基因的调节是否与所述负效应相关联。

方法1100可以进一步包括基于所述所关注的基因和与所述所关注的基因相关联的所述基因生成基因集，以及基于所述基因集进行富集分析以分析基因表达数据。

方法1100可以进一步包括确定与所述所关注的基因相关联的所述基因与表型相关联，以及进行实验以评估所述所关注的基因是否与所述表型相关联。

方法1100可以进一步包括确定所述所关注的基因和与所述所关注的基因相关联的所述基因的多个变体，以及基于所述多个变体进行实验以评估治疗剂的功效。

在一实施例中，相似性模块1005可以被配置成全部或部分地执行方法1200，如在图12中所示出的。方法1200可以由单个计算装置、多个电子装置等全部或部分地执行。方法1200可以包括在1210处，对于多个表型中的每个表型，确定指示多个基因中的每个基因的至少一个变体与所述多个表型中的表型之间的关联的关联评分。关联评分可以指示所述至少一个变体与所述表型相关联的可能性。关联评分可以从GWAS和/或ExWAS数据确定。关联评分可以包括Z评分、基于费舍尔方法的统计、秩和统计、p值或其组合中的一者或多者。关联评分可以源自GWAS和/或ExWAS数据的回归分析。

方法1200可以包括在1220处，对于所述多个基因中的每个基因，基于所述关联评分确定指示所述多个基因中的每个基因与所述多个表型中的每个表型之间的代表性关联的基因水平关联评分。确定基因水平关联评分可以包括对于基因，确定与所述表型相关联的一个或多个变体，对于所述一个或多个变体中的每个变体，确定关联评分；以及基于所述关联评分确定所述基因的所述基因水平关联评分。基于所述关联评分确定所述基因的所述基因水平关联评分可以包括将具有最高值的所述关联评分确定为基因水平关联评分，或将所述关联评分的平均值确定为所述基因水平关联评分。

方法1200可以包括在1230处，基于所述基因水平关联评分生成基因表型评分矩阵，其中对于所述多个基因中的每个基因，所述基因表型评分矩阵包括所述多个表型中的每个表型的所述基因水平关联评分。

方法1200可以进一步包括生成变体表型关联数据结构，所述变体表型关联数据结构包括针对所述多个基因中的每个基因的所述至少一个变体和所述至少一个变体的所述关联评分。

方法1200可以进一步包括过滤所述变体。过滤所述变体可以包括以下中的一项或多项：排除不映射到蛋白质编码基因的一个或多个变体；排除映射到基因间区的一个或多个变体；排除低于最小细胞计数的一个或多个变体；或排除与超过阈值的连锁不平衡(LD)相关联的一个或多个变体。

方法1200可以进一步包括生成基因表型评分矩阵数据结构。生成所述基因表型评分矩阵数据结构可以包括生成逻辑表，其中所述逻辑表包括：多个逻辑行，每个所述逻辑行包含用于鉴定每个所述逻辑行的基因标识符，每个所述逻辑行对应于信息的记录；多个逻辑列，所述多个逻辑列与所述多个逻辑行相交以定义多个逻辑单元，每个所述逻辑列包含用于鉴定每个所述逻辑列的表型标识符，并且其中所述多个逻辑单元中的每个逻辑单元包括汇总关联评分。

方法1200可以进一步包括接收所关注的基因的选择；基于所述选择，在基因表型评分矩阵中确定所述所关注的基因的基因水平关联评分；在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因；以及将所述一个或多个基因中的基因鉴定为与所述所关注的基因相关联的所述基因。接收所关注的基因的选择可以包括接收与所述所关注的基因相关联的基因标识符。基于所述选择在所述基因表型评分矩阵中确定所述所关注的基因行可以包括在所述基因表型评分矩阵中确定包括与所述所关注的基因相关联的所述基因标识符的行。在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因可以包括确定所述所关注的基因的汇总关联评分与所述基因表型评分矩阵中的一个或多个其它基因的汇总关联评分之间的成对相似性。在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因可以包括基于所述基因表型评分矩阵生成减少的基因表型评分矩阵；对所述减少的基因表型评分矩阵进行加权；将主成分分析(PCA)程序应用于经加权的减少的基因表型评分矩阵；以及基于所述PCA程序对所述一个或多个基因与所述所关注的基因的关联性进行排序。将所述一个或多个基因中的基因鉴定为与所述所关注的基因相关联的所述基因可以包括基于排序的关联性从所述一个或多个基因鉴定与所述所关注的基因相关联的所述多个基因。

方法1200可以进一步包括确定与所述所关注的基因相关联的所述基因的功能，以及进行实验以评估所述所关注的基因是否与所述功能相关联。

方法1200可以进一步包括：确定与所述所关注的基因相关联的所述基因是治疗剂的分子靶标，以及进行实验以评估所述治疗剂是否与和所述所关注的基因相关的病状相关联。

所述所关注的基因可以包括生物体中的敲除靶标，并且方法1200可以进一步包括确定第一生物体中不存在所述敲除靶标；确定与所述第一生物体中存在的所述所关注的基因相关联的基因的同源物；以及利用所述同源物作为所述敲除靶标。

方法1200可以进一步包括确定治疗剂对所述所关注的基因的调节与负效应相关联，以及进行实验以评估所述治疗剂对与所述所关注的基因相关联的所述基因的调节是否与所述负效应相关联。

方法1200可以进一步包括基于所述所关注的基因和与所述所关注的基因相关联的所述基因生成基因集，以及基于所述基因集进行富集分析以分析基因表达数据。

方法1200可以进一步包括确定与所述所关注的基因相关联的所述基因与表型相关联，以及进行实验以评估所述所关注的基因是否与所述表型相关联。

方法1200可以进一步包括确定所述所关注的基因和与所述所关注的基因相关联的所述基因的多个变体，以及基于所述多个变体进行实验以评估治疗剂的功效。

在一实施例中，相似性模块1005可以被配置成全部或部分地执行方法1300，如在图13中所示出的。方法1300可以由单个计算装置、多个电子装置等全部或部分地执行。方法1300可以包括在1310处接收所关注的基因的选择。接收所关注的基因的选择可以包括接收与所述所关注的基因相关联的基因标识符。

方法1300可以包括在1320处，基于所述选择，在基因表型评分矩阵中确定所述所关注的基因的基因水平关联评分，其中对于多个基因中的每个基因，所述基因表型评分矩阵包括多个表型中的每个表型的][/g4]基因水平关联评分。基于所述选择在所述基因表型评分矩阵中确定所述所关注的基因行可以包括在所述基因表型评分矩阵中确定包括与所述所关注的基因相关联的所述基因标识符的行。

方法1300可以包括在1330处，在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因。在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因可以包括确定所述所关注的基因的汇总关联评分与所述基因表型评分矩阵中的一个或多个其它基因的汇总关联评分之间的成对相似性。在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因可以包括基于所述基因表型评分矩阵生成减少的基因表型评分矩阵；对所述减少的基因表型评分矩阵进行加权；将主成分分析(PCA)程序应用于经加权的减少的基因表型评分矩阵；以及基于所述PCA程序对所述一个或多个基因与所述所关注的基因的关联性进行排序。

方法1300可以包括在1340处将一个或多个基因中的基因鉴定为与所关注的基因相关联的基因。将所述一个或多个基因中的基因鉴定为与所述所关注的基因相关联的所述基因包括基于排序的关联性从所述一个或多个基因鉴定与所述所关注的基因相关联的所述多个基因。

方法1300可以进一步包括对于多个表型中的每个表型，确定指示多个基因中的每个基因的至少一个变体与所述多个表型中的表型之间的关联的关联评分；对于所述多个基因中的每个基因，基于所述关联评分确定指示所述多个基因中的每个基因与所述多个表型中的每个表型之间的代表性关联的基因水平关联评分；基于所述基因水平关联评分生成基因表型评分矩阵，其中对于所述多个基因中的每个基因，所述基因表型评分矩阵包括所述多个表型中的每个表型的所述基因水平关联评分。关联评分可以指示所述至少一个变体与所述表型相关联的可能性。关联评分可以从GWAS和/或ExWAS数据确定。关联评分可以包括Z评分、基于费舍尔方法的统计、秩和统计、p值或其组合中的一者或多者。关联评分可以源自GWAS和/或ExWAS数据的回归分析。确定基因水平关联评分可以包括对于基因，确定与所述表型相关联的一个或多个变体，对于所述一个或多个变体中的每个变体，确定关联评分；以及基于所述关联评分确定所述基因的所述基因水平关联评分。基于所述关联评分确定所述基因的所述基因水平关联评分可以包括将具有最高值的所述关联评分确定为基因水平关联评分，或将所述关联评分的平均值确定为所述基因水平关联评分。

方法1300可以进一步包括生成变体表型关联数据结构，所述变体表型关联数据结构包括针对所述多个基因中的每个基因的所述至少一个变体和所述至少一个变体的所述关联评分。

方法1300可以进一步包括过滤所述变体。过滤所述变体可以包括以下中的一项或多项：排除不映射到蛋白质编码基因的一个或多个变体；排除映射到基因间区的一个或多个变体；排除低于最小细胞计数的一个或多个变体；或排除与超过阈值的连锁不平衡(LD)相关联的一个或多个变体。

方法1300可以进一步包括生成基因表型评分矩阵数据结构。生成所述基因表型评分矩阵数据结构可以包括生成逻辑表，其中所述逻辑表包括：多个逻辑行，每个所述逻辑行包含用于鉴定每个所述逻辑行的基因标识符，每个所述逻辑行对应于信息的记录；多个逻辑列，所述多个逻辑列与所述多个逻辑行相交以定义多个逻辑单元，每个所述逻辑列包含用于鉴定每个所述逻辑列的表型标识符，并且其中所述多个逻辑单元中的每个逻辑单元包括汇总关联评分。

方法1300可以进一步包括确定与所述所关注的基因相关联的所述基因的功能，以及进行实验以评估所述所关注的基因是否与所述功能相关联。

方法1300可以进一步包括：确定与所述所关注的基因相关联的所述基因是治疗剂的分子靶标，以及进行实验以评估所述治疗剂是否与和所述所关注的基因相关的病状相关联。

所述所关注的基因可以包括生物体中的敲除靶标，并且方法1300可以进一步包括确定第一生物体中不存在所述敲除靶标；确定与所述第一生物体中存在的所述所关注的基因相关联的基因的同源物；以及利用所述同源物作为所述敲除靶标。

方法1300可以进一步包括确定治疗剂对所述所关注的基因的调节与负效应相关联，以及进行实验以评估所述治疗剂对与所述所关注的基因相关联的所述基因的调节是否与所述负效应相关联。

方法1300可以进一步包括基于所述所关注的基因和与所述所关注的基因相关联的所述基因生成基因集，以及基于所述基因集进行富集分析以分析基因表达数据。

方法1300可以进一步包括确定与所述所关注的基因相关联的所述基因与表型相关联，以及进行实验以评估所述所关注的基因是否与所述表型相关联。

方法1300可以进一步包括确定所述所关注的基因和与所述所关注的基因相关联的所述基因的多个变体，以及基于所述多个变体进行实验以评估治疗剂的功效。

在一实施例中，相似性模块1005可以被配置成全部或部分地执行方法1400，如在图14中所示出的。方法1400可以由单个计算装置、多个电子装置等全部或部分地执行。方法1400可以包括在1410处，对于多个表型中的每个表型，生成变体表型关联数据结构。所述变体表型关联数据结构可以包括针对多个基因中的每个基因的至少一个变体和所述至少一个变体的关联评分。关联评分可以指示所述至少一个变体与所述表型相关联的可能性。关联评分可以从GWAS和/或ExWAS数据确定。关联评分可以包括Z评分、基于费舍尔方法的统计、秩和统计、p值或其组合中的一者或多者。关联评分可以源自GWAS和/或ExWAS数据的回归分析。

方法1400可以包括在1420处，对于所述基因型表型关联数据结构中的每个基因，确定基因水平关联评分。确定基因水平关联评分可以包括对于基因，确定与所述表型相关联的一个或多个变体，对于所述一个或多个变体中的每个变体，确定关联评分；以及基于所述关联评分确定所述基因水平关联评分。基于所述关联评分确定所述基因水平关联评分可以包括将具有最高值的所述关联评分确定为基因水平关联评分，或将所述关联评分的平均值确定为所述基因水平关联评分。

方法1400可以包括在1430处，基于所述基因水平关联评分生成基因表型评分矩阵数据结构。所述基因表型评分矩阵数据结构可以包括针对多个基因中的每个基因的所述多个表型中的每个表型的基因水平关联评分。生成所述基因表型评分矩阵数据结构可以包括生成逻辑表，其中所述逻辑表可以包括：多个逻辑行，每个所述逻辑行包含用于鉴定每个所述逻辑行的基因标识符，每个所述逻辑行对应于信息的记录；多个逻辑列，所述多个逻辑列与所述多个逻辑行相交以定义多个逻辑单元，每个所述逻辑列包含用于鉴定每个所述逻辑列的表型标识符，并且其中所述多个逻辑单元中的每个逻辑单元包括汇总关联评分。

方法1400可以包括在1440处，基于靶基因和所述基因表型评分矩阵数据结构确定与所述靶基因相关联的一个或多个基因。基于所述靶基因和所述基因表型评分矩阵数据结构确定与所述靶基因相关联的一个或多个基因可以包括：基于所述基因表型评分矩阵数据结构生成减少的基因表型评分矩阵数据结构；对所述减少的基因表型评分矩阵数据结构加权；将主成分分析(PCA)程序应用于经加权的减少的基因表型评分矩阵数据结构；基于所述PCA程序对多个基因与所述靶基因的关联性进行排序；以及基于所述关联性从所述多个基因鉴定与所述靶基因相关联的所述一个或多个基因。基于所述靶基因和所述基因表型评分矩阵数据结构确定与所述靶基因相关联的一个或多个基因可以包括确定所述靶基因的汇总关联评分与所述基因表型评分矩阵数据结构中的一个或多个其它基因的汇总关联评分之间的成对相似性。

方法1400可以进一步包括过滤所述变体表型关联数据结构。过滤所述变体表型关联数据结构包括以下中的一项或多项：排除不映射到蛋白质编码基因的一个或多个变体；排除映射到基因间区的一个或多个变体；排除低于最小细胞计数的一个或多个变体；或排除与超过阈值的连锁不平衡(LD)相关联的一个或多个变体。

与所述靶基因相关联的所述一个或多个基因与一个或多个生物通路相关联。所述一个或多个生物通路是信号传导通路、遗传通路和/或代谢通路。可以改变与所述靶基因相关联的所述一个或多个基因的表达。

方法1400可以进一步包括确定与所述靶基因相关联的所述一个或多个基因的功能，以及进行实验以评估所述靶基因是否与所述功能相关联。

方法1400可以进一步包括：确定与所述靶基因相关联的所述一个或多个基因是治疗剂的分子靶标，以及进行实验以评估所述治疗剂是否与和所述靶基因相关的病状相关联。

所述靶基因可以包括生物体中的敲除靶标，并且方法1400可以进一步包括：确定第一生物体中不存在所述敲除靶标；确定与所述第一生物体中存在的所述靶基因相关联的所述一个或多个基因的同源物；以及利用所述同源物作为所述敲除靶标。

方法1400可以进一步包括确定治疗剂对所述靶基因的调节与负效应相关联，以及进行实验以评估所述治疗剂对与所述靶基因相关联的所述一个或多个基因的调节是否与所述负效应相关联。

方法1400可以进一步包括基于所述靶基因和与所述靶基因相关联的所述一个或多个基因生成基因集，以及基于所述基因集进行富集分析以分析基因表达数据。

方法1400可以进一步包括确定与所述靶基因相关联的所述一个或多个基因与表型相关联，以及进行实验以评估所述靶基因是否与所述表型相关联。

方法1400可以进一步包括确定所述靶基因和与所述靶基因相关联的所述一个或多个基因的多个变体，以及基于所述多个变体进行实验以评估治疗剂的功效。

本领域的技术人员将认识到或能够使用不超过常规实验来确定本文所描述的方法和组合物的具体实施例的许多等效物。此类等效物旨在被以下权利要求所涵盖。

Claims

1.一种方法，其包括：

对于多个表型中的每个表型，确定指示多个基因中的每个基因的至少一个变体与所述多个表型中的表型之间的关联的关联评分；

对于所述多个基因中的每个基因，基于所述关联评分确定指示所述多个基因中的每个基因与所述多个表型中的每个表型之间的代表性关联的基因水平关联评分；

基于所述基因水平关联评分生成基因表型评分矩阵，其中对于所述多个基因中的每个基因，所述基因表型评分矩阵包括所述多个表型中的每个表型的所述基因水平关联评分；

接收所关注的基因的选择；

基于所述选择，在所述基因表型评分矩阵中确定所述所关注的基因的基因水平关联评分；

在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因；以及

将所述一个或多个基因中的基因鉴定为与所述所关注的基因相关联的基因。

2.根据权利要求1所述的方法，其中所述关联评分指示所述至少一个变体与所述表型相关联的可能性，其中所述关联评分包括Z评分、基于费舍尔方法(Fisher's method)的统计、秩和统计、p值或其组合中的一者或多者。

3.根据权利要求1所述的方法，其进一步包括生成变体表型关联数据结构，所述变体表型关联数据结构包括针对所述多个基因中的每个基因的所述至少一个变体和所述至少一个变体的所述关联评分。

4.根据权利要求1所述的方法，其进一步包括过滤所述变体，其中过滤所述变体包括以下中的一项或多项：

排除不映射到蛋白质编码基因的一个或多个变体；

排除映射到基因间区的一个或多个变体；

排除低于最小细胞计数的一个或多个变体；或

排除与超过阈值的连锁不平衡(LD)相关联的一个或多个变体。

5.根据权利要求1所述的方法，其中确定所述基因水平关联评分包括：

对于基因，确定与所述表型相关联的一个或多个变体；

对于所述一个或多个变体中的每个变体，确定关联评分；

将具有最高值的所述关联评分确定为基因水平关联评分；或

将所述关联评分的平均值确定为所述基因水平关联评分。

6.根据权利要求1所述的方法，其进一步包括生成基因表型评分矩阵数据结构，其中生成所述基因表型评分矩阵数据结构包括：

生成逻辑表，其中所述逻辑表包括：

多个逻辑行，每个所述逻辑行包含用于鉴定每个所述逻辑行的基因标识符，每个所述逻辑行对应于信息的记录；

多个逻辑列，所述多个逻辑列与所述多个逻辑行相交以定义多个逻辑单元，每个所述逻辑列包含用于鉴定每个所述逻辑列的表型标识符；并且

其中所述多个逻辑单元中的每个逻辑单元包括汇总关联评分。

7.根据权利要求1所述的方法，其中接收所关注的基因的选择包括接收与所述所关注的基因相关联的基因标识符，并且其中基于所述选择在所述基因表型评分矩阵中确定所关注的基因行包括在所述基因表型评分矩阵中确定包括与所述所关注的基因相关联的所述基因标识符的行。

8.根据权利要求1所述的方法，其中在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因包括确定所述所关注的基因的汇总关联评分与所述基因表型评分矩阵中的一个或多个其它基因的汇总关联评分之间的成对相似性。

9.根据权利要求1所述的方法，其中在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因包括：

基于所述基因表型评分矩阵生成减少的基因表型评分矩阵；

对所述减少的基因表型评分矩阵进行加权；

将主成分分析(PCA)程序应用于经加权的减少的基因表型评分矩阵；

基于所述PCA程序对所述一个或多个基因与所述所关注的基因的关联性进行排序；并且

其中将所述一个或多个基因中的基因鉴定为与所述所关注的基因相关联的基因包括基于排序的关联性从所述一个或多个基因鉴定与所述所关注的基因相关联的所述多个基因。

10.根据权利要求1所述的方法，其中所述与所述所关注的基因相关联的基因与一个或多个生物通路相关联，其中所述一个或多个生物通路是信号传导通路、遗传通路和/或代谢通路。

11.根据权利要求1所述的方法，其进一步包括：

确定与所述所关注的基因相关联的所述基因的功能；以及

进行实验以评估所述所关注的基因是否与所述功能相关联。

12.根据权利要求1所述的方法，其进一步包括：

确定与所述所关注的基因相关联的所述基因是治疗剂的分子靶标；以及

进行实验以评估所述治疗剂是否与和所述所关注的基因相关的病状相关联。

13.根据权利要求1所述的方法，其中所述所关注的基因包括生物体中的敲除靶标，其中所述方法进一步包括：

确定第一生物体中不存在所述敲除靶标；

确定与所述第一生物体中存在的所述所关注的基因相关联的基因的同源物；以及

利用所述同源物作为所述敲除靶标。

14.根据权利要求1所述的方法，其进一步包括：

确定治疗剂对所述所关注的基因的调节与负效应相关联；以及

进行实验以评估所述治疗剂对与所述所关注的基因相关联的所述基因的调节是否与所述负效应相关联。

15.根据权利要求1所述的方法，其进一步包括：

基于所述所关注的基因和与所述所关注的基因相关联的所述基因生成基因集；以及

基于所述基因集进行富集分析以分析基因表达数据。

16.根据权利要求1所述的方法，其进一步包括：

确定与所述所关注的基因相关联的所述基因与表型相关联；以及

进行实验以评估所述所关注的基因是否与所述表型相关联。

17.根据权利要求1所述的方法，其进一步包括：

确定所述所关注的基因和与所述所关注的基因相关联的所述基因的多个变体；以及

基于所述多个变体进行实验以评估治疗剂的功效。

18.根据权利要求1所述的方法，其进一步包括：

向受试者施用治疗剂，

其中所述受试者已确定具有与所述所关注的基因相关联的表型，

其中所述治疗剂改变与所述所关注的基因相关联的所述基因的表达，并且

其中与所述所关注的基因相关联的所述基因的改变的表达向所述受试者提供治疗效果。

19.根据权利要求18所述的方法，其中所述改变的表达是与所述所关注的基因相关联的所述基因的表达增加，其中表达增加提供治疗效果。

20.根据权利要求18所述的方法，其中所述改变的表达是与所述所关注的基因相关联的所述基因的表达减少，其中表达减少提供治疗效果。

21.一种方法，其包括：

对于所述多个基因中的每个基因，基于所述关联评分确定指示所述多个基因中的每个基因与所述多个表型中的每个表型之间的代表性关联的基因水平关联评分；以及

基于所述基因水平关联评分生成基因表型评分矩阵，其中对于所述多个基因中的每个基因，所述基因表型评分矩阵包括所述多个表型中的每个表型的所述基因水平关联评分。

22.根据权利要求21所述的方法，其中所述关联评分指示所述至少一个变体与所述表型相关联的可能性。

23.根据权利要求21所述的方法，其中所述关联评分包括Z评分、基于费舍尔方法的统计、秩和统计、p值或其组合中的一者或多者。

24.根据权利要求21所述的方法，其进一步包括生成变体表型关联数据结构，所述变体表型关联数据结构包括针对所述多个基因中的每个基因的所述至少一个变体和所述至少一个变体的所述关联评分。

25.根据权利要求21所述的方法，其进一步包括过滤所述变体。

26.根据权利要求25所述的方法，其中过滤所述变体包括以下中的一项或多项：

排除不映射到蛋白质编码基因的一个或多个变体；

排除映射到基因间区的一个或多个变体；

排除低于最小细胞计数的一个或多个变体；或

排除与超过阈值的连锁不平衡(LD)相关联的一个或多个变体。

27.根据权利要求21所述的方法，其中确定所述基因水平关联评分包括：

对于基因，确定与所述表型相关联的一个或多个变体；

对于所述一个或多个变体中的每个变体，确定关联评分；以及

基于所述关联评分确定所述基因的所述基因水平关联评分。

28.根据权利要求27所述的方法，其中基于所述关联评分确定所述基因的所述基因水平关联评分包括：

将具有最高值的所述关联评分确定为基因水平关联评分；或

将所述关联评分的平均值确定为所述基因水平关联评分。

29.根据权利要求21所述的方法，其进一步包括生成基因表型评分矩阵数据结构。

30.根据权利要求29所述的方法，其中生成所述基因表型评分矩阵数据结构包括：

生成逻辑表，其中所述逻辑表包括：

31.根据权利要求21所述的方法，其进一步包括：

接收所关注的基因的选择；

32.根据权利要求31所述的方法，其中接收所关注的基因的选择包括接收与所述所关注的基因相关联的基因标识符。

33.根据权利要求32所述的方法，其中基于所述选择在所述基因表型评分矩阵中确定所关注的基因行包括在所述基因表型评分矩阵中确定包括与所述所关注的基因相关联的所述基因标识符的行。

34.根据权利要求31所述的方法，其中在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因包括确定所述所关注的基因的汇总关联评分与所述基因表型评分矩阵中的一个或多个其它基因的汇总关联评分之间的成对相似性。

35.根据权利要求31所述的方法，其中在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因包括：

基于所述基因表型评分矩阵生成减少的基因表型评分矩阵；

对所述减少的基因表型评分矩阵进行加权；

将主成分分析(PCA)程序应用于经加权的减少的基因表型评分矩阵；以及

基于所述PCA程序对所述一个或多个基因与所述所关注的基因的关联性进行排序。

36.根据权利要求35所述的方法，其中将所述一个或多个基因中的基因鉴定为与所述所关注的基因相关联的基因包括基于排序的关联性从所述一个或多个基因鉴定与所述所关注的基因相关联的所述多个基因。

37.根据权利要求31所述的方法，其中与所述所关注的基因相关联的所述基因与一个或多个生物通路相关联。

38.根据权利要求37所述的方法，其中所述一个或多个生物通路是信号传导通路、遗传通路和/或代谢通路。

39.根据权利要求37所述的方法，其中可改变与所述所关注的基因相关联的所述基因的表达。

40.根据权利要求31所述的方法，其进一步包括：

确定与所述所关注的基因相关联的所述基因的功能；以及

进行实验以评估所述所关注的基因是否与所述功能相关联。

41.根据权利要求31所述的方法，其进一步包括：

42.根据权利要求31所述的方法，其中所述所关注的基因包括生物体中的敲除靶标，其中所述方法进一步包括：

确定第一生物体中不存在所述敲除靶标；

利用所述同源物作为所述敲除靶标。

43.根据权利要求31所述的方法，其进一步包括：

44.根据权利要求31所述的方法，其进一步包括：

基于所述基因集进行富集分析以分析基因表达数据。

45.根据权利要求31所述的方法，其进一步包括：

进行实验以评估所述所关注的基因是否与所述表型相关联。

46.根据权利要求31所述的方法，其进一步包括：

基于所述多个变体进行实验以评估治疗剂的功效。

47.一种方法，其包括：

接收所关注的基因的选择；

基于所述选择，在基因表型评分矩阵中确定所述所关注的基因的基因水平关联评分，其中对于多个基因中的每个基因，所述基因表型评分矩阵包括多个表型中的每个表型的基因水平关联评分；

48.根据权利要求47所述的方法，其中接收所关注的基因的选择包括接收与所述所关注的基因相关联的基因标识符。

49.根据权利要求48所述的方法，其中基于所述选择在所述基因表型评分矩阵中确定所关注的基因行包括在所述基因表型评分矩阵中确定包括与所述所关注的基因相关联的所述基因标识符的行。

50.根据权利要求47所述的方法，其中在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因包括确定所述所关注的基因的汇总关联评分与所述基因表型评分矩阵中的一个或多个其它基因的汇总关联评分之间的成对相似性。

51.根据权利要求47所述的方法，其中在所述基因表型评分矩阵中确定与和所述所关注的基因的所述基因水平关联评分相似的基因水平关联评分相关联的一个或多个基因包括：

基于所述基因表型评分矩阵生成减少的基因表型评分矩阵；

对所述减少的基因表型评分矩阵进行加权；

52.根据权利要求51所述的方法，其中将所述一个或多个基因中的基因鉴定为与所述所关注的基因相关联的基因包括基于排序的关联性从所述一个或多个基因鉴定与所述所关注的基因相关联的所述多个基因。

53.根据权利要求47所述的方法，其进一步包括：

54.根据权利要求53所述的方法，其中所述关联评分指示所述至少一个变体与所述表型相关联的可能性。

55.根据权利要求53所述的方法，其中所述关联评分包括Z评分、基于费舍尔方法的统计、秩和统计、p值或其组合中的一者或多者。

56.根据权利要求53所述的方法，其进一步包括生成变体表型关联数据结构，所述变体表型关联数据结构包括针对所述多个基因中的每个基因的所述至少一个变体和所述至少一个变体的所述关联评分。

57.根据权利要求53所述的方法，其进一步包括过滤所述变体。

58.根据权利要求57所述的方法，其中过滤所述变体包括以下中的一项或多项：

排除不映射到蛋白质编码基因的一个或多个变体；

排除映射到基因间区的一个或多个变体；

排除低于最小细胞计数的一个或多个变体；或

排除与超过阈值的连锁不平衡(LD)相关联的一个或多个变体。

59.根据权利要求53所述的方法，其中确定所述基因水平关联评分包括：

对于基因，确定与所述表型相关联的一个或多个变体；

基于所述关联评分确定所述基因的所述基因水平关联评分。

60.根据权利要求59所述的方法，其中基于所述关联评分确定所述基因的所述基因水平关联评分包括：

将具有最高值的所述关联评分确定为基因水平关联评分；或

将所述关联评分的平均值确定为所述基因水平关联评分。

61.根据权利要求53所述的方法，其进一步包括生成基因表型评分矩阵数据结构。

62.根据权利要求61所述的方法，其中生成所述基因表型评分矩阵数据结构包括：

生成逻辑表，其中所述逻辑表包括：

63.根据权利要求47所述的方法，其中与所述所关注的基因相关联的所述基因与一个或多个生物通路相关联。

64.根据权利要求63所述的方法，其中所述一个或多个生物通路是信号传导通路、遗传通路和/或代谢通路。

65.根据权利要求63所述的方法，其中可改变与所述所关注的基因相关联的所述基因的表达。

66.根据权利要求47所述的方法，其进一步包括：

确定与所述所关注的基因相关联的所述基因的功能；以及

进行实验以评估所述所关注的基因是否与所述功能相关联。

67.根据权利要求47所述的方法，其进一步包括：

68.根据权利要求47所述的方法，其中所述所关注的基因包括生物体中的敲除靶标，其中所述方法进一步包括：

确定第一生物体中不存在所述敲除靶标；

利用所述同源物作为所述敲除靶标。

69.根据权利要求47所述的方法，其进一步包括：

70.根据权利要求47所述的方法，其进一步包括：

基于所述基因集进行富集分析以分析基因表达数据。

71.根据权利要求47所述的方法，其进一步包括：

进行实验以评估所述所关注的基因是否与所述表型相关联。

72.根据权利要求47所述的方法，其进一步包括：

基于所述多个变体进行实验以评估治疗剂的功效。

73.一种方法，其包括：

对于多个表型中的每个表型，生成变体表型关联数据结构；

对于所述基因型表型关联数据结构中的每个基因，确定基因水平关联评分；

基于所述基因水平关联评分生成基因表型评分矩阵数据结构；以及

基于靶基因和所述基因表型评分矩阵数据结构确定与所述靶基因相关联的一个或多个基因。

74.根据权利要求73所述的方法，其中所述变体表型关联数据结构包括针对多个基因中的每个基因的至少一个变体和所述至少一个变体的关联评分。

75.根据权利要求73所述的方法，其进一步包括过滤所述变体表型关联数据结构。

76.根据权利要求45所述的方法，其中过滤所述变体表型关联数据结构包括以下中的一项或多项：

排除不映射到蛋白质编码基因的一个或多个变体；

排除映射到基因间区的一个或多个变体；

排除低于最小细胞计数的一个或多个变体；或

排除与超过阈值的连锁不平衡(LD)相关联的一个或多个变体。

77.根据权利要求74所述的方法，其中所述至少一个变体的所述关联评分指示所述至少一个变体与所述表型相关联的可能性。

78.根据权利要求74所述的方法，其中所述关联评分包括Z评分、基于费舍尔方法的统计、秩和统计、p值或其组合中的一者或多者。

79.根据权利要求74所述的方法，其中确定所述基因水平关联评分包括：

对于基因，确定与所述表型相关联的一个或多个变体；

基于所述关联评分确定所述基因水平关联评分。

80.根据权利要求79所述的方法，其中基于所述关联评分确定所述基因水平关联评分包括：

将具有最高值的所述关联评分确定为所述基因水平关联评分；或

将所述关联评分的平均值确定为所述基因水平关联评分。

81.根据权利要求74所述的方法，其中对于多个基因中的每个基因，所述基因表型评分矩阵数据结构包括所述多个表型中的每个表型的基因水平关联评分。

82.根据权利要求74所述的方法，其中生成所述基因表型评分矩阵数据结构包括：

生成逻辑表，其中所述逻辑表包括：

83.根据权利要求74所述的方法，其中基于所述靶基因和所述基因表型评分矩阵数据结构确定与所述靶基因相关联的一个或多个基因包括确定所述靶基因的汇总关联评分与所述基因表型评分矩阵数据结构中的一个或多个其它基因的汇总关联评分之间的成对相似性。

84.根据权利要求74所述的方法，其中基于所述靶基因和所述基因表型评分矩阵数据结构确定与所述靶基因相关联的一个或多个基因包括：

基于所述基因表型评分矩阵数据结构生成减少的基因表型评分矩阵数据结构；

对所述减少的基因表型评分矩阵数据结构进行加权；

将主成分分析(PCA)程序应用于经加权的减少的基因表型评分矩阵数据结构；

基于所述PCA程序对多个基因与所述靶基因的关联性进行排序；以及

基于所述关联性从所述多个基因鉴定与所述靶基因相关联的所述一个或多个基因。

85.根据权利要求73所述的方法，其中与所述靶基因相关联的所述一个或多个基因与一个或多个生物通路相关联。

86.根据权利要求85所述的方法，其中所述一个或多个生物通路是信号传导通路、遗传通路和/或代谢通路。

87.根据权利要求85所述的方法，其中可改变与所述靶基因相关联的所述一个或多个基因的表达。

88.根据权利要求73所述的方法，其进一步包括：

确定与所述靶基因相关联的所述一个或多个基因的功能；以及

进行实验以评估所述靶基因是否与所述功能相关联。

89.根据权利要求73所述的方法，其进一步包括：

确定与所述靶基因相关联的所述一个或多个基因是治疗剂的分子靶标；以及

进行实验以评估所述治疗剂是否与和所述靶基因相关的病状相关联。

90.根据权利要求73所述的方法，其中所述靶基因包括生物体中的敲除靶标，其中所述方法进一步包括：

确定第一生物体中不存在所述敲除靶标；

确定与所述第一生物体中存在的所述靶基因相关联的所述一个或多个基因的同源物；以及

利用所述同源物作为所述敲除靶标。

91.根据权利要求73所述的方法，其进一步包括：

确定治疗剂对所述靶基因的调节与负效应相关联；以及

进行实验以评估所述治疗剂对与所述靶基因相关联的所述一个或多个基因的调节是否与所述负效应相关联。

92.根据权利要求73所述的方法，其进一步包括：

基于所述靶基因和与所述靶基因相关联的所述一个或多个基因生成基因集；以及

基于所述基因集进行富集分析以分析基因表达数据。

93.根据权利要求73所述的方法，其进一步包括：

确定与所述靶基因相关联的所述一个或多个基因与表型相关联；以及

进行实验以评估所述靶基因是否与所述表型相关联。

94.根据权利要求73所述的方法，其进一步包括：

确定所述靶基因和与所述靶基因相关联的所述一个或多个基因的多个变体；以及

基于所述多个变体进行实验以评估治疗剂的功效。

95.一种方法，其包括

向受试者施用治疗剂，

其中所述受试者已确定具有与靶基因相关联的具体的表型集，

其中所述治疗剂改变与所述靶基因相关联的一个或多个基因的表达，并且

其中与所述靶基因相关联的一个或多个基因的改变的表达向所述受试者提供治疗效果。

96.根据权利要求95所述的方法，其中与所述靶基因相关联的所述一个或多个基因是使用根据权利要求48所述的方法确定的。

97.根据权利要求95所述的方法，其中所述改变的表达是与所述靶基因相关联的一个或多个基因的表达增加，其中表达增加提供治疗效果。

98.根据权利要求95所述的方法，其中所述改变的表达是与所述靶基因相关联的一个或多个基因的表达减少，其中表达减少提供治疗效果。

99.一种设备，其被配置成执行前述方法中的任何方法。

100.一种计算机可读介质，其上具有处理器可执行指令实施例，所述处理器可执行指令实施例被配置成使设备执行前述方法中的任何方法。