CN109643578A - 用于设计基因组合的方法和系统 - Google Patents

用于设计基因组合的方法和系统 Download PDF

Info

Publication number
CN109643578A
CN109643578A CN201780033722.9A CN201780033722A CN109643578A CN 109643578 A CN109643578 A CN 109643578A CN 201780033722 A CN201780033722 A CN 201780033722A CN 109643578 A CN109643578 A CN 109643578A
Authority
CN
China
Prior art keywords
disease
gene
relevance
rank
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780033722.9A
Other languages
English (en)
Other versions
CN109643578B (zh
Inventor
C·施蒂尔
E·威廉姆斯
Y·田
Y·朱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Life Technologies Corp
Original Assignee
Life Technologies Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Life Technologies Corp filed Critical Life Technologies Corp
Publication of CN109643578A publication Critical patent/CN109643578A/zh
Application granted granted Critical
Publication of CN109643578B publication Critical patent/CN109643578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种选择用于基因组合的基因的系统和方法,其包括从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因‑疾病关联性。所述疾病关联数据库储存疾病信息、基因信息、表型信息、所述疾病层级结构中的疾病之间的关联性、基因‑疾病关联性和与所述基因‑疾病关联性相关的强度参数。对于与所述给定级别的疾病相关联的每种基因,加权并组合所述强度参数以确定用于所述每种基因的等级分数。基于所述等级分数对所述基因分等级以提供分等级基因信息。所述分等级基因信息基于层级关系与所述疾病层级结构的较高级别的疾病相关。用于基因‑疾病关联性的所述分等级基因信息可以用于选择用于基因组合设计的基因。

Description

用于设计基因组合的方法和系统
交叉参考
本申请根据35U.S.C.§119(e)要求2016年6月1日提交的美国临时申请第62/344,078号、2016年9月16日提交的美国临时申请第62/395,828号、2017年5月23日提交的美国临时申请第62/509,860号和2017年5月25日提交的美国临时申请第62/510,906号的权益。上述申请的全部内容通过引用的方式并入本文中。
发明内容
下一代测序(Next-generation sequencing,NGS)技术继续用于临床实验室中,从而使基因组医学的快速转化成为能够。具体地说,靶向测序是优选的,因为其允许使用者将时间、费用和数据分析集中在特定的目的区域上。靶向下一代测序组合能够询问多个样品中的多种基因以更深入地理解人类遗传疾病。然而,发现所有相关基因、发展稳健高性能的多链体组合(multiplex panel)以及实施可扩展、可重复并且准确的分析管道是一种挑战。一项关键的挑战是如何有效地对所选疾病的基因和区域进行优先级排序,其通过常规的方法进行并需要大量的专家努力。需要信息丰富的生物信息学引擎来自动化用于基因组合设计的基因选择过程。
根据示例性实施例,提供了一种系统,其包括:(1)储存在存储器中的疾病关联数据库(disease association database)和与存储器通信连接的处理器。疾病关联数据库配置成储存多种疾病的疾病信息和多种基因的基因信息。疾病关联数据库包括多种疾病中的疾病之间的疾病关联性和疾病与多种基因中的关联基因之间的基因-疾病关联性。疾病关联性包括疾病层级结构并且基因-疾病关联性包括每种基因-疾病关联性的强度参数。处理器配置成:(1)从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,其中给定级别的疾病与疾病层级结构中较高级别的给定疾病具有层级关系;(2)对于与给定级别的疾病相关联的每种基因,向每种基因-疾病关联性的强度参数施用权重;(3)添加基因-疾病关联性的加权强度参数以形成用于与给定级别的疾病相关联的每种基因的等级分数;并且(4)基于等级分数对与给定级别的疾病相关联的基因分等级以提供与较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表。
根据一个示例性实施例,提供了一种选择用于基因组合的基因的方法,其包括:(1)从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,疾病关联数据库配置成储存多种疾病的疾病信息和多种基因的基因信息,疾病关联数据库包括多种疾病中的疾病之间的疾病关联性和疾病与多种基因中的关联基因之间的基因-疾病关联性,其中疾病关联性包括疾病层级结构并且基因-疾病关联性包括每种基因-疾病关联性的强度参数,疾病关联数据库储存在存储器中,其中给定级别的疾病与疾病层级结构中较高级别的给定疾病具有层级关系;(2)对于与给定级别的疾病相关联的每种基因,向每种基因-疾病关联性的强度参数施用权重;(3)添加基因-疾病关联性的加权强度参数以形成用于与给定级别的疾病相关联的每种基因的等级分数;并且(4)基于等级分数对与给定级别的疾病相关联的基因分等级以提供与较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表。
根据一个示例性实施例,提供了一种包含与基因组合中的一组基因相关联的一组引物的试剂盒,通过以下步骤选定所述基因组以用于基因组合:(1)从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,疾病关联数据库配置成储存多种疾病的疾病信息和多种基因的基因信息,疾病关联数据库包括多种疾病中的疾病之间的疾病关联性和疾病与多种基因中的关联基因之间的基因-疾病关联性,其中疾病关联性包括疾病层级结构并且基因-疾病关联性包括每种基因-疾病关联性的强度参数,疾病关联数据库储存在存储器中,其中给定级别的疾病与疾病层级结构中较高级别的给定疾病具有层级关系;(2)对于与给定级别的疾病相关联的每种基因,向每种基因-疾病关联性的强度参数施用权重;(3)添加基因-疾病关联性的加权强度参数以形成用于与给定级别的疾病相关联的每种基因的等级分数;(4)基于等级分数对与给定级别的疾病相关联的基因分等级以提供与较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表;以及(5)从分等级基因表中选择分等级基因中的至少一种以用于基因组合中的基因组。
附图说明
本发明的新颖特征在所附权利要求书中具体阐述。将参考阐述其中利用本发明原理的说明性实施例和其附图的以下具体实施方式来获得对本发明特征和优势的更佳理解:
图1是显示在一个实施例的实例中用于对基因-疾病关联性进行标识和分等级的疾病关联数据库、基因评分算法和虚拟组合文库的框图。
图2示出了用于疾病关联数据库的图数据库系统的查询和响应的实例。
图3是由储存在疾病关联数据库中的信息产生的表示疾病与基因和表型的关联性的网络图实例。
图4是疾病层级结构的一定级别的基因-疾病关联性的实例的图。
图5是疾病层级结构的多个级别之间的基因-疾病关联性和层级疾病关联性的实例的图。
图6是使用UMLS疾病标识符的疾病层级结构的各种级别的疾病的分等级基因表的实例。
图7是使用MeSH疾病标识符的疾病层级结构的各种级别的疾病的分等级基因表的实例。
图8是等级加权总和分数(rank weighted sum score)的密度函数的实例。
图9是在一个实施例的实例中用于虚拟组合文库的基因簇处理的框图。
图10是具有第1级疾病类别的经注释基因簇的示例性结果的表。
图11示出了根据示例性实施例的用于设计引物或测定的系统。
具体实施方式
根据在本申请中体现的教导内容和原理,用于选择用于靶向下一代测序组合的基因的新型方法、系统、试剂盒和计算机可读介质。
在本申请中,“扩增”通常是指进行扩增反应。
在本申请中,“扩增子”通常是指多核苷酸扩增反应的产物,包括多核苷酸的克隆群体,其可以是单链或双链的并且可以从一个或多个起始序列中复制而来。一个或多个起始序列可以是相同序列的一个或多个拷贝,或其可以是不同的含有经扩增共同区域的序列的混合物,例如从样品中提取的DNA片段混合物中存在的特异性外显子序列。扩增子优选可以通过扩增单个起始序列而形成。扩增子可以通过多种扩增反应生成,所述反应的产物包含一种或多种起始核酸或靶核酸的复制物。产生扩增子的扩增反应可以是“模板驱动的”,因为反应物(核苷酸或寡核苷酸)的碱基配对在模板多核苷酸中具有产生反应产物所需的互补物。模板驱动的反应可以是利用核酸聚合酶进行的引物延伸或利用核酸连接酶进行的寡核苷酸连接。此类反应包括例如聚合酶链式反应(PCR)、线性聚合酶反应、基于核酸序列的扩增(NASBA)、滚环扩增(rolling circle amplification),例如包括在以下参考文献中公开的此类反应,所有参考文献都通过全文引用的方式并入本文中:Gelfand等人,美国专利第5,210,015号;Kacian等人,美国专利第5,399,491号;Mullis,美国专利第4,683,202号;Mullis等人,美国专利第4,683,195号;第4,965,188号;和第4,800,159号;Lizardi,美国专利第5,854,033号;和Wittwer等人,美国专利第6,174,670号。在一个示例性实施例中,扩增子可以通过PCR生成。扩增子还可以使用滚环扩增以形成可以专门占据微孔的单个体来生成,如Drmanac等人的美国专利申请公开第2009/0137404号中所公开,其通过全文引用的方式并入本文中。
在本申请中,“引物”通常是指天然或合成的寡核苷酸,其在与多核苷酸模板形成双链体时能够充当核酸合成的起始点并从其3'末端沿着模板延伸以使得可以形成延伸的双链体。引物的延伸可以用核酸聚合酶来进行,如DNA或RNA聚合酶。在延伸过程中添加的核苷酸序列可以通过模板多核苷酸的序列来确定。引物的长度可以在14到40个核苷酸范围内,或在18到36个核苷酸范围内,例如或在N到M个核苷酸范围内,其中举例来说N是大于18的整数,并且M是大于N并且小于36的整数。其它长度当然是有可能的。
在本申请中,“寡核苷酸”通常是指核苷酸单体的线性聚合物,并且可以是DNA或RNA。构成多核苷酸的单体能够通过单体-单体相互作用的规则模式来特异性结合天然多核苷酸,例如Watson-Crick类型的碱基配对、碱基堆积、Hoogsteen或反向Hoogsteen类型的碱基配对。此类单体和其核苷酸间键(internucleosidic linkage)可以是天然存在的或可以是其类似物,例如天然存在的或非天然存在的类似物。非天然存在的类似物可以包括PNA、硫代磷酸酯核苷酸间键、含有允许标记物例如荧光团或半抗原的附着的连接基团的碱基。在一个示例性实施例中,寡核苷酸可以指较小的多核苷酸,例如具有5-40个单体单元的多核苷酸。多核苷酸可以包括通过磷酸二酯键连接的天然脱氧核糖核苷(例如用于DNA的脱氧腺苷、脱氧胞苷、脱氧鸟苷和脱氧胸苷或用于RNA的其核糖对应物)。然而,其还可以包括非天然核苷酸类似物,例如包括经修饰碱基、糖或核苷酸间键。在一个示例性实施例中,多核苷酸可以由字母序列(大写或小写)表示,如“ATGCCTG”,并且应当理解,除非另有说明或从上下文中显而易见,否则核苷酸从左到右依次为5'→3',并且“A”表示脱氧腺苷,“C”表示脱氧胞苷,“G”表示脱氧鸟苷,并且“T”表示脱氧胸苷,以及“I”表示脱氧肌苷,并且“U”表示脱氧尿苷。
在一些实施例中,用于对基因-疾病关联性标识和分等级以用于基因组合设计的系统可以包括疾病关联数据库(DAD)模块110、基因评分算法(GSA)模块120和虚拟组合文库(VPL)模块130中的一个或多个模块,如图1中所示。DAD模块110组织和储存关于基因与疾病之间的关联性的信息,包括疾病的层级组织。GSA模块120使用从DAD模块110中检索的关于基因-疾病关联性和疾病层级结构的信息来应用基因评分和分等级算法。VPL模块130分析来自GSA模块120的等级分数以聚类具有类似疾病关联模式的基因并使基因簇与疾病相关联。
在一些实施例中,疾病关联数据库(DAD)模块110包含配置成储存疾病信息、表型信息、基因信息和关联性信息的图数据库系统,所述关联性包括疾病之间的关联性、疾病-表型关联性和基因-疾病关联性。疾病关联性信息可以包括疾病层级结构信息。基因-疾病关联性信息可以包括每种基因-疾病关联性的强度参数。
图数据库架构优于用于表示高度互连的数据的标准关系数据库架构。图数据库架构强调数据点之间的关系。强调关系有利于表示疾病层级结构和基因-疾病关联性。图数据库能够快速直观地查询数据点之间的关系。相反,对于标准关系数据库,关联性查询对于设计而言将是缓慢且冗长的。
在一些实施例中,DAD模块110的数据结构包括节点和边缘,其中边缘与图数据库架构中的两个节点相关联。疾病信息储存在分配给疾病的节点或疾病节点中。疾病节点储存疾病信息,包括疾病标识符和疾病的名称。疾病节点可以储存附加信息,如疾病信息的来源。疾病之间的层级关系由边缘表示。举例来说,当两种疾病在疾病层级结构中具有亲子关系时,使两种疾病节点关联的边缘可以储存包括疾病的疾病标识符和从母体疾病到子辈疾病的方向属性的属性。
在一些实施例中,DAD模块110包括分配成储存基因信息的节点或基因节点。基因节点储存基因信息,包括基因标识符、基因名称和基因符号。疾病节点可以通过指示基因-疾病关联性的边缘与基因节点连接。边缘可以储存基因-疾病关联性的属性,包括疾病标识符、基因标识符和基因-疾病关联性的强度参数。
在一些实施例中,DAD模块110包括分配成储存表型信息的节点或表型节点。表型节点储存表型信息,包括表型标识符。表型节点可以通过指示表型-疾病关联性的边缘与疾病节点连接。使表型节点和疾病节点关联的边缘储存属性,包括表型标识符和疾病标识符。边缘可以储存附加信息,如表型-疾病关联性的来源。
在一些实施例中,包括储存在DAD模块110中的疾病标识符、疾病名称和疾病层级结构信息的疾病信息是以一体化医学语言系统(Unified Medical Language System,UMLS)为基础。UMLS合并许多受控词汇表,包括医学主题标题或MeSH。举例来说,对于细菌感染和真菌病,UMLS疾病标识符是C0004615。举例来说,对于精神障碍,MeSH疾病标识符是D001523。UMLS由Bodenreider的《一体化医学语言系统(UMLS):整合生物医学术语(TheUnified Medical Language System(UMLS):integrating biomedical terminology)》,《核酸研究(Nucleic Acids Research)》,第32卷,Database期,第D267-D270页(2004)描述。
在一些实施例中,储存在DAD模块110中的基因-疾病关联性基于DisGeNET,其根据经专家验证的来源(例如CTD、CLINVAR和ORPHANET)评分基因-疾病关联性,使用小鼠模型预测数据,并对出版物进行文本挖掘。发展DisGeNET分数以根据证据水平对基因-疾病关联性分等级。DisGeNET基因-疾病关联性分数考虑了来源的数量和类型(验证水平、模式生物体)和支持所述关联性的出版物数量。分数值在0到1范围内。根据DisGeNet,0.1的分数对应于约3个证据来源的平均值。0.25的分数对应于单个基因-疾病关联性的4到5个证据来源。DiGeNET由等人的《DisGeNET:动态探究人类疾病和其基因的发现平台(DisGeNET:adiscovery platform for the dynamical exploration of human diseases and theirgenes)》,《数据库(Database)》,第2015卷,文章ID bav028,第1-17页(2015)描述。
在一些实施例中,MeSH疾病层级结构与DAD模块110中的DisGeNET基因疾病关联性相结合。MeSH提供指示疾病亲/子关系的数学图表的信息;例如“自身免疫疾病”是“类风湿性关节炎”的母体疾病,而“幼年型类风湿性关节炎”是“类风湿性关节炎”的子辈疾病。图中表示疾病的节点通过具有强度参数的边缘与表示基因的节点相关。强度参数基于DisGeNET提供的每种基因-疾病对的分数。DisGeNET分数是介于0与1之间的数字。总之,与基因-疾病关联性相结合的疾病层级结构提供了查找涉及疾病层级结构中任何级别的任何疾病或疾病组的基因的方法。
在一些实施例中,DAD模块110的图数据库架构可以全部或部分地在Neo4j图数据库上实施。可以使用Cypher查询语言访问使用Neo4j实施的数据库。
图2示出了图数据库系统关于DAD模块110的查询和响应的实例。在此实例中,查询可以限定用于追踪网络路径的模式,如图2的顶行所示出。查询可以返回路径和节点的信息,如图2的底行所示出。在此实例中,疾病关联性的边缘储存源信息。响应表明疾病关联性的来源是MeSH。在此实例中,基因-疾病关联性的边缘储存强度参数或由DisGeNET获得的分数,即0.0025。
图3是由查询DAD模块110产生的表示疾病与基因和表型的关联性的网络图的实例。所述图显示疾病节点341、342、343、344、345和346(斑点圈)和表型节点321、322、323、324、325和326(条纹圈)之间的关联性。举例来说,使疾病节点341和表型节点321关联的边缘370可以包括UMLS概念信息。清晰的圆圈表示与各种疾病节点相关联的各种基因节点。此实例显示了与多个疾病节点具有基因-疾病关联性的几个基因节点。举例来说,基因节点360和疾病节点344具有由边缘352表示的基因-疾病关联性。基因节点360还与疾病节点345具有基因-疾病关联性,由边缘352表示。边缘352、360和连接疾病节点和基因节点的所有边缘储存对应的基因-疾病关联性的强度参数。举例来说,强度参数可以使用DisGeNET分数。
在一些实施例中,DAD模块110可以适于储存从任何科学源数据库中挖掘的信息,所述信息可以贡献疾病信息、基因信息和基因-疾病关联性信息。随着源数据库的版本演变并包括新信息,可以更新DAD模块110。
在一些实施例中,基因评分算法(GSA)模块120使用从DAD模块110中检索的信息通过其与疾病层级结构中的疾病的相关性对基因分等级。GSA模块120使用来自DAD模块110的基因-疾病关联性强度参数,如DisGeNET分数和疾病层级结构信息,并应用评分方法来对特定的目的疾病的基因进行优先级排序。GSA模块120可以产生用于疾病层级结构的任何级别的一种或多种疾病的分等级基因列表。
图4是疾病层级结构的一定级别的基因-疾病关联性的实例的图。在此实例中,基因A和基因B表示在疾病层级结构的460级具有基因-疾病关联性的两个基因。基因A与疾病441、442、443、445和447具有基因-疾病关联性,并且相应的强度参数是w11、w12、w13、w14和w15。基因B与疾病444和446具有基因-疾病关联性,并且相应的强度参数是w21和w22。目的疾病420在疾病层级结构中位于较高级别并且与较低级别460的疾病441到447具有亲子关系。在一些实施例中,GSA模块120可以对与疾病层级结构的较低级别460的基因A和B相关联的强度参数wij应用评分方法,从而相对于目的疾病420对其分等级。
在一些实施例中,评分方法可以是第i基因的基因-疾病关联性的强度参数wij的简单总和或强度参数的平均值。这样的分数是有利的,因为其考虑了与所述基因相关联的所有疾病。然而,这样的分数可能是不利的,因为具有小强度参数的许多疾病可能累加到相对较大的分数。
在一些实施例中,评分方法可以简单地选择最大强度参数,如第i基因的基因-疾病关联性的分数=最大j(wij)。这样的分数可能是有利的,因为与所述层级结构的给定级别的一种疾病强烈相关联的基因将包括在内。然而,基于最大值的分数可能是不利的,因为与可能具有较小但不是不大的强度参数的第i基因相关联的其它疾病被省略了。
在一些实施例中,评分方法包括计算等级加权总和分数(RWSS)。对于与给定级别的疾病相关联的第i基因,RWSS可以如下计算:
1)对第i基因的基因-疾病关联性的每个强度参数施用权重以形成加权强度参数,并且
2)对加权强度参数求和以产生第i基因的等级分数。
在一些实施例中,GSA模块120可以计算与疾病层级结构的给定级别的疾病具有基因-疾病关联性的所有基因的等级分数。
在一些实施例中,GSA模块120可以如下确定权重:
1)对于第i基因与n疾病的关联性,基于从最高值(阶指数k=1)到最低值(阶指数k=n)的强度参数值的阶级,确定第i基因的每个强度参数的阶指数k,并且
2)将每个强度参数的权重设定为阶指数的反函数f(1/k)。
f(1/k)的实例是f(1/kt),其中t是正实数。在第i基因的各种实例中,其中t=0.5,权重是1/k0.5并且等级分数i=∑k wik/√k;其中t=1,权重是1/k并且等级分数i=∑kwik/k;其中t=2,权重是1/k2并且等级分数i=∑k wik/k2,依此类推对于t的其它可能性值。优选地,t=1并且第i基因的等级分数通过以下等式计算:
等级分数i=∑k wik/k 1≤k≤n (1)
在一些实施例中,GSA模块120基于使用等式(1)确定的等级分数对基因分等级以用于与疾病层级结构的给定级别的疾病相关联的基因。举例来说,可以对基因从最高等级分数到最低等级分数分等级以形成分等级基因表。基因可以按从具有最高等级分数的基因到具有最低等级分数的基因的等级顺序列于所述表中。可以对每种基因分配等级指数,即指示等级分数顺序的整数,其中对具有最高等级分数的基因分配等级指数1。所得分等级基因信息表可以与疾病层级结构中高于给定级别的级别的疾病链接,其中在给定级别的疾病与较高级别的疾病之间存在层级关系。
回到图4的实例,GSA模块120将执行以下操作:
1)使用等式(1)计算基因A和基因B的等级分数以产生等级分数A和等级分数B,
2)基于等级分数A和等级分数B对基因A和B进行分等级以形成分等级基因信息表,并且
3)将等级分数和分等级基因信息链接到目的疾病420。
图5是疾病层级结构的多个级别之间的基因-疾病关联性和层级疾病关联性的实例的图。图5示出了除图4中所示的疾病关联性之外的额外的层级疾病关联性。示例性级别数量和级别描述是出于说明性目的而非限制性的。级别1到4表示疾病层级结构中从广义到特定的层级,如储存在DAD模块110中的疾病层级结构信息。第1级即最高级别包括最广义的疾病类别,如神经疾病和心血管疾病。神经疾病节点540是在第2级处表示的疾病的母体。神经变性疾病节点520是在第3级处表示的所有疾病的母体。第3级包括图4中的目的疾病420,这个实例是亨廷顿氏病(Huntington's disease)。亨廷顿氏病节点(目的疾病420)是在第4级(460级)处表示的所有疾病的母体。举例来说,上文关于图4描述的等级分数和分等级基因信息与图5中的第3级处的目的疾病420或亨廷顿氏病相关。对于图5,等级分数和分等级基因信息可以与疾病层级结构中较高级别的疾病相关,包括与亨廷顿氏病具有层级关系的第2级神经变性疾病(节点520)和第1级神经疾病(节点540)。
图6是使用UMLS疾病标识的疾病层级结构的各种级别的疾病的分等级基因表的实例。在图6中,所述表包括疾病标识符、基因符号、分数和基因等级指数的UMLS ID。图7是使用MeSH疾病标识的疾病层级结构的各种级别的疾病的分等级基因表的实例。在图7中,所述表包括疾病标识符、基因符号、分数和基因等级指数的MeSH ID。在图6和图7中,所述表显示了按从最高到最低等级分数的等级顺序列出的基因。对于第1-3级,所述表包括使用如上所述的等级加权总和分数确定的等级分数的分数。对于第4级,在此实例的层次结构的最低级别处,基因等级反映强度参数wij的顺序,如DisGeNET分数。
在一些实施例中,GSA模块120在基于等级分数对基因分等级之前向等级分数施用阈值。GSA模块120选择具有大于或等于阈值的值的等级分数,并对具有选定等级分数的那些基因分等级。施用阈值具有以下优点:减少用于对具有低于阈值的等级分数的基因分等级的计算,并且减少针对疾病层级结构的级别生成的分等级基因表的存储器大小或储存要求。
图8是具有沿x轴的等级加权总和分数的多个基因-疾病对的密度函数720的实例。使用用于统计计算的R编程语言来计算密度函数720的831,405个输入RWSS分数。密度函数显示大部分RWSS分数小于0.05。在区间740中设定阈值消除了大部分低等级分数。表1示出了在对根据等式(1)计算的等级分数施用不同阈值之后的结果的实例。基因-疾病对的输入等级分数的初始数量是831,405个。在对等级分数进行阈值处理之后剩余的基因-疾病对的数量显示在表1的右列中。对应于图8中的区间740的其中0.09≤T≤0.11的阈值T针对在进行阈值处理之后剩余的等级分数产生类似数量的基因-疾病对。当阈值设定在0.09≤T≤0.11的区间时,类似数量的基因-疾病对表示基因分等级结果的稳定性。
表1.
阈值 基因-疾病对的数量
0.05 135,906
0.08 124,092
0.09 113,451
0.1 112,676
0.11 112,342
0.12 79,331
0.13 38,846
在一些实施例中,在对基因分等级之前向等级分数施用阈值可以在计算效率和存储/储存效率方面产生实质性改进。举例来说,参考表1,通过对等级分数施用0.1的阈值,用于对基因-疾病对的基因分等级的等级分数的数量从831,405减少到112,676。待分等级的基因的数量减少,从而减轻了计算负担。与疾病层级结构的不同级别的疾病相关联的分等级基因表的大小也减小,从而节省了存储和储存要求。
在一些实施例中,根据等式(1)计算等级分数,其中施用到强度参数wij的权重是阶指数k的倒数1/k。在一些实施例中,施用到等级分数的阈值的范围可以是约0.09-0.11,或约0.095-0.105,或约0.08-0.12,或约0.05到0.13,或约0.05-0.0.09,0.08-0.09,或约0.90-0.10,或约0.10-0.11,或约0.11到0.12,或约0.12-0.13,或这些范围中的一种的子区间。
在一些实施例中,虚拟组合文库(VPL)模块130分析疾病层级结构的一定级别的疾病的等级分数以聚类具有相似疾病关联模式的基因并使基因簇与疾病相关联。图9是VPL模块130的基因簇处理的示例性框图。在步骤820处,从DAD模块110中检索基因-疾病关联性分数,如与第1级疾病相关联的等级分数表。第1级表示疾病层级结构的最高级别并且包括广义的疾病类别。所述表可以包含矩阵,其中行表示第1级疾病并且列表示基因,从而使得每个列向量含有第1级疾病中的每一种的基因的等级分数。在步骤840处,构建基因-疾病关联性网络包括对与基因相对应的等级分数的列向量进行交叉相关以生成相关矩阵。相关矩阵的每个元素是两个基因的等级分数的两个列向量的交叉相关值(或点积)。可以移位相关矩阵的行和列的顺序以使得高相关值朝向相关矩阵的对角线分组。在步骤860处,对相关值施用阈值以选择高度相关基因的基因簇或基因模块。在步骤880处,每种基因模块的主成分分析使基因模块与疾病相关联。对于每个经标识的基因模块,将主成分分析应用于包含对应于基因模块中的每种基因的等级分数的列向量的矩阵以生成主成分向量。确定具有最大值的主成分矢量的元素表示与基因模块中的基因相关联的疾病。可以计算每种基因模块和每个第1级疾病的主要成分载体的相关性和p值以给出基因模块和疾病的关联性评分。所示疾病可以经注释以用于基因模块的基因组。举例来说,步骤840、860和880可以使用加权相关网络分析(WGCNA)来实施,如Langfelder等人的《WGCNA:加权相关网络分析的R包(WGCNA:anR package for weighted correlation network analysis)》,《BMC生物信息学(BMCBioinformatics)》,第9:559卷,第1-13页(2008)中所描述。
图10是具有第1级疾病类别的经注释基因簇的示例性结果的表。分析了经选择以用于临床外显子组的4,000个基因的关联模式,其具有与遗传疾病相关的16个高级别MeSH类别。通过对VPL模块130应用基因簇处理的步骤来获得结果,如关于图9所描述。对于此实例,通过标识基因簇(模块)860的步骤来标识28个基因模块。每个模块中的基因的数量在GeneCount列中指出。“注释”列列出了基于基因模块的基因的等级分数的主成分分析,针对基因模块标识了16种第1级疾病中的哪一种,如针对通过疾病880注释基因模块的步骤所描述。虽然此实例显示了使基因与第1级疾病类别相关联的结果,但是上述VPL模块130的基因簇处理可以应用于研究疾病层级结构的任何级别的基因-疾病关联性。
Leamon等人的美国专利申请公开第2010/0295819号('819申请)通过全文引用的方式并入本文中。根据'819申请中体现的教导内容和原理,提供了新型方法、计算机可读介质和系统,其标识或设计使用PCR来富集一个或多个目的基因组区域或靶标以用于后续测序的产品或试剂盒,和/或包括使一个或多个目的基因组区域或靶标的覆盖度最大化同时使一种或多种脱靶杂交最小化的引物或测定、多种引物和许多引物集合体。
图11('819申请中的图17)说明了根据示例性实施例的用于设计引物或测定的系统。所述系统包括数据接收模块1701、引物提供模块1702、评分(计算机模拟PCR)模块1703、评分(SNP重叠)模块1704、过滤模块1705、汇集模块1706和报告模块1707。所述系统还包括数据库1708,其可以包括关于遗传注释的数据、SNP相关数据或其它遗传数据例如重复、染色体、位置、方向等的标识,或可以与目的基因组区域或靶标相关的任何其它类型的信息;和数据库1709,其可以包括引物相关数据例如解链温度(Tm)、染色体、位置、方向和SNP重叠信息等,或可能与引物相关的任何其它类型的信息。所述系统可以在使用一个或多个软件组件的一个或多个计算机和/或服务器中实施或使用其来实施,所述软件组件可能无法访问或发布给可能订购可以使用这种系统来设计的定制引物或测定的客户。客户可以通过提供呈任何合适的格式的一个或多个目的基因组区域或靶标以至少部分地通过网络可访问数据门户来订购定制引物或测定。在示例性实施例中,提供了一种方法,其执行包括与模块1701-1707和数据库1708和1709相关联的一般步骤的步骤(例如接收数据、提供引物、评分引物和/或扩增子、过滤引物和/或扩增子、汇集引物和/或扩增子、报告结果以及查询数据库)。
在一些实施例中,GSA模块120可以向数据库1708提供基因-疾病关联性的分等级基因信息。在一些实施例中,VPL模块130可以向数据库1708提供具有疾病类别信息的经注释基因簇。在一些实施例中,DAD模块110可以向数据库1708提供疾病关联数据库信息。
根据示例性实施例,提供了一种系统,其包括:(1)储存在存储器中的疾病关联数据库和与存储器通信连接的处理器。疾病关联数据库配置成储存多种疾病的疾病信息和多种基因的基因信息。疾病关联数据库包括多种疾病中的疾病之间的疾病关联性和疾病与多种基因中的关联基因之间的基因-疾病关联性。疾病关联性包括疾病层级结构并且基因-疾病关联性包括每种基因-疾病关联性的强度参数。处理器配置成:(1)从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,其中给定级别的疾病与疾病层级结构中较高级别的给定疾病具有层级关系;(2)对于与给定级别的疾病相关联的每种基因,向每种基因-疾病关联性的强度参数施用权重;(3)添加基因-疾病关联性的加权强度参数以形成用于与给定级别的疾病相关联的每种基因的等级分数;并且(4)基于等级分数对与给定级别的疾病相关联的基因分等级以提供与较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表。处理器可以进一步配置成向等级分数施用阈值并对等级分数大于或等于阈值的基因分等级。疾病关联数据库可以包含具有多个节点和多个边缘的图数据库系统,其中边缘与两个节点相关联。多个节点中的疾病节点可以储存多种疾病中的一种的疾病信息。疾病节点处的疾病信息可以包括疾病标识符。使两个疾病节点关联的边缘可以表示两种疾病的层级关系。多个节点中的基因节点可以储存多种基因中的一种的基因信息。在基因节点处储存的基因信息可以包括基因标识符。多个节点中的疾病节点和多个节点中的基因节点通过基因-疾病边缘相关联,其中基因-疾病边缘储存基因-疾病关联性的强度参数。疾病关联数据库可以进一步包括多种表型的表型信息和疾病与多种表型中的关联表型之间的表型-疾病关联性。处理器可以进一步配置成响应对疾病关联数据库的查询以提供基因-疾病关联性以用于图形显示。处理器可以进一步配置成响应使用者对给定疾病的选择以从用于基因组合设计的分等级基因表中选择与给定疾病相关联的一种或多种分等级基因。处理器可以进一步配置成使用用于给定级别的等级分数来提供用于疾病层级结构中第二较高级别的第二疾病的等级分数,其中第二疾病与给定疾病具有层级关系。处理器可以进一步配置成使用用于给定级别的分等级基因信息来提供用于疾病层级结构中第二较高级别的第二疾病的分等级基因信息,其中第二疾病与给定疾病具有层级关系。处理器可以进一步配置成使用用于疾病层级结构的较低级别的基因-疾病关联性的等级分数来提供用于疾病层级结构的多个较高级别的疾病的等级分数,其中较低级别的疾病与较高级别的疾病之间存在层级关系。处理器可以进一步配置成使用用于疾病层级结构的较低级别的基因-疾病关联性的分等级基因信息来提供用于疾病层级结构的多个较高级别的疾病的分等级基因信息,其中较低级别的疾病与较高级别的疾病之间存在层级关系。处理器可以进一步配置成确定给定级别的基因-疾病关联性的强度参数的从最高值到最低值的值顺序,并且基于值顺序为强度参数中的每一个分配阶指数,其中施用到每个强度参数的权重基于其阶指数的倒数。处理器可以进一步配置成向等级分数施用阈值,其中阈值具有在约0.09-0.10范围内的值。处理器可以进一步配置成基于与疾病层级结构的一定级别的疾病相关联的基因的等级分数的相关性将基因分组成基因簇。处理器可以进一步配置成将主成分分析应用于对应于每个基因簇的基因的等级分数以确定用于基因簇的主成分向量。
根据一个示例性实施例,提供了一种选择用于基因组合的基因的方法,其包括:(1)从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,疾病关联数据库配置成储存多种疾病的疾病信息和多种基因的基因信息,疾病关联数据库包括多种疾病中的疾病之间的疾病关联性和疾病与多种基因中的关联基因之间的基因-疾病关联性,其中疾病关联性包括疾病层级结构并且基因-疾病关联性包括每种基因-疾病关联性的强度参数,疾病关联数据库储存在存储器中,其中给定级别的疾病与疾病层级结构中较高级别的给定疾病具有层级关系;(2)对于与给定级别的疾病相关联的每种基因,向每种基因-疾病关联性的强度参数施用权重;(3)添加基因-疾病关联性的加权强度参数以形成用于与给定级别的疾病相关联的每种基因的等级分数;并且(4)基于等级分数对与给定级别的疾病相关联的基因分等级以提供与较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表。对基因分等级的步骤可以进一步包括向等级分数施用阈值并对等级分数大于或等于阈值的基因分等级。疾病关联数据库可以包含具有多个节点和多个边缘的图数据库系统,其中边缘与两个节点相关联。多个节点中的疾病节点可以储存多种疾病中的一种的疾病信息。疾病节点处的疾病信息可以包括疾病标识符。使两个疾病节点关联的边缘可以表示两种疾病的层级关系。多个节点中的基因节点可以储存多种基因中的一种的基因信息。在基因节点处储存的基因信息可以包括基因标识符。多个节点中的疾病节点和多个节点中的基因节点通过基因-疾病边缘相关联,其中基因-疾病边缘储存基因-疾病关联性的强度参数。疾病关联数据库可以进一步包括多种表型的表型信息和疾病与多种表型中的关联表型之间的表型-疾病关联性。所述方法可以进一步包括响应对疾病关联数据库的查询以提供基因-疾病关联性以用于图形显示的步骤。所述方法可以进一步包括响应使用者对给定疾病的选择以从用于基因组合设计的分等级基因表中选择与给定疾病相关联的一种或多种分等级基因的步骤。所述方法可以进一步包括使用用于给定级别的等级分数来提供用于疾病层级结构中第二较高级别的第二疾病的等级分数的步骤,其中第二疾病与给定疾病具有层级关系。所述方法可以进一步包括使用用于给定级别的分等级基因信息来提供用于疾病层级结构中第二较高级别的第二疾病的分等级基因信息的步骤,其中第二疾病与给定疾病具有层级关系。所述方法可以进一步包括使用用于给定级别的分等级基因信息来提供用于疾病层级结构中第二较高级别的第二疾病的分等级基因信息的步骤,其中第二疾病与给定疾病具有层级关系。所述方法可以进一步包括使用用于疾病层级结构的较低级别的基因-疾病关联性的等级分数来提供用于疾病层级结构的多个较高级别的疾病的等级分数的步骤,其中较低级别的疾病与较高级别的疾病之间存在层级关系。所述方法可以进一步包括使用用于疾病层级结构的较低级别的基因-疾病关联性的分等级基因信息来提供用于疾病层级结构的多个较高级别的疾病的等级基因信息的步骤,其中较低级别的疾病与较高级别的疾病之间存在层级关系。所述方法可以进一步包括确定给定级别的基因-疾病关联性的强度参数的从最高值到最低值的值顺序并且基于值顺序向强度参数中的每一个分配阶指数的步骤,其中施用到每个强度参数的权重基于其阶指数的倒数。所述方法可以进一步包括向等级分数施用阈值的步骤,其中阈值具有在约0.09-0.10范围内的值。所述方法可以进一步包括基于与疾病层级结构的一点级别的疾病相关联的基因的等级分数的相关性将基因分组成基因簇的步骤。所述方法可以进一步包括将主成分分析应用于对应于每种基因簇的基因的等级分数来确定用于基因簇的主成分向量的步骤。根据一个示例性实施例,提供了一种包含指令的非暂时性机器可读的储存介质,所述指令在由处理器执行时使处理器执行用于核酸测序的这种方法或其相关方法和变体。
一种包含与基因组合中的一组基因相关联的一组引物的试剂盒,通过以下步骤选定所述基因组以用于基因组合:(1)从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,疾病关联数据库配置成储存多种疾病的疾病信息和多种基因的基因信息,疾病关联数据库包括多种疾病中的疾病之间的疾病关联性和疾病与多种基因中的关联基因之间的基因-疾病关联性,其中疾病关联性包括疾病层级结构并且基因-疾病关联性包括每种基因-疾病关联性的强度参数,疾病关联数据库储存在存储器中,其中给定级别的疾病与疾病层级结构中较高级别的给定疾病具有层级关系;(2)对于与给定级别的疾病相关联的每种基因,向每种基因-疾病关联性的强度参数施用权重;(3)添加基因-疾病关联性的加权强度参数以形成用于与给定级别的疾病相关联的每种基因的等级分数;(4)基于等级分数对与给定级别的疾病相关联的基因分等级以提供与较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表;以及(5)从分等级基因表中选择分等级基因中的至少一种以用于基因组合中的基因组。对基因分等级的步骤可以进一步包括向等级分数施用阈值并对等级分数大于或等于阈值的基因分等级。疾病关联数据库可以包含具有多个节点和多个边缘的图数据库系统,其中边缘与两个节点相关联。多个节点中的疾病节点可以储存多种疾病中的一种的疾病信息。疾病节点处的疾病信息可以包括疾病标识符。使两个疾病节点关联的边缘可以表示两种疾病的层级关系。多个节点中的基因节点可以储存多种基因中的一种的基因信息。在基因节点处储存的基因信息可以包括基因标识符。多个节点中的疾病节点和多个节点中的基因节点通过基因-疾病边缘相关联,其中基因-疾病边缘储存基因-疾病关联性的强度参数。疾病关联数据库可以进一步包括多种表型的表型信息和疾病与多种表型中的关联表型之间的表型-疾病关联性。所述步骤可以进一步包括响应对疾病关联数据库的查询以提供基因-疾病关联性以用于图形显示的步骤。所述步骤可以进一步包括响应使用者对给定疾病的选择以从用于基因组合设计的分等级基因表中选择与给定疾病相关联的一种或多种分等级基因的步骤。所述步骤可以进一步包括使用用于给定级别的等级分数来提供用于疾病层级结构中第二较高级别的第二疾病的等级分数的步骤,其中第二疾病与给定疾病具有层级关系。所述步骤可以进一步包括使用用于给定级别的分等级基因信息来提供用于疾病层级中第二较高级别的第二疾病的分等级基因信息的步骤,其中第二疾病与给定疾病具有层级关系。所述步骤可以进一步包括使用用于给定级别的分等级基因信息来提供用于疾病层级中第二较高级别的第二疾病的分等级基因信息的步骤,其中第二疾病与给定疾病具有层级关系。所述步骤可以进一步包括使用用于疾病层级结构的较低级别的基因-疾病关联性的等级分数来提供用于疾病层级结构的多个较高级别的疾病的等级分数的步骤,其中较低级别的疾病与较高级别的疾病之间存在层级关系。所述步骤可以进一步包括使用用于疾病层级结构的较低级别的基因-疾病关联性的分等级基因信息来提供用于疾病层级结构的多个较高级别的疾病的分等级基因信息的步骤,其中较低级别的疾病与较高级别的疾病之间存在层级关系。所述步骤可以进一步包括确定给定级别的基因-疾病关联性的强度参数从最高值到最低值的值顺序并且基于值顺序向强度参数中的每一个分配阶指数的步骤,其中施用到每个强度参数的权重基于其阶指数的倒数。所述步骤可以进一步包括向等级分数施用阈值的步骤,其中阈值具有在约0.09-0.10范围内的值。所述步骤可以进一步包括基于与疾病层级结构的一点级别的疾病相关联的基因的等级分数的相关性将基因分组成基因簇的步骤。所述步骤可以进一步包括将主成分分析应用于对应于每种基因簇的基因的等级分数以确定用于基因簇的主成分向量的步骤。
根据各种示例性实施例,可以使用适当配置和/或编程的硬件和/或软件元件来执行或实施上述教导内容和/或示例性实施例中的任一个或多个的一个或多个特征。确定是否使用硬件和/或软件元件来实施实施例可以基于任何数量的因素,如期望的计算速率、功率水平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度等以及其它设计或性能限制。
硬件元件的实例可以包括通过以下各项通信耦合的处理器、微处理器、一个或多个输入设备和/或一个或多个输出设备(I/O)(或外围设备):本地接口电路、电路元件(例如晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑设备(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体设备、芯片、微芯片、芯片组等。本地接口可以包括例如一个或多个总线或其它有线或无线连接、控制器、缓冲器(高速缓存器)、驱动器、中继器和接收器等以允许硬件组件之间的适当通信。处理器是用于执行软件的硬件设备,尤其是储存在存储器中的软件。处理器可以是任何定制的或市售的处理器、中央处理单元(CPU)、与计算机相关联的若干处理器中的辅助处理器、基于半导体的微处理器(例如呈微芯片或芯片组的形式)、宏处理器、或通常用于执行软件指令的任何设备。处理器还可以表示分布式处理架构。I/O设备可以包括输入设备,例如键盘、鼠标、扫描仪、麦克风、触摸屏、用于各种医疗设备和/或实验室仪器的接口、条形码读取器、触笔、激光读取器、射频设备读取器等。此外,I/O设备还可以包括输出设备,例如打印机、条形码打印机、显示器等。最后,I/O设备可以进一步包括作为输入件和输出件进行通信的设备,例如调制器/解调器(调制解调器;用于访问另一个设备、系统或网络)、射频(RF)或其它收发器、电话接口、桥接器、路由器等
软件的实例可以包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、单词、值、符号或其任何组合。存储器中的软件可以包括一个或多个单独的程序,所述程序可以包括用于实施逻辑函数的有序的可执行指令列表。存储器中的软件可以包括用于根据本教导内容标识数据流的系统和任何合适的定制或市售的操作系统(O/S),其可以控制其它计算机程序如系统的执行,并提供调度、输入输出控制、文件和数据管理、存储管理、通信控制等。
根据各种示例性实施例,可以使用可以储存指令或指令集的适当地配置和/或编程的非暂时性机器可读介质或物件来执行或实施上述教导内容和/或示例性实施例中的任一个或多个的一个或多个特征,所述指令或指令集如果由机器执行,则可以使机器执行根据示例性实施例的方法和/或操作。这样的机器可以包括例如任何合适的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、处理器、科学或实验室仪器等,并且可以使用硬件和/或软件的任何合适的组合来实施。机器可读介质或物件可以包括例如任何合适类型的存储器单元、存储器设备、存储器物件、存储器介质、储存设备、储存物件、储存介质和/或储存单元,例如存储器、可移动介质或不可移动介质、可擦除介质或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、只读存储器光盘(CD-ROM)、可刻录光盘(CD-R)、可重写光盘(CD-RW)、光盘、磁介质、磁光介质、可移动存储卡或磁盘、各种类型的数字多功能光盘(DVD)、磁带、磁带盒等,包括适用于计算机的任何介质。存储器可以包括易失性存储器元件(例如随机存取存储器(RAM,如DRAM、SRAM、SDRAM等))和非易失性存储器元件(例如ROM、EPROM、EEROM、闪存器、硬盘驱动器、磁带、CDROM等)中的任一个或组合。此外,存储器可以并入电子、磁性、光学和/或其它类型的储存介质。存储器可以具有分布式架构,其中各种组件远离彼此定位,但仍然通过处理器访问。指令可以包括使用任何合适的高级的、低级的、面向对象的、可视的、编译的和/或解释的编程语言实施的任何合适类型的代码,如源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密代码等。
根据各种示例性实施例,可以至少部分地使用分布式、群集、远程或云计算资源来执行或实施上述教导内容和/或示例性实施例中的任一个或多个的一个或多个特征。
根据各种示例性实施例,可以使用源程序、可执行程序(对象代码)、脚本或包含一组待执行指令的任何其它实体来执行或实施上述教导内容和/或示例性实施例中的任一个或多个的一个或多个特征。当源程序时,所述程序可以通过可以包括或不包括在存储器中的编译器、汇编器、解释器等翻译以便与O/S一起正确地操作。指令可以使用以下各项来书写:(a)具有数据类和方法类的面向对象的编程语言;或(b)具有例程、子例程和/或函数的过程编程语言,可以包括例如C、C++、R、Pascal、Basic、Fortran、Cobol、Perl、Java和Ada。
根据各种示例性实施例,上述示例性实施例中的一个或多个可以包括向使用者接口设备、计算机可读储存介质、本地计算机系统或远程计算机系统发送、显示、储存、打印或输出与可以通过这类示例性实施例生成、访问或使用的任何信息、信号、数据和/或中间结果或最终结果有关的信息。举例来说,这种发送、显示、储存、打印或输出的信息可以采用可搜索和/或可过滤的运行和报告、图片、表格、图表、图形、电子表格、相关性、序列和其组合列表的形式。
虽然已经在本文中显示和描述本发明的优选实施例,但所属领域的技术人员应清楚这类实施例仅是作为实例而提供的。所属领域的技术人员现在将在不脱离本发明的情况下想到众多变化、改变和取代。应理解,本文所描述的本发明的实施例的各个替代方案都可以用于实践本发明。预期随附权利要求限定本发明的范围并且因此覆盖这些权利要求和其同等物的范围内的方法和结构。

Claims (20)

1.一种系统,其包含:
配置成储存多种疾病的疾病信息和多种基因的基因信息的疾病关联数据库,所述疾病关联数据库包括所述多种疾病中的疾病之间的疾病关联性和所述疾病与所述多种基因中的关联基因之间的基因-疾病关联性,其中所述疾病关联性包括疾病层级结构并且所述基因-疾病关联性包括每种基因-疾病关联性的强度参数,所述疾病关联数据库储存在存储器中;和
与所述存储器通信连接的处理器,所述处理器配置成:
从所述疾病关联数据库中检索与所述疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,其中所述给定级别的疾病与所述疾病层级结构中较高级别的给定疾病具有层级关系,
对于与所述给定级别的疾病相关联的每种基因,向所述每种基因-疾病关联性的强度参数施用权重以形成加权强度参数,
添加所述基因-疾病关联性的加权强度参数以形成用于与所述给定级别的疾病相关联的每种基因的等级分数,并且
基于所述等级分数对与所述给定级别的疾病相关联的基因分等级以提供与所述较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表。
2.根据权利要求1所述的系统,其中对于所述分等级步骤,所述处理器配置成向所述等级分数施用阈值并且对等级分数大于或等于所述阈值的基因分等级。
3.根据权利要求1所述的系统,其中所述疾病关联数据库包含具有多个节点和多个边缘的图数据库系统,其中一个边缘与两个节点相关联。
4.根据权利要求3所述的系统,其中所述多个节点中的疾病节点储存所述多种疾病中的一种的疾病信息。
5.根据权利要求4所述的系统,其中所述疾病节点处的疾病信息包括疾病标识符。
6.根据权利要求4所述的系统,其中使两个疾病节点关联的边缘表示所述两种疾病的层级关系。
7.根据权利要求3所述的系统,其中所述多个节点中的基因节点储存所述多种基因中的一种的基因信息。
8.根据权利要求7所述的系统,其中在所述基因节点处储存的基因信息包括基因标识符。
9.根据权利要求3所述的系统,其中所述多个节点中的疾病节点和所述多个节点中的基因节点通过基因-疾病边缘相关联,其中所述基因-疾病边缘储存所述基因-疾病关联性的强度参数。
10.根据权利要求1所述的系统,其中所述疾病关联数据库进一步包括多种表型的表型信息和所述疾病与所述多种表型中的关联表型之间的表型-疾病关联性。
11.根据权利要求1所述的系统,其中所述处理器配置成响应对所述疾病关联数据库的查询以提供所述基因-疾病关联性以用于图形显示。
12.根据权利要求1所述的系统,其中所述处理器配置成响应使用者对所述给定疾病的选择以从用于基因组合设计的所述分等级基因表中选择与所述给定疾病相关联的分等级基因中的一种或多种。
13.根据权利要求1所述的系统,其中所述处理器进一步配置成使用用于所述疾病层级结构的较低级别的基因-疾病关联性的等级分数来提供用于所述疾病层级结构的多个较高级别的疾病的等级分数,其中在所述较低级别的疾病与所述较高级别的疾病之间存在层级关系。
14.根据权利要求1所述的系统,其中所述处理器进一步配置成使用用于所述疾病层级结构的较低级别的基因-疾病关联性的分等级基因信息来提供用于所述疾病层级结构的多个较高级别的疾病的分等级基因信息,其中在所述较低级别的疾病与所述较高级别的疾病之间存在层级关系。
15.根据权利要求1所述的系统,其中所述处理器进一步配置成:
确定所述给定级别的基因-疾病关联性的强度参数的从最高值到最低值的值顺序,并且
基于所述值顺序向所述强度参数中的每一个分配阶指数,其中施用到每个强度参数的权重基于其阶指数的倒数。
16.根据权利要求15所述的系统,其中所述处理器进一步配置成向所述等级分数施用阈值,其中所述阈值具有在约0.09-0.10范围内的值。
17.根据权利要求1所述的系统,其中所述处理器进一步配置成基于与所述疾病层级结构的一定级别的疾病相关联的基因的等级分数的相关性将所述基因分组成基因簇。
18.根据权利要求17所述的系统,其中所述处理器进一步配置成将主成分分析应用于对应于每种基因簇的基因的等级分数以确定用于所述基因簇的主成分向量。
19.一种试剂盒,其包含与基因组合中的一组基因相关联的一组引物,通过以下步骤选定所述基因组以用于所述基因组合:
从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,所述疾病关联数据库配置成储存多种疾病的疾病信息和多种基因的基因信息,所述疾病关联数据库包括所述多种疾病中的疾病之间的疾病关联性和所述疾病与所述多种基因中的关联基因之间的基因-疾病关联性,其中所述疾病关联性包括所述疾病层级结构并且所述基因-疾病关联性包括每种基因-疾病关联性的强度参数,所述疾病关联数据库储存在存储器中,其中所述给定级别的疾病与所述疾病层级结构中较高级别的给定疾病具有层级关系;
对于与所述给定级别的疾病相关联的每种基因,向所述每种基因-疾病关联性的强度参数施用权重以形成加权强度参数;
添加所述基因-疾病关联性的加权强度参数以形成用于与所述给定级别的疾病相关联的每种基因的等级分数;
基于所述等级分数对与所述给定级别的疾病相关联的基因分等级以提供与所述较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表;以及
从所述分等级基因表中选择所述分等级基因中的至少一种以用于所述基因组合中的基因组。
20.一种选择用于基因组合的基因的方法,其包含:
从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,所述疾病关联数据库配置成储存多种疾病的疾病信息和多种基因的基因信息,所述疾病关联数据库包括所述多种疾病中的疾病之间的疾病关联性和所述疾病与所述多种基因中的关联基因之间的基因-疾病关联性,其中所述疾病关联性包括所述疾病层级结构并且所述基因-疾病关联性包括每种基因-疾病关联性的强度参数,所述疾病关联数据库储存在存储器中,其中所述给定级别的疾病与所述疾病层级结构中较高级别的给定疾病具有层级关系;
对于与所述给定级别的疾病相关联的每种基因,向所述每种基因-疾病关联性的强度参数施用权重以形成加权强度参数;
添加所述基因-疾病关联性的加权强度参数以形成用于与所述给定级别的疾病相关联的每种基因的等级分数;并且
基于所述等级分数对与所述给定级别的疾病相关联的基因分等级以提供与所述较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表。
CN201780033722.9A 2016-06-01 2017-06-01 用于设计基因组合的方法和系统 Active CN109643578B (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201662344078P 2016-06-01 2016-06-01
US62/344,078 2016-06-01
US201662395828P 2016-09-16 2016-09-16
US62/395,828 2016-09-16
US201762509860P 2017-05-23 2017-05-23
US62/509,860 2017-05-23
US201762510906P 2017-05-25 2017-05-25
US62/510,906 2017-05-25
PCT/US2017/035466 WO2017210437A1 (en) 2016-06-01 2017-06-01 Methods and systems for designing gene panels

Publications (2)

Publication Number Publication Date
CN109643578A true CN109643578A (zh) 2019-04-16
CN109643578B CN109643578B (zh) 2023-07-21

Family

ID=59054295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780033722.9A Active CN109643578B (zh) 2016-06-01 2017-06-01 用于设计基因组合的方法和系统

Country Status (4)

Country Link
US (2) US20170351807A1 (zh)
EP (1) EP3465506B1 (zh)
CN (1) CN109643578B (zh)
WO (1) WO2017210437A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192625A (zh) * 2019-12-31 2020-05-22 中南大学湘雅医院 基于帕金森病基因组学关联模型的管理方法及装置
CN113192556A (zh) * 2021-03-17 2021-07-30 西北工业大学 基于小样本的多组学数据中基因型与表型关联分析方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2018201712B2 (en) * 2018-03-09 2024-02-22 Pryzm Health IQ Pty Ltd Visualising Clinical and Genetic Data
CN111370131B (zh) * 2018-12-26 2023-06-09 陈治平 经由疾病轨迹筛选生物标记的方法及系统
US11636951B2 (en) 2019-10-02 2023-04-25 Kpn Innovations, Llc. Systems and methods for generating a genotypic causal model of a disease state
CN111540405B (zh) * 2020-04-29 2023-07-07 新疆大学 一种基于快速网络嵌入的疾病基因预测方法
CN112667772B (zh) * 2020-12-23 2023-04-07 深圳华大基因科技服务有限公司 一种基因关联程度确定方法及装置
CN115512843B (zh) * 2022-11-15 2023-04-07 南京腾鸿医疗科技有限公司 一种基于标准化表型术语的疾病和基因预测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040193587A1 (en) * 2003-03-03 2004-09-30 Fujitsu Limited Information relevance display method, program, storage medium and apparatus
US20080065471A1 (en) * 2003-08-25 2008-03-13 Tom Reynolds Determining strategies for increasing loyalty of a population to an entity
US20100305929A1 (en) * 2007-09-07 2010-12-02 Andersen Timothy L Systems and methods for cell-centric simulation and cell-based models produced therefrom
CN102124813A (zh) * 2008-08-15 2011-07-13 高通股份有限公司 小区间mimo系统的分层级聚类架构
US20110183336A1 (en) * 2007-10-26 2011-07-28 The Regents Of The University Of California Method to Predict Responsiveness of Breast Cancer to Polyamine-Type Chemotherapy
CN103854128A (zh) * 2012-12-05 2014-06-11 富士施乐株式会社 信息处理装置和方法
CN104094312A (zh) * 2011-12-09 2014-10-08 英特尔公司 对基于测得的知觉质量特性的视频处理算法的控制
US20140304270A1 (en) * 2011-10-31 2014-10-09 The Scripps Research Institute Systems and Methods for Genomic Annotation and Distributed Variant Interpretation
US20150302436A1 (en) * 2003-08-25 2015-10-22 Thomas J. Reynolds Decision strategy analytics
CN105229649A (zh) * 2013-03-15 2016-01-06 百世嘉(上海)医疗技术有限公司 用于疾病关联的人类基因组变异分析和报告的系统及方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4965188A (en) 1986-08-22 1990-10-23 Cetus Corporation Process for amplifying, detecting, and/or cloning nucleic acid sequences using a thermostable enzyme
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4800159A (en) 1986-02-07 1989-01-24 Cetus Corporation Process for amplifying, detecting, and/or cloning nucleic acid sequences
CA2020958C (en) 1989-07-11 2005-01-11 Daniel L. Kacian Nucleic acid sequence amplification methods
US5210015A (en) 1990-08-06 1993-05-11 Hoffman-La Roche Inc. Homogeneous assay system using the nuclease activity of a nucleic acid polymerase
US5854033A (en) 1995-11-21 1998-12-29 Yale University Rolling circle replication reporter systems
NZ502323A (en) 1996-06-04 2001-09-28 Univ Utah Res Found Monitoring a fluorescence energy transfer pair during hybridization of first probe labelled with fluorescein to second probe labelled with Cy5 or Cy5.5
EP1907583B2 (en) 2005-06-15 2019-10-23 Complete Genomics Inc. Single molecule arrays for genetic and chemical analysis
CA2632380A1 (en) * 2005-11-29 2007-06-07 Intelligent Medical Devices, Inc. Methods and systems for designing primers and probes
JP2010271796A (ja) 2009-05-19 2010-12-02 Optrex Corp 電極間接続構造およびタッチパネル
WO2011151500A1 (en) * 2010-05-31 2011-12-08 Helsingin Yliopisto Arrangement and method for finding relationships among data
WO2014037914A2 (en) * 2012-09-07 2014-03-13 University Of The Western Cape Method and system for organizing and retrieving data in a semantic database structure
WO2015051275A1 (en) * 2013-10-03 2015-04-09 Personalis, Inc. Methods for analyzing genotypes

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040193587A1 (en) * 2003-03-03 2004-09-30 Fujitsu Limited Information relevance display method, program, storage medium and apparatus
US20080065471A1 (en) * 2003-08-25 2008-03-13 Tom Reynolds Determining strategies for increasing loyalty of a population to an entity
US20150302436A1 (en) * 2003-08-25 2015-10-22 Thomas J. Reynolds Decision strategy analytics
US20100305929A1 (en) * 2007-09-07 2010-12-02 Andersen Timothy L Systems and methods for cell-centric simulation and cell-based models produced therefrom
US20110183336A1 (en) * 2007-10-26 2011-07-28 The Regents Of The University Of California Method to Predict Responsiveness of Breast Cancer to Polyamine-Type Chemotherapy
CN102124813A (zh) * 2008-08-15 2011-07-13 高通股份有限公司 小区间mimo系统的分层级聚类架构
US20140304270A1 (en) * 2011-10-31 2014-10-09 The Scripps Research Institute Systems and Methods for Genomic Annotation and Distributed Variant Interpretation
CN104094312A (zh) * 2011-12-09 2014-10-08 英特尔公司 对基于测得的知觉质量特性的视频处理算法的控制
CN103854128A (zh) * 2012-12-05 2014-06-11 富士施乐株式会社 信息处理装置和方法
CN105229649A (zh) * 2013-03-15 2016-01-06 百世嘉(上海)医疗技术有限公司 用于疾病关联的人类基因组变异分析和报告的系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192625A (zh) * 2019-12-31 2020-05-22 中南大学湘雅医院 基于帕金森病基因组学关联模型的管理方法及装置
CN113192556A (zh) * 2021-03-17 2021-07-30 西北工业大学 基于小样本的多组学数据中基因型与表型关联分析方法
CN113192556B (zh) * 2021-03-17 2022-04-26 西北工业大学 基于小样本的多组学数据中基因型与表型关联分析方法

Also Published As

Publication number Publication date
US20230402128A1 (en) 2023-12-14
US20170351807A1 (en) 2017-12-07
EP3465506A1 (en) 2019-04-10
CN109643578B (zh) 2023-07-21
WO2017210437A1 (en) 2017-12-07
EP3465506B1 (en) 2024-04-03

Similar Documents

Publication Publication Date Title
CN109643578A (zh) 用于设计基因组合的方法和系统
US11810648B2 (en) Systems and methods for adaptive local alignment for graph genomes
ENCODE Project Consortium Abascal Federico 95 Acosta Reyes 5 Addleman Nicholas J. 3 Adrian Jessika 3 Afzal Veena 17 Ai Rizi 118 Aken Bronwen 100 Akiyama Jennifer A. 17 Jammal Omar Al 116 Amrhein Henry 14 Anderson Stacie M. 58 Andrews Gregory R. 1 Antoshechkin Igor 14 Ardlie Kristin G. 2 Armstrong Joel 101 Astley Matthew 95 Banerjee Budhaditya 88 Barkal Amira A. 87 Barnes If HA 100 Barozzi Iros 17 Barrell Daniel 100 Barson Gemma 95 Bates Daniel 5 Baymuradov Ulugbek K. 3 Bazile Cassandra 31 Beer Michael A. 98 99 Beik Samantha 2 Bender MA 78 Bennett Ruth 100 Bouvrette Louis Philip Benoit 19 20 21 Bernstein Bradley E. 42 Berry Andrew 100 Bhaskar Anand 3 Bignell Alexandra 100 Blue Steven M. 7 Bodine David M. 58 Boix Carles 35 Boley Nathan 3 Borrman Tyler 1 Borsari Beatrice 38 Boyle Alan P. 64 65 Brandsmeier Laurel A. 13 Breschi Alessandra 38 Bresnick Emery H. 94 Brooks Jason A. 1 Buckley Michael 5 Burge Christopher B. 31 Byron Rachel 78 Cahill Eileen 116 Cai Lingling 43 Cao Lulu 3 Carty Mark 96 Castanon Rosa G. 12 Castillo Andres 5 Chaib Hassan 3 Chan Esther T. 3 Chee Daniel R. 5 Chee Sora 10 Chen Hao 1 44 Chen Huaming 12 Chen Jia-Yu 56 Chen Songjie 3 Cherry J. Michael 3 Chhetri Surya B. 13 25 Choudhary Jyoti S. 108 Chrast Jacqueline 102 Chung Dongjun 93 Clarke Declan 24 Cody Neal AL 19 20 21 Coppola Candice J. 13 25 Coursen Julie 116 D’Ippolito Anthony M. 60 Dalton Stephen 110 Danyko Cassidy 4 Davidson Claire 100 Davila-Velderrain Jose 35 Davis Carrie A. 4 Dekker Job 32 Deran Alden 101 DeSalvo Gilberto 14 Despacio-Reyes Gloria 95 Dewey Colin N. 90 Dickel Diane E. 17 Diegel Morgan 5 Diekhans Mark 101 Dileep Vishnu 22 Ding Bo 61 Djebali Sarah 38 51 Dobin Alexander 4 Dominguez Daniel 31 Donaldson Sarah 100 Drenkow Jorg 53 Dreszer Timothy R. 3 Drier Yotam 45 Duff Michael O. 18 Dunn Douglass 5 Eastman Catharine 66 Ecker Joseph R. 12 34 Edwards Matthew D. 35 El-Ali Nicole 15 Elhajjajy Shaimae I. 1 Elkins Keri 7 Emili Andrew 67 Epstein Charles B. 2 Evans Rachel C. 13 Ezkurdia Iakes 103 Fan Kaili 1 Farnham Peggy J. 39 Farrell Nina P. 2 Feingold Elise A. 116 Ferreira Anne-Maud 102 Fisher-Aylor Katherine 14 Fitzgerald Stephen 95 Flicek Paul 100 Foo Chuan Sheng 80 Fortier Kevin 1 Frankish Adam 100 Freese Peter 8 Fu Shaliu 43 Fu Xiang-Dong 56 Fu Yu 1 79 Fukuda-Yuzawa Yoko 17 Fulciniti Mariateresa 46 Funnell Alister PW 5 Gabdank Idan 3 Galeev Timur 24 Gao Mingshi 1 Giron Carlos Garcia 100 Garvin Tyler H. 17 Gelboin-Burkhart Chelsea Anne 7 Georgolopoulos Grigorios 5 Gerstein Mark B. 24 Giardine Belinda M. 16 Gifford David K. 35 Gilbert David M. 22 Gilchrist Daniel A. 116 Gillespie Shawn 45 Gingeras Thomas R. 4 Gong Peng 26 Gonzalez Alvaro 96 Gonzalez Jose M. 100 Good Peter 117 Goren Alon 2 Gorkin David U. 9 10 Graveley Brenton R. 18 Gray Michael 95 Greenblatt Jack F. 67 74 Griffiths Ed 95 Groudine Mark T. 78 Grubert Fabian 3 Gu Mengting 24 Guigó Roderic 38 Guo Hongbo 67 Guo Yu 39 Guo Yuchun 35 Gursoy Gamze 24 Gutierrez-Arcelus Maria 88 Halow Jessica 5 Hardison Ross C. 16 Hardy Matthew 100 Hariharan Manoj 12 Harmanci Arif 24 Harrington Anne 17 Harrow Jennifer L. 107 Hashimoto Tatsunori B. 35 Hasz Richard D. 111 Hatan Meital 2 Haugen Eric 5 Hayes James E. 36 He Peng 14 He Yupeng 12 Heidari Nastaran 3 68 Hendrickson David 2 Heuston Elisabeth F. 58 Hilton Jason A. 3 Hitz Benjamin C. 3 Hochman Abigail 31 Holgren Cory 27 Hou Lei 35 Hou Shuyu 43 Hsiao Yun-Hua E. 97 Hsu Shanna 2 Huang Hui 10 Hubbard Tim J. 106 Huey Jack 1 Hughes Timothy R. 67 76 Hunt Toby 100 Ibarrientos Sean 5 Issner Robbyn 2 Iwata Mineo 5 Izuogu Osagie 100 Jaakkola Tommi 35 Jameel Nader 27 Jansen Camden 15 Jiang Lixia 3 Jiang Peng 82 83 Johnson Audra 5 Johnson Rory 38 54 Jungreis Irwin 2 35 Kadaba Madhura 27 Kasowski Maya 3 Kasparian Mary 27 Kato Momoe 17 Kaul Rajinder 5 6 Kawli Trupti 3 Kay Michael 100 Keen Judith C. 112 Keles Sunduz 89 90 Keller Cheryl A. 16 Kelley David 49 Kellis Manolis 2 35 Kheradpour Pouya 35 Kim Daniel Sunwook 3 Kirilusha Anthony 14 Klein Robert J. 36 Knoechel Birgit 46 48 Kuan Samantha 10 Kulik Michael J. 109 Kumar Sushant 24 Kundaje Anshul 3 Kutyavin Tanya 5 Lagarde Julien 38 Lajoie Bryan R. 32 Lambert Nicole J. 31 Lazar John 5 Lee Ah Young 10 Lee Donghoon 24 Lee Elizabeth 17 Lee Jin Wook 3 Lee Kristen 5 Leslie Christina S. 96 Levy Shawn 13 Li Bin 10 Li Hairi 56 Li Nan 61 Li Shantao 119 Li Xiangrui 43 Li Yang I. 3 Li Ying 43 Li Yining 3 Li Yue 35 Lian Jin 26 Libbrecht Maxwell W. 81 Lin Shin 3 Lin Yiing 69 Liu Dianbo 35 Liu Jason 24 Liu Peng 90 Liu Tingting 63 Liu X. Shirley 82 83 Liu Yan 43 Liu Yaping 35 Long Maria 16 Lou Shaoke 24 Loveland Jane 100 Lu Aiping 43 Lu Yuheng 96 Lécuyer Eric 19 20 21 Ma Lijia 27 Mackiewicz Mark 13 Mannion Brandon J. 17 Mannstadt Michael 45 Manthravadi Deepa 95 Marinov Georgi K. 14 Martin Fergal J. 100 Mattei Eugenio 1 McCue Kenneth 14 McEown Megan 13 McVicker Graham 12 Meadows Sarah K. 13 Meissner Alex 50 Mendenhall Eric M. 13 25 Messer Christopher L. 13 Meuleman Wouter 5 Meyer Clifford 82 83 Miller Steve 95 Milton Matthew G. 27 Mishra Tejaswini 3 Moore Dianna E. 13 Moore Helen M. 113 Moore Jill E. 1 Moore Samuel H. 116 Moran Jennifer 27 Mortazavi Ali 15 Mudge Jonathan M. 100 Munshi Nikhil 46 Murad Rabi 15 Myers Richard M. 13 Nandakumar Vivek 5 Nandi Preetha 116 Narasimha Anil M. 3 Narayanan Aditi K. 3 Naughton Hannah 116 Navarro Fabio CP 24 Navas Patrick 5 Nazarovs Jurijs 89 Nelson Jemma 5 Neph Shane 5 Neri Fidencio Jun 5 Nery Joseph R. 12 Nesmith Amy R. 13 Newberry J. Scott 13 Newberry Kimberly M. 13 Ngo Vu 61 Nguyen Rosy 13 Nguyen Thai B. 7 Nguyen Tung 61 Nishida Andrew 5 Noble William S. 37 Novak Catherine S. 17 Novoa Eva Maria 35 Nuñez Briana 116 O’Donnell Charles W. 35 Olson Sara 18 Onate Kathrina C. 3 Otterman Ericka 5 Ozadam Hakan 32 Pagan Michael 116 Palden Tsultrim 31 Pan Xinghua 26 70 71 Park Yongjin 35 Partridge E. Christopher 13 Paten Benedict 101 Pauli-Behn Florencia 13 Pazin Michael J. 116 Pei Baikang 24 Pennacchio Len A. 17 29 40 Perez Alexander R. 96 Perry Emily H. 100 Pervouchine Dmitri D. 38 52 Phalke Nishigandha N. 1 Pham Quan 17 Phanstiel Doug H. 72 73 Plajzer-Frick Ingrid 17 Pratt Gabriel A. 7 Pratt Henry E. 1 Preissl Sebastian 10 Pritchard Jonathan K. 3 Pritykin Yuri 96 Purcaro Michael J. 1 Qin Qian 47 85 Quinones-Valdez Giovanni 97 Rabano Ines 7 Radovani Ernest 67 Raj Anil 3 Rajagopal Nisha 88 Ram Oren 2 Ramirez Lucia 3 Ramirez Ricardo N. 15 Rausch Dylan 45 Raychaudhuri Soumya 88 Raymond Joseph 2 Razavi Rozita 74 Reddy Timothy E. 59 60 Reimonn Thomas M. 1 Ren Bing 9 10 Reymond Alexandre 102 Reynolds Alex 5 Rhie Suhn K. 39 Rinn John 33 Rivera Miguel 45 Rivera-Mulia Juan Carlos 22 23 Roberts Brian S. 13 Rodriguez Jose Manuel 103 Rozowsky Joel 24 Ryan Russell 45 Rynes Eric 5 Salins Denis N. 3 Sandstrom Richard 5 Sasaki Takayo 22 Sathe Shashank 7 Savic Daniel 57 Scavelli Alexandra 4 Scheiman Jonathan 47 Schlaffner Christoph 95 Schloss Jeffery A. 116 Schmitges Frank W. 74 See Lei Hoon 4 Sethi Anurag 24 Setty Manu 96 Shafer Anthony 5 Shan Shuo 1 Sharon Eilon 3 Shen Quan 26 75 Shen Yin 10 11 Sherwood Richard I. 88 Shi Minyi 3 Shin Sunyoung 91 Shoresh Noam 2 Siebenthall Kyle 5 Sisu Cristina 24 105 Slifer Teri 3 Sloan Cricket A. 3 Smith Anna 114 Snetkova Valentina 17 Snyder Michael P. 3 41 Spacek Damek V. 3 Srinivasan Sharanya 88 Srivas Rohith 3 Stamatoyannopoulos George 6 77 Stamatoyannopoulos John A. 5 6 37 Stanton Rebecca 7 Steffan Dave 27 Stehling-Sun Sandra 5 Strattan J. Seth 3 Su Amanda 31 Sundararaman Balaji 7 Suner Marie-Marthe 100 Syed Tahin 35 Szynkarek Matt 27 Tanaka Forrest Y. 3 Tenen Danielle 2 Teng Mingxiang 86 Thomas Jeffrey A. 115 Toffey Dave 27 Tress Michael L. 104 Trout Diane E. 14 Trynka Gosia 95 Tsuji Junko 1 Upchurch Sean A. 14 Ursu Oana 3 Uszczynska-Ratajczak Barbara 38 55 Uziel Mia C. 2 Valencia Alfonso 104 Biber Benjamin Van 5 van der Velde Arjan G. 1 44 Van Nostrand Eric L. 7 Vaydylevich Yekaterina 116 Vazquez Jesus 103 Victorsen Alec 27 Vielmetter Jost 14 Vierstra Jeff 5 Visel Axel 17 29 30 Vlasova Anna 38 Vockley Christopher M. 2 60 Volpi Simona 116 Vong Shinny 5 Wang Hao 5 Wang Mengchi 61 Wang Qin 43 Wang Ruth 7 Wang Tao 61 Wang Wei 61 Wang Xiaofeng 19 20 21 Wang Yanli 63 Watson Nathaniel K. 3 Wei Xintao 18 Wei Zhijie 43 Weisser Hendrik 95 Weissman Sherman M. 26 Welch Rene 90 Welikson Robert E. 5 Weng Zhiping 1 43 44 Westra Harm-Jan 88 Whitaker John W. 61 White Collin 13 White Kevin P. 28 Wildberg Andre 61 Williams Brian A. 14 Wine David 2 Witt Heather N. 39 Wold Barbara 14 Wolf Maxim 35 Wright James 95 Xiao Rui 56 Xiao Xinshu 97 Xu Jie 63 Xu Jinrui 24 Yan Koon-Kiu 24 Yan Yongqi 5 Yang Hongbo 63 Yang Xinqiong 3 Yang Yi-Wen 97 Yardımcı Galip Gürkan 37 Yee Brian A. 7 Yeo Gene W. 7 Young Taylor 1 Yu Tianxiong 43 Yue Feng 62 63 Zaleski Chris 4 Zang Chongzhi 82 83 84 Zeng Haoyang 35 Zeng Weihua 15 Zerbino Daniel R. 100 Zhai Jie 3 Zhan Lijun 18 Zhan Ye 32 Zhang Bo 63 Zhang Jialing 26 Zhang Jing 24 Zhang Kai 61 Zhang Lijun 63 Zhang Peng 43 Zhang Qi 92 Zhang Xiao-Ou 1 Zhang Yanxiao 10 Zhang Zhizhuo 35 Zhao Yuan 10 Zheng Ye 89 Zhong Guoqing 67 Zhou Xiao-Qiao 116 Zhu Yun 61 Zimmerman Jared 22 et al. Expanded encyclopaedias of DNA elements in the human and mouse genomes
Sethna et al. OLGA: fast computation of generation probabilities of B-and T-cell receptor amino acid sequences and motifs
Kassambara Practical guide to cluster analysis in R: Unsupervised machine learning
CN106068330B (zh) 将已知等位基因用于读数映射中的系统和方法
Jakobsson et al. CLUMPP: a cluster matching and permutation program for dealing with label switching and multimodality in analysis of population structure
Weiss et al. Inference of population history using a likelihood approach
Cheng et al. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software
Arnold et al. Humanities data in R
Wit et al. Near-optimal designs for dual channel microarray studies
CN103246829B (zh) 宏基因组序列的组装
Libbrecht et al. Segmentation and genome annotation algorithms for identifying chromatin state and other genomic patterns
Diaz-Uriarte OncoSimulR: genetic simulation with arbitrary epistasis and mutator genes in asexual populations
Schaeffer et al. phraider: Pattern-hunter based rapid ab initio detection of elementary repeats
Gonzalez-Alvarez et al. Comparing multiobjective swarm intelligence metaheuristics for DNA motif discovery
Li et al. Fit-Seq2. 0: an improved software for high-throughput fitness measurements using pooled competition assays
Triska et al. Analysis of cis-regulatory elements in gene co-expression networks in cancer
Ounit et al. Higher classification accuracy of short metagenomic reads by discriminative spaced k-mers
Mann et al. Memory-efficient RNA energy landscape exploration
Lareau et al. Network theory for data-driven epistasis networks
CN103310128B (zh) 考虑种子片段的长度的碱基序列处理系统及方法
Ochs et al. Incorporation of gene ontology annotations to enhance microarray data analysis
Paradis Population genomics with R
Silva et al. Feature-based classification of archaeal sequences using compression-based methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant