CN109643578B - 用于设计基因组合的方法和系统 - Google Patents

用于设计基因组合的方法和系统 Download PDF

Info

Publication number
CN109643578B
CN109643578B CN201780033722.9A CN201780033722A CN109643578B CN 109643578 B CN109643578 B CN 109643578B CN 201780033722 A CN201780033722 A CN 201780033722A CN 109643578 B CN109643578 B CN 109643578B
Authority
CN
China
Prior art keywords
disease
gene
genes
diseases
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780033722.9A
Other languages
English (en)
Other versions
CN109643578A (zh
Inventor
C·施蒂尔
E·威廉姆斯
Y·田
Y·朱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Life Technologies Corp
Original Assignee
Life Technologies Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Life Technologies Corp filed Critical Life Technologies Corp
Publication of CN109643578A publication Critical patent/CN109643578A/zh
Application granted granted Critical
Publication of CN109643578B publication Critical patent/CN109643578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种选择用于基因组合的基因的系统和方法,其包括从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因‑疾病关联性。所述疾病关联数据库储存疾病信息、基因信息、表型信息、所述疾病层级结构中的疾病之间的关联性、基因‑疾病关联性和与所述基因‑疾病关联性相关的强度参数。对于与所述给定级别的疾病相关联的每种基因,加权并组合所述强度参数以确定用于所述每种基因的等级分数。基于所述等级分数对所述基因分等级以提供分等级基因信息。所述分等级基因信息基于层级关系与所述疾病层级结构的较高级别的疾病相关。用于基因‑疾病关联性的所述分等级基因信息可以用于选择用于基因组合设计的基因。

Description

用于设计基因组合的方法和系统
交叉参考
本申请根据35U.S.C.§119(e)要求2016年6月1日提交的美国临时申请第62/344,078号、2016年9月16日提交的美国临时申请第62/395,828号、2017年5月23日提交的美国临时申请第62/509,860号和2017年5月25日提交的美国临时申请第62/510,906号的权益。上述申请的全部内容通过引用的方式并入本文中。
发明内容
下一代测序(Next-generation sequencing,NGS)技术继续用于临床实验室中,从而使基因组医学的快速转化成为能够。具体地说,靶向测序是优选的,因为其允许使用者将时间、费用和数据分析集中在特定的目的区域上。靶向下一代测序组合能够询问多个样品中的多种基因以更深入地理解人类遗传疾病。然而,发现所有相关基因、发展稳健高性能的多链体组合(multiplex panel)以及实施可扩展、可重复并且准确的分析管道是一种挑战。一项关键的挑战是如何有效地对所选疾病的基因和区域进行优先级排序,其通过常规的方法进行并需要大量的专家努力。需要信息丰富的生物信息学引擎来自动化用于基因组合设计的基因选择过程。
根据示例性实施例,提供了一种系统,其包括:(1)储存在存储器中的疾病关联数据库(disease association database)和与存储器通信连接的处理器。疾病关联数据库配置成储存多种疾病的疾病信息和多种基因的基因信息。疾病关联数据库包括多种疾病中的疾病之间的疾病关联性和疾病与多种基因中的关联基因之间的基因-疾病关联性。疾病关联性包括疾病层级结构并且基因-疾病关联性包括每种基因-疾病关联性的强度参数。处理器配置成:(1)从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,其中给定级别的疾病与疾病层级结构中较高级别的给定疾病具有层级关系;(2)对于与给定级别的疾病相关联的每种基因,向每种基因-疾病关联性的强度参数施用权重;(3)添加基因-疾病关联性的加权强度参数以形成用于与给定级别的疾病相关联的每种基因的等级分数;并且(4)基于等级分数对与给定级别的疾病相关联的基因分等级以提供与较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表。
根据一个示例性实施例,提供了一种选择用于基因组合的基因的方法,其包括:(1)从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,疾病关联数据库配置成储存多种疾病的疾病信息和多种基因的基因信息,疾病关联数据库包括多种疾病中的疾病之间的疾病关联性和疾病与多种基因中的关联基因之间的基因-疾病关联性,其中疾病关联性包括疾病层级结构并且基因-疾病关联性包括每种基因-疾病关联性的强度参数,疾病关联数据库储存在存储器中,其中给定级别的疾病与疾病层级结构中较高级别的给定疾病具有层级关系;(2)对于与给定级别的疾病相关联的每种基因,向每种基因-疾病关联性的强度参数施用权重;(3)添加基因-疾病关联性的加权强度参数以形成用于与给定级别的疾病相关联的每种基因的等级分数;并且(4)基于等级分数对与给定级别的疾病相关联的基因分等级以提供与较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表。
根据一个示例性实施例,提供了一种包含与基因组合中的一组基因相关联的一组引物的试剂盒,通过以下步骤选定所述基因组以用于基因组合:(1)从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,疾病关联数据库配置成储存多种疾病的疾病信息和多种基因的基因信息,疾病关联数据库包括多种疾病中的疾病之间的疾病关联性和疾病与多种基因中的关联基因之间的基因-疾病关联性,其中疾病关联性包括疾病层级结构并且基因-疾病关联性包括每种基因-疾病关联性的强度参数,疾病关联数据库储存在存储器中,其中给定级别的疾病与疾病层级结构中较高级别的给定疾病具有层级关系;(2)对于与给定级别的疾病相关联的每种基因,向每种基因-疾病关联性的强度参数施用权重;(3)添加基因-疾病关联性的加权强度参数以形成用于与给定级别的疾病相关联的每种基因的等级分数;(4)基于等级分数对与给定级别的疾病相关联的基因分等级以提供与较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表;以及(5)从分等级基因表中选择分等级基因中的至少一种以用于基因组合中的基因组。
附图说明
本发明的新颖特征在所附权利要求书中具体阐述。将参考阐述其中利用本发明原理的说明性实施例和其附图的以下具体实施方式来获得对本发明特征和优势的更佳理解:
图1是显示在一个实施例的实例中用于对基因-疾病关联性进行标识和分等级的疾病关联数据库、基因评分算法和虚拟组合文库的框图。
图2示出了用于疾病关联数据库的图数据库系统的查询和响应的实例。
图3是由储存在疾病关联数据库中的信息产生的表示疾病与基因和表型的关联性的网络图实例。
图4是疾病层级结构的一定级别的基因-疾病关联性的实例的图。
图5是疾病层级结构的多个级别之间的基因-疾病关联性和层级疾病关联性的实例的图。
图6是使用UMLS疾病标识符的疾病层级结构的各种级别的疾病的分等级基因表的实例。
图7是使用MeSH疾病标识符的疾病层级结构的各种级别的疾病的分等级基因表的实例。
图8是等级加权总和分数(rank weighted sum score)的密度函数的实例。
图9是在一个实施例的实例中用于虚拟组合文库的基因簇处理的框图。
图10是具有第1级疾病类别的经注释基因簇的示例性结果的表。
图11示出了根据示例性实施例的用于设计引物或测定的系统。
具体实施方式
根据在本申请中体现的教导内容和原理,用于选择用于靶向下一代测序组合的基因的新型方法、系统、试剂盒和计算机可读介质。
在本申请中,“扩增”通常是指进行扩增反应。
在本申请中,“扩增子”通常是指多核苷酸扩增反应的产物,包括多核苷酸的克隆群体,其可以是单链或双链的并且可以从一个或多个起始序列中复制而来。一个或多个起始序列可以是相同序列的一个或多个拷贝,或其可以是不同的含有经扩增共同区域的序列的混合物,例如从样品中提取的DNA片段混合物中存在的特异性外显子序列。扩增子优选可以通过扩增单个起始序列而形成。扩增子可以通过多种扩增反应生成,所述反应的产物包含一种或多种起始核酸或靶核酸的复制物。产生扩增子的扩增反应可以是“模板驱动的”,因为反应物(核苷酸或寡核苷酸)的碱基配对在模板多核苷酸中具有产生反应产物所需的互补物。模板驱动的反应可以是利用核酸聚合酶进行的引物延伸或利用核酸连接酶进行的寡核苷酸连接。此类反应包括例如聚合酶链式反应(PCR)、线性聚合酶反应、基于核酸序列的扩增(NASBA)、滚环扩增(rolling circle amplification),例如包括在以下参考文献中公开的此类反应,所有参考文献都通过全文引用的方式并入本文中:Gelfand等人,美国专利第5,210,015号;Kacian等人,美国专利第5,399,491号;Mullis,美国专利第4,683,202号;Mullis等人,美国专利第4,683,195号;第4,965,188号;和第4,800,159号;Lizardi,美国专利第5,854,033号;和Wittwer等人,美国专利第6,174,670号。在一个示例性实施例中,扩增子可以通过PCR生成。扩增子还可以使用滚环扩增以形成可以专门占据微孔的单个体来生成,如Drmanac等人的美国专利申请公开第2009/0137404号中所公开,其通过全文引用的方式并入本文中。
在本申请中,“引物”通常是指天然或合成的寡核苷酸,其在与多核苷酸模板形成双链体时能够充当核酸合成的起始点并从其3'末端沿着模板延伸以使得可以形成延伸的双链体。引物的延伸可以用核酸聚合酶来进行,如DNA或RNA聚合酶。在延伸过程中添加的核苷酸序列可以通过模板多核苷酸的序列来确定。引物的长度可以在14到40个核苷酸范围内,或在18到36个核苷酸范围内,例如或在N到M个核苷酸范围内,其中举例来说N是大于18的整数,并且M是大于N并且小于36的整数。其它长度当然是有可能的。
在本申请中,“寡核苷酸”通常是指核苷酸单体的线性聚合物,并且可以是DNA或RNA。构成多核苷酸的单体能够通过单体-单体相互作用的规则模式来特异性结合天然多核苷酸,例如Watson-Crick类型的碱基配对、碱基堆积、Hoogsteen或反向Hoogsteen类型的碱基配对。此类单体和其核苷酸间键(internucleosidic linkage)可以是天然存在的或可以是其类似物,例如天然存在的或非天然存在的类似物。非天然存在的类似物可以包括PNA、硫代磷酸酯核苷酸间键、含有允许标记物例如荧光团或半抗原的附着的连接基团的碱基。在一个示例性实施例中,寡核苷酸可以指较小的多核苷酸,例如具有5-40个单体单元的多核苷酸。多核苷酸可以包括通过磷酸二酯键连接的天然脱氧核糖核苷(例如用于DNA的脱氧腺苷、脱氧胞苷、脱氧鸟苷和脱氧胸苷或用于RNA的其核糖对应物)。然而,其还可以包括非天然核苷酸类似物,例如包括经修饰碱基、糖或核苷酸间键。在一个示例性实施例中,多核苷酸可以由字母序列(大写或小写)表示,如“ATGCCTG”,并且应当理解,除非另有说明或从上下文中显而易见,否则核苷酸从左到右依次为5'→3',并且“A”表示脱氧腺苷,“C”表示脱氧胞苷,“G”表示脱氧鸟苷,并且“T”表示脱氧胸苷,以及“I”表示脱氧肌苷,并且“U”表示脱氧尿苷。
在一些实施例中,用于对基因-疾病关联性标识和分等级以用于基因组合设计的系统可以包括疾病关联数据库(DAD)模块110、基因评分算法(GSA)模块120和虚拟组合文库(VPL)模块130中的一个或多个模块,如图1中所示。DAD模块110组织和储存关于基因与疾病之间的关联性的信息,包括疾病的层级组织。GSA模块120使用从DAD模块110中检索的关于基因-疾病关联性和疾病层级结构的信息来应用基因评分和分等级算法。VPL模块130分析来自GSA模块120的等级分数以聚类具有类似疾病关联模式的基因并使基因簇与疾病相关联。
在一些实施例中,疾病关联数据库(DAD)模块110包含配置成储存疾病信息、表型信息、基因信息和关联性信息的图数据库系统,所述关联性包括疾病之间的关联性、疾病-表型关联性和基因-疾病关联性。疾病关联性信息可以包括疾病层级结构信息。基因-疾病关联性信息可以包括每种基因-疾病关联性的强度参数。
图数据库架构优于用于表示高度互连的数据的标准关系数据库架构。图数据库架构强调数据点之间的关系。强调关系有利于表示疾病层级结构和基因-疾病关联性。图数据库能够快速直观地查询数据点之间的关系。相反,对于标准关系数据库,关联性查询对于设计而言将是缓慢且冗长的。
在一些实施例中,DAD模块110的数据结构包括节点和边缘,其中边缘与图数据库架构中的两个节点相关联。疾病信息储存在分配给疾病的节点或疾病节点中。疾病节点储存疾病信息,包括疾病标识符和疾病的名称。疾病节点可以储存附加信息,如疾病信息的来源。疾病之间的层级关系由边缘表示。举例来说,当两种疾病在疾病层级结构中具有亲子关系时,使两种疾病节点关联的边缘可以储存包括疾病的疾病标识符和从母体疾病到子辈疾病的方向属性的属性。
在一些实施例中,DAD模块110包括分配成储存基因信息的节点或基因节点。基因节点储存基因信息,包括基因标识符、基因名称和基因符号。疾病节点可以通过指示基因-疾病关联性的边缘与基因节点连接。边缘可以储存基因-疾病关联性的属性,包括疾病标识符、基因标识符和基因-疾病关联性的强度参数。
在一些实施例中,DAD模块110包括分配成储存表型信息的节点或表型节点。表型节点储存表型信息,包括表型标识符。表型节点可以通过指示表型-疾病关联性的边缘与疾病节点连接。使表型节点和疾病节点关联的边缘储存属性,包括表型标识符和疾病标识符。边缘可以储存附加信息,如表型-疾病关联性的来源。
在一些实施例中,包括储存在DAD模块110中的疾病标识符、疾病名称和疾病层级结构信息的疾病信息是以一体化医学语言系统(Unified Medical Language System,UMLS)为基础。UMLS合并许多受控词汇表,包括医学主题标题或MeSH。举例来说,对于细菌感染和真菌病,UMLS疾病标识符是C0004615。举例来说,对于精神障碍,MeSH疾病标识符是D001523。UMLS由Bodenreider的《一体化医学语言系统(UMLS):整合生物医学术语(TheUnified Medical Language System(UMLS):integrating biomedical terminology)》,《核酸研究(Nucleic Acids Research)》,第32卷,Database期,第D267-D270页(2004)描述。
在一些实施例中,储存在DAD模块110中的基因-疾病关联性基于DisGeNET,其根据经专家验证的来源(例如CTD、CLINVAR和ORPHANET)评分基因-疾病关联性,使用小鼠模型预测数据,并对出版物进行文本挖掘。发展DisGeNET分数以根据证据水平对基因-疾病关联性分等级。DisGeNET基因-疾病关联性分数考虑了来源的数量和类型(验证水平、模式生物体)和支持所述关联性的出版物数量。分数值在0到1范围内。根据DisGeNet,0.1的分数对应于约3个证据来源的平均值。0.25的分数对应于单个基因-疾病关联性的4到5个证据来源。DiGeNET由等人的《DisGeNET:动态探究人类疾病和其基因的发现平台(DisGeNET:adiscovery platform for the dynamical exploration of human diseases and theirgenes)》,《数据库(Database)》,第2015卷,文章ID bav028,第1-17页(2015)描述。
在一些实施例中,MeSH疾病层级结构与DAD模块110中的DisGeNET基因疾病关联性相结合。MeSH提供指示疾病亲/子关系的数学图表的信息;例如“自身免疫疾病”是“类风湿性关节炎”的母体疾病,而“幼年型类风湿性关节炎”是“类风湿性关节炎”的子辈疾病。图中表示疾病的节点通过具有强度参数的边缘与表示基因的节点相关。强度参数基于DisGeNET提供的每种基因-疾病对的分数。DisGeNET分数是介于0与1之间的数字。总之,与基因-疾病关联性相结合的疾病层级结构提供了查找涉及疾病层级结构中任何级别的任何疾病或疾病组的基因的方法。
在一些实施例中,DAD模块110的图数据库架构可以全部或部分地在Neo4j图数据库上实施。可以使用Cypher查询语言访问使用Neo4j实施的数据库。
图2示出了图数据库系统关于DAD模块110的查询和响应的实例。在此实例中,查询可以限定用于追踪网络路径的模式,如图2的顶行所示出。查询可以返回路径和节点的信息,如图2的底行所示出。在此实例中,疾病关联性的边缘储存源信息。响应表明疾病关联性的来源是MeSH。在此实例中,基因-疾病关联性的边缘储存强度参数或由DisGeNET获得的分数,即0.0025。
图3是由查询DAD模块110产生的表示疾病与基因和表型的关联性的网络图的实例。所述图显示疾病节点341、342、343、344、345和346(斑点圈)和表型节点321、322、323、324、325和326(条纹圈)之间的关联性。举例来说,使疾病节点341和表型节点321关联的边缘370可以包括UMLS概念信息。清晰的圆圈表示与各种疾病节点相关联的各种基因节点。此实例显示了与多个疾病节点具有基因-疾病关联性的几个基因节点。举例来说,基因节点360和疾病节点344具有由边缘352表示的基因-疾病关联性。基因节点360还与疾病节点345具有基因-疾病关联性,由边缘352表示。边缘352、360和连接疾病节点和基因节点的所有边缘储存对应的基因-疾病关联性的强度参数。举例来说,强度参数可以使用DisGeNET分数。
在一些实施例中,DAD模块110可以适于储存从任何科学源数据库中挖掘的信息,所述信息可以贡献疾病信息、基因信息和基因-疾病关联性信息。随着源数据库的版本演变并包括新信息,可以更新DAD模块110。
在一些实施例中,基因评分算法(GSA)模块120使用从DAD模块110中检索的信息通过其与疾病层级结构中的疾病的相关性对基因分等级。GSA模块120使用来自DAD模块110的基因-疾病关联性强度参数,如DisGeNET分数和疾病层级结构信息,并应用评分方法来对特定的目的疾病的基因进行优先级排序。GSA模块120可以产生用于疾病层级结构的任何级别的一种或多种疾病的分等级基因列表。
图4是疾病层级结构的一定级别的基因-疾病关联性的实例的图。在此实例中,基因A和基因B表示在疾病层级结构的460级具有基因-疾病关联性的两个基因。基因A与疾病441、442、443、445和447具有基因-疾病关联性,并且相应的强度参数是w11、w12、w13、w14和w15。基因B与疾病444和446具有基因-疾病关联性,并且相应的强度参数是w21和w22。目的疾病420在疾病层级结构中位于较高级别并且与较低级别460的疾病441到447具有亲子关系。在一些实施例中,GSA模块120可以对与疾病层级结构的较低级别460的基因A和B相关联的强度参数wij应用评分方法,从而相对于目的疾病420对其分等级。
在一些实施例中,评分方法可以是第i基因的基因-疾病关联性的强度参数wij的简单总和或强度参数的平均值。这样的分数是有利的,因为其考虑了与所述基因相关联的所有疾病。然而,这样的分数可能是不利的,因为具有小强度参数的许多疾病可能累加到相对较大的分数。
在一些实施例中,评分方法可以简单地选择最大强度参数,如第i基因的基因-疾病关联性的分数=最大j(wij)。这样的分数可能是有利的,因为与所述层级结构的给定级别的一种疾病强烈相关联的基因将包括在内。然而,基于最大值的分数可能是不利的,因为与可能具有较小但不是不大的强度参数的第i基因相关联的其它疾病被省略了。
在一些实施例中,评分方法包括计算等级加权总和分数(RWSS)。对于与给定级别的疾病相关联的第i基因,RWSS可以如下计算:
1)对第i基因的基因-疾病关联性的每个强度参数施用权重以形成加权强度参数,并且
2)对加权强度参数求和以产生第i基因的等级分数。
在一些实施例中,GSA模块120可以计算与疾病层级结构的给定级别的疾病具有基因-疾病关联性的所有基因的等级分数。
在一些实施例中,GSA模块120可以如下确定权重:
1)对于第i基因与n疾病的关联性,基于从最高值(阶指数k=1)到最低值(阶指数k=n)的强度参数值的阶级,确定第i基因的每个强度参数的阶指数k,并且
2)将每个强度参数的权重设定为阶指数的反函数f(1/k)。
f(1/k)的实例是f(1/kt),其中t是正实数。在第i基因的各种实例中,其中t=0.5,权重是1/k0.5并且等级分数i=∑k wik/√k;其中t=1,权重是1/k并且等级分数i=∑kwik/k;其中t=2,权重是1/k2并且等级分数i=∑k wik/k2,依此类推对于t的其它可能性值。优选地,t=1并且第i基因的等级分数通过以下等式计算:
等级分数i=∑k wik/k 1≤k≤n (1)
在一些实施例中,GSA模块120基于使用等式(1)确定的等级分数对基因分等级以用于与疾病层级结构的给定级别的疾病相关联的基因。举例来说,可以对基因从最高等级分数到最低等级分数分等级以形成分等级基因表。基因可以按从具有最高等级分数的基因到具有最低等级分数的基因的等级顺序列于所述表中。可以对每种基因分配等级指数,即指示等级分数顺序的整数,其中对具有最高等级分数的基因分配等级指数1。所得分等级基因信息表可以与疾病层级结构中高于给定级别的级别的疾病链接,其中在给定级别的疾病与较高级别的疾病之间存在层级关系。
回到图4的实例,GSA模块120将执行以下操作:
1)使用等式(1)计算基因A和基因B的等级分数以产生等级分数A和等级分数B,
2)基于等级分数A和等级分数B对基因A和B进行分等级以形成分等级基因信息表,并且
3)将等级分数和分等级基因信息链接到目的疾病420。
图5是疾病层级结构的多个级别之间的基因-疾病关联性和层级疾病关联性的实例的图。图5示出了除图4中所示的疾病关联性之外的额外的层级疾病关联性。示例性级别数量和级别描述是出于说明性目的而非限制性的。级别1到4表示疾病层级结构中从广义到特定的层级,如储存在DAD模块110中的疾病层级结构信息。第1级即最高级别包括最广义的疾病类别,如神经疾病和心血管疾病。神经疾病节点540是在第2级处表示的疾病的母体。神经变性疾病节点520是在第3级处表示的所有疾病的母体。第3级包括图4中的目的疾病420,这个实例是亨廷顿氏病(Huntington's disease)。亨廷顿氏病节点(目的疾病420)是在第4级(460级)处表示的所有疾病的母体。举例来说,上文关于图4描述的等级分数和分等级基因信息与图5中的第3级处的目的疾病420或亨廷顿氏病相关。对于图5,等级分数和分等级基因信息可以与疾病层级结构中较高级别的疾病相关,包括与亨廷顿氏病具有层级关系的第2级神经变性疾病(节点520)和第1级神经疾病(节点540)。
图6是使用UMLS疾病标识的疾病层级结构的各种级别的疾病的分等级基因表的实例。在图6中,所述表包括疾病标识符、基因符号、分数和基因等级指数的UMLS ID。图7是使用MeSH疾病标识的疾病层级结构的各种级别的疾病的分等级基因表的实例。在图7中,所述表包括疾病标识符、基因符号、分数和基因等级指数的MeSH ID。在图6和图7中,所述表显示了按从最高到最低等级分数的等级顺序列出的基因。对于第1-3级,所述表包括使用如上所述的等级加权总和分数确定的等级分数的分数。对于第4级,在此实例的层次结构的最低级别处,基因等级反映强度参数wij的顺序,如DisGeNET分数。
在一些实施例中,GSA模块120在基于等级分数对基因分等级之前向等级分数施用阈值。GSA模块120选择具有大于或等于阈值的值的等级分数,并对具有选定等级分数的那些基因分等级。施用阈值具有以下优点:减少用于对具有低于阈值的等级分数的基因分等级的计算,并且减少针对疾病层级结构的级别生成的分等级基因表的存储器大小或储存要求。
图8是具有沿x轴的等级加权总和分数的多个基因-疾病对的密度函数720的实例。使用用于统计计算的R编程语言来计算密度函数720的831,405个输入RWSS分数。密度函数显示大部分RWSS分数小于0.05。在区间740中设定阈值消除了大部分低等级分数。表1示出了在对根据等式(1)计算的等级分数施用不同阈值之后的结果的实例。基因-疾病对的输入等级分数的初始数量是831,405个。在对等级分数进行阈值处理之后剩余的基因-疾病对的数量显示在表1的右列中。对应于图8中的区间740的其中0.09≤T≤0.11的阈值T针对在进行阈值处理之后剩余的等级分数产生类似数量的基因-疾病对。当阈值设定在0.09≤T≤0.11的区间时,类似数量的基因-疾病对表示基因分等级结果的稳定性。
表1.
阈值 基因-疾病对的数量
0.05 135,906
0.08 124,092
0.09 113,451
0.1 112,676
0.11 112,342
0.12 79,331
0.13 38,846
在一些实施例中,在对基因分等级之前向等级分数施用阈值可以在计算效率和存储/储存效率方面产生实质性改进。举例来说,参考表1,通过对等级分数施用0.1的阈值,用于对基因-疾病对的基因分等级的等级分数的数量从831,405减少到112,676。待分等级的基因的数量减少,从而减轻了计算负担。与疾病层级结构的不同级别的疾病相关联的分等级基因表的大小也减小,从而节省了存储和储存要求。
在一些实施例中,根据等式(1)计算等级分数,其中施用到强度参数wij的权重是阶指数k的倒数1/k。在一些实施例中,施用到等级分数的阈值的范围可以是约0.09-0.11,或约0.095-0.105,或约0.08-0.12,或约0.05到0.13,或约0.05-0.0.09,0.08-0.09,或约0.90-0.10,或约0.10-0.11,或约0.11到0.12,或约0.12-0.13,或这些范围中的一种的子区间。
在一些实施例中,虚拟组合文库(VPL)模块130分析疾病层级结构的一定级别的疾病的等级分数以聚类具有相似疾病关联模式的基因并使基因簇与疾病相关联。图9是VPL模块130的基因簇处理的示例性框图。在步骤820处,从DAD模块110中检索基因-疾病关联性分数,如与第1级疾病相关联的等级分数表。第1级表示疾病层级结构的最高级别并且包括广义的疾病类别。所述表可以包含矩阵,其中行表示第1级疾病并且列表示基因,从而使得每个列向量含有第1级疾病中的每一种的基因的等级分数。在步骤840处,构建基因-疾病关联性网络包括对与基因相对应的等级分数的列向量进行交叉相关以生成相关矩阵。相关矩阵的每个元素是两个基因的等级分数的两个列向量的交叉相关值(或点积)。可以移位相关矩阵的行和列的顺序以使得高相关值朝向相关矩阵的对角线分组。在步骤860处,对相关值施用阈值以选择高度相关基因的基因簇或基因模块。在步骤880处,每种基因模块的主成分分析使基因模块与疾病相关联。对于每个经标识的基因模块,将主成分分析应用于包含对应于基因模块中的每种基因的等级分数的列向量的矩阵以生成主成分向量。确定具有最大值的主成分矢量的元素表示与基因模块中的基因相关联的疾病。可以计算每种基因模块和每个第1级疾病的主要成分载体的相关性和p值以给出基因模块和疾病的关联性评分。所示疾病可以经注释以用于基因模块的基因组。举例来说,步骤840、860和880可以使用加权相关网络分析(WGCNA)来实施,如Langfelder等人的《WGCNA:加权相关网络分析的R包(WGCNA:anR package for weighted correlation network analysis)》,《BMC生物信息学(BMCBioinformatics)》,第9:559卷,第1-13页(2008)中所描述。
图10是具有第1级疾病类别的经注释基因簇的示例性结果的表。分析了经选择以用于临床外显子组的4,000个基因的关联模式,其具有与遗传疾病相关的16个高级别MeSH类别。通过对VPL模块130应用基因簇处理的步骤来获得结果,如关于图9所描述。对于此实例,通过标识基因簇(模块)860的步骤来标识28个基因模块。每个模块中的基因的数量在GeneCount列中指出。“注释”列列出了基于基因模块的基因的等级分数的主成分分析,针对基因模块标识了16种第1级疾病中的哪一种,如针对通过疾病880注释基因模块的步骤所描述。虽然此实例显示了使基因与第1级疾病类别相关联的结果,但是上述VPL模块130的基因簇处理可以应用于研究疾病层级结构的任何级别的基因-疾病关联性。
Leamon等人的美国专利申请公开第2010/0295819号('819申请)通过全文引用的方式并入本文中。根据'819申请中体现的教导内容和原理,提供了新型方法、计算机可读介质和系统,其标识或设计使用PCR来富集一个或多个目的基因组区域或靶标以用于后续测序的产品或试剂盒,和/或包括使一个或多个目的基因组区域或靶标的覆盖度最大化同时使一种或多种脱靶杂交最小化的引物或测定、多种引物和许多引物集合体。
图11('819申请中的图17)说明了根据示例性实施例的用于设计引物或测定的系统。所述系统包括数据接收模块1701、引物提供模块1702、评分(计算机模拟PCR)模块1703、评分(SNP重叠)模块1704、过滤模块1705、汇集模块1706和报告模块1707。所述系统还包括数据库1708,其可以包括关于遗传注释的数据、SNP相关数据或其它遗传数据例如重复、染色体、位置、方向等的标识,或可以与目的基因组区域或靶标相关的任何其它类型的信息;和数据库1709,其可以包括引物相关数据例如解链温度(Tm)、染色体、位置、方向和SNP重叠信息等,或可能与引物相关的任何其它类型的信息。所述系统可以在使用一个或多个软件组件的一个或多个计算机和/或服务器中实施或使用其来实施,所述软件组件可能无法访问或发布给可能订购可以使用这种系统来设计的定制引物或测定的客户。客户可以通过提供呈任何合适的格式的一个或多个目的基因组区域或靶标以至少部分地通过网络可访问数据门户来订购定制引物或测定。在示例性实施例中,提供了一种方法,其执行包括与模块1701-1707和数据库1708和1709相关联的一般步骤的步骤(例如接收数据、提供引物、评分引物和/或扩增子、过滤引物和/或扩增子、汇集引物和/或扩增子、报告结果以及查询数据库)。
在一些实施例中,GSA模块120可以向数据库1708提供基因-疾病关联性的分等级基因信息。在一些实施例中,VPL模块130可以向数据库1708提供具有疾病类别信息的经注释基因簇。在一些实施例中,DAD模块110可以向数据库1708提供疾病关联数据库信息。
根据示例性实施例,提供了一种系统,其包括:(1)储存在存储器中的疾病关联数据库和与存储器通信连接的处理器。疾病关联数据库配置成储存多种疾病的疾病信息和多种基因的基因信息。疾病关联数据库包括多种疾病中的疾病之间的疾病关联性和疾病与多种基因中的关联基因之间的基因-疾病关联性。疾病关联性包括疾病层级结构并且基因-疾病关联性包括每种基因-疾病关联性的强度参数。处理器配置成:(1)从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,其中给定级别的疾病与疾病层级结构中较高级别的给定疾病具有层级关系;(2)对于与给定级别的疾病相关联的每种基因,向每种基因-疾病关联性的强度参数施用权重;(3)添加基因-疾病关联性的加权强度参数以形成用于与给定级别的疾病相关联的每种基因的等级分数;并且(4)基于等级分数对与给定级别的疾病相关联的基因分等级以提供与较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表。处理器可以进一步配置成向等级分数施用阈值并对等级分数大于或等于阈值的基因分等级。疾病关联数据库可以包含具有多个节点和多个边缘的图数据库系统,其中边缘与两个节点相关联。多个节点中的疾病节点可以储存多种疾病中的一种的疾病信息。疾病节点处的疾病信息可以包括疾病标识符。使两个疾病节点关联的边缘可以表示两种疾病的层级关系。多个节点中的基因节点可以储存多种基因中的一种的基因信息。在基因节点处储存的基因信息可以包括基因标识符。多个节点中的疾病节点和多个节点中的基因节点通过基因-疾病边缘相关联,其中基因-疾病边缘储存基因-疾病关联性的强度参数。疾病关联数据库可以进一步包括多种表型的表型信息和疾病与多种表型中的关联表型之间的表型-疾病关联性。处理器可以进一步配置成响应对疾病关联数据库的查询以提供基因-疾病关联性以用于图形显示。处理器可以进一步配置成响应使用者对给定疾病的选择以从用于基因组合设计的分等级基因表中选择与给定疾病相关联的一种或多种分等级基因。处理器可以进一步配置成使用用于给定级别的等级分数来提供用于疾病层级结构中第二较高级别的第二疾病的等级分数,其中第二疾病与给定疾病具有层级关系。处理器可以进一步配置成使用用于给定级别的分等级基因信息来提供用于疾病层级结构中第二较高级别的第二疾病的分等级基因信息,其中第二疾病与给定疾病具有层级关系。处理器可以进一步配置成使用用于疾病层级结构的较低级别的基因-疾病关联性的等级分数来提供用于疾病层级结构的多个较高级别的疾病的等级分数,其中较低级别的疾病与较高级别的疾病之间存在层级关系。处理器可以进一步配置成使用用于疾病层级结构的较低级别的基因-疾病关联性的分等级基因信息来提供用于疾病层级结构的多个较高级别的疾病的分等级基因信息,其中较低级别的疾病与较高级别的疾病之间存在层级关系。处理器可以进一步配置成确定给定级别的基因-疾病关联性的强度参数的从最高值到最低值的值顺序,并且基于值顺序为强度参数中的每一个分配阶指数,其中施用到每个强度参数的权重基于其阶指数的倒数。处理器可以进一步配置成向等级分数施用阈值,其中阈值具有在约0.09-0.10范围内的值。处理器可以进一步配置成基于与疾病层级结构的一定级别的疾病相关联的基因的等级分数的相关性将基因分组成基因簇。处理器可以进一步配置成将主成分分析应用于对应于每个基因簇的基因的等级分数以确定用于基因簇的主成分向量。
根据一个示例性实施例,提供了一种选择用于基因组合的基因的方法,其包括:(1)从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,疾病关联数据库配置成储存多种疾病的疾病信息和多种基因的基因信息,疾病关联数据库包括多种疾病中的疾病之间的疾病关联性和疾病与多种基因中的关联基因之间的基因-疾病关联性,其中疾病关联性包括疾病层级结构并且基因-疾病关联性包括每种基因-疾病关联性的强度参数,疾病关联数据库储存在存储器中,其中给定级别的疾病与疾病层级结构中较高级别的给定疾病具有层级关系;(2)对于与给定级别的疾病相关联的每种基因,向每种基因-疾病关联性的强度参数施用权重;(3)添加基因-疾病关联性的加权强度参数以形成用于与给定级别的疾病相关联的每种基因的等级分数;并且(4)基于等级分数对与给定级别的疾病相关联的基因分等级以提供与较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表。对基因分等级的步骤可以进一步包括向等级分数施用阈值并对等级分数大于或等于阈值的基因分等级。疾病关联数据库可以包含具有多个节点和多个边缘的图数据库系统,其中边缘与两个节点相关联。多个节点中的疾病节点可以储存多种疾病中的一种的疾病信息。疾病节点处的疾病信息可以包括疾病标识符。使两个疾病节点关联的边缘可以表示两种疾病的层级关系。多个节点中的基因节点可以储存多种基因中的一种的基因信息。在基因节点处储存的基因信息可以包括基因标识符。多个节点中的疾病节点和多个节点中的基因节点通过基因-疾病边缘相关联,其中基因-疾病边缘储存基因-疾病关联性的强度参数。疾病关联数据库可以进一步包括多种表型的表型信息和疾病与多种表型中的关联表型之间的表型-疾病关联性。所述方法可以进一步包括响应对疾病关联数据库的查询以提供基因-疾病关联性以用于图形显示的步骤。所述方法可以进一步包括响应使用者对给定疾病的选择以从用于基因组合设计的分等级基因表中选择与给定疾病相关联的一种或多种分等级基因的步骤。所述方法可以进一步包括使用用于给定级别的等级分数来提供用于疾病层级结构中第二较高级别的第二疾病的等级分数的步骤,其中第二疾病与给定疾病具有层级关系。所述方法可以进一步包括使用用于给定级别的分等级基因信息来提供用于疾病层级结构中第二较高级别的第二疾病的分等级基因信息的步骤,其中第二疾病与给定疾病具有层级关系。所述方法可以进一步包括使用用于给定级别的分等级基因信息来提供用于疾病层级结构中第二较高级别的第二疾病的分等级基因信息的步骤,其中第二疾病与给定疾病具有层级关系。所述方法可以进一步包括使用用于疾病层级结构的较低级别的基因-疾病关联性的等级分数来提供用于疾病层级结构的多个较高级别的疾病的等级分数的步骤,其中较低级别的疾病与较高级别的疾病之间存在层级关系。所述方法可以进一步包括使用用于疾病层级结构的较低级别的基因-疾病关联性的分等级基因信息来提供用于疾病层级结构的多个较高级别的疾病的等级基因信息的步骤,其中较低级别的疾病与较高级别的疾病之间存在层级关系。所述方法可以进一步包括确定给定级别的基因-疾病关联性的强度参数的从最高值到最低值的值顺序并且基于值顺序向强度参数中的每一个分配阶指数的步骤,其中施用到每个强度参数的权重基于其阶指数的倒数。所述方法可以进一步包括向等级分数施用阈值的步骤,其中阈值具有在约0.09-0.10范围内的值。所述方法可以进一步包括基于与疾病层级结构的一点级别的疾病相关联的基因的等级分数的相关性将基因分组成基因簇的步骤。所述方法可以进一步包括将主成分分析应用于对应于每种基因簇的基因的等级分数来确定用于基因簇的主成分向量的步骤。根据一个示例性实施例,提供了一种包含指令的非暂时性机器可读的储存介质,所述指令在由处理器执行时使处理器执行用于核酸测序的这种方法或其相关方法和变体。
一种包含与基因组合中的一组基因相关联的一组引物的试剂盒,通过以下步骤选定所述基因组以用于基因组合:(1)从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,疾病关联数据库配置成储存多种疾病的疾病信息和多种基因的基因信息,疾病关联数据库包括多种疾病中的疾病之间的疾病关联性和疾病与多种基因中的关联基因之间的基因-疾病关联性,其中疾病关联性包括疾病层级结构并且基因-疾病关联性包括每种基因-疾病关联性的强度参数,疾病关联数据库储存在存储器中,其中给定级别的疾病与疾病层级结构中较高级别的给定疾病具有层级关系;(2)对于与给定级别的疾病相关联的每种基因,向每种基因-疾病关联性的强度参数施用权重;(3)添加基因-疾病关联性的加权强度参数以形成用于与给定级别的疾病相关联的每种基因的等级分数;(4)基于等级分数对与给定级别的疾病相关联的基因分等级以提供与较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表;以及(5)从分等级基因表中选择分等级基因中的至少一种以用于基因组合中的基因组。对基因分等级的步骤可以进一步包括向等级分数施用阈值并对等级分数大于或等于阈值的基因分等级。疾病关联数据库可以包含具有多个节点和多个边缘的图数据库系统,其中边缘与两个节点相关联。多个节点中的疾病节点可以储存多种疾病中的一种的疾病信息。疾病节点处的疾病信息可以包括疾病标识符。使两个疾病节点关联的边缘可以表示两种疾病的层级关系。多个节点中的基因节点可以储存多种基因中的一种的基因信息。在基因节点处储存的基因信息可以包括基因标识符。多个节点中的疾病节点和多个节点中的基因节点通过基因-疾病边缘相关联,其中基因-疾病边缘储存基因-疾病关联性的强度参数。疾病关联数据库可以进一步包括多种表型的表型信息和疾病与多种表型中的关联表型之间的表型-疾病关联性。所述步骤可以进一步包括响应对疾病关联数据库的查询以提供基因-疾病关联性以用于图形显示的步骤。所述步骤可以进一步包括响应使用者对给定疾病的选择以从用于基因组合设计的分等级基因表中选择与给定疾病相关联的一种或多种分等级基因的步骤。所述步骤可以进一步包括使用用于给定级别的等级分数来提供用于疾病层级结构中第二较高级别的第二疾病的等级分数的步骤,其中第二疾病与给定疾病具有层级关系。所述步骤可以进一步包括使用用于给定级别的分等级基因信息来提供用于疾病层级中第二较高级别的第二疾病的分等级基因信息的步骤,其中第二疾病与给定疾病具有层级关系。所述步骤可以进一步包括使用用于给定级别的分等级基因信息来提供用于疾病层级中第二较高级别的第二疾病的分等级基因信息的步骤,其中第二疾病与给定疾病具有层级关系。所述步骤可以进一步包括使用用于疾病层级结构的较低级别的基因-疾病关联性的等级分数来提供用于疾病层级结构的多个较高级别的疾病的等级分数的步骤,其中较低级别的疾病与较高级别的疾病之间存在层级关系。所述步骤可以进一步包括使用用于疾病层级结构的较低级别的基因-疾病关联性的分等级基因信息来提供用于疾病层级结构的多个较高级别的疾病的分等级基因信息的步骤,其中较低级别的疾病与较高级别的疾病之间存在层级关系。所述步骤可以进一步包括确定给定级别的基因-疾病关联性的强度参数从最高值到最低值的值顺序并且基于值顺序向强度参数中的每一个分配阶指数的步骤,其中施用到每个强度参数的权重基于其阶指数的倒数。所述步骤可以进一步包括向等级分数施用阈值的步骤,其中阈值具有在约0.09-0.10范围内的值。所述步骤可以进一步包括基于与疾病层级结构的一点级别的疾病相关联的基因的等级分数的相关性将基因分组成基因簇的步骤。所述步骤可以进一步包括将主成分分析应用于对应于每种基因簇的基因的等级分数以确定用于基因簇的主成分向量的步骤。
根据各种示例性实施例,可以使用适当配置和/或编程的硬件和/或软件元件来执行或实施上述教导内容和/或示例性实施例中的任一个或多个的一个或多个特征。确定是否使用硬件和/或软件元件来实施实施例可以基于任何数量的因素,如期望的计算速率、功率水平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度等以及其它设计或性能限制。
硬件元件的实例可以包括通过以下各项通信耦合的处理器、微处理器、一个或多个输入设备和/或一个或多个输出设备(I/O)(或外围设备):本地接口电路、电路元件(例如晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑设备(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体设备、芯片、微芯片、芯片组等。本地接口可以包括例如一个或多个总线或其它有线或无线连接、控制器、缓冲器(高速缓存器)、驱动器、中继器和接收器等以允许硬件组件之间的适当通信。处理器是用于执行软件的硬件设备,尤其是储存在存储器中的软件。处理器可以是任何定制的或市售的处理器、中央处理单元(CPU)、与计算机相关联的若干处理器中的辅助处理器、基于半导体的微处理器(例如呈微芯片或芯片组的形式)、宏处理器、或通常用于执行软件指令的任何设备。处理器还可以表示分布式处理架构。I/O设备可以包括输入设备,例如键盘、鼠标、扫描仪、麦克风、触摸屏、用于各种医疗设备和/或实验室仪器的接口、条形码读取器、触笔、激光读取器、射频设备读取器等。此外,I/O设备还可以包括输出设备,例如打印机、条形码打印机、显示器等。最后,I/O设备可以进一步包括作为输入件和输出件进行通信的设备,例如调制器/解调器(调制解调器;用于访问另一个设备、系统或网络)、射频(RF)或其它收发器、电话接口、桥接器、路由器等
软件的实例可以包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、单词、值、符号或其任何组合。存储器中的软件可以包括一个或多个单独的程序,所述程序可以包括用于实施逻辑函数的有序的可执行指令列表。存储器中的软件可以包括用于根据本教导内容标识数据流的系统和任何合适的定制或市售的操作系统(O/S),其可以控制其它计算机程序如系统的执行,并提供调度、输入输出控制、文件和数据管理、存储管理、通信控制等。
根据各种示例性实施例,可以使用可以储存指令或指令集的适当地配置和/或编程的非暂时性机器可读介质或物件来执行或实施上述教导内容和/或示例性实施例中的任一个或多个的一个或多个特征,所述指令或指令集如果由机器执行,则可以使机器执行根据示例性实施例的方法和/或操作。这样的机器可以包括例如任何合适的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、处理器、科学或实验室仪器等,并且可以使用硬件和/或软件的任何合适的组合来实施。机器可读介质或物件可以包括例如任何合适类型的存储器单元、存储器设备、存储器物件、存储器介质、储存设备、储存物件、储存介质和/或储存单元,例如存储器、可移动介质或不可移动介质、可擦除介质或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、只读存储器光盘(CD-ROM)、可刻录光盘(CD-R)、可重写光盘(CD-RW)、光盘、磁介质、磁光介质、可移动存储卡或磁盘、各种类型的数字多功能光盘(DVD)、磁带、磁带盒等,包括适用于计算机的任何介质。存储器可以包括易失性存储器元件(例如随机存取存储器(RAM,如DRAM、SRAM、SDRAM等))和非易失性存储器元件(例如ROM、EPROM、EEROM、闪存器、硬盘驱动器、磁带、CDROM等)中的任一个或组合。此外,存储器可以并入电子、磁性、光学和/或其它类型的储存介质。存储器可以具有分布式架构,其中各种组件远离彼此定位,但仍然通过处理器访问。指令可以包括使用任何合适的高级的、低级的、面向对象的、可视的、编译的和/或解释的编程语言实施的任何合适类型的代码,如源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密代码等。
根据各种示例性实施例,可以至少部分地使用分布式、群集、远程或云计算资源来执行或实施上述教导内容和/或示例性实施例中的任一个或多个的一个或多个特征。
根据各种示例性实施例,可以使用源程序、可执行程序(对象代码)、脚本或包含一组待执行指令的任何其它实体来执行或实施上述教导内容和/或示例性实施例中的任一个或多个的一个或多个特征。当源程序时,所述程序可以通过可以包括或不包括在存储器中的编译器、汇编器、解释器等翻译以便与O/S一起正确地操作。指令可以使用以下各项来书写:(a)具有数据类和方法类的面向对象的编程语言;或(b)具有例程、子例程和/或函数的过程编程语言,可以包括例如C、C++、R、Pascal、Basic、Fortran、Cobol、Perl、Java和Ada。
根据各种示例性实施例,上述示例性实施例中的一个或多个可以包括向使用者接口设备、计算机可读储存介质、本地计算机系统或远程计算机系统发送、显示、储存、打印或输出与可以通过这类示例性实施例生成、访问或使用的任何信息、信号、数据和/或中间结果或最终结果有关的信息。举例来说,这种发送、显示、储存、打印或输出的信息可以采用可搜索和/或可过滤的运行和报告、图片、表格、图表、图形、电子表格、相关性、序列和其组合列表的形式。
虽然已经在本文中显示和描述本发明的优选实施例,但所属领域的技术人员应清楚这类实施例仅是作为实例而提供的。所属领域的技术人员现在将在不脱离本发明的情况下想到众多变化、改变和取代。应理解,本文所描述的本发明的实施例的各个替代方案都可以用于实践本发明。预期随附权利要求限定本发明的范围并且因此覆盖这些权利要求和其同等物的范围内的方法和结构。

Claims (19)

1.一种系统,其包含:
配置成储存多种疾病的疾病信息和多种基因的基因信息的疾病关联数据库,所述疾病关联数据库包括所述多种疾病中的疾病之间的疾病关联性和所述疾病与所述多种基因中的关联基因之间的基因-疾病关联性,其中所述疾病关联性包括疾病层级结构并且所述基因-疾病关联性包括每种基因-疾病关联性的强度参数,所述疾病关联数据库储存在存储器中,其中所述疾病关联数据库包含具有多个节点和多个边缘的图数据库系统,其中一个边缘与两个节点相关联;和
与所述存储器通信连接的处理器,所述处理器配置成:
从所述疾病关联数据库中检索与所述疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,其中所述给定级别的疾病与所述疾病层级结构中较高级别的给定疾病具有层级关系,
对于与所述给定级别的疾病相关联的每种基因,向所述每种基因-疾病关联性的强度参数施用权重以形成加权强度参数,
添加所述基因-疾病关联性的加权强度参数以形成用于与所述给定级别的疾病相关联的每种基因的等级分数,并且
基于所述等级分数对与所述给定级别的疾病相关联的基因分等级以提供与所述较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表。
2.根据权利要求1所述的系统,其中对于所述分等级步骤,所述处理器配置成向所述等级分数施用阈值并且对等级分数大于或等于所述阈值的基因分等级。
3.根据权利要求1所述的系统,其中所述多个节点中的疾病节点储存所述多种疾病中的一种的疾病信息。
4.根据权利要求3所述的系统,其中所述疾病节点处的疾病信息包括疾病标识符。
5.根据权利要求3所述的系统,其中使两个疾病节点关联的边缘表示这两种疾病的层级关系。
6.根据权利要求1所述的系统,其中所述多个节点中的基因节点储存所述多种基因中的一种的基因信息。
7.根据权利要求6所述的系统,其中在所述基因节点处储存的基因信息包括基因标识符。
8.根据权利要求1所述的系统,其中所述多个节点中的疾病节点和所述多个节点中的基因节点通过基因-疾病边缘相关联,其中所述基因-疾病边缘储存所述基因-疾病关联性的强度参数。
9.根据权利要求1所述的系统,其中所述疾病关联数据库进一步包括多种表型的表型信息和所述疾病与所述多种表型中的关联表型之间的表型-疾病关联性。
10.根据权利要求1所述的系统,其中所述处理器配置成响应对所述疾病关联数据库的查询以提供所述基因-疾病关联性以用于图形显示。
11.根据权利要求1所述的系统,其中所述处理器配置成响应使用者对所述给定疾病的选择以从用于基因组合设计的所述分等级基因表中选择与所述给定疾病相关联的分等级基因中的一种或多种。
12.根据权利要求1所述的系统,其中所述处理器进一步配置成使用用于所述疾病层级结构的较低级别的基因-疾病关联性的等级分数来提供用于所述疾病层级结构的多个较高级别的疾病的等级分数,其中在所述较低级别的疾病与所述较高级别的疾病之间存在层级关系。
13.根据权利要求1所述的系统,其中所述处理器进一步配置成使用用于所述疾病层级结构的较低级别的基因-疾病关联性的分等级基因信息来提供用于所述疾病层级结构的多个较高级别的疾病的分等级基因信息,其中在所述较低级别的疾病与所述较高级别的疾病之间存在层级关系。
14.根据权利要求1所述的系统,其中所述处理器进一步配置成:
确定所述给定级别的基因-疾病关联性的强度参数的从最高值到最低值的值顺序,并且
基于所述值顺序向所述强度参数中的每一个分配阶指数,其中施用到每个强度参数的权重基于其阶指数的倒数。
15.根据权利要求14所述的系统,其中所述处理器进一步配置成向所述等级分数施用阈值,其中所述阈值具有在0.09-0.10范围内的值。
16.根据权利要求1所述的系统,其中所述处理器进一步配置成基于与所述疾病层级结构的一定级别的疾病相关联的基因的等级分数的相关性将所述基因分组成基因簇。
17.根据权利要求16所述的系统,其中所述处理器进一步配置成将主成分分析应用于对应于每种基因簇的基因的等级分数以确定用于所述基因簇的主成分向量。
18.一种试剂盒,其包含与基因组合中的一组基因相关联的一组引物,通过以下步骤选定所述基因组以用于所述基因组合:
从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,所述疾病关联数据库配置成储存多种疾病的疾病信息和多种基因的基因信息,所述疾病关联数据库包括所述多种疾病中的疾病之间的疾病关联性和所述疾病与所述多种基因中的关联基因之间的基因-疾病关联性,其中所述疾病关联性包括所述疾病层级结构并且所述基因-疾病关联性包括每种基因-疾病关联性的强度参数,所述疾病关联数据库储存在存储器中,其中所述给定级别的疾病与所述疾病层级结构中较高级别的给定疾病具有层级关系,其中所述疾病关联数据库包含具有多个节点和多个边缘的图数据库系统,其中一个边缘与两个节点相关联;
对于与所述给定级别的疾病相关联的每种基因,向所述每种基因-疾病关联性的强度参数施用权重以形成加权强度参数;
添加所述基因-疾病关联性的加权强度参数以形成用于与所述给定级别的疾病相关联的每种基因的等级分数;
基于所述等级分数对与所述给定级别的疾病相关联的基因分等级以提供与所述较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表;以及
从所述分等级基因表中选择所述分等级基因中的至少一种以用于所述基因组合中的基因组。
19.一种选择用于基因组合的基因的方法,其包含:
从疾病关联数据库中检索与疾病层级结构中给定级别的疾病相关联的基因的基因-疾病关联性,所述疾病关联数据库配置成储存多种疾病的疾病信息和多种基因的基因信息,所述疾病关联数据库包括所述多种疾病中的疾病之间的疾病关联性和所述疾病与所述多种基因中的关联基因之间的基因-疾病关联性,其中所述疾病关联性包括所述疾病层级结构并且所述基因-疾病关联性包括每种基因-疾病关联性的强度参数,所述疾病关联数据库储存在存储器中,其中所述给定级别的疾病与所述疾病层级结构中较高级别的给定疾病具有层级关系,其中所述疾病关联数据库包含具有多个节点和多个边缘的图数据库系统,其中一个边缘与两个节点相关联;
对于与所述给定级别的疾病相关联的每种基因,向所述每种基因-疾病关联性的强度参数施用权重以形成加权强度参数;
添加所述基因-疾病关联性的加权强度参数以形成用于与所述给定级别的疾病相关联的每种基因的等级分数;并且
基于所述等级分数对与所述给定级别的疾病相关联的基因分等级以提供与所述较高级别的给定疾病相关联的分等级基因信息以用于分等级基因表。
CN201780033722.9A 2016-06-01 2017-06-01 用于设计基因组合的方法和系统 Active CN109643578B (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201662344078P 2016-06-01 2016-06-01
US62/344,078 2016-06-01
US201662395828P 2016-09-16 2016-09-16
US62/395,828 2016-09-16
US201762509860P 2017-05-23 2017-05-23
US62/509,860 2017-05-23
US201762510906P 2017-05-25 2017-05-25
US62/510,906 2017-05-25
PCT/US2017/035466 WO2017210437A1 (en) 2016-06-01 2017-06-01 Methods and systems for designing gene panels

Publications (2)

Publication Number Publication Date
CN109643578A CN109643578A (zh) 2019-04-16
CN109643578B true CN109643578B (zh) 2023-07-21

Family

ID=59054295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780033722.9A Active CN109643578B (zh) 2016-06-01 2017-06-01 用于设计基因组合的方法和系统

Country Status (4)

Country Link
US (2) US20170351807A1 (zh)
EP (1) EP3465506B1 (zh)
CN (1) CN109643578B (zh)
WO (1) WO2017210437A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2018201712B2 (en) * 2018-03-09 2024-02-22 Pryzm Health IQ Pty Ltd Visualising Clinical and Genetic Data
CN111370131B (zh) * 2018-12-26 2023-06-09 陈治平 经由疾病轨迹筛选生物标记的方法及系统
US11636951B2 (en) 2019-10-02 2023-04-25 Kpn Innovations, Llc. Systems and methods for generating a genotypic causal model of a disease state
CN111192625B (zh) * 2019-12-31 2021-05-04 中南大学湘雅医院 基于帕金森病基因组学关联模型的管理方法及装置
CN111540405B (zh) * 2020-04-29 2023-07-07 新疆大学 一种基于快速网络嵌入的疾病基因预测方法
CN112667772B (zh) * 2020-12-23 2023-04-07 深圳华大基因科技服务有限公司 一种基因关联程度确定方法及装置
CN113192556B (zh) * 2021-03-17 2022-04-26 西北工业大学 基于小样本的多组学数据中基因型与表型关联分析方法
CN115512843B (zh) * 2022-11-15 2023-04-07 南京腾鸿医疗科技有限公司 一种基于标准化表型术语的疾病和基因预测方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4965188A (en) 1986-08-22 1990-10-23 Cetus Corporation Process for amplifying, detecting, and/or cloning nucleic acid sequences using a thermostable enzyme
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4800159A (en) 1986-02-07 1989-01-24 Cetus Corporation Process for amplifying, detecting, and/or cloning nucleic acid sequences
CA2020958C (en) 1989-07-11 2005-01-11 Daniel L. Kacian Nucleic acid sequence amplification methods
US5210015A (en) 1990-08-06 1993-05-11 Hoffman-La Roche Inc. Homogeneous assay system using the nuclease activity of a nucleic acid polymerase
US5854033A (en) 1995-11-21 1998-12-29 Yale University Rolling circle replication reporter systems
CA2257109C (en) 1996-06-04 2009-10-06 University Of Utah Research Foundation Monitoring hybridization during pcr
JP4199026B2 (ja) * 2003-03-03 2008-12-17 富士通株式会社 情報関連性表示方法、プログラム、記憶媒体及び装置
US20150302436A1 (en) * 2003-08-25 2015-10-22 Thomas J. Reynolds Decision strategy analytics
US8301482B2 (en) * 2003-08-25 2012-10-30 Tom Reynolds Determining strategies for increasing loyalty of a population to an entity
US7709197B2 (en) 2005-06-15 2010-05-04 Callida Genomics, Inc. Nucleic acid analysis by random mixtures of non-overlapping fragments
EP1960555A4 (en) * 2005-11-29 2011-09-07 Intelligent Med Devices Inc METHOD AND SYSTEMS FOR CONSTRUCTING PRIMERS AND PROBES
US10916328B2 (en) * 2007-09-07 2021-02-09 Crowley Davis Research, Inc. Systems and methods for cell-centric simulation and cell-based models produced therefrom
WO2009055823A2 (en) * 2007-10-26 2009-04-30 Progen Pharmaceuticals Limited Method to predict responsiveness of breast cancer to polyaminetype chemotherapy
US10028332B2 (en) * 2008-08-15 2018-07-17 Qualcomm, Incorporated Hierarchical clustering framework for inter-cell MIMO systems
JP2010271796A (ja) 2009-05-19 2010-12-02 Optrex Corp 電極間接続構造およびタッチパネル
WO2011151500A1 (en) * 2010-05-31 2011-12-08 Helsingin Yliopisto Arrangement and method for finding relationships among data
US9773091B2 (en) * 2011-10-31 2017-09-26 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
US8994882B2 (en) * 2011-12-09 2015-03-31 Intel Corporation Control of video processing algorithms based on measured perceptual quality characteristics
WO2014037914A2 (en) * 2012-09-07 2014-03-13 University Of The Western Cape Method and system for organizing and retrieving data in a semantic database structure
JP5983368B2 (ja) * 2012-12-05 2016-08-31 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US20140278133A1 (en) * 2013-03-15 2014-09-18 Advanced Throughput, Inc. Systems and methods for disease associated human genomic variant analysis and reporting
GB2535066A (en) * 2013-10-03 2016-08-10 Personalis Inc Methods for analyzing genotypes

Also Published As

Publication number Publication date
EP3465506B1 (en) 2024-04-03
EP3465506A1 (en) 2019-04-10
CN109643578A (zh) 2019-04-16
US20170351807A1 (en) 2017-12-07
US20230402128A1 (en) 2023-12-14
WO2017210437A1 (en) 2017-12-07

Similar Documents

Publication Publication Date Title
CN109643578B (zh) 用于设计基因组合的方法和系统
CN106068330B (zh) 将已知等位基因用于读数映射中的系统和方法
Tao et al. Information theory applied to the sparse gene ontology annotation network to predict novel gene function
Cowperthwaite et al. The ascent of the abundant: how mutational networks constrain evolution
AU2014340461A1 (en) Systems and methods for using paired-end data in directed acyclic structure
Zhou et al. Effective selection of informative SNPs and classification on the HapMap genotype data
Masoudi-Nejad et al. RETRACTED ARTICLE: Candidate gene prioritization
Zhang et al. Computing exact P-values for DNA motifs
Moore et al. Bioinformatics resources for microRNA discovery
Fang et al. Knowledge guided analysis of microarray data
Roe et al. Accurate and efficient KIR gene and haplotype inference from genome sequencing reads with novel K-mer signatures
Li et al. Performance evaluation of differential splicing analysis methods and splicing analytics platform construction
CN107153776B (zh) 一种y单倍群检测方法
Triska et al. Analysis of cis-regulatory elements in gene co-expression networks in cancer
Kundaje et al. Combining sequence and time series expression data to learn transcriptional modules
Gonye et al. From promoter analysis to transcriptional regulatory network prediction using PAINT
Ochs et al. Incorporation of gene ontology annotations to enhance microarray data analysis
Gan et al. Mimvec: a deep learning approach for analyzing the human phenome
Touati et al. Classification of intra-genomic helitrons based on features extracted from different orders of FCGS
Klau et al. Integer linear programming approaches for non-unique probe selection
Berman et al. Fast optimal genome tiling with applications to microarray design and homology search
US6994965B2 (en) Method for displaying results of hybridization experiment
Guzzi et al. Challenges in microarray data management and analysis
Kawaguchi et al. Learning single-cell chromatin accessibility profiles using meta-analytic marker genes
Kim et al. Adding sequence context to a Markov background model improves the identification of regulatory elements

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant