CN109906486B - 使用共识基因库和基于网络的数据结构的表型/疾病特异性基因排序 - Google Patents

使用共识基因库和基于网络的数据结构的表型/疾病特异性基因排序 Download PDF

Info

Publication number
CN109906486B
CN109906486B CN201780068416.9A CN201780068416A CN109906486B CN 109906486 B CN109906486 B CN 109906486B CN 201780068416 A CN201780068416 A CN 201780068416A CN 109906486 B CN109906486 B CN 109906486B
Authority
CN
China
Prior art keywords
genes
gene
score
experimental
scores
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780068416.9A
Other languages
English (en)
Other versions
CN109906486A (zh
Inventor
M·荣格
S·恩格
J·R·德莱尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Illumina Inc
Original Assignee
Illumina Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Illumina Inc filed Critical Illumina Inc
Publication of CN109906486A publication Critical patent/CN109906486A/zh
Application granted granted Critical
Publication of CN109906486B publication Critical patent/CN109906486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及用于从高通量生物和化学测定平台捕获、整合、组织、导航和查询大规模数据的方法、系统和装置。它提供了一个高效的荟萃分析基础设施,用于对来自不同生物和化学测试、数据类型和生物体的大量研究和实验进行研究查询,并提供了构建和添加到此类基础设施的系统。根据各种实现方案,用于识别可能与感兴趣的生物学、化学或医学概念相关的基因的方法、系统和界面。

Description

使用共识基因库和基于网络的数据结构的表型/疾病特异性 基因排序
相关申请的交叉引用
本申请在35 U.S.C.§119(e)下要求于2016年10月3日提交的题为:使用共识基因库和基于网络的数据结构的表型/疾病特异性基因排序的美国临时专利申请号62/403,206的权益,出于各种目的将其全部内容通过参考并入本文。
背景技术
本公开一般涉及用于存储和检索生物学、化学和医学信息的方法、系统和设备。这些领域的研究越来越多地从实验室工作台转向基于计算机的方法。例如,诸如NCBI(国家生物技术信息中心)等公共资源提供了具有遗传和分子数据的数据库。在这些来源和私人来源之间,研究人员可以从各种分析平台、生物体、数据类型等获得大量数据。随着传播的生物医学信息量的增加,研究人员需要快速有效的工具来快速吸收新信息并将其与不同平台、生物体等的预先存在的信息相结合。研究人员还需要工具来快速浏览和分析各种类型的信息。
存在越来越多的筛选潜在的生物标志物的药物和临床需要,以便推进个性化治疗选择或识别现有药物对新疾病是有效的。识别癌症和复杂疾病中的疾病特异性基因是具有挑战性和耗时的。复杂疾病通常以少数相关疾病表型为特征,这些表型受到通过不同生物通路的复杂遗传因素的影响。这些通路可能彼此重叠并相互作用,从而导致更复杂的网络。传统的基于通路的基因排序可以在各种情况下提供有限的价值。识别与这些表型相关的基因将有助于以全面的方式理解疾病发展的机制。
在这种情况下,要解决的问题是识别与给定表型或其他生物学、化学和医学概念相关的最接近的基因。例如,考虑到表型,如前列腺癌,可以识别任意大小的基因的小组吗?使用传统方法,鉴于疾病,数月的审查和分析各种来源,如期刊、在线数据库、实验数据、亲自讨论和交流可以得出一个基因集。此过程可能需要数月或更长时间。
本公开的各种实现方案提供了识别给定表型或其他感兴趣的生物学、化学或药学概念的最重要基因的技术。基于大型数据库,包括共识基因调控数据(例如RNA表达、蛋白质表达、DNA甲基化、转录因子活性和基因组范围关联研究中的关联水平)及基因调控数据与基因群数据和相互作用组数据之间的综合关联。
发明内容
本发明涉及用于从高通量生物和化学测定平台捕获、整合、组织、导航和查询大规模数据的方法、系统和装置。它提供了一个高效的荟萃分析基础设施,用于对来自不同生物和化学测试、数据类型和生物体的大量研究和实验进行研究查询,以及构建和添加到此类基础设施的系统。本发明的实施方式提供用于将实验数据、特征和通过结构和/或功能相关的数据组与本体或分类中的化学、医学和/或生物学术语相关联的方法、系统和接口。本发明的实施方式还提供了用于通过数据源信息过滤数据的方法、系统和接口,其允许通过大量数据的动态导航以找到特定查询的最相关结果。
一个或多个计算机的系统可以被配置为通过在系统上安装的软件、固件、硬件或它们的组合来执行特定操作或动作,该系统在操作中导致或使系统执行动作。一个或多个计算机程序可以被配置为通过包括指令来执行特定操作或动作,所述指令在由数据处理装置执行时使装置执行包括以下的操作:(a)通过一个或多个处理器从数据库选择多个基因集,其中,多个基因集中的每个基因集包括多个基因和与多个基因相关的多个实验值,并且其中,在至少一项实验中多个实验值与感兴趣的生物学、化学或医学概念相关;(b)对于每个基因集,并且通过一个或多个处理器,使用所述多个基因中的第一组一个或多个基因的一个或多个实验值确定第一组一个或多个基因的一个或多个实验基因得分;(c)对于每个基因集,并且通过一个或多个处理器,至少部分地基于第一组一个或多个基因与第二组一个或多个基因的相关性确定多个基因中的第二组一个或多个基因的一个或多个计算机基因得分,其中,第一组一个或多个基因与第二组一个或多个基因的相关性在除多个基因集外的数据库中的其他基因集中指出;(d)通过一个或多个处理器,至少部分地基于步骤(b)中确定的第一组一个或多个基因的一个或多个实验基因得分以及步骤(c)中确定的第二组一个或多个基因的一个或多个计算机基因得分,获得第一组和第二组一个或多个基因的总分,其中,每个总分跨多个基因集汇集;和(e)通过一个或多个处理器,使用第一组和第二组一个或多个基因的总分,识别可能与感兴趣的生物、化学或医学概念相关的基因。
实现方案可以包括以下特征中的一个或多个。在一些实现方案中,步骤(c)对于多个基因集中的每个基因集,包括:(i)从数据库中识别第二组多个基因集,第二组多个基因集的每个基因集包括第二组多个基因和与第二组多个基因相关联的第二组多个实验值,并且第二组多个实验值与第一组一个或多个基因中的第一基因相关。所述方法还可以包括(ii)跨第二组多个基因集汇集实验值以获得第一组一个或多个基因中第一基因的汇集值的矢量。所述方法还可以包括(iii)将(i)和(ii)应用于第一组一个或多个基因中的一个或多个其他基因,从而获得第一组一个或多个基因中的一个或多个其他基因的实验值的一个或多个矢量。所述方法还可以包括(iv)汇集第一基因和第一组一个或多个基因中的一个或多个其他基因的汇集值的矢量,从而获得包括第二组一个或多个基因的一个或多个计算机基因得分的一个压缩矢量。
还提供了一种方法,其中对于第一组一个或多个基因中的特定基因的(iv)的每个所汇集的矢量按照该特定基因的实验值成比例地加权。在所述方法中,将第一组一个或多个基因中的特定基因的(iv)的每个所汇集的矢量按照对于该特定基因所识别的第二组多个基因集的基因集的数量成比例地加权。
一些实现方案提供了这样的方法,其进一步包括,在步骤(d)之前确定第三组一个或多个基因的一个或多个基因-群得分。一些实施方案提供了这样的方法,其中使用(i)各自包含与群标签相关的一群基因的一个或多个基因群的基因成员身份,其中,该群基因包含特定基因,和(ii)第一组一个或多个基因的一个或多个实验值中的至少一些,确定特定基因的每个基因-群得分。
一些实现方案提供了这样的方法,其中步骤(d)至少部分地基于第三组一个或多个基因中的至少一些基因的基因-群得分,及步骤(b)中确定的第一组一个或多个基因的一个或多个实验得分和步骤(c)中确定的第二组一个或多个基因的一个或多个计算机得分,从而获得第一组和第二组一个或多个基因的总分。
一些实现方案提供了这样的方法,其中,确定第三组一个或多个基因的一个或多个基因-群得分包括:对于第三组一个或多个基因中的特定基因,识别每个包括该特定基因的一个或多个基因群。所述方法还可以包括,对于每个基因群,确定第一组一个或多个基因中的基因群的成员的百分比。所述方法还可以包括,对于每个基因群,汇集作为基因群的成员的第一组一个或多个基因中的至少一些基因的一个或多个实验值,从而获得基因群的总和实验值。所述方法还可以包括,对于第三组一个或多个基因中的特定基因,使用第一组一个或多个基因中基因群成员的百分比和基因群的总和实验值来确定基因-群得分。
一些实现方案提供了这样的方法,其中使用第一组一个或多个基因中的基因群的成员的百分比和所述基因群的总和实验值来确定基因-群得分,所述方法包括:对于每个基因群,获得成员百分比和总和实验值的乘积,从而获得一个或多个基因群的一个或多个乘积。所述方法还可以包括跨一个或多个基因群对一个或多个乘积求和,从而获得总和乘积。所述方法还可以包括对于第三组一个或多个基因中的特定基因,确定基于总和乘积的基因-群得分。
一某些实现方案提供了这样的方法,其中与群标签相关的多个基因包括基因集库中的基因。
在一些实现方案中,基因集库中的基因包括基因本体中的基因。在某些实现方案中,群标签指示病症、属性、疾病、表型、综合征、性状、生物学功能、生物学途径、细胞、生物体、生物学功能、化合物、治疗等。
在一些实现方案中,所述方法进一步包括,在(d)之前,分别确定第四组一个或多个基因的相互作用组得分。在一些实现方案中,使用(i)特定基因和在基因网络中与特定基因连接的其他基因之间的连接和(ii)至少一些第一组一个或多个基因的一个或多个实验值来确定特定基因的每个相互作用组得分。在一些实现方案中,(d)包括至少部分地基于第四组一个或多个基因中的至少某些基因的相互作用组得分,以及(b)中确定的第一组一个或多个基因的一个或多个实验基因得分和(c)中确定的第二组一个或多个基因的一个或多个计算机基因得分获得至少第一组一个或多个基因和第二组一个或多个基因的总分。在一些实现方案中,基因网络基于基因、蛋白质和/或磷脂之间的相互作用和关系。
在一些实现方案中,分别确定第四组一个或多个基因的相互作用组得分包括:提供基因网络,其中,网络中的每对基因通过边缘连接,网络的基因包括第四组一个或多个基因,其包括第一组一个或多个基因和/或第二组一个或多个基因中的至少一些基因;对于第四组一个或多个基因的每个基因,基于与特定基因的连接距离定义连接的基因的邻域,连接距离如通过连接两个相邻基因的连接边缘的数量所测量的;并且,对于第四组一个或多个基因的每个基因,使用(i)特定基因与邻域中的一个或多个其他基因之间的一个或多个连接距离以及(ii)邻域中的一个或多个其他基因的总分,计算相互作用组得分,其中,总分基于实验数据。
在一些实现方案中,相互作用组得分计算为相对于多个分数的总和的比例,每个分数是邻域中另一个基因的总分,除以特定基因与邻域中的另一个基因之间的连接距离。
在一些实现方案中,分别确定第四组一个或多个基因的相互作用组得分包括:提供基因网络,其中,网络基因具有基于高于第一阈值的实验数据的总分,每对基因通过边缘连接,并且网络基因包括第四组一个或多个基因,其包括第一组一个或多个基因和/或第二组一个或多个基因中的至少一些基因;对于每个边缘,基于至少一个相互作用组知识库中的两个基因的连接数据,分配连接两个基因的边缘的权重;并且,对于网络中的每个基因,使用(i)特定基因和与特定基因连接的所有基因之间的边缘的权重,以及(ii)与特定基因连接的所有基因的总分,计算相互作用组得分。
在一些实现方案中,计算相互作用组得分包括将相互作用组得分计算为Ni':
Ni’=Ni+Σ((Ni+Nn)*边缘_权重n)
其中,Ni是特定基因i的总分,Nn是与特定基因连接的基因n的总分,边缘_权重n是连接特定基因i和基因n的边缘的权重。
在一些实现方案中,计算相互作用组得分还包括:在第一通过字典中保存小于第二阈值的Ni';并重复第一通过字典中所有基因的计算,从而更新相互作用组得分。在一些实现方案中,计算相互作用组得分还包括将计算重复一次或多次。
在一些实现方案中,选择(a)的多个实验基因集包括基于分配给与实验基因集相关的生物标签的生物标签评分选择实验基因集,其中生物标签评分指示基因群的重要性水平。在一些实现方案中,生物标签通过选自下组的类别来组织:生物来源、生物设计、组织、疾病、化合物、基因、基因模式、生物群及其任何组合。
在一些实现方案中,所述方法进一步包括基于生物标签执行基因集和/或基因群的评分。
在一些实现方案中,多个实验值包括变体或基因相关数据,其中可以衍生从数据值到基因或多个基因的特定关系。在一些实现方案中,多个实验值包括多个基因扰动值。在一些实现方案中,其中所述多个实验值指示全基因组关联研究中RNA表达、蛋白质表达、DNA甲基化、转录因子活性和/或相关性的水平。
在一些实现方案中,感兴趣的生物学、化学或医学概念包括表型。在一些实现方案中,表型包括疾病相关表型。
在一些实现方案中,特定基因的每个总分被计算为跨多个基因集的实验得分和计算机得分的线性组合。
在一些实现方案中,(d)包括:提供接收实验基因得分和计算机基因得分作为输入,并提供总分作为输出的模型;和将该模型应用于一个或多个实验基因得分和一个或多个计算机基因得分,以获得第一组一个或多个基因和第二组一个或多个基因的总分。
在一些实现方案中,所述方法还包括通过优化目标函数来训练模型。在一些实现方案中,训练模型包括将引导技术应用于引导样品。在某些实现方案中,目标函数涉及引导之后的至少一个总分分布。在一些实现方案中,优化目标函数包括最小化训练集和验证集之间的总分的差异。在一些实现方案中,优化目标函数包括最大化从多个基因集获得的汇总得分分布与从随机基因集获得的总分分布之间的距离。
在一些实现方案中,在定义大小的桶中对总分进行排序和分箱,其中将惩罚得分分配给桶,惩罚得分有利于更高排序的总分。在一些实现方案中,目标函数仅基于排序靠前的总分。
在一些实现方案中,训练模型包括在无监督机器学习方法中使用目标函数来学习模型的参数。
在一些实现方案中,模型具有以下形式
F(θ)=k1*c1+k2*c2+…+kn*cn
其中,θ是模型的参数,ci是模型的组件,ki是组件的权重因子。
在一些实现方案中,所述方法还包括基于实验数据类型的样品权重将模型的一个或多个组件划分为子组件。
在一些实现方案中,基于一个或多个随机基因集中第一组和第二组一个或多个基因的实验值与感兴趣的生物学、化学或医学概念相关的可能性,对第一组和第二组一个或多个基因的总分进行罚分。在一些实现方案中,特定基因的每个总分通过与排序乘积的p值成反比的惩罚值被惩罚,其中排序乘积包括跨一个或多个随机基因集的特定基因的排序乘积。
在一些实现方案中,第一组一个或多个基因是与第二组一个或多个基因不同。
在一些实现方案中,总分被标准化。
在一些实现方案中,数据库包括多个子数据库。
在一些实现方案中,(b)中第一组一个或多个基因的一个或多个实验值满足标准。
在一些实现方案中,借助于奇异值的线性组合来汇集每个总分。在一些实现方案中,线性组合涉及平方和。
一个一般方面包括一种计算机程序产品,其包括存储程序代码的非暂时性机器可读介质,当由计算机系统的一个或多个处理器执行时,其使计算机系统实现用于识别与感兴趣的生物学、化学或医学概念可能相关联的基因的方法,所述程序代码包括:(a)用于从数据库选择多个基因集的代码,其中,多个基因集中的每个基因集包含多个基因、和与多个基因相关的多个实验值,并且其中,所述多个实验值在至少一个实验中与感兴趣的生物学、化学或医学概念相关。该程序代码还包括(b)对于每个基因集,使用所述多个基因中的第一组一个或多个基因的一个或多个实验值确定第一组一个或多个基因的一个或多个实验基因得分的代码。该程序代码还包括(c)对于每个基因集,至少部分地基于第一组一个或多个基因与第二组一个或多个基因的相关性确定多个基因中的第二组一个或多个基因的一个或多个计算机基因得分的代码,其中第一组一个或多个基因与第二组一个或多个基因的相关性在除了多个基因集外的数据库中的其他基因集中指示。程序代码还包括(d)至少部分地基于(b)中确定的第一组一个或多个基因的一个或多个实验基因得分和(c)中确定的第二组一个或多个基因的一个或多个计算机基因得分获得第一组和第二组一个或多个基因的总分的代码,其中每个总分跨多个基因集汇集。程序代码还包括(e)使用第一组和第二组一个或多个基因的总分,识别可能与感兴趣的生物学、化学或医学概念相关的基因的代码。
另一个一般方面包括一种计算机系统,其包括:一个或多个处理器。计算机系统还包括系统存储器;和一个或多个计算机可读存储介质,其上存储有计算机可执行指令,当所述指令由一个或多个处理器执行时,使计算机系统实现用于识别可能与感兴趣的生物学、化学或医学概念相关的基因的方法,所述方法包括:(a)通过一个或多个处理器从数据库中选择多个基因集,其中多个基因集的每个基因集包括多个基因和与多个基因相关的多个实验值,并且其中多个实验值在至少一个实验中与感兴趣的生物学、化学或医学概念相关;(b)对于每个基因集并且通过一个或多个处理器,使用多个基因中的第一组一个或多个基因的一个或多个实验值,确定第一组一个或多个基因的一个或多个实验基因得分;(c)对于每个基因集并且通过一个或多个处理器,至少部分地基于第一组一个或多个基因与第二组一个或多个基因的相关性确定多个基因中的第二组一个或多个基因的一个或多个计算机基因得分,其中第一组一个或多个基因与第二组一个或多个基因的相关性在除多个基因集之外的数据库中的其他基因集中指示;(d)通过一个或多个处理器,至少部分地基于(b)中确定的第一组一个或多个基因的一个或多个实验基因得分和(c)中确定的第二组一个或多个基因的一个或多个计算机基因得分获得第一组和第二组一个或多个基因的总分,其中每个总分跨多个基因集汇集;和(e)通过一个或多个处理器,使用第一组和第二组一个或多个基因的总分识别可能与感兴趣的生物学、化学或医学概念相关的基因。
本发明的实施方式提供了用于将实验数据、特征和通过结构和/或功能相关的数据组与本体或分类中的化学、医学和/或生物学术语相关联的方法。在某些实施方式中,通过所述方法分析的数据通常是有噪声和不完美的。这些方法过滤掉噪声基因以进行预测。还提供了查询数据库中的各种类型的数据(包括特征、特征集、特征群和标签或概念)的方法,以响应于查询产生数据库中最相关或重要基因的列表。
提供了用于实现任何上述方法的计算机程序产品和计算机系统。下面参考附图进一步描述本发明的这些和其他方面。
附图说明
图1是根据本发明的各种实施方式的科学信息的知识库中的各种要素的表示。
图2是根据本发明的各种实施方式的本体的代表性示意图。
图3是描绘某些实施方式的特征的最相关概念的确定方法的一些操作的过程流程图。
图4是描绘某些实施方式的特征集的最相关概念的确定方法的一些操作的过程流程图。
图5是描绘某些实施方式的特征群的最相关概念的确定方法的一些操作的过程流程图。
图6示意性地示出了使用实验基因数据、计算机基因数据和知识库基因数据以获得基因总分的实现方案。
图7显示根据某些实现方案的用于识别可能与感兴趣的生物学、化学或医学概念相关的基因的方法。
图8显示使用由无监督学习训练的模型来获得总分的过程。
图9显示用于说明优化目标函数的数据。
图10显示根据某些实现方案获得基因排序的示意性数据。
图11显示从实验基因集数据获得计算机得分的过程。
图12显示与表型P1相关的基因集S1的说明性数据。
图13显示某些实现方案的可以获得基因-群得分的过程。
图14显示基因集S1-S3的基因和基因群的基因的说明图。
图15示出实验基因集G1至G3中基因群的成员Ii的实验值。
图16示出某些实现方案的计算相互作用组得分的过程。
图17显示如何能够获得基因网络的相互作用组数据的说明图。
图18显示使用相互作用组数据和实验数据获得相互作用组得分的另一实现方案的过程。
图19显示基因网络和用于实现过程获得相互作用组得分的算法。
图20是可以与本文所述的方法和装置一起使用的计算机系统的图形表示。
图21A和图21B显示与随机基因集和对表型特异性的基因集的表型相关的基因的示意性总分的数据。其还显示引导的作用。
具体实现方案
介绍和相关术语
本公开的实现方案具有各种应用,例如在精确医学中,通过将患者数据与表型来源的基因排序匹配而应用,以及在药物筛选中,通过优化药物组合的基因排序列表而应用。
在一些实现方案中,本公开提供用于疾病、表型和其他生物学、化学或医学概念的基因排序技术,其利用DNA表达数据的能力来对具有高价值和与特定概念具有相关性的候选基因进行准确和合理的预测。一些实现方案可以识别与感兴趣的疾病或治疗的连接,这些连接将作为相关性实验相关性数据内容总量而发展。一些实现方案可以在运行中提供疾病特异性RNA、DNA或表观遗传组,这可以增加发现新生物标志物的机会。当新数据被集成到相关数据库中时,可以执行新的和改进的分析。一些实现方案可利用源自数据库的药物扰动数据的能力来发现与感兴趣的疾病相关的药物或化合物组合。
在一些实现方案中,所述方法和系统利用共识数据库中的大数据进行基于RNA的表达研究,其中数据嵌入在分层框架中。随着时间的推移,底层数据库可以有机地增长,扩大覆盖范围的广度和深度。一些实现方案涉及基于例如生物设计和生物资源的生物标签,其确保分析集中于最有价值和相关的数据。各种实现方案提供用于识别其他RNA表达分析工具中不存在的疾病特异性基因的方法和系统。
在一些实现方案中,通过使用包括RNA表达、性状相关基因突变、DNA甲基化和其他基因相关数据结构的共识数据类型来解决表型特异性基因排序或概念特异性基因排序的问题,其在本文中称为多组学或多组学数据。此外,诸如基于本体的信息之类的知识库信息以及诸如蛋白质-蛋白质相互作用的基于网络的信息被用于识别相关基因。在一些实现方案中,实现无监督机器学习框架以从以上多个信息源获得总分。在一些实现方案中,引导方法用于生成更健壮的排序结构。在一些实现方案中,应用最高分评估而不是整个基因排序评估,其可以过滤掉随机丰富的扰动信号。在一些实现方案中,这通过在改群基因集上使用概率秩产品得分来实现。另外,在一些实现方案中,使用生物标签优先化技术来识别与共识数据库中的给定表型或概念相关的每个共识研究的最佳基因集。
在一些实现方案中,基于实验数据的总分与图模型或网络模型组合使用。在一些实现方案中,基因网络中的连接边缘由外部知识库定义,例如蛋白质-蛋白质相互作用(PPI)或基因集库。
在一些实现方案中,结合上述方法的模型的参数通过无监督的机器学习技术来优化,例如,通过最小化测试数据和验证数据之间的总分差异,和/或通过最大化概念特定基因得分与随机生成的基因得分之间的差异。
常规方法使用源自数据源的非共识数据结构和/或种子基因,例如在线孟德尔遗传(OMIM)。而且,使用非共识数据的常规方法不允许基于生物标签的基因优先级排序。
相互作用组数据是指与两个基因的状态相关的数据。两个基因的关系可以基于两个基因和其他数据来源和研究之间的统计相关性。两个基因之间的相互作用或关系可能与它们的功能、结构、生物途径、转录因子、启动子和其他因素相关。在各种实现方案中,相互作用组数据提供了形成联系节点的网络和节点之间的连接的基础,其中节点呈现基因。传统的基因网络有时包括高度连接的节点,这可能是由伪像引起的。换句话说,基因可以在网络中彼此连接,使得连接不是感兴趣的生物或化学概念(例如疾病)的基础。在许多常规的基于网络的基因研究中,需要种子基因来开发网络。网络包括有限的实验数据。此外,网络底层的信息和数据通常是严格且不灵活的。
本公开的各种实现方案提供了用于识别与感兴趣的概念高度相关的基因的方法,所述概念可以是疾病、表型、综合征、性状、生物学功能、生物途径、化合物、治疗、医疗条件、以及其他生物学、化学和医学概念。所述方法使用与感兴趣的概念相关或受其影响的基因的实验数据。所述方法还使用基于基因和基因集之间相关性的计算机数据。在一些实现方案中,除了实验基因数据和计算机基因数据之外,所述方法还使用知识库数据。
本发明涉及用于从高通量生物学和化学测定平台捕获、整合、组织、导航和查询大规模数据的方法、系统和装置。它提供了一个高效的荟萃分析基础设施,用于对来自不同生物学和化学分析、数据类型和生物体的大量研究和实验进行研究查询,以及构建和添加到此类基础设施的系统。
虽然以下大多数描述是根据集成并允许探索来自生物实验和研究的数据的系统、方法和装置来呈现的,但本发明决不受此限制。例如,本发明涵盖化学和临床数据。在以下描述中,阐述了许多具体细节以便提供对本发明的透彻理解。然而,显而易见的是,可以在不限制本文给出的某些具体细节的情况下实施本发明。
在整个说明书中使用以下术语。提供描述是为了帮助理解说明书,但不一定限制本发明的范围。
本文使用的术语概念是指可以与基因或基因相关数据相关的生物学、化学和医学概念。概念是指疾病、表型、综合征、性状、生物学功能、生物途径、细胞、生物体、生物学功能、化合物、治疗、医学病症和其他生物学、化学和医学概念。
标签-标签将关于特征集的描述性信息与特征集相关联。这允许在查询指定或暗示特定标签时将特征集识别为结果。临床参数通常用作标签。标签类别的实例包括肿瘤阶段、患者年龄、样品表型特征和组织类型。在某些实施方式中,标签也可以称为概念,因为概念可以用作标签。
生物标签是与生物学特征相关的标签。此后进一步提供生物标签的各种类别和实例。
数据库-数据库是有组织的数据集合。在某些实现方案中,数据库包括与特定主题领域相关的数据,例如基因集理论或基因相互作用组。此类数据库也称为知识库。例如,数据库可以指用于分析和响应查询的数据集合。在某些实施方式中,它包括一个或多个特征集、特征群和元数据,用于组织特定层级或目录中的特征集(例如,研究和项目的层级)。此外,知识库可以包括将特征集彼此关联并且与特征群相关联的信息,基因或其他特征的全局唯一术语或标识符的列表,诸如在不同平台上测量的特征列表(例如,Affymetrix人类HG_U133A芯片),不同生物体中特征的总数量,它们相应的转录物、蛋白质产物及其相互关系。知识库通常还包含一个分类,其中包含不同组织、疾病状态、化合物类型、表型、细胞以及它们之间关系的所有标签(关键字)的列表。例如,分类定义癌症和肝癌之间的关系,并且还包含与这些组中的每一个相关联的关键词(例如,关键词“肿瘤”具有与“癌症”相同的含义)。由于数据库的具体内容,它也被称为知识库。
相关性是涉及两个变量或概念之间的依赖性的广泛类别的统计关系中的任何一种。它不需要线性关系或因果关系。它指的是两个随机变量或两个数据集之间的任何统计关系,无论是否存在因果关系。
作为实例,输入到知识库中的新特征集与已经在知识库中的每个其他(或至少许多)特征集相关联。相关性在逐个特征的基础上比较新特征集和所考虑的特征集,比较关于匹配基因的排序或其他信息。在一个实施方式中使用基于排序的运行算法(以关联特征集)。关联两个特征集的结果是“得分”。得分存储在知识库中并用于响应关于基因、临床参数、药物治疗等的查询。
还使用相关性将新特征集与知识库中的所有特征群相关联。例如,表示“生长”基因的特征群可以与表示药物反应的特征集相关,这反过来允许药物作用和生长基因之间的相关性。
术语相互作用组用于指特定细胞中的分子相互作用的全部集合。该术语特别指分子之间的物理相互作用(例如蛋白质中的那些相互作用,也称为蛋白质-蛋白质相互作用,PPI),但也可以描述基因间的间接相互作用的集合。
相互作用组数据是指与两个基因的状态相关的数据。两个基因的关系可以基于两个基因和其他数据来源和研究之间的统计相关性。两个基因之间的相互作用或关系可能与它们的功能、结构、生物途径、转录因子、启动子和其他因素有关。
原始数据-这是来自一个或多个实验的数据,所述实验提供有关一个或多个样品的信息。通常,原始数据尚未处理到适合在本发明的数据库和系统中使用的点。随后的操作将其减少至适合在这种数据库和系统中使用的一个或多个“特征集”的形式。将原始数据转换为特征集的过程有时称为共识。数据通常在数据库中标记,标记也称为共识。
本文提出的大部分实施例涉及生物学实验,其中刺激作用于生物样品,例如组织或细胞培养物。通常,生物学实验将具有相关的临床参数,如肿瘤阶段、患者病史等。然而,本发明不限于生物样品,并且可以涉及例如对诸如化学化合物、各种类型的合成和天然材料等非生物样品的实验,及它们对各种类型的测定的影响(例如,癌细胞系进展)。
无论是使用生物样品还是非生物样品,样品可以暴露于一种或多种刺激或处理以产生测试数据。还可以产生对照数据。选择刺激适合于所进行的特定研究。可以采用的刺激的实例是暴露于特定材料或组合物、辐射(包括所有方式的电磁和粒子辐射)、力(包括机械(例如,重力)、电、磁和核)、场、热能等。可用作刺激的材料的一般实例包括有机和无机化合物、生物材料(如核酸、碳水化合物、蛋白质和肽、脂质、各种感染剂、前述物质的混合物)等。刺激的其他一般实例包括非环境温度、非环境压力、声能、所有频率的电磁辐射、缺乏特定材料(例如,缺血中的缺氧)、时间因素等。如所建议的在本发明的上下文中,一类特别重要的刺激是暴露于治疗剂(包括怀疑具有治疗作用但尚未证实具有这种性质的试剂)。治疗剂通常是化学化合物,如药物或候选药物或存在于环境中的化合物。化学化合物的生物学影响表现为诸如基因表达水平或表型特征等特征的变化。
如所建议的,原始数据将包括“特征”,其中从实验产生相关信息。在许多实例中,特征是来自暴露于特定刺激的特定组织或细胞样品的基因或遗传信息。
典型的生物学实验确定关于与特定细胞类型或组织类型相关的基因或其他特征的表达或其他信息。可以在原始数据中收集实验信息的其他类型的遗传特征,其包括SNP模式(例如,单倍型嵌段)、基因的部分(例如,外显子/内含子或调节基序)、跨多于一个基因的染色体基因组区域等。其他类型的生物学特征包括表型特征,如细胞和诸如细胞核、高尔基体等细胞器的形态。化学特征的类型包括化合物、代谢物等。
可以使用各种类型的平台(例如,包括基因微阵列、SNP微阵列和蛋白质微阵列等多种微阵列系统,细胞计数系统,高通量筛选(“HTS”)平台等中的任何一种)从各种类型的实验中的任一种中产生原始数据。例如,寡核苷酸微阵列也用于实验中以确定特定生物的特定细胞类型中多个基因的表达。在另一个实例中,质谱法用于确定样品中蛋白质的丰度。
特征集-这是指从在一个或多个样品上的一个或多个实验中获取的“原始数据”导出的数据集。该特征集包括一个或多个特征(通常是多个特征)和关于实验对这些特征的影响的相关信息。在某些时候,特征集的特征可以基于它们对实验中的刺激或处理的响应的相对水平或基于它们在不同表型之间的变化的大小和定向,以及它们区分不同表型状态的能力(例如,晚期肿瘤阶段与早期肿瘤阶段)来排序(至少暂时地)。
出于存储和计算效率的原因,例如,特征集可以包括仅关于原始数据中包含的特征或响应的子集的信息。如所示,诸如共识等过程将原始数据转换为特征集。
通常,该特征集涉及与特定问题或事件相关的原始数据(例如,特定化学化合物是否与特定途径中的蛋白质相互作用)。根据原始数据和研究,特征集可以限于单个生物的单个细胞类型。从“目录”的角度来看,特征集属于“研究”。换句话说,单个研究可以包括一个或多个特征集。
在许多实施方式中,特征集是“生物集”或“化学集”。生物集通常包含提供关于特定刺激或处理的生物影响的信息的数据。如上所述,生物集的特征通常是遗传或表型信息的单位。这些基于它们对刺激的响应水平(例如,表达上调或下调的程度),或基于它们在不同表型之间的变化大小和定向,以及它们区分不同表型状态的能力(例如,晚期肿瘤阶段与早期肿瘤阶段)来排序。
包括基因和与基因相关的数据的特征集是基因集。在此意义上,基因基也是一种生物集。
化学集通常包含关于一组化学化合物的数据以及它们如何与样品(如生物样品)相互作用。化学集的特征通常是单独的化合物或特定化合物的浓度。关于这些特征的相关信息可以是EC50值、IC50值等。
除了一个或多个特征的标识之外,特征集通常还包括关于每个特征的统计信息以及可能的公共名称或关于每个特征的其他信息。特征集可以包括用于每个特征的其他信息,诸如关键特征的相关描述、基于用户的注释等。统计信息可以包括特征的数据的p值(来自数据共识阶段)、“倍数变化”数据等。倍数变化表示在测试或对照实验中表达增加或减少的次数(倍数)(例如,响应于处理,特定基因的表达增加“4倍”)。特征集还可以包含表示“正常状态”的特征,而不是变化的指示。例如,特征集可以包含一组在大多数人组织中具有“正常和均匀”表达水平的基因。在这种情况下,特征集不一定表示改变,而是表示缺少改变。
在某些实施方式中,至少临时地将排序归于每个特征。这可以简单地衡量特征集中特征群内的相对响应。作为实例,排序可以是对照和测试实验的特征之间的表达(上调或下调)的相对差异的量度。在某些实施方式中,排序独立于特征响应的绝对值。因此,例如,一个特征集可以具有在响应中具有1.5倍增加的排序第二的特征,而不同的特征集具有在对不同刺激的响应中具有5倍增加的排序第十的相同的特征。
定向特征集-定向特征集是包含有关特征相对于对照的方向的变化信息的特征集。例如,双向特征集包含有关哪些特征被上调以及哪些特征相对于对照被下调的信息。双向特征集的一个实例是基因表达谱,其包含关于相对于正常状态的特定疾病状态或相对于未治疗的治疗样品中的上调和下调基因的信息。如本文所用,术语“上调”和“下调”和类似术语不限于基因或蛋白质表达,而是包括特征的任何差异影响或响应。实例包括但不限于化学化合物或其他刺激的生物学影响,其表现为特征的变化,例如基因表达水平或表型特征。
非定向特征集包含没有指示该特征的定向变化的特征。这包括基因表达,以及测量某种类型的生物反应的不同生物测量。例如,非定向特征集可以包含响应于刺激而改变的基因,而不指示该变化的方向(向上或向下)。非定向特征集可以仅包含上调特征,仅下调特征,或上调和下调特征,但不指示更改方向,因此所有特征都仅基于变化的大小。
特征群-这是指彼此相关的一组特征(例如,基因)。作为实例,特征群的成员可以全部属于特定细胞中的相同蛋白质途径,或者它们可以共享共同功能或共同结构特征。特征群还可以基于化合物的作用机制或其结构/结合特征对化合物进行分组。
索引集-索引集是知识库中包含特征标识符和映射标识符的集合,用于映射导入到知识库中已有的特征集和特征群的特征集的所有特征。例如,索引集可以包含指向数十万个映射标识符的数百万个特征标识符。每个映射标识符(在某些情况下,也称为地址)表示独特的特征,例如小鼠基因组中的独特基因。在某些实施方式中,索引集可以包含不同类型的特征标识符(例如,基因、遗传区域等),每个特征标识符具有指向独特标识符或地址的指针。可以在获取新知识时添加或改变索引集。
共识-共识是将原始数据转换为一个或多个特征集(或特征群)的过程。在某些情况下,它会大大减少实验中原始数据中包含的数据量。它删除了没有重要性的特征的数据。在某些实施方式中,这意味着在对照和测试实验之间不显着增加或减少表达的特征不包括在特征集中。共识过程识别这些特征并将其从原始数据中删除。共识过程还识别用于定义特征集的原始数据中的相关临床问题。共识还以适当的标准化格式提供特征集,以便在知识库中使用。
数据导入-数据导入是将特征集和特征群引入系统中的知识库或其他存储库的过程,是构建知识库的重要操作。用户界面可以通过允许用户指定实验,其与特定研究和/或项目的关联以及实验平台(例如,Affymetrix基因芯片)来促进数据输入,并且识别用于标记数据的关键概念。在某些实施方式中,数据导入还包括标记数据的自动操作,以及将导入的数据映射到系统中已有的数据。随后的“预处理”(在导入之后)将导入的数据(例如,导入的特征集和/或特征群)与其他特征集和特征群相关联。
预处理-预处理涉及操纵特征集以识别和存储知识库中的特征集对之间的统计关系。预处理还可以涉及识别和存储知识库中的特征集和特征群之间的统计关系。在某些实施方式中,预处理涉及将新导入的特征集与其他特征集和知识库中的特征群相关联。通常,为所有不同特征集对以及特征集和特征群的所有组合预先计算和存储统计关系,但是本发明不限于这种完全相关的水平。
在一个实施方式中,通过使用基于排序的富集统计来进行统计相关性。例如,在某些实施方式中使用采用精确测试的基于排序的迭代算法,还可以采用其他类型的关系,例如特征集之间的重叠量。也可以使用本领域已知的其他相关方法。
作为实例,输入到知识库中的新特征集与已经在知识库中的每个其他(或至少许多)特征集相关联。相关性通过比较关于匹配基因的排序或其他信息,逐个特征地比较新特征集和所考虑的特征集。在一个实施方式中使用基于秩的迭代算法来关联特征集。关联两个特征集的结果是“得分”。得分存储在知识库中并用于响应查询。
研究/项目/库-这是可以在某些实施方式中采用的数据容器(如目录)的层次结构。研究可以包括在实验集(例如,与特定心血管靶标相关的实验)中的集中获得的一个或多个特征集。项目包括一项或多项研究(例如,公司内的整个心血管工作)。该库是知识库中所有项目的集合。最终用户可以灵活地定义层次结构的各个水平之间的边界。
映射-映射采用特征集中的特征(例如,基因)并将其映射到知识库中的全局唯一映射标识符。例如,用于创建两个不同特征集的两组实验数据可以对同一基因使用不同的名称。在本文中知识库通常包括索引集中的全局唯一映射标识符的包含列表。映射使用知识库的全局唯一映射标识符来建立不同功能名称或ID之间的连接。在某些实施方式中,可以将特征映射到多个全局唯一映射标识符。在一个实例中,基因也可以映射到特定遗传区域的全局唯一映射标识符。映射允许不同类型的信息(即,来自不同平台、数据类型和生物体的不同特征)彼此相关联。有许多方法可以绘制地图,其中某些方法将在下面详述。一个涉及搜索基因的全球唯一名称的同义词。另一个涉及基因序列的空间重叠。例如,特征集中的特征的基因组或染色体坐标可以与知识库的索引集中的映射特征的坐标重叠。另一种类型的映射涉及将特征集中的基因间接映射到索引集中的基因。例如,实验中的基因可以在坐标中与知识库中的调节序列重叠。该调节序列反过来调节特定基因。因此,通过间接映射,实验序列间接映射到知识库中的所述基因。另一种形式的间接映射涉及确定指数组中基因与特征集中考虑的实验基因的接近程度。例如,实验特征坐标可以在知识库基因的100个碱基对内,从而映射到该基因。
知识库
图1显示根据本发明的各种实施方式的科学信息的知识库中的各种要素的表示。在上面引用的美国专利申请No.11/641,539(作为美国专利公开20070162411公开)中讨论了这些要素中的某些要素(例如,特征集和特征集评分表)的生成或添加的实例。知识库还可以包括其他要素,如索引集,其用于在数据导入过程期间映射特征。在图1中,要素104指示知识库中的所有特征集。如美国专利公开20070162411中所述,在数据输入之后,特征集通常至少包含特征集名称和特征表。特征表包含特征的列表,每个特征通常由导入的ID和/或特征标识符标识。每个特征在特征集中都有标准化的排序,以及映射标识符。可以在导入过程期间确定映射标识符和排序,例如,如美国专利公开20070162411中所述,然后可以用于生成特征集之间以及特征集和特征群之间的相关性得分。特征表通常还包含与每个特征相关联的统计数据,例如,p值和/或倍数变化。可以使用这些统计中的一个或多个来计算每个特征的排序。在某些实施方式中,可以对排序进行标准化。特征集还可以包含关联的研究名称和/或标签列表。可以从公共或内部源获取的数据生成特征集。
要素106指示知识库中的所有特征群。特征群包含特征群名称以及彼此相关的特征(例如,基因)列表。特征群通常表示通常来自公共资源的明确定义的特征集-例如,规范信号通路、蛋白质家族等。与特征集不同,特征群通常不具有关联的统计或排序。特征集还可以包含关联的研究名称和/或标签列表。
要素108指示评分表,其包含每个特征集与每个其他特征集之间以及每个特征集与每个特征群之间的相关性度量。在该图中,FS1-FS2是特征集1和特征集2之间的相关性的度量,FS1-FG1是特征集1和特征群1之间的相关性的度量等。在某些实施方式中,度量是p值或者从p值导出的排序得分。
要素110是包含不同组织、疾病状态、化合物类型、表型、细胞和其他标准生物学、化学或医学概念以及它们的关系的标签或科学术语的分类学或本体。标签通常被组织成分层结构,如图中示意性所示。这种结构的一个实例是每类中的疾病/疾病类别/特定疾病。知识库还可以包含与每个标签相关联的所有特征集和特征群的列表。分层结构中的标签和类别以及子类别被安排在可以称为概念的内容中。本体的代表性示意图在图2中示出。在图2中,该结构的每个节点代表医学、化学或生物学概念。节点202表示顶级类别,其中子级或子类别由其他节点由树向下,直至通过节点208指示为底部水平。以这种方式,科学概念被分类。例如,2期乳腺癌的分类可以是:疾病/增殖性疾病/癌症/乳腺癌/2期乳腺癌,疾病是顶级类别。疾病、增殖性疾病、癌症、乳腺癌和2期乳腺癌-这些中的每一种都是一种医学概念,可用于标记数据库中的其他信息。分类法可以是公开可用的分类法,例如医学主题词(MeSH)分类法,国际系统医学术语全集、FMA(解剖学基础模型)、PubChem特征、私人建立的分类法、或这些的某些组合。顶级类别的实例包括疾病、组织/器官、治疗、基因改变和特征群。
要素112是概念评分表,其包含指示每个概念的相关性或每个概念与数据库中的其他信息的相关性的得分,如特征、特征集和特征群。在图1所示的实施方式中,在114处示出了指示分类中的每个概念与每个特征的相关性的得分,在116处示出了指示分类中的每个概念与每个特征集的相关性的得分,并且在118处示出了表示指示分类中的的每个概念与每个特征群的相关性得分。(与图1中表示的其他要素一样,概念评分的组织结构是实例;其他结构也可用于存储或呈现评分。)在图中,F1-C1是概念1与特征1的相关性的度量,FS1-C1是与概念1与特征集1的相关性的度量;并且FG1-C1是与概念1与特征群1的相关性的度量,等。在某些实施方式中,概念评分表包括关于至少某些概念与所有或多个其他概念中的每一个的关联或相关性的信息。
如下面进一步讨论的,存储得分以用于对知识库的用户查询。概念评分允许科学家查询知识库,以过滤出最感兴趣的查询的相关条件。用户可以快速识别与感兴趣的查询相关联的主要疾病状态、组织、治疗和其他实体。此外,如下所述,概念评分允许用户查询概念以找到与该概念相关联的最相关的特征、特征集和特征群。
通常,概念评分涉及i)识别具有所考虑的概念的所有特征集,以及ii)使用所识别的特征集内的特征的标准化排序或所识别的特征集内的其他特征集或特征群的预先计算的相关性得分,用于确定指示所考虑的概念与知识库中的每个特征、特征集和特征群的相关性的得分。然后,概念得分可用于快速识别特定特征、特征集或特征群的最相关概念。在某些实施方式中,在确定得分之前移除较不相关的特征集。例如,在细胞系中进行的实验可能与细胞系的原始疾病组织来源几乎没有关系。因此,在某些实施方式中,当计算疾病概念的得分时,可排除与在该细胞系上进行的实验相关的特征集。
概念评分
图3-5是描绘根据某些实施方式的确定特征(图3)、特征集(图4)和特征群(图5)的最相关概念的方法的操作的过程流程图。例如,如图1所示,这些方法可用于填充概念评分表,或存储概念得分的某些其他形式。如下所述,存储得分可以用于响应关于特征、特征集或特征群的用户查询。虽然图3-5讨论了在用户查询之前执行的概念评分,以便所有知识库包含有关知识库中每个特征、特征集和特征群的最相关概念的信息,但显然评分可能是还响应于识别一个或多个特征、特征集或特征群的用户查询而动态地发生。如图1所示,一旦确定,就可以存储该信息,用于响应涉及该特征等的未来查询或丢弃。
图3描绘了根据具体实施方式确定概念与诸如基因、化合物等个体特征的相关性的方法。如图所示,该过程开始于操作301,其中系统识别分类中的“下一个”概念。通常,该过程将考虑分类中的每个概念。该过程接下来会识别知识库中的“下一个”特征。参见框303。该过程通常考虑知识库的每个特征。该过程通常确定每个可能的概念和特征对的分数,并因此迭代所有可能的组合,如图3中的两个循环所示。在为当前迭代设置概念和特征之后,该过程接下来识别标记有1)当前概念或2)其“子概念”的所有特征集。因此,例如,参考图2,如果考虑在节点206处表示的概念,则识别以该概念和/或在其子节点208a、208b和208c处表示的一个或多个概念标记的所有特征集。在一个具体的实例中,仅以“2期乳腺癌”概念标记的特征集将被识别为“2期乳腺癌”概念以及其亲本概念“乳腺癌”。
如下面进一步讨论的,对所识别的特征集进行过滤以移除(或在某些实施方式中,重新加权)与概念不太相关或将使结果偏斜的特征集。在对所识别的特征集进行过滤之后,针对每个过滤的特征集获得当前特征的标准化排序,即,在去除不太相关的特征集之后剩余的特征集。参见框309。如美国专利公开20070162411中所述,特征集中的特征通常基于与特征集相关联的实验中的特征的相对影响或通过与特征集相关联的实验中的特征来排序。例如参见,图1的示意图,其中特征集104包含其特征的排序。在某些实施方式中,获得标准化排序涉及识别、查找或接收每个过滤的特征集中的特征的排序。因此,例如,对于给定特征Fn和给定概念Cm,可以存在用Cm和/或其子概念中的至少一个来标记的25个特征集。这25个特征集中有10个可能包含Fn。获得每个特征集中的Fn的标准化排序:例如,1/20,null,4/8等,指示第一过滤特征集中的20个特征中的1个的标准化排序,其不存在于第二过滤特征集,第三过滤特征集中的标准化等级4/8特征等(这些仅是标准化排序的实例:排序可以使用若干标准进行标准化,包括特征集大小、该特征集的测量平台上的特征数量以及任何其他相关标准。使用标准化排序可以将一个特征集中的特征的重要性与该特征在另一个特征集中的重要性进行比较,而不管相对大小的大小和特征集的其他差异)。获得这些得分后,获得指示概念与特征的相关性的总分Fn-Cm。参见框311。在某些实施方式中,用于计算最终特征概念得分的标准包括以下属性:标记有通过“包含”标准的概念的每个特征集中的该特征的标准化排序,通过“包含”标准的包含此特征的特征集的总数和标记有该概念的特征集的总数。
然后将总得分Fn-Cm存储在例如图1所示的概念评分表中。如判定框313所示,控制对所有特征的迭代,并如判定框315所示控制对所有概念的迭代。可以看出,在图3所示的方法中,迭代可以是内循环或外循环。图3所示的方法迭代了分类中的所有可能的概念组合和知识库中的特征;然而,在其他实施方式中,可能仅存在计算概念分数的特征和/或分类概念的子集。
图4描绘了根据特定实施方式的确定概念与特征集的相关性的方法。类似地,对于特征概念评分,该过程开始于操作401,其中系统识别分类中的“下一个”概念。在操作403处还识别“下一个”特征集。该过程通常对所有可能的特征集-概念对进行评分。特征用当前概念(和/或其子代)标记的集合被识别和过滤,如上对图3所讨论的。参见框405和407。获得指示当前特征集(即,在操作403中识别的特征集)与每个标记和过滤的特征集之间的相关性的分数。参见框409。在许多实施方式中,这些得分是如美国专利公开20070162411中所述计算的相关性得分。在许多实施方式中,它们是从诸如图1中所示的表106的相关矩阵或表得分中获得的。基于在操作409中获得的相关性分数来计算指示当前概念与当前特征集的相关性的总分FSn-Cm。在某些实施方式中,用于计算最终特征集-概念得分的标准包括以下属性:研究中的特征集与使用通过“包含”标准的给定概念标记的每个特征集之间的相关性得分,提供与用“包含”标准的感兴趣的特征集非零相关的特征集的总数和用概念标记的特征集的总数。然后可以存储总分以用于响应用户查询。特征集和概念迭代由决策框413和415控制。
图5描绘了根据本发明的某些实施方式的确定概念与特征群的相关性的方法。所述方法反映了图4中描绘的特征集的概念评分,迭代特征群而不是特征集。参见框501-515。指示当前特征群与经过滤的特征集之间的相关性的分数可以从相关矩阵或评分表中获得,如图1所示。
对于每个概念,进行特征、特征集和特征群的概念评分都涉及识别用概念标记的特征集并过滤这些特征集以移除与概念不太相关或可能倾斜结果的某些特征集。可以针对每个概念执行这些操作,然后如框309和311、409和411以及509和511所示执行期望的特征、特征集和/或特征群评分。
如上所述,在某些实施方式中,所述方法涉及过滤用特定概念标记的特征集以排除某些特征集。例如,对于与诸如肝脏等器官有关的概念,可能希望排除用肝炎标记的特征集,并且仅包括与健康或正常肝组织相关的特征集。根据各种实施方式,可以基于以下中的一个或多个来过滤特征集:
排除在特定分类中具有标签的特征集(例如,排除用疾病标记的所有特征集对器官或组织的概念分数的贡献)。
排除在给定分类的特定分支中具有标签或特定标签组合的特征集。
从分类逻辑中排除某些类别,例如,因为它们太笼统。例如,诸如“疾病”的概念不是特别有用。可以生成不应该出现在结果中的这些概念的“黑名单”并用于过滤掉类别。
如上所述,在某些实施方式中,顶级类别包括以下全部或某些:疾病、治疗和组织/器官。单个特征集可以包含来自任何或所有这些类别的标签。作为实例,可以根据以下逻辑来过滤具有以下标签组合的特征集:
Figure BDA0002049868410000221
以上逻辑排除了具有归类于组织/器官的概念得分的分类为“疾病”或“治疗”的标签的特征集。如上所述,这使得与这些器官的疾病和/或治疗相关的特征集对概念评分没有贡献。
决策逻辑可以基于所考虑的实验数据/模型的类型。如上所述,在细胞系中进行的实验可能与细胞系的原始疾病组织来源几乎没有关系。因此,如果允许对该疾病的概念得分做出贡献,则用原始疾病概念标记的细胞系特征集可以使统计数据与疾病无关的影响倾斜。例如,如果有数百个生物集(特征集)与用各种类型的化合物处理的MCF7乳腺癌细胞相关联,而没有过滤掉这些,则在计算“乳腺癌”概念的得分时存在显着的“偏差”。在这种情况下,过滤特征集可能需要在对特定疾病概念进行评分时排除分类法的某些分支。
数据类型
这里描述的方法、计算系统和用户界面可以与各种各样的原始数据源和平台一起使用。例如,包括RNA和miRNA表达、SNP基因分型、蛋白质表达、蛋白质-DNA相互作用和甲基化数据以及染色体区域平台的扩增/缺失的微阵列平台可用于本文所述的方法中。微阵列通常包括数百或数千种不同的捕获剂,其包括DNA寡核苷酸、miRNA、蛋白质、化学化合物等,通过附着到基底上,在纳米孔中定位等来测定分析物溶液。平台包括DNA寡核苷酸阵列、miRNA(MMChips)、抗体、肽、适体、细胞相互作用材料,其包括脂质、抗体和蛋白质、化学化合物、组织等。原始数据来源的其他实例包括定量聚合酶链反应(QPCR)基因表达平台、识别新型遗传变异、拷贝数变异(CNV)检测平台、检测染色体畸变(扩增/缺失)和全基因组测序。QPCR平台通常包括热循环仪,其中核苷酸模板、聚合酶和其他试剂循环以扩增DNA或RNA,然后对其进行定量。拷贝数变异可以通过包括荧光原位杂交、比较基因组杂交、阵列比较基因组杂交和大规模SNP基因分型的技术发现。例如,荧光探针和荧光显微镜可用于检测染色体上特定DNA序列的存在或不存在。
在某些实施方式中,根据本文所述的方法和系统使用高内涵和高通量化合物筛选数据,其包括筛选化合物对细胞的作用、筛选化合物对动物组织的作用和筛选化合物、DNA和蛋白质之间的相互作用。高通量筛选使用机器人、液体处理设备和自动化过程进行数百万的生化、遗传或药理学测试。在某些HTS筛选中,微量滴定板上的孔中的化合物填充有分析物,如蛋白质、细胞或胚胎。温育期后,在板孔中进行测量以确定化合物对分析物的不同影响。然后,可以将得到的测量值形成为用于在知识库中导入和使用的特征集。高内涵筛选可以使用自动数字显微镜结合流式细胞仪和计算机系统来获取图像信息并对其进行分析。
本文描述的方法、计算系统和用户界面可用于各种研究、药物开发、临床前和临床研究应用。例如,通过查询诸如疾病的概念,可以显示高度相关的基因和生物途径。这些基因或途径可以依次针对化合物进行查询以找到可能的药物治疗候选物。没有本文所述的方法和系统,这些研究路径是不可用的。还启用了更复杂的进度和连接。此类应用的非限制性实例包括识别与疾病相关的基因,与疾病相关的途径和与疾病相关的环境影响,理解发育机制和疾病进展,研究物种多样性和跨物种比较,识别新的药物靶标,识别疾病和治疗反应生物标志物,识别现有化合物的替代适应症,预测药物毒性,确定药物的作用机制,以及识别染色体区域的扩增或缺失。
通过本文所述的方法和系统实现的临床前和临床研究的其他实例包括吸收、分布、代谢和排泄(ADME)-预测患者的药物反应和药物代谢,患者分层为疾病类别,例如,更确切地说,确定患者分层是患者的疾病阶段,识别早期疾病标志物以实现早期疾病检测和预防医学,并使用患者的基因谱来估计疾病、药物反应或其他表型的可能性。例如,在某些实施方式中,临床医生使用微阵列来获得遗传谱信息。遗传谱信息可以作为特征集导入知识库。所述方法和系统还包括将该特征集即时关联到知识库中的所有其他知识,并查询如上所述的相关概念。然后,如上所述,可以导航和扩展查询结果。
多组件框架
图6示意性地示出了使用实验基因数据(602)、计算机基因数据(604)和知识库的基因数据(606)以获得基因的总分的实现方案。总分可用于对基因进行排序以识别与感兴趣的概念(如表型)相关或关联的基因。
在一些实现方案中,实验基因数据602包括来自数据库的基因集,其中多个基因集的每个基因集包括多个基因和与多个基因相关的多个实验值。多个实验值受感兴趣的生物学、化学或医学概念影响或与感兴趣的生物学、化学或医学概念相关。在一些实现方案中,计算机基因数据604获自实验基因数据602。在一些实现方案中,知识库的基因数据获自另外的数据库或与具有实验基因数据的数据库分离的外部数据库。在一些实现方案中,知识库的基因数据可以存储在与实验基因数据相同的数据库中。在一些实现方案中,知识库的基因数据包括基因集数据。在一些实现方案中,知识库的基因数据606包括基因网络数据。在一些实现方案中,知识库的基因数据包括基因群数据。基因群包括通过各种机制彼此相关的多个基因,例如生物途径、细胞周期、细胞功能、细胞类型、生物活性、共同调节、转录因子等。
图10显示包括图6中所示的三种类型数据的说明性数据的表格。表中显示了13种假设基因的数据。该表的每一行显示基因的数据。左上单元格P1表示数据与表型P1相关。标题S1-S3的三列显示三个基因群S1、S2和S3的数据,它们是实验数据。具有标题S1*、S2*和S3*的三个列存在于计算机基因数据中,该数据源自实验基因数据,其分别来自基因群S1、S2和S3。标题PPI的列表示从蛋白质-蛋白质相互作用(PPI)网络获得的相互作用组数据,PPI数据是知识库数据的形式。
另一种知识库数据显示在标题为GO的列中,显示基因本体(GO)数据作为基因群数据的形式。具有高于标准值的基因群S1、S2和S3的实验数据在1002的框中描绘。值得注意的是,基于实验数据的基因群S1*、S2*和S3*的计算机数据获得了超出具有基因1-9的框1002中的实验数据的基因的某些基因。即,获得基因10-13的数据并在框1004中描绘。将知识库数据与实验数据组合以提供表中的数据。
类似地,对于知识库数据,获得了基因10、12和13的数据,即使这些基因的实验数据缺失或低于标准。结果是,结合实验、计算机和知识库数据,可以获得基因的总分。因为总分考虑了超出实验数据的信息,所以它们能够更好地捕获与感兴趣的表型相关的基因的信息。
最右边的列表示13个基因的总分的排序。由于其计算机得分和基于知识的得分,基因10的排序为9,尽管表中没有实验分数。某些实现方案包括对应于实验数据、计算机数据和知识库数据的三个组件。该模型还包括对应于三个组件的各种参数,以及修改模型的其他参数,以便为感兴趣的概念提供更一致和更有效的基因排序预测。在某些实现方案中,使用无监督机器学习来选择反映三组件框架的模型的参数。下面进一步描述用于训练反映框架的模型的三组件框架和机器学习技术。
图7显示根据某些实现方案的用于识别可能与感兴趣的生物学、化学或医学概念相关的基因的过程。过程700涉及从数据库中选择多个基因集,其中多个基因集的每个基因集包括多个基因和与基因相关的多个实验值。多个实验值与感兴趣的生物学或化学概念相关联。在一些实现方案中,多个基因集由生物学、化学或医学概念标记。在一些实现方案中,多个基因集受生物学、化学或医学概念的影响。在一些实现方案中,基因集通常与单个研究的单个样品相关。然而,在一些实现方案中,实验基因值也可能来自不同的样品或研究。在一些实现方案中,该研究可以比较正常条件和疾病条件之间的基因表达水平。在一些实现方案中,例如,基因集可包括疾病基因的数据或来自经治疗的疾病样品和未经治疗的疾病样品的基因的数据。
过程700还涉及使用第一组一个或多个基因的实验值确定来自多个基因的第一组一个或多个基因的一个或多个实验基因得分。图10显示了根据某些实现方案获得基因排序的示意性数据。使用图10中的实例,选择三个基因群S1、S2、S3,并使用框1002中的基因1-9的实验值对三个基因进行基因评分。在某些实现方案中,实验值满足标准,例如下限阈值10(满分100分)。在某些实现方案中,将实验基因得分标准化,使得最高得分具有100的上限。
回到图7,过程700还涉及至少基于第一组一个或多个基因与第二组一个或多个基因的相关性确定多个基因中的第二组一个或多个基因的一个或多个计算机基因得分。参见框706。在某些实现方案中,一个或多个计算机基因得分可以通过图11中所示的过程获得。
过程700还涉及至少部分地基于704中获得的第一组一个或多个基因的一个或多个实验基因得分和在706中获得的第二组一个或多个基因的一个或多个计算机基因得分获得第一组和第二组一个或多个基因的总分。参见框708。在某些实现方案中,可以通过跨多个基因集的基因得分的线性聚合来获得总分。在某些实施方案中,实验基因得分和计算机模拟基因得分是差异加权的。在某些实现方案中,使用接收实验得分和计算机得分作为输入并且提供基因总分作为输出的模型获得总分。在某些实现方案中,可以使用图8中显示的过程800来获得总分。
过程700还涉及使用总分识别可能与感兴趣的生物学、化学或医学概念相关的基因。参见框710。在某些实现方案中,可以对总分进行标准化。在某些实现方案中,总分可以用于对基因进行排序,并且高度排序的基因可以为基因群提供候选者。在某些实现方案中,所识别的表型基因可用于通知获得相关表型的基因的过程,例如当两种表型具有属-种关系时。在某些实现方案中,可比较选择用于两种相关表型的基因以提供更高阶信息,例如识别两种表型的共同潜在机制。
图8显示使用由无监督学习训练的模型来获得总分的过程(800)。过程800涉及提供接收实验得分和计算机得分作为输入的模型。该模型还提供了被测基因的输出总分。参见框802。过程800还涉及将数据库的数据划分为训练集和验证集。参见框804。然后,过程800涉及获得训练集的总分和验证集的总分。参见框806。过程800还涉及使用无监督学习技术通过优化目标函数来训练模型。在某些实现方案中,优化目标函数包括最小化训练集的总分与验证集的总分之间的差异。在某些实现方案中,过程800还涉及将训练的模型应用于一个或多个计算机基因得分中的一个或多个实验基因得分,以获得第一组一个或多个基因和第二组一个或多个基因的总分。
在一些实现方案中,总分被标准化。在一些实现方案中,借助于奇异值的线性组合来聚合每个总分。在一些实现方案中,线性组合涉及平方和。在一些实现方案中,第一组一个或多个基因与第二组一个或多个基因不同。
在一些实现方案中,模型具有以下形式:
F(θ)=k1*c1+k2*c2+…+kn*cn
其中,θ是模型的参数,ci是模型的组件,ki是组件的权重因子。
在一些实现方案中,所述方法还包括基于实验数据类型的样品权重将模型的一个或多个组件划分为子组件。例如,实验数据可包括RNA表达数据、DNA甲基化数据和SNP数据作为组件C1。该模型可以将K1的重量分成三种实验类型,例如提供RNA表达数据为0.7,DNA甲基化数据为0.2,并且SNP数据为0.1。
在一些实现方案中,优化目标函数包括最小化训练集的总分与验证集的总分之间的差异。在一些实现方案中,在优化目标函数时,在定义大小的桶中对总分进行排序和分箱。惩罚分被分配给桶,惩罚分有利于更高排序的总分。图9显示用于说明优化目标函数的数据。左起第一列显示了基于测试数据集的总分从测试数据集中获得的20个基因的排序。左起第二列显示了排序基因的总分。左起第三列显示验证集的总分的数据。在某些实现方案中,目标函数最小化测试集和验证集之间的分数差异。例如,当优化目标函数时,可以最小化均方根差。
在一些实现方案中,将总分分箱到特定大小的桶中。如图9所示,桶#1包括排序为1-5的基因,其中分配了惩罚权重1。惩罚权重乘以基因总分。因此,排序1-5的基因不会受到惩罚。排在6-10之间的基因分到桶#2中并且被分配为0.95的罚分。排序为11-15的基因被分到桶#3并且被分配为0.9的罚分。最后,将排序为16-20的基因置于桶#4中分配为0.85的罚分。因此,在框808的优化过程中,排序较高的基因受到较少的惩罚或加权较多。在一些实现方案中,目标函数仅基于排序最高的总分,其中较低排序的基因具有零得分。
在一些实现方案中,桶的排序差异而不是单个基因排序可以用作用于更粗略比较的目标函数,这可以在一些实现方案中消除噪声。
在一些实现方案中,可将不同桶大小应用于模型以评估模型的预测能力。如果模型在较小桶尺寸下表现良好,则表明该模型具有良好的预测能力。
在一些实现方案中,所述方法包括通过优化目标函数来训练模型。在一些实现方案中,训练模型包括将引导技术应用于引导样品。在某些实现方案中,目标函数涉及引导之后的至少一个总分分布。在一些实现方案中,优化目标函数包括最大化从概念特定基因集获得的总分分布与从随机基因集获得的总分分布之间的距离。
基于生物标签的基因集优先排序
在一些实现方案中,不同研究包括基因集的不同量和性质。一些实现方案提供了从研究中选择合适基因集的机制。例如,第一项研究有扰动数据的30个基因集。第二项研究有扰动患者数据的三个基因集。第三项研究对疾病有三种不同的药物处理。第四项研究包括来自20种不同浓度的相同化合物的数据。本公开的一些实现方案提供了从研究中选择基因集的机制,因此不同的研究对基因的总分具有相似的影响。一些实现方案使用优先生物标签研究来解决问题。在一些实现方案中,基因集数据用不同的生物标签标记以指示基因集中数据的性质和特性。然后将不同的权重分配给生物标签。在所有基因集中可以提供每个i的复合生物技术评分。
如果与两个以上标签相关的基因,可以从生物标签获得复合生物标签得分。生物标签类别包括但不限于组织类型、生物设计、按组、生物来源、化合物、基因模式等。下面提供不同类别中的标签的实例。
生物来源:需要描述样品是如何衍生的。它包括从诸如ATCC、HPA、Tumorscape、DSMZ、hESCreg、ISCR、JCRB、澳大利亚CellBank、COSMIC、NIH人类胚胎干细胞登记、RIKENBRC等来源汇总的细胞系。
生物设计:需要描述比较的性质。标记最能描述生物集中驱动差异的生物设计。
组织:需要定义特定器官/组织/细胞类型。组织本体来自MeSH。
疾病:仅在样品对应于疾病状态时指定。疾病本体来源于SNOMED CT。
化合物:样品受化合物影响。化合物本体来自MeSH。
基因:样品中的基因被修饰或用作实验组(例如ER-与ER+乳腺癌)之间的关键区分标志物。来源包括NCBI的Entrez Gene、Unigene和GenBank、EMBL-EBI Ensembl等。
基因模式:描述基因修饰。如果没有连接到特定基因,就不能分配基因模式。
生物组:当上面没有其他词汇提供相关术语时用作标签。生物组源自诸如MSigDB、GO、EMBL-EBI InterPro、PMAP、TargetScan等来源。
Figure BDA0002049868410000291
/>
Figure BDA0002049868410000301
/>
Figure BDA0002049868410000311
在一些实现方案中,基于与基因集相关的一种或多种生物标签选择基因集。在一些实现方案中,在分析中选择具有最高生物标签得分的基因集,而将未选择的基因排除在下游分析之外。在一些实现方案中,如果研究中的基因数低于第一标准,则排除研究。在一些实现方案中,选择在生物标签得分方面排名最高的基因,所选基因集的数目不超过第二标准。
在一些实现方案中,使用生物标签过滤掉基因集。例如,基因集的生物标签可以表明基因集被标记为与感兴趣的表型无关的特定基因的敲减。基因集中基因的实验值可能受敲减基因调节而不是感兴趣的基因型。因此,鉴于该信息,在一些实现方案中将基因集从分析中移除以避免来自敲减基因的复合效应。
计算机基因得分
本公开的实现方案提供了用于从实验基因得分获得计算机基因得分的方法和系统。在各种实现方案中,所识别的计算机数据与实验数据相关,但不完全平行。
图11显示用于从实验基因集数据获得计算机得分的过程1100。返回参考图10中的说明性数据,获得实验基因集S1的计算机基因集数据S1*。类似地,可以分别获得其他经验实验基因集的计算机基因集数据。在图11中,过程1100涉及针对特定基因集(例如,图10中的S1)识别来自数据库的第二组多个基因集,第二组多个基因集的每个基因集包含第二组多个基因和与第二组多个基因相关的第二组多个实验值。第二组多个实验值与第一组一个或多个基因中的(例如,图10中S1的基因1、基因3和基因6)中的第一基因(例如,图10中的基因1)相关联。
在一些实现方案中,过程1100涉及在第二组多个基因集上汇集实验值以获得第一基因的汇集值的矢量。然后,过程1100检查是否需要考虑更多基因用于当前基因集。如果是,则返回步骤1102以从数据库中识别另外的多个基因集以获得本基因的汇集值的矢量。如果对于计算机得分不需要考虑更多基因,则在某些实现方案中对基因的汇集矢量进行加权。参见框1110。然后,过程1100聚合实验值的加权矢量以获得包含第二组一个或多个基因的一个或多个计算机基因得分的压缩矢量。
图12显示与表型P1相关的基因集S1的说明性数据。参见框201。图12还显示如何从1202的基因集S1的实验数据获得计算机数据。在某些实现方案中,选择具有最高实验得分92的第一基因,基因1,以在框1204中生成n个数据矩阵。矩阵1204包括被识别为与基因1相关的基因集。换句话说,基因集S04-S07中基因的一个或多个实验值与基因1相关。类似地,被识别为基因3的基因集,在框1206中提供矩阵数据。同样,基因集S08-S10与基因3相关。类似地,选择或识别基因集S11-S15。参见框1208。对于每个矩阵1204、1206和1208,基因的实验值在矩阵中跨基因集汇集,以获得基因得分的汇集矢量,其指示特定基因与所识别的基因集中的其他基因之间的相关性。
在一些实现方案中,通过线性汇集来汇集实验基因得分。在一些实现方案中,汇集的基因包括实验得分的均方根。然后将三个基因的汇集矢量进一步汇集在矩阵1210中以提供压缩矢量S1*。得到的S1*矢量反映了其他基因集中其他基因与基因集S1中的三个基因的相关性。在某些实现方案中,汇集矢量、基因1RMS、基因3RMS和基因6RMS中的每个,与基因集S1中相应基因的实验值成比例加权。换句话说,矩阵1210中的基因1、基因3和基因6的权重与92、63和32成比例地加权。
在一些实现方案中,特定基因的每个汇集矢量与为特定基因识别的第二组多个基因集的基因集的数量成比例加权。换句话说,因为矩阵1204具有4个基因集,矩阵1206具有3个基因集,并且矩阵1208具有5个基因集,矩阵1210中的3个基因与4、3和5成比例地加权。在一些实现方案中,可以将矩阵1210中的S1的基因得分标准化到0-1之间的范围,其可以用作矩阵1210中的向量的加权因子。
利用计算机上基因得分和使用上述方法获得的实验基因得分,可以将数据提供给上述模型以确定第一组和第二组一个或多个基因的总分。如果许多基因之间的相关性很强,则与计算机基因得分相关的模型项将很大。相反,如果基因之间的相关性很小,则计算机基因得分项将很小。在后一种情况下,在一些实现方案中,需要处理实验基因集中较少的基因以获得计算机基因得分。
基因-群数据
在一些实现方案中,基因群理论数据可与实验基因数据协同组合以确定用于对与感兴趣的概念相关联的基因进行排序的总分。在一些实现方案中,除了实验基因得分和计算机基因得分之外,还计算基因-群得分。
在一些实现方案中,所述方法包括确定第三组一个或多个基因的一个或多个基因群得分。在一些实现方案中,所述方法包括至少部分地基于第三组一个或多个基因中的至少某些基因的基因-群得分,以及(b)中确定的第一组一个或多个基因的一个或多个实验得分和(c)中确定的第二组一个或多个基因的一个或多个计算机得分来获得第一组和第二组一个或多个基因的总分。在一些实现方案中,与标签相关的多个基因包含基因集库中的基因。在一些实现方案中,基因集库中的基因包含基因本体中的基因。
图13显示根据某些实现方案可以通过其获得基因-群得分的过程。过程1300涉及识别包含要计算基因得分的特定基因的基因群。参见框1302。
图14中所示的数据用于帮助说明图13中的过程1300。并且它们不旨在将过程1300的范围限制为图14的实例。图14显示基因集S1-S3的基因和基因群的基因的说明图。它还说明了如何从数据中获得基因-群得分。集1406包括来自基因集S1至S3的基因。待计算基因-群得分的目标基因是G1(1402)。集1404表示基因群i。集1406和集1404的交集是1408(Ii)。
图13的过程1300的步骤1302识别了包含特定基因(Gk)的基因群(组i)。参见式1410。过程1300还涉及识别实验基因集(S1-S3)中的基因群的成员(Ii)。参见框1304和式1412。在某些实现方案中,基因群中的基因包含基因集库中的基因。在某些实现方案中,基因集库中的基因包含基因本体中的基因。在某些实现方案中,基因群的标签指示生物学功能、生物学途径、共同特征等。
过程300还涉及确定实验基因集(图14的G1-G3)中的基因群(图14的组i)的成员的百分比(例如,图14中的Pi)。参见式1414。过程1300还涉及汇集实验基因集中基因群的成员(图14的Ii)的实验值,从而获得基因群的总和实验值(Qi)。参见框1308和式1416。
图15示出实验基因集(G1至G3)中基因群的成员Ii的实验值,其显示为图15中的框1002包围的阴影单元格。这里,交叉点Ii中的成员包括基因G1、G3、G7、G8和G11。因此,将突出显示的基因集S1、S2和S3中的上述基因的相应实验值相加,以提供基因群的总和实验值(Si)。
过程1300还涉及将基因群(组i)的百分比(Pi)和总和实验值(Qi)相乘。参见图14的式1418和图13的框1310。过程1300还涉及确定是否存在包含本发明基因的更多基因群。参见框1312。如果是,则过程返回到框1302。如果不是,则过程1300继续到框1314以汇集所有基因群的产品,从而获得该基因的总分(Tk):
Figure BDA0002049868410000341
相互作用组数据
在一些实现方案中,将相互作用组数据整合到处理框架中以确定基因的总分。
在一些实现方案中,所述方法进一步包括分别确定第四组一个或多个基因的相互作用组得分。在一些实现方案中,使用(1)特定基因与基因网络中与特定基因连接的其他基因之间的连接和(2)第一组一个或多个基因的一个或多个实验值中的至少某些来确定特定基因的每个相互作用组得分。在一些实现方案中,所述方法包括至少部分地基于第四组一个或多个基因中的至少某些基因,及(b)中确定的第一组一个或多个基因的一个或多个实验基因得分和(c)中确定的第二组一个或多个基因的一个或多个计算机基因得分获得至少第一组一个或多个基因和第二组一个或多个基因的总分。在一些实现方案中,基因网络基于基因、蛋白质和磷脂之间的相互作用和/或关系。
本公开的一些实现方案提供了使用知识库数据和实验数据来计算相互作用组得分的方法。图16示出了根据一些实现方案.的用于计算相互作用组得分的过程。过程1600涉及提供包含第一组一个或多个基因和/或第二组一个或多个基因中的至少一些基因的基因网络。第一组一个或多个基因与实验基因数据有关,第二组一个或多个基因与计算机基因数据有关。网络中的每对基因通过边缘连接。网络的基因包含第四组一个或多个基因。
图17显示说明如何获得包括基因G1-G13的基因网络1702的相互作用组数据的图。网络1702是可以在步骤1602中提供的网络的实例。过程1600还包括基于与特定基因的连接距离来定义特定基因的连接基因的邻域,如通过连接边缘的数量所测量的。参见框1604。邻域1704是1604中定义的邻域的实例。邻域1704包括与两个以下连接边缘的基因G1具有连接距离的基因。
过程1600还涉及确定特定基因(G1)与邻域中的一个或多个其他基因之间的一个或多个连接距离。参见框1608。过程1600还涉及使用(i)一个或多个连接距离和(ii)邻域中的一个或多个其他基因的总分来计算相互作用组得分,其中总分基于实验数据。
在一些实现方案中,计算出相互作用组得分与多个分数的总和成比例,每个分数是邻域中另一个基因的总分,除以特定基因与邻域中的另一个基因之间的连接距离。在一些实现方案中,基因Gk的相互作用组得分估计为:
相互作用组_Gk~Σ(SGi/dGi)
其中,Gi∩N,dGi是Gi到Gk的距离,SGi是Gi的基于实验的总分。
在一些替代实现方案中,可以使用过程1800来确定相互作用组得分。图18显示过程1800,作为使用相互作用组数据和实验数据获得相互作用组得分的替代实现方案。过程1800涉及提供包含第一组一个或多个基因和/或第二组一个或多个基因中的至少一些基因的基因网络。网络中的基因具有高于第一阈值的总分。参见框1802。
图19显示基因网络和用于获得实现过程1800的相互作用组得分的算法。
过程1800还涉及基于至少一个相互作用组知识库中的两个基因的连接数据,将权重分配给连接两个基因的每个边缘。在一些实现方案中,边缘的权重与相互作用组知识库中的连接的数量成比例。在一些实现方案中,根据相互作用组知识库,权重与两个基因的连接的其他定量测量成比例。参见框1804。
过程1800还涉及对于网络中的每个基因,使用(i)特定基因和与特定基因连接的其他基因之间的边缘权重以及(ii)与特定基因连接的所有基因的总分计算相互作用组得分。参见框1806。在某些实现方案中,相互作用组得分计算为:
S’Gi~SGi+Σ((SGi+SGn)*边缘权重n
其中,S’Gi是基因Gi的相互作用组得分,SGi是基因Gi的总分,SGn是与Gi直接连接的基因Gn的总分,边缘权重n是基于知识库数据分配给连接Gi和Gn的边缘的权重。
过程1800还涉及在第一通过字典中保存小于第二阈值的相互作用组得分。参见框1808。然后,过程1800通过重复计算第一通过字典中所有基因的相互作用组得分来继续更新相互作用组得分。参见1810。过程1800还涉及确定是否重复字典的另外通过。参见框8012。如果是,则过程返回到框1808,并且在第二通过字典中保存小于阈值的相互作用组得分,然后通过重复计算第二通过字典中所有基因的相互作用组得分来更新相互作用组得分。如果该过程确定不进一步扩展网络的相互作用组得分,则该过程在1814结束。1800的过程通过计算具有高相对高实验值和强连接的基因的相互作用组得分而开始。该过程下降直至达到阈值,从而访问没有分配实验数据的注释。然后,该过程通过与具有较高实验权重值的其他节点的相互作用来重新评估网络强度。
随机基因中的阻抑基因
已经观察到某些基因似乎随机或非特异性地与各种表型相关联。在某些背景下,这些基因可被认为是随机背景基因。因此,期望控制这些随机背景基因的作用,以便更有效地鉴定表型或其他感兴趣的概念的相关和重要基因。例如,某些细胞因子作为对癌细胞的反应倾向于与癌症高度相关,但是它们对于理解癌症原因的价值可能是有限的。
如果随机基因集是真正随机的,那么基因集的基因和感兴趣的表型之间应该存在很少的结构或相关性。相反,如果基因与表型具有显着相关性,则无论基因集的随机性如何,其与感兴趣的概念的相关性对于理解潜在的机制可能没有意义。
在一些实现方案中,从数据库中采样随机基因集。可以获得来自随机基因集的基因的排序列表。然后,一些实现方案获得随机基因集中基因的排序的产物。排序乘积包含跨越一个或多个随机基因集的特定基因的排序的产物。排序基于特定基因与感兴趣的生物学、化学或医学概念的相关性。
在一些实现方案中,所述方法还涉及计算排序乘积的p值,p值指示如果基因或组与表型不相关则偶然获得排序乘积值的概率。在一些实现方案中,该方法还涉及基于p值将阻尼权重应用于基因的基因得分。
在一某些实现方案中,基于一个或多个随机基因集中第一组和第二组一个或多个基因的实验值与感兴趣的生物学、化学或医学概念相关的可能性,对第一组和第二组一个或多个基因的总分进行处罚。在一些实现方案中,特定基因的每个总分由惩罚值惩罚,该惩罚值与排序乘积的p值成反比。例如,阻抑权重ε可以定义为ε~p-1或ε~log(abs(p-1))。
计算机系统
显而易见的是,本发明的某些实施方式采用存储在一个或多个计算机系统中或通过一个或多个计算机系统传输的指令和/或数据的控制执行应用过程。某些实施方式还涉及用于执行这些操作的装置。该装置可以为所需目的而专门设计和/或构造,或者它可以是通过存储在计算机中或以其他方式使计算机可用的一个或多个计算机程序和/或数据结构选择性地配置的通用计算机。这里给出的过程并不固有地与任何特定计算机或其他装置相关。特别是,各种通用机可以与根据本文的教导编写的程序一起使用,或者可以更方便地配置更专用的装置以执行所需的方法步骤。下面示出并描述了用于各种这些机器的特定结构。
此外,某些实施方式涉及计算机可读介质或计算机程序产品,其包括用于执行与至少以下任务相关联的各种计算机实现的操作的程序指令和/或数据(包括数据结构):(1)获得来自仪器、数据库(私有或公共(例如NCBI)和其他来源的原始数据,(2)共识原始数据以提供特征集,(3)将特征集和其他数据导入存储库,如数据库或知识库,(4)将导入数据中的特征映射到索引中的预定义特征参考,(5)生成预定义特征索引,(6)生成特征集和特征集之间以及特征集和特征群之间的相关性或其他评分,(7)创建特征群,(8)生成概念分数或与特征、特征集和特征群相关的概念的其他度量,(9)确定待分配给每个特征、特征集和与概念相关的特征群的概念的权限级别,(10)通过数据源、生物体、权限级别或其他类别进行过滤,(11)接收来自用户的查询(包括,可选地,查询输入内容和/或搜索限制的查询字段),(12)使用特征、特征群、特征集、研究、概念、分类组等运行查询,以及(13)向用户呈现查询结果(可选地,以允许用户导航相关内容的方式执行相关查询)。本发明还涉及执行指令以执行任何或所有这些任务的计算装置。它还涉及计算装置,其包括编码有用于执行这些任务的指令的计算机可读介质。
此外,本发明涉及存储在计算机可读介质上的有用数据结构。这样的数据结构包括,例如特征集、特征群、分类层次结构、特征索引、分数表以及本文呈现的任何其他逻辑数据分组。某些实施方式还提供用于存储如本文所述生成的任何结果(例如,查询结果)或数据结构的功能(例如,代码和过程)。这些结果或数据结构通常至少暂时存储在计算机可读介质上,例如在下面的讨论中呈现的那些。结果或数据结构也可以以各种方式输出,例如显示、打印等。
适合于与根据本发明的用户接口的显示器的实例包括但不限于阴极射线管显示器、液晶显示器、等离子显示器、触摸屏显示器、视频投影显示器、发光二极管和有机发光二极管显示器、表面传导电子发射器显示器等。打印机的实例包括基于调色剂的打印机、液体喷墨打印机、固体墨水打印机、染料升华打印机以及诸如热敏打印机等无墨打印机。打印可以是有形介质,如纸张或透明胶片。
适用于本发明的计算机程序产品和计算装置的有形计算机可读介质的实例包括但不限于磁性介质,例如硬盘、软盘和磁带;光盘介质,如CD-ROM盘;磁光介质;半导体存储器设备(例如,闪存),以及专门配置为存储和执行程序指令的硬件设备,例如只读存储器设备(ROM)和随机存取存储器(RAM),有时是专用集成电路(ASIC)、可编程逻辑装置(PLD)和用于传送计算机可读指令的信号传输介质,如局域网、广域网和因特网。本文提供的数据和程序指令还可以体现在载波或其他传输介质(包括电子或光导路径)上。本发明的数据和程序指令也可以体现在载波或其他传输介质(例如,光线、电线和/或无线电波)上。
程序指令的实例包括低级代码,诸如由编译器产生的代码,以及可由计算机使用解释器执行的更高级代码。此外,程序指令可以是机器代码、源代码和/或直接或间接控制计算机器的操作的任何其他代码。代码可以指定输入、输出、计算、条件、分支、迭代循环等。
图9以简单的框格式示出了典型的计算机系统,当适当地配置或设计时,该计算机系统可以用作根据某些实施方式的计算装置。计算机系统2000包括连接到存储设备的任何数量的处理器2002(也称为中央处理单元或CPU),存储设备包括主存储器2006(通常是随机存取存储器,或RAM)、主存储器2004(通常是只读存储器,或ROM)。CPU 2002可以是各种类型,包括微控制器和微处理器,如可编程设备(例如,CPLD和FPGA)和非可编程设备,例如门阵列ASIC或通用微处理器。在所描绘的实施方式中,主存储器2004用于单向地将数据和指令传送到CPU,并且主存储器2006通常用于以双向方式传送数据和指令。这两个主存储设备都可以包括任何合适的计算机可读介质,例如上面描述的那些。大容量存储设备2008还双向连接到主存储器2006并提供额外的数据存储容量,并且可以包括上述任何计算机可读介质。大容量存储设备2008可以用于存储程序、数据等,并且通常是诸如硬盘等辅助存储介质。通常,这些程序、数据等被临时复制到主存储器2006以便在CPU 2002上执行。应当理解的是,在适当的情况下,保留在大容量存储设备2008中的信息可以以标准方式作为一部分被合并。诸如CD-ROM 2014等特定的大容量存储设备也可以单向地将数据传递给CPU或主存储器。
CPU 2002还连接到接口2010,接口2010连接到一个或多个输入/输出设备,例如视频监视器、跟踪球、鼠标、键盘、麦克风、触敏显示器、换能器读卡器、磁带或纸带读取器、平板电脑、手写笔、语音或手写识别外围设备、USB端口或其他众所周知的输入设备,当然还有其他计算机。最后,可选地,CPU 2002可以使用如2012通常所示的外部连接而连接到外部设备,例如数据库或计算机或电信网络。通过这种连接,可以预期CPU可以从网络接收信息,或者可以在执行本文描述的方法步骤的过程中将信息输出到网络。
在一个实施方式中,诸如计算机系统900的系统用作能够执行本文所述的某些或所有任务的数据导入、数据关联和查询系统。系统900还可以用作与知识库和查询相关联的各种其他工具,例如数据捕获工具。可以通过网络连接2012提供信息和程序,包括数据文件,以供研究人员访问或下载。作为另一种选择,可以在存储设备上向研究人员提供这样的信息、程序和文件。
在特定实施方式中,计算机系统900直接连接到数据采集系统,例如微阵列或高通量筛选系统,其捕获来自样品的数据。来自这些系统的数据通过接口2010提供,供系统900分析。作为另一种选择,系统900处理的数据由数据存储源提供,例如数据库或其他相关数据库。一旦进入装置900,诸如主存储器2006或大容量存储器2008的存储器设备至少临时地缓冲或存储相关数据。存储器还可以存储用于导入、分析和呈现数据的各种过程和/或程序,包括导入特征集,将特征集彼此关联以及将特征集与特征群相关联,生成和运行查询等。
在某些实施方式中,用户终端可以包括任何类型的计算机(例如,台式计算机、笔记本电脑、平板电脑等)、媒体计算平台(例如,有线、卫星机顶盒、数字视频记录器等)、手持计算设备(例如,PDA、电子邮件客户端等)、手机或任何其他类型的计算或通信平台。与用户终端通信的服务器系统可以包括服务器设备或分散的服务器设备,并且可以包括大型计算机、迷你计算机、超级计算机、个人计算机或其组合。在不脱离本发明的范围的情况下,也可以使用多个服务器系统。用户终端和服务器系统可以通过网络彼此通信。网络可以包括例如有线网络,如LAN(局域网)、WAN(广域网)、MAN(城域网)、ISDN(集成服务数字网络)等,以及诸如无线LAN、CDMA、蓝牙和卫星通信网络等无线网络,其不限制本发明的范围。
实施例
实施例1
实施例1研究了与随机基因集与表型特异性的基因集中的表型相关的基因的作用。还研究了引导的影响。
对于涉及随机基因集的组,从数据库中随机选择多个随机基因集的随机集,并获得随机基因集中基因的总分。随机基因的结果,在2102、2106、2012和2016处如图21A所示。2102处的结果获自没有引导的10个随机基因集。2106处的结果获自具有引导的10个随机基因集。2112处的结果获自没有引导的50个随机基因集。2016处的结果获自具有引导的50个随机基因集中。
表型特异性基因集的结果显示在2104、2108、2114和2118处。2104处的结果获自没有引导的10个表型特异性基因集。2108处的结果获自具有引导的10个表型特异性基因集。2114处的结果获自没有引导的50个表型特异性基因集的数据,并且2118处的结果获自具有引导的50个表型特异性基因集。从图21A中可以清楚地看出,随着样本的大小变大,训练集和验证集之间的总分的差异增加。此外,引导提供了总分差异的显着改善,一方面在2112和2114之间的差异,另一方面在2116和2118之间的差异看到。此外,表型特异性基因集具有较低的汇总差异分数,表明当分数基于根据上述过程的基因型特异性基因集时,模型可靠性的改善。
数据表明,从随机基因集中去除某些基因的影响可能是有益的。图21B似乎支持这一假设。图21B显示根据上述某些实现方案已经校正了总分之后的数据。在所述实现方案中,基于随机基因集中基因的排序乘积的p得分来惩罚或阻抑基因的总分,惩罚与片段得分反向相关。这里的数据表明,随着基因数量的增加,总分差异比没有阻抑的情况减少得更快。
实施例2:对现有技术的改进
本文公开的方法和系统提供了使用实验基因数据、计算机基因数据和/或知识库数据来识别感兴趣概念的基因的处理框架。框架的组件还包括上述严肃的新颖特征。该实例将来自本公开的实现的结果与不包括多组学或多组学数据或上述其他新颖特征的传统方法进行比较。
首先,将实验数据的相同的集提供给常规方法和根据一些实现方案的方法,以识别可能与结肠癌相关的基因。该比较显示尽管两种方法之间的结果不相同,但是通过下表中所示的常规方法识别的前46个基因与根据一些实现方案的方法识别的前2%基因大致一致。
Figure BDA0002049868410000411
/>
Figure BDA0002049868410000421
/>
Figure BDA0002049868410000431
第二,将实验数据提供给常规方法和根据一些实现方案的方法,以识别可能与自闭症相关的基因。该比较显示,通过根据一些实现方案的方法识别的前100个基因中的许多基因包括许多通过常规方法未识别的基因。下表包括通过本方法识别的前100个基因。
Figure BDA0002049868410000432
/>
Figure BDA0002049868410000441
/>
Figure BDA0002049868410000451
在上述识别的基因中,许多基因通过常规方法未识别。更重要的是,文献研究证实,有经验证据支持这些基因与孤独症之间的关联。例如,参见Shi等,Molecular Autism2013,4:8,确认NOTCH2与自闭症的关联;Bacon等,Molecular Psychiatry(2015),632-639,证实了FOXP1与自闭症的关联;并且Nava等,Amino Acids(2015)47:2647-2658,证实了SLC7A3与自闭症的关联。
尽管出于清楚理解的目的已经在某些细节上描述了前述发明,但是显而易见的是,可以在本发明的范围内实施某些改变和修改。应当注意的是,存在许多实现本发明的过程和数据库的替代方式。因此,本发明的实施方式应被认为是说明性的而非限制性的,并且本发明不限于本文给出的细节。

Claims (52)

1.一种在包括一个或多个处理器和系统存储器的计算机系统上实现的方法,其用于识别可能与感兴趣的生物学、化学或医学概念相关的基因,该方法包括:
(a)通过一个或多个处理器,从数据库选择多个基因集,其中,所述多个基因集中的每个基因集包含多个基因和与所述多个基因相关的多个实验值,并且其中,所述多个实验值在至少一个实验中与感兴趣的生物学、化学或医学概念相关;
(b)对于每个基因集,通过一个或多个处理器,使用所述多个基因中的第一组一个或多个基因的一个或多个实验值确定第一组一个或多个基因的一个或多个实验基因得分;
(c)对于每个基因集,通过一个或多个处理器,至少部分地基于第一组一个或多个基因与第二组一个或多个基因的相关性,确定所述多个基因中的第二组一个或多个基因的一个或多个计算机基因得分,其中,
第一组一个或多个基因与第二组一个或多个基因的相关性在所述数据库中的除所述多个基因集外的其他基因集中指示,
所述其他基因集中的每一个包含:第二组一个或多个基因中的一个或多个与第一组一个或多个基因中的一个之间的相关性得分,
第二组一个或多个基因中每一个的计算机基因得分表明第二组一个或多个基因中每一个与第一组一个或多个基因中的一个或多个之间的相关性,并且
第二组一个或多个基因中每一个的计算机基因得分通过跨所述其他基因集汇集第二组一个或多个基因中的每一个获得;
(d)通过一个或多个处理器,至少部分地基于步骤(b)中确定的第一组一个或多个基因的一个或多个实验基因得分和步骤(c)中确定的第二组一个或多个基因的一个或多个计算机基因得分,获得第一组一个或多个基因和第二组一个或多个基因的总分,其中,每个总分跨所述多个基因集汇集得到;和
(e)通过一个或多个处理器,使用第一组一个或多个基因和第二组一个或多个基因的总分,识别可能与所述感兴趣的生物学、化学或医学概念相关的基因。
2.如权利要求1所述的方法,其中,对于所述多个基因集中的每个基因集,步骤(c)包括:
(i)从所述数据库中识别第二组多个基因集,第二组多个基因集中的每个基因集包含第二组多个基因和与第二组多个基因相关的第二组多个实验值,并且其中,第二组多个实验值与第一组一个或多个基因中的第一基因相关;
(ii)跨第二组多个基因集汇集实验值,以获得第一组一个或多个基因中的第一基因的汇集值的矢量;
(iii)将(i)和(ii)应用于第一组一个或多个基因中的一个或多个其他基因,从而获得第一组一个或多个基因中的一个或多个其他基因的汇集值的一个或多个矢量;和
(iv)汇集第一基因和第一组一个或多个基因中的一个或多个其他基因的汇集值的矢量,从而获得包含第二组一个或多个基因的一个或多个计算机基因得分的一个压缩矢量。
3.如权利要求2所述的方法,对于第一组一个或多个基因中的特定基因,(iv)的每个所汇集的矢量按照该特定基因的实验值成比例地加权。
4.如权利要求2所述的方法,对于第一组一个或多个基因中的特定基因,(iv)的每个所汇集的矢量按照对于该特定基因所识别的第二组多个基因集的基因集数量成比例地加权。
5.如前述权利要求中任一项所述的方法,其进一步包括,在步骤(d)之前,确定第三组一个或多个基因的一个或多个基因-群得分。
6.如权利要求5所述的方法,其中,使用(i)各自包含与群标签相关的一群基因的一个或多个基因群的基因成员身份和(ii)第一组一个或多个基因的一个或多个实验值中的至少一些,确定特定基因的每个基因-群得分,其中,所述一群基因包含所述特定基因。
7.如权利要求6所述的方法,其中,步骤(d)包括:至少部分地基于第三组一个或多个基因中的至少一些基因的基因-群得分,及步骤(b)中确定的第一组一个或多个基因的一个或多个实验得分和步骤(c)中确定的第二组一个或多个基因的一个或多个计算机基因得分,获得第一组一个或多个基因和第二组一个或多个基因的总分。
8.如权利要求7所述的方法,其中,确定第三组一个或多个基因的一个或多个基因-群得分包括:
对于第三组一个或多个基因中的特定基因,识别各自包含该特定基因的一个或多个基因群;
对于每个基因群,确定该基因群的在第一组一个或多个基因中的成员的百分比;
对于每个基因群,汇集作为该基因群的成员的第一组一个或多个基因中的至少一些基因的一个或多个实验值,从而获得该基因群的总和实验值;和
对于第三组一个或多个基因中的特定基因,使用所述基因群的在第一组一个或多个基因中的成员的百分比和所述基因群的总和实验值,确定基因-群得分。
9.如权利要求8所述的方法,其中,使用所述基因群的在第一组一个或多个基因中的成员的百分比和所述基因群的总和实验值确定基因-群得分的步骤包括:
对于每个基因群,获得成员百分比和总和实验值的乘积,从而获得针对一个或多个基因群的一个或多个乘积;
跨所述一个或多个基因群,将所述一个或多个乘积相加,从而得到总和乘积;和
对于第三组一个或多个基因中的特定基因,基于所述总和乘积确定基因-群得分。
10.如权利要求6所述的方法,其中,与群标签相关的多个基因包括基因集库中的基因。
11.如权利要求10所述的方法,其中,基因集库中的基因包含基因本体中的基因。
12.如权利要求6所述的方法,其中,所述群标签指示病症、属性、疾病、表型、综合征、性状、生物学功能、生物学途径、细胞、生物体、生物学功能、化合物、治疗或其任何组合。
13.如权利要求1所述的方法,其进一步包括,在步骤(d)之前,分别确定第四组一个或多个基因的相互作用组得分。
14.如权利要求13所述的方法,其中,使用(i)特定基因和在基因网络中与所述特定基因连接的其他基因之间的连接和(ii)第一组一个或多个基因的一个或多个实验值的至少一些来确定所述特定基因的每个相互作用组得分。
15.如权利要求14所述的方法,其中,步骤(d)包括:至少部分地基于第四组一个或多个基因中的至少一些基因的相互作用组得分,及步骤(b)中确定的第一组一个或多个基因的一个或多个实验基因得分和步骤(c)中确定的第二组一个或多个基因的一个或多个计算机基因得分,获得至少第一组一个或多个基因和第二组一个或多个基因的总分。
16.如权利要求14所述的方法,其中,基因网络基于基因、蛋白质和/或磷脂之间的相互作用和关系。
17.如权利要求14所述的方法,其中,分别确定第四组一个或多个基因的相互作用组得分包括:
提供基因网络,其中,网络中的每对基因通过边缘连接,网络的基因包含第四组一个或多个基因,其包含第一组一个或多个基因和/或第二组一个或多个基因中的至少一些;
对于第四组一个或多个基因的每个基因,基于与特定基因的连接距离定义所连接的基因的邻域,如通过连接两个相邻基因的连接边缘的数量所测量的;和
对于第四组一个或多个基因的每个基因,使用(i)特定基因与邻域中的一个或多个其他基因之间的一个或多个连接距离和(ii)邻域中的所述一个或多个其他基因的总分,计算相互作用组得分,其中,总分基于实验数据。
18.如权利要求17所述的方法,其中,相互作用组得分经计算与多个分数之和成比例,每个分数是邻域中另一个基因的总分除以特定基因与邻域中另一个基因之间的连接距离。
19.如权利要求14所述的方法,其中,分别确定第四组一个或多个基因的相互作用组得分包括:
提供基因网络,其中,该网络的基因具有基于高于第一阈值的实验数据的总分,每对基因通过边缘连接,并且该网络的基因包含第四组一个或多个基因,其包含第一组一个或多个基因和/或第二组一个或多个基因中的至少一些;
对于每个边缘,基于至少一个相互作用组知识库中的两个基因的连接数据,分配连接这两个基因的边缘的权重;和
对于所述网络中的每个基因,使用(i)特定基因和与所述特定基因连接的所有基因之间的边缘权重和(ii)与所述特定基因连接的所有基因的总分,计算相互作用组得分。
20.如权利要求19所述的方法,其中,计算相互作用组得分包括计算作为Ni’的相互作用组得分:
Ni’=Ni+Σ((Ni+Nn)*边缘权重n)
其中,Ni是特定基因i的总分,Nn是与该特定基因连接的基因n的总分,并且边缘权重n是连接特定基因i和基因n的边缘的权重。
21.如权利要求20所述的方法,其中,计算相互作用组得分还包括:
在第一通过字典中保存小于第二阈值的Ni';和
对第一通过字典中的所有基因重复权利要求20的计算,从而更新相互作用组得分。
22.如权利要求21所述的方法,其中,计算相互作用组得分还包括将权利要求21的操作重复运行一次或多次。
23.如权利要求1所述的方法,其中,步骤(a)的选择多个实验基因集包括基于分配给与实验基因集相关的生物标签的生物标签得分来选择实验基因集,其中生物标签得分指示基因集的重要性水平。
24.如权利要求23所述的方法,其中,所述生物标签通过选自由以下内容组成的组的类别进行编组:生物来源、生物设计、组织、疾病、化合物、基因、基因模式、生物群及其任何组合。
25.如权利要求24所述的方法,其还包括基于生物标签进行基因集和/或基因群的评分。
26.如权利要求1所述的方法,其中,所述多个实验值包括变体或基因相关数据,其中,可以推导出从数据值到基因或多个基因的特定关系。
27.如权利要求26所述的方法,其中,所述多个实验值包括多个基因扰动值。
28.如权利要求26所述的方法,其中,所述多个实验值表明RNA表达、蛋白质表达、DNA甲基化、转录因子活性和/或全基因组关联研究中的关联的水平。
29.如权利要求1所述的方法,其中,感兴趣的生物学、化学或医学概念包括表型。
30.如权利要求29所述的方法,其中,所述表型包括疾病相关的表型。
31.如权利要求1所述的方法,其中,特定基因的每个总分被计算为跨多个基因集的实验得分和计算机得分的线性组合。
32.如权利要求1所述的方法,其中,步骤(d)包括:
提供接收实验基因得分和计算机基因得分作为输入、并提供总分作为输出的模型;和
将该模型应用于一个或多个实验基因得分和一个或多个计算机基因得分,以获得第一组一个或多个基因和第二组一个或多个基因的总分。
33.如权利要求32所述的方法,其还包括通过优化目标函数来训练所述模型。
34.如权利要求33所述的方法,其中,训练所述模型包括应用引导技术来引导样品。
35.如权利要求34所述的方法,其中,所述目标函数涉及引导之后的至少一个总分分布。
36.如权利要求33所述的方法,其中,优化所述目标函数包括最小化训练集和验证集之间的总分差异。
37.如权利要求33所述的方法,其中,优化所述目标函数包括最大化从所述多个基因集获得的总分分布与从随机基因集获得的总分分布之间的距离。
38.如权利要求33所述的方法,其中,将总分排序并分箱在定义大小的桶中,其中将罚分分配给桶,所述罚分有利于较高排序的总分。
39.如权利要求38所述的方法,其中,所述目标函数仅基于排名靠前的总分。
40.如权利要求33所述的方法,其中,训练所述模型包括以无监督机器学习方法使用所述目标函数来学习所述模型的参数。
41.如权利要求40所述的方法,其中,所述模型具有以下形式
F(θ)=k1*c1+k2*c2+…+kn*cn
其中,θ是模型的参数,ci是模型的组件,ki是组件的权重因子。
42.如权利要求41所述的方法,其还包括基于实验数据类型的样品权重将所述模型的一个或多个组件划分为子组件。
43.如权利要求1所述的方法,其中,基于一个或多个随机基因集中第一组一个或多个基因和第二组一个或多个基因的实验值与感兴趣的生物学、化学或医学概念相关的可能性,对第一组一个或多个基因和第二组一个或多个基因的总分进行罚分。
44.如权利要求43所述的方法,其中,特定基因的每个总分通过与排序乘积的p值成反比的惩罚值而被罚分,其中,所述排序乘积包括跨所述一个或多个随机基因集的特定基因的排序的乘积。
45.如权利要求1所述的方法,其中,第一组一个或多个基因与第二组一个或多个基因不同。
46.如权利要求1所述的方法,其中,总分被标准化。
47.如权利要求1所述的方法,其中,所述数据库包括多个子数据库。
48.如权利要求1所述的方法,其中,步骤(b)中的第一组一个或多个基因的一个或多个实验值满足标准。
49.如权利要求1所述的方法,其中,借助于奇异值的线性组合来汇集每个总分。
50.如权利要求49所述的方法,所述线性组合包括平方和。
51.一种存储程序代码的非暂时性机器可读介质,所述程序代码在由计算机系统的一个或多个处理器执行时使所述计算机系统实现用于识别可能与感兴趣的生物学、化学或医学概念相关的基因的方法,所述程序代码包括:
(a)用于从数据库选择多个基因集的代码,其中,所述多个基因集中的每个基因集包含多个基因和与所述多个基因相关的多个实验值,并且其中,所述多个实验值在至少一个实验中与感兴趣的生物学、化学或医学概念相关;
(b)对于每个基因集,使用所述多个基因中的第一组一个或多个基因的一个或多个实验值确定第一组一个或多个基因的一个或多个实验基因得分的代码;
(c)对于每个基因集,至少部分地基于第一组一个或多个基因与第二组一个或多个基因的相关性,确定所述多个基因中的第二组一个或多个基因的一个或多个计算机基因得分的代码,其中,第一组一个或多个基因与第二组一个或多个基因的相关性在所述数据库中的除所述多个基因集外的其他基因集中指示,
所述其他基因集中的每一个包含:第二组一个或多个基因中的一个或多个与第一组一个或多个基因中的一个之间的相关性得分,
第二组一个或多个基因中每一个的计算机基因得分表明第二组一个或多个基因中每一个与第一组一个或多个基因中的一个或多个之间的相关性,并且
第二组一个或多个基因中每一个的计算机基因得分通过跨所述其他基因集汇集第二组一个或多个基因中的每一个获得;
(d)至少部分地基于步骤(b)中确定的第一组一个或多个基因的一个或多个实验基因得分和步骤(c)中确定的第二组一个或多个基因的一个或多个计算机基因得分来获得第一组一个或多个基因和第二组一个或多个基因的总分的代码,其中,每个总分跨所述多个基因集汇集得到;和
(e)使用第一组一个或多个基因和第二组一个或多个基因的总分,识别可能与所述感兴趣的生物学、化学或医学概念相关的基因的代码。
52.一种计算机系统,其包括:
一个或多个处理器;
系统存储器;和
一个或多个计算机可读存储介质,其上存储有计算机可执行指令,所述指令在由一个或多个处理器执行时使计算机系统实现用于识别可能与感兴趣的生物学、化学或医学概念相关的基因的方法,该方法包括:
(a)通过一个或多个处理器,从数据库选择多个基因集,其中,所述多个基因集中的每个基因集包含多个基因和与所述多个基因相关的多个实验值,并且其中,所述多个实验值在至少一个实验中与感兴趣的生物学、化学或医学概念相关;
(b)对于每个基因集,通过一个或多个处理器,使用所述多个基因中的第一组一个或多个基因的一个或多个实验值确定第一组一个或多个基因的一个或多个实验基因得分;
(c)对于每个基因集,通过一个或多个处理器,至少部分地基于第一组一个或多个基因与第二组一个或多个基因的相关性,确定所述多个基因中的第二组一个或多个基因的一个或多个计算机基因得分,其中,第一组一个或多个基因与第二组一个或多个基因的相关性在所述数据库中的除所述多个基因集外的其他基因集中指示,
所述其他基因集中的每一个包含:第二组一个或多个基因中的一个或多个与第一组一个或多个基因中的一个之间的相关性得分,
第二组一个或多个基因中每一个的计算机基因得分表明第二组一个或多个基因中每一个与第一组一个或多个基因中的一个或多个之间的相关性,并且
第二组一个或多个基因中每一个的计算机基因得分通过跨所述其他基因集汇集第二组一个或多个基因中的每一个获得;
(d)通过一个或多个处理器,至少部分地基于步骤(b)中确定的第一组一个或多个基因的一个或多个实验基因得分和步骤(c)中确定的第二组一个或多个基因的一个或多个计算机基因得分,获得第一组一个或多个基因和第二组一个或多个基因的总分,其中,每个总分跨多个基因集汇集得到;和
(e)通过一个或多个处理器,使用第一组一个或多个基因和第二组一个或多个基因的总分,识别可能与所述感兴趣的生物学、化学或医学概念相关的基因。
CN201780068416.9A 2016-10-03 2017-10-03 使用共识基因库和基于网络的数据结构的表型/疾病特异性基因排序 Active CN109906486B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662403206P 2016-10-03 2016-10-03
US62/403,206 2016-10-03
PCT/US2017/054977 WO2018067595A1 (en) 2016-10-03 2017-10-03 Phenotype/disease specific gene ranking using curated, gene library and network based data structures

Publications (2)

Publication Number Publication Date
CN109906486A CN109906486A (zh) 2019-06-18
CN109906486B true CN109906486B (zh) 2023-07-14

Family

ID=60117816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780068416.9A Active CN109906486B (zh) 2016-10-03 2017-10-03 使用共识基因库和基于网络的数据结构的表型/疾病特异性基因排序

Country Status (11)

Country Link
US (1) US10810213B2 (zh)
EP (1) EP3520006B1 (zh)
JP (1) JP2020502697A (zh)
KR (1) KR20190077372A (zh)
CN (1) CN109906486B (zh)
AU (2) AU2017338775B2 (zh)
CA (1) CA3039201A1 (zh)
MX (1) MX2019003765A (zh)
RU (1) RU2019110756A (zh)
SG (1) SG11201902925PA (zh)
WO (1) WO2018067595A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2625288T3 (es) 2011-04-15 2017-07-19 The Johns Hopkins University Sistema de secuenciación segura
AU2013338393B2 (en) 2012-10-29 2017-05-11 The Johns Hopkins University Papanicolaou test for ovarian and endometrial cancers
WO2017027653A1 (en) 2015-08-11 2017-02-16 The Johns Hopkins University Assaying ovarian cyst fluid
US11948662B2 (en) * 2017-02-17 2024-04-02 The Regents Of The University Of California Metabolite, annotation, and gene integration system and method
WO2019067092A1 (en) 2017-08-07 2019-04-04 The Johns Hopkins University METHODS AND SUBSTANCES FOR THE EVALUATION AND TREATMENT OF CANCER
EP3550568B1 (en) * 2018-04-07 2023-07-05 Tata Consultancy Services Limited Graph convolution based gene prioritization on heterogeneous networks
US11354591B2 (en) 2018-10-11 2022-06-07 International Business Machines Corporation Identifying gene signatures and corresponding biological pathways based on an automatically curated genomic database
JP2022504916A (ja) * 2018-10-12 2022-01-13 ヒューマン ロンジェヴィティ インコーポレイテッド 癌の遺伝子および臨床データの統合分析のためのマルチオミクス検索エンジン
KR102230156B1 (ko) * 2018-10-15 2021-03-19 연세대학교 산학협력단 네트워크 기반의 유전자 세트 증강 분석 방법을 이용한 약물 재창출 방법
CN109684286B (zh) * 2018-12-28 2021-10-22 中国科学院苏州生物医学工程技术研究所 数字期刊实验数据共享方法及系统、存储介质、电子设备
US20220223225A1 (en) * 2019-05-24 2022-07-14 Northeastern University Chemical-disease perturbation ranking
CN110310708A (zh) * 2019-06-18 2019-10-08 广东省生态环境技术研究所 一种构建异化砷还原酶蛋白数据库的方法
CN110364266A (zh) * 2019-06-28 2019-10-22 深圳裕策生物科技有限公司 用于指导临床肿瘤个体化用药的数据库及其构建方法和装置
WO2021033179A1 (en) * 2019-08-20 2021-02-25 Technion Research & Development Foundation Limited Automated literature meta analysis using hypothesis generators and automated search
CN110797080A (zh) * 2019-10-18 2020-02-14 湖南大学 基于跨物种迁移学习预测合成致死基因
CN110729022B (zh) * 2019-10-24 2023-06-23 江西中烟工业有限责任公司 一种被动吸烟大鼠早期肝损伤模型建立方法及相关基因筛选方法
CN111028883B (zh) * 2019-11-20 2023-07-18 广州达美智能科技有限公司 基于布尔代数的基因处理方法、装置及可读存储介质
EP3855114A1 (en) * 2020-01-22 2021-07-28 Siemens Gamesa Renewable Energy A/S A method and an apparatus for computer-implemented analyzing of a road transport route
CN111540405B (zh) * 2020-04-29 2023-07-07 新疆大学 一种基于快速网络嵌入的疾病基因预测方法
JP7402140B2 (ja) * 2020-09-23 2023-12-20 株式会社日立製作所 登録装置、登録方法、および登録プログラム
CN112802546B (zh) * 2020-12-29 2024-05-03 中国人民解放军军事科学院军事医学研究院 一种生物状态表征方法、装置、设备及存储介质
TWI755261B (zh) * 2021-01-25 2022-02-11 沐恩生醫光電股份有限公司 基因評估裝置以及方法
US11823440B2 (en) 2021-08-19 2023-11-21 Rehrig Pacific Company Imaging system with unsupervised learning
CN115240772B (zh) * 2022-08-22 2023-08-22 南京医科大学 一种基于图神经网络的解析单细胞通路活性的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989297A (zh) * 2009-07-30 2011-03-23 陈越 用于计算机上的疾病基因相关药物发掘系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007075488A2 (en) 2005-12-16 2007-07-05 Nextbio System and method for scientific information knowledge management
US9183349B2 (en) * 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
US8364665B2 (en) 2005-12-16 2013-01-29 Nextbio Directional expression-based scientific information knowledge management
CN102855398B (zh) 2012-08-28 2016-03-02 中国科学院自动化研究所 基于多源信息融合的疾病潜在关联基因的获取方法
US10072296B2 (en) * 2016-09-19 2018-09-11 The Charlotte Mecklenburg Hospital Authority Compositions and methods for sjögren's syndrome

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989297A (zh) * 2009-07-30 2011-03-23 陈越 用于计算机上的疾病基因相关药物发掘系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
An integrated network platform for contextual prioritization of drugs and pathways;Aldo Segura-Cabrera等;《Molecular BioSystems》;20151111;第1-20页 *

Also Published As

Publication number Publication date
JP2020502697A (ja) 2020-01-23
EP3520006A1 (en) 2019-08-07
SG11201902925PA (en) 2019-05-30
US10810213B2 (en) 2020-10-20
CA3039201A1 (en) 2018-04-12
RU2019110756A (ru) 2020-11-06
AU2022268283B2 (en) 2024-03-28
KR20190077372A (ko) 2019-07-03
CN109906486A (zh) 2019-06-18
MX2019003765A (es) 2019-09-26
WO2018067595A1 (en) 2018-04-12
US20180095969A1 (en) 2018-04-05
EP3520006B1 (en) 2023-11-29
AU2017338775A1 (en) 2019-05-02
AU2022268283A1 (en) 2022-12-15
AU2017338775B2 (en) 2022-08-11

Similar Documents

Publication Publication Date Title
CN109906486B (zh) 使用共识基因库和基于网络的数据结构的表型/疾病特异性基因排序
US9141913B2 (en) Categorization and filtering of scientific data
Boix et al. Regulatory genomic circuitry of human disease loci by integrative epigenomics
Toh et al. Looking beyond the hype: applied AI and machine learning in translational medicine
US10127353B2 (en) Method and systems for querying sequence-centric scientific information
US8275737B2 (en) System and method for scientific information knowledge management
Langfelder et al. When is hub gene selection better than standard meta-analysis?
US8364665B2 (en) Directional expression-based scientific information knowledge management
Petereit et al. petal: Co-expression network modelling in R
Shashkova et al. The GWAS-MAP platform for aggregation of results of genome-wide association studies and the GWAS-MAP| homo database of 70 billion genetic associations of human traits
Liu et al. Characteristic gene selection via weighting principal components by singular values
WO2009039425A1 (en) Directional expression-based scientific information knowledge management
Linkowski et al. Gene sets analysis using network patterns
Jha et al. Qualitative assessment of functional module detectors on microarray and RNASeq data
Ziaeddine et al. PPIDomainMiner: Inferring domain-domain interactions from multiple sources of protein-protein interactions
Szmurło et al. iGAP: Interactive Genomic Analysis Platform
Шашкова et al. The GWAS-MAP platform for aggregation of resultsof genome-wide association studies and the GWAS-MAP| homo database of 70 billion genetic associations of human traits
Mao Generative Models of Biological Variations in Bulk and Single-cell RNA-seq
Zhu Semi-supervised gene shaving method for predicting low variation biological pathways from genome-wide data
Reimand Gene ontology mining tool GOSt
Stamm Gene set enrichment and projection: A computational tool for knowledge discovery in transcriptomes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant