CN107075510B - 基因表达数据的跨平台转换 - Google Patents

基因表达数据的跨平台转换 Download PDF

Info

Publication number
CN107075510B
CN107075510B CN201580056231.7A CN201580056231A CN107075510B CN 107075510 B CN107075510 B CN 107075510B CN 201580056231 A CN201580056231 A CN 201580056231A CN 107075510 B CN107075510 B CN 107075510B
Authority
CN
China
Prior art keywords
expression
platform
expression data
sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580056231.7A
Other languages
English (en)
Other versions
CN107075510A (zh
Inventor
Y·H·张
W·F·J·费尔哈格
N·迪米特罗娃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN107075510A publication Critical patent/CN107075510A/zh
Application granted granted Critical
Publication of CN107075510B publication Critical patent/CN107075510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1089Design, preparation, screening or analysis of libraries using computer algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Organic Chemistry (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Computing Systems (AREA)
  • Epidemiology (AREA)
  • Mathematical Physics (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)

Abstract

一种数据驱动的通用的基于回归的架构,所述架构支持测量结果在宽动态范围内从一个平台转换到另一平台,其可应用于但不限于基因表达,其中,选定的总结统计/特征值作为用于模型参数的预测指标。该架构包括初级模型训练和转换以及额外水平的分类回归和转换过程。

Description

基因表达数据的跨平台转换
相关申请的交叉引用
本发明涉及于2014年10月17日提交的共同待决的美国临时申请No.62/065367,在此通过引用将其完整公开内容并入,如同其完整地在本文中被阐述。
技术领域
本发明的实施例总体涉及基因表达数据的使用,并且具体涉及跨过不同谱分析平台使用基因表达数据。
背景技术
基因表达的动态范围根据谱分析平台的选择而可能可观地变化。因此,预测性基因标志一般是平台特异性的。一般来说,由不同种类的平台生成的表达数据不能被直接组合用于计算分析,因此限制旧数据的使用并且妨碍新的谱分析技术的采用。更具体地,会难以将从极大量的旧微阵列研究得到的知识和见解转移到新平台(诸如下一代测序(NGS)系统)上。
已经提出许多方法来处理表达数据的跨平台兼容性。一种方法涉及将探测结果/读数映射到通用基因组目标,然后针对每个目标调用平台水平的表达(针对微阵列的RMA和针对RNA-Seq的RPKM),并且最后应用分位数归一化,假设跨平台的表达分布仅在样本特异性比例因子上不同。另一方法涉及应用逐基因因子分析以利用预期最大化(EM)算法从多个平台获得统一的表达测量结果。又一方法使用功能测量误差模型的系统来对基因表达测量结果进行建模,并且使用针对基因的子集的据称更可靠但是低通量qRT-PCR表达来对平台进行校准。然而,像因子分析一样,该模型仅可以对适合所有三个平台的表达范围适用,并且具有极限表达的基因被排除。又一方法涉及对与RNA-Seq数据中的探针区域交叠的读数的数量进行计数,使用经验贝叶斯方法估计探针区域表达,并且随后将修改的RMA算法(即,没有背景修正步骤)应用在探针区域表达上以获得基因水平的表达。然而,该方法涉及关于映射的读数的更复杂的计算,并且在平台的选择方面(即针对输入的RNA-Seq和针对输出的RMA)是硬性的。
考虑到这些现有方法的限制,将期望具有支持测量结果从一个基因表达平台到另一基因表达平台的转换的一般化方法。
发明内容
提供此发明内容来以简化的形式介绍一些概念,这些概念在下文详细说明部分中被进一步描述。此发明内容并不旨在识别所要求保护的主题的关键特征或重要特征,也不旨在被用作确定所要求保护的主题的范围的辅助手段。
本发明的方面涉及一种数据驱动的通用的基于回归的架构,所述架构支持测量结果在宽动态范围内从一个平台到另一平台的转换,其可应用于但不限于基因表达,其中,选定的总结统计/特征值作为用于模型参数的预测指标。该架构包括初级模型训练和转换以及额外水平的分类回归和转换过程。
本发明的实施例消除了为了组合的分析的不必要的样本的重新谱分析,解决了向后兼容性问题,并且通过允许旧数据被容易地转换以便与来自更新平台的数据一起使用而促进新的谱分析技术的采用。此外,通过将输入数据转换到主要平台或通过针对替代性平台调整标签的参数,平台特异的基因标签能够扩展以便在来自多个平台的表达数据上使用。
根据本公开的一个方面,本发明的实施例涉及一种用于对基因表达数据进行转换的方法。在一些实施例中,所述方法包括构建使用样本表达数据来将基因表达数据从第一谱分析平台转换到第二谱分析平台的初级模型,使得经转换的数据的总体分布类似于所述第二平台的数据总体分布。
在一些实施例中,构建所述初级模型包括,识别在利用第一谱分析平台得到的核酸表达数据的第一集合与利用第二谱分析平台得到的核酸表达数据的第二集合之间的至少一个共同表达,其中,每个共同表达与所述第一集合和所述第二集合两者中都存在的样本相关联。在一些实施例中,构建所述模型包括,对所述至少一个共同表达执行回归分析,得到针对每个样本的回归参数的一个集合。在一些实施例中,构建所述模型包括,从所述第一谱分析平台选择预测所述至少一个集合回归参数的至少一个候选特征。在一些实施例中,构建所述模型包括,识别针对与所选择的所述至少一个候选特征中的每个相关联的逐样本的数据转换的初级模型。在一些实施例中,构建所述模型还包括,利用谱分析平台生成表达数据的至少一个集合,所述表达数据的至少一个集合是表达数据的所述第一集合和第二集合中的至少一个集合。
在一些实施例中,所述方法包括利用所述构建的初级模型转换所述样本表达数据。在一些实施例中,所述方法包括通过根据以下中的至少一个进行回归分析来构建分类模型:(a)经转换的样本表达数据中的至少一些和(b)共同表达中的至少一些。在一些实施例中,以下中的至少一项是基于表型数据或己知引入跨平台偏差的任何因子的:(a)对经转换的样本表达数据中的至少一些的选择和(b)对共同表达中的至少一些的选择。在一些实施例中,所述方法包括使用根据经转换的样本表达数据构建的所述分类模型来对经转换的样本表达数据进行转换并从其构建另一分类模型来对该过程进行迭代。在一些实施例中,所述方法包括通过以构建的分类模型的构建的顺序应用所述构建的分类模型而将表达数据的集合从所述第一谱分析平台转换到所述第二谱分析平台。
在一些实施例中,所述第一谱分析平台或所述第二谱分析平台选自包括但不限于以下项的组:Agilent Gene Expression Microarrays、Affymetrix Gene ProfilingArray cGMP U133 P2/Human Genome U133 Plus 2.0/U133A 2.0、Illumina GenomeAnalyzer/MiSeq/NextSeq/HiSeq、NanoString nCounter SPRINT/MAX/FLEX、以及OxfordNanopore MinION/PromethION/GridION。在一些实施例中,所述至少一个共同表达通过以下中的至少一种来识别:匹配基因组位置、匹配外显子、匹配亚型(isoform)和匹配转录。在一些实施例中,所述至少一个候选特征选自包括以下项的组平均转录表达、平均归一化探针强度、检测到的基因的数量、每个样本的读数的总数量、每个外显子/基因/亚型的读数的平均数量、读数范围和每个样本的任何其他适当统计。在一些实施例中,所述模型中的每个选自包括以下项的组:线性模型、对数模型、分段线性模型和回归模型。
根据本公开的另一方面,本发明的实施例涉及一种用于对基因表达数据进行转换的装置。在一些实施例中,所述装置包括处理器。在一些实施例中,所述装置包括接口。在一些实施例中,所述装置包括可在所述处理器上运行的计算机可执行指令。在一些实施例中,所述计算机可执行指令在所述处理器上运行,以利用样本表达数据构建用于将基因表达数据从第一谱分析平台转换到第二谱分析平台的初级模型,使得所述转换的数据的总体分布类似于所述第二平台的数据总体分布。
在一些实施例中,用于构建所述初级模型的所述计算机可执行指令包括用于以下的计算机可执行指令:识别利用第一谱分析平台得到的核酸表达数据的第一集合与利用第二谱分析平台得到的核酸表达数据的第二集合之间的至少一个共同表达,每个共同表达与所述第一集合和第二集合两者中都存在的样本相关联。在一些实施例中,用于构建模型的所述计算机可执行指令包括用于以下的计算机可执行指令:对所述至少一个共同表达执行回归分析,得到针对每个样本的回归参数的一个集合。在一些实施例中,用于构建模型的所述计算机可执行指令包括用于以下的计算可执行指令:从所述第一谱分析平台选择预测所述至少一个集合回归参数的至少一个候选特征。在一些实施例中,用于构建模型的所述计算机可执行指令包括用于以下的计算可执行指令:识别与所选择的所述至少一个候选特征中的每个相关联的初级模型。
在一些实施例中,所述接口被配置为从谱分析平台接收表达数据的至少一个集合,所述表达数据的至少一个集合是表达数据所述第一集合和所述第二集合中的至少一个集合。
在一些实施例中,所述装置还包括可在所述处理器上运行的用于以下的计算机可执行指令:利用所构建的初级模型转换所述样本表达数据。在一些实施例中,所述装置还包括可在所述处理器上运行的用于以下的计算机可执行指令:通过回归分析来从以下中的至少一个来构建分类模型:(a)经转换的样本表达数据中的至少一些和(b)共同表达中的至少一些。在一些实施例中,以下中的至少一个基于表型数据或已知引入跨平台偏差的任何其他因子:(a)对经转换的样本表达数据中的至少一些的选择和(b)对共同表达中的至少一些的选择。在一些实施例中,所述装置还包括可在所述处理器上运行的用于以下的计算机可执行指令:使用根据经转换的样本表达数据构建的所述分类模型来对经转换的样本表达数据进行转换并从其构建另一分类模型来对该过程进行迭代。在一些实施例中,所述装置还包括可在所述处理器上运行用于以下的计算机可执行指令:通过以所构建的分类模型构建的顺序应用所构建的分类模型而将表达数据的集合从所述第一谱分析平台转换到所述第二谱分析平台。
在一些实施例中,所述第一谱分析平台或所述第二谱分析平台选自包括但不限于以下项的组:Agilent Gene Expression Microarrays、Affymetrix Gene ProfilingArray cGMP U133 P2/Human Genome U133 Plus 2.0/U133A 2.0、Illumina GenomeAnalyzer/MiSeq/NextSeq/HiSeq、NanoString nCounter SPRINT/MAX/FLEX、以及OxfordNanopore MinION/PromethION/GridION。
在一些实施例中,用于识别至少一个共同表达的所述计算机可执行指令包括用于以下的计算机可执行指令:通过以下中的至少一种来识别所述至少一个共同表达:匹配基因组位置、匹配外显子、匹配亚型和匹配转录。在一些实施例中,所述至少一个候选特征选自包括以下项的组:平均转录表达、平均归一化探针强度、检测到的基因的数量、每个样本的读数的数量、每个外显子/基因/亚型的读数的平均数量、读数范围和每个样本的任何其他适当统计。在一些实施例中,所述模型中的每个选自包括以下项的组:线性模型、对数模型、分段线性模型、以及回归模型。
根据对以下详细描述的阅读和对相关联的附图的查阅,以非限制性实施例为特征的这些及其他特征和优点将会是显而易见的。应理解,前述一般描述和以下详细描述两者都仅是解释性的,并不对要求保护的非限制性实施例进行限定。
附图说明
附图并非旨在按比例进行绘制。在附图中,在各个图中图示的每个完全相同或几乎完全相同的部件可以由相同数字来表示。为了清楚的目的,不是每个部件都在每个附图中进行标记。本发明的各种实施例现在将会参照附图以范例的方式进行描述,其中:
图1是根据本发明的一个实施例的模型训练过程的流程图;
图2是根据本发明的一个实施例的初级模型构建过程的流程图;
图3是根据本发明的一个实施例的用于利用初级模型来转换样本数据的过程的流程图;
图4是根据本发明的一个实施例的分类回归过程的流程图;
图5是根据本发明的一个实施例的用于使用模型来转换额外数据的过程的流程图;
图6是根据本发明的一个实施例的发展并应用的多个转换模型的图示;
图7呈现了在本发明的一个实施例中发展的平均表达水平与回归参数之间的线性模型;
图8示出了针对每个样本的预测的分段线性模型;
图9分别示出了在(A)第一水平的逐样本转换之后以及(B)第二水平的逐基因转换之后转换的表达与原始的微阵列表达之间的关系;并且
图10呈现了根据本发明的用于基因表达数据的跨平台转换的装置的实施例的方框图。
具体实施方式
基因表达数据的跨平台兼容性是研究的关键和活跃的主题。管理和分析源于混合的平台的样本数据会是效率低的。例如,癌症基因组图谱(TCGA)目前有五个不同的平台用于RNA表达:Agilent G4502A、Affymetrix HT-HG_U133A、HG-U133_Plus_2、Illumina GA、以及Illumina HiSeq 2000,因此使得难以通过组合的分析利用数据的全部潜力。此外,基因表达的动态范围能够依据谱分析平台的选择而相当大地变化。
由于多年来基于在前技术生成的大量旧数据、现有平台的多样性和新平台的出现,提供跨各种平台的数据的兼容性能够是有利的。打破平台屏障意味着节省样本的重新谱分析的成本,以便执行组合的分析。它还能够解决向后兼容性问题,并且通过允许旧数据被容易地转换以便与来自更新平台的数据一起使用而促进新的谱分析技术的采用。具体地,极大资源已经花费在微阵列研究上,并且希望将来自这些研究的知识和见解转移到新平台(诸如下一代测序(NGS)技术)上。
本发明的实施例使用将表达数据从一个平台转换到另一平台的模型来促进基因表达数据的跨平台兼容性。这些实施例也能够在临床研究设置中跨临床研究人员可用的不同队列被应用,以便通过将输入数据转换到主平台或通过使标签的参数适应替代性平台而评估新的队列上的许多标签。
参照图1,根据本发明的用于对基因表达数据进行转换的方法的一个实施例以初级模型的构建(步骤100)开始,所述初级模型用于直接将表达数据从第一谱分析平台转换到第二谱分析平台而无需中间转换。所述初级模型然后可以用来将表达数据从第一平台转换到第二平台(步骤104)。
然而,在一些实施例中,模型构建过程可包括额外水平的迭代。在这些实施例中,额外的模型(例如,分类回归模型)可以根据经转换的表达数据来构建(步骤108)。该额外的模型反过来可以用来对额外的表达数据进行转换(步骤104)。可以通过额外的多轮分类模型构建(步骤108)并且应用那些分类模型以转换数据(步骤104)来对该过程进行迭代,所述表达数据然后可以用来构建额外的分类模型(步骤108)等。当多个分类模型被构建并且随后被用于转换表达数据时,所述模型以其构建的顺序被应用–即,被构建的第一模型是用来转换数据的第一模型,被构建的第二模型用来对第一模型转换的数据进行转换等。
初级模型的构建
如在上面讨论的,本发明的实施例通常构建用于在平台之间转换数据集的初级模型(步骤100)。参照图2,模型训练过程开始于识别针对平台X的表达数据(即,xi={xgj}i,j=1…K,其中gj表示针对平台X的K个基因目标)与针对平台Y的表达数据(yi={ygj}i,j=1…L,具有针对平台Y的L个基因目标)之间的至少一个共同基因目标(步骤200)。
如果不存在两组目标之间的直接映射,则目标可以按其基因组位置而从一个集合被映射到另一集合。例如,如果源数据是RNA-Seq外显子表达而目的数据是微阵列基因表达,那么与微阵列探针集交叠的外显子能够被识别,并且在应用回归之前被总结为基因表达。
给定{Si}i=1…N表示可用于构建用于将基因表达数据从平台X转换到平台Y的模型的N个训练样本,对于每个样本Si,使用在两个平台上检测到的表达在xi与yi之间执行回归(步骤204)。
用于回归过程的目标模型被先验地假设为由M个参数来定义。取决于观察到的来自源平台与目的平台的训练数据之间的关系,能够选择得到最小误差的任何回归模型,诸如非线性、对数、LOESS(局部回归)或变量带误差(errors-in-variables)(EiV)模型。此外,优化函数能够被应用以选择具有最小误差的模型。这种选择可以是人类操作者的决定,或它可以是自动或半自动过程的结果。在适当的模型被选择的情况下,回归过程的输出是N组参数ri={rk}i,k=1…M
给定针对每个样本Si的回归参数ri,从由平台X生成的能够为针对回归参数的良好预测指标的数据中选择候选特征f(步骤208)。例如,如果平台X是微阵列平台,则候选f可以包括平均表达、平均归一化探针强度等。如果平台X是RNA-Seq平台,则候选f可以包括平均表达、检测到的基因的数量、读数的总数量、读数范围等。关于回归模型的选择,候选特征f的识别可以由人类操作者或由自动或半自动过程来执行。
不一定仅从源数据提取预测特征。有时来自目标数据的特征可以在预测回归参数时具有良好性能。在一些实施例中,这样的目标平台特征也可以被包括在模型中,并且例如被分配有用于转换过程的训练数据中的特征的平均值。
已经从平台X识别可能的候选特征f(步骤208),实际上预测回归参数ri的那些特征fk必须从该组可能的候选特征f被识别(步骤212)。在一个实施例中,预测特征可以借助于例如逐步回归或其他自动、手动、或半自动方法来识别。如果目标是要针对单个参数而非子集选择单个预测特征,则与参数具有最高相关的特征能够被选择。
模型构建过程的输出包括所识别的预测特征fk和其对应的用于预测针对每个样本的Si的回归模型参数ri的模型γk(步骤216)。
在一些实施例中,针对具体平台(例如,针对平台X的xi,针对平台Y的yi等)的具有适当归一化的表达数据在识别共同表达(步骤200)之前针对训练样本{Si}(未示出)被生成。
初级模型转换
一旦初级模型已经被产生,它就可以用来将随后的样本从平台X转换到平台Y。对于以下讨论来说假设存在针对新样本Pn的在平台X上生成的数据。该数据包括表达谱zn和在上面关于图2讨论的预测特征{fk}k=1,…,M的多组预测特征值{vk}n
参照图3,与Pn相关联的新数据的转换开始于预测特征值{vk}n代入其相应模型{γk}得到针对Si的回归模型参数rn(步骤300)。
预测的回归模型参数rn能够被应用于预定的回归模型(步骤304),使得表达谱能够估计为针对样本Pn
Figure GDA0002725987100000091
(步骤308)。
分类模型构建和转换
在一些实施例中,初级模型可以足以在谱分析平台之间转换表达数据。如在上面讨论的,在其他实施例中,额外水平的分类建模和转换可以用来在平台之间转换数据。
具体地,如果存在引入额外的跨平台差异的一个或多个因子,那么可以执行对与所述因子相关的额外水平的回归,其中来自之前水平的回归的转换的数据充当到下一水平的回归的输入。
例如,假设在在定义明确的类别
Figure GDA0002725987100000092
的一个因子,其中,l=1是在逐样本转换的顶部引入额外的跨平台差异的因子指标。一般来说,类别能够基于基因模型以及跨样本的自然分组(例如正常与肿瘤、不同的临床阶段、不同的子类型、不同的结果等)来定义。例如,由于微阵列探针集沿着每个基因的不均匀分布和替代性插接,基因符号能够是用于微阵列与RNA-Seq平台之间的基因表达的转换的有用因子。如果类别内的基因表明与彼此的强相关,多元回归能够被应用,使得每个转换的表达值基于该组共同表达的基因。
参照图4,分类建模过程开始于接收来自初级模型或来自之前水平的分类建模的经转换的数据(步骤400)。其次,对所有接收的经转换的值执行按类别分层的回归(步骤404)。对于每个类别,显著改善准确性(例如,均方根误差)的那些模型被识别并且被保留(步骤408)。那些模型的识别针对能够提供转换的数据的准确性的类别中的每个产生额外的多组回归参数{qm}l(步骤412)。
参照图5,与Pn相关联的经转换的数据的进一步转换开始于回归参数{qm}l代入其相应的回归模型(步骤500)。这些模型然后能够用于针对样本Pn在第l级的转换处将表达谱估计为
Figure GDA0002725987100000101
(步骤504)。
在图4和5中示出的训练数据的分类建模和转换的这种过程能够针对多个独立因子进行重复以提高转换准确性。结果是依赖于顺序的回归模型的“栈”,其中初级逐样本回归在底部处而针对每个类别因子的额外层在彼此之上。图6呈现了针对O个独立因子的这种布置的一个范例。应当注意,当应用转换模型的栈时,被应用的模型的顺序必须与模型构建过程中遵循的构建的顺序相同。
示例性实施例
根据一个实施例,提供了用于使用具有在相应平台中的每个上生成的数据的545个TCGA样本将基因表达数据(以log2标尺)从AffymetrixGeneChip HT Human Genome U133Array Plat Set(RMA)转换到Illumina HiSeq 1000 RNA-Seq(RSEM)的系统和方法。一些逐样本统计在表1中针对两个平台进行总结。每个样本的平均相关性为0.713,并且总的来说更高的表达示出更强的相关性。
Figure GDA0002725987100000102
表1–具有在Affymetrix微阵列和Illumina RNA-Seq平台两者上生成的表达数据的TCGA样本的总结统计
通过针对每个样本生成RNA-Seq与微阵列表达的散点图,能够看出它们的关系能够由分段线性模型合适地近似。在使用R编程语言的示例性实施方式中,线性回归的‘lm’函数和‘分段’包的‘分段’函数被应用于断点(xb)估计。这得到在估计的断点之前和之后针对线性模型四个回归参数{m1,c1,m2,c2}:y1=m1x1+c1,对于x≤xb,以及y2=m2x2+c2,对于x>xb。在下面的表2中总结了回归的分段线性模型的总结统计。
Figure GDA0002725987100000111
表2–回归的分段线性模型的总结统计。
接下来,生成用于预测四个回归模型参数的候选特征的小的集合,并且能够确定平均表达水平可行的单线性预测指标,其中具有R=-0.55对于m1和R=0.74对于c2的中等的强相关性,但是R=-0.27对于c1和R=0.19对于m2的更小相关性,其具有小的方差0.04。图7(A)斜率1、7(B)截距1、7(C)斜率2和7(D)截距2中示出了平均表达水平与四个回归参数之间的线性模型。
使用平均表达水平作为预测指标,能够预测针对每个样本的分段线性模型。图8(A)和8(B)示出了针对两个样本的基于直接回归和预测方法的分段线性模型,即,针对两个TCGA样本的利用回归模型和预测模型的跨平台散点图。
如所图示的,对于中到高微阵列表达,预测的RNA-Seq表达具有均方根误差erms=1.4,其非常接近基于通过直接回归得到的估计的值的1.39的均方根误差。为了进一步改善准确性,额外水平的回归和转换能够被应用在使用如上面描述的分类方法跨所有样本通过基因进行分层的经初级转换的值上。图9(A)和9(B)示出了针对一个样本分别在第一水平的逐样本转换和第二水平的逐基因转换之后的经转换的表达与原始的微阵列表达之间的关系。
参照图10,图示了根据本发明的一个实施例的用于对基因表达数据进行转换的系统的示意表示1000。系统1000包括用于接收样本表达数据1004的接收器1002、被配置为存储接收的样本表达数据1004的存储器1006、和处理器1008。
处理器1008被配置为如上所述地建立初级模型和分类模型,用于将基因表达数据从第一谱分析平台转换到第二谱分析平台,使得经转换的数据的总体分布类似于第二平台的数据总体分布。
应用
本发明的实施例可以被扩展到从由多个平台测量的数据来计算统一的表达。例如,所有数据都可以利用例如EiV回归模型被转换到一个特定平台,并且然后针对每个目标将经转换的值利用加权平均进行组合,所述加权平均使用与相应源平台的估计的噪声方差成反比的权重。
虽然本发明的以上实施例关于对基因组平台执行的测量结果进行描述,但是相同的过程和程序能够被应用于生理建模、成像、个人连续健康数据以及其他。
尽管本发明的以上实施例关于基因表达数据进行描述,但是本文中描述的过程和程序可应用于解决跨任何数字读数的不同平台或解析流水线的兼容性问题。例如,甲基化水平、蛋白表达或甚至传感器测量结果由于底层系统的固有差别而具有结构差异。
等价方案、定义等
尽管本文中描述和图示了本发明的多个实施方式,但本领域普通技术人员可容易地想到用于执行本文中描述的功能以及/或获得本文中描述的结果和/或一个或多个优点的众多其它装置和/或结构,并且这样的变化和/或修改中的每个均被认为落在本发明的范围内。更一般而言,本领域技术人员可容易地理解本文中描述的所有参数、尺寸、材料和配置均旨在作为示例性的,且实际的参数、尺寸、材料和/或配置将取决于本发明的教导所用于的具体应用。本领域技术人员使用不超过常规的试验就可认识或能够确定与本文中描述的本发明的具体实施方式的许多等同方案。因此,应理解上述实施方式仅作为示例来介绍的,并且,在所附权利要求和其等同方案的范围内,可与具体描述和要求保护的不同地来实践本发明。本发明被指向本文中描述的每个单个特征、系统、物品、材料、部件和/或方法。另外,如果这样的特征、系统、物品、材料、部件和/或方法相互不矛盾的话,两个或更多这样的特征、系统、物品、材料、部件和/或方法的任意组合被包括在本发明的范围内。
除非明确地作出相反指示,否则在本说明书和权利要求中所用的词语“一”和“一个”应被理解为指的是“至少一个”。
在本说明书和权利要求中所用的短语“和/或”应被理解为指的是如此结合的元素“之一或两者”,即在一些情况下元素结合存在而在其它情况下分离存在。除非明确地作出相反指示,否则除了具体由“和/或”分句标识出的元素之外,其它元素可以可选地存在,而无论与这些具体标识出的元素有无关联。因此,作为一个非限制性示例,对“A和/或B”而言,当与比如“包括”的开放式语言结合起来使用时,在一种实施方式中可指的A而没有B(可选地包括除B以外的元素);在另一实施例中,指的B而没有A(可选地包括除A以外的元素);在又一实施例中,指的A和B这两者(可选地包括其它元素);等。
在本说明书和权利要求中所用的“或”应被理解为与以上定义的“和/或”具有相同的含义。例如,当在列举中分隔项目时,“或”或“和/或”应解读为包含的,即,包括多个元素或元素列举中的至少一个,但还可包括多于一个,并且可选地包括额外的未列举的项目。只有明确作出相反指示的术语,比如“仅一个”或“确切地一个”(或,当用于权利要求中时的“由……组成”),将指称包含多个元素或元素列举中的确切地一个元素。总体而言,对本文中所用的术语“或”而言,当被用在比如“其一”、“之一”、“仅一个”或“确切地一个”的排他术语后面时,应仅仅解读为指示排他的选择(即“一个或另一个,而不是两者都”)。对“主要由……组成”而言,当在权利要求中使用时,应具有其在专利法范围内使用时的常规含义。
在本说明书和权利要求中所用的引用一种或多种元素的列举的短语“至少一个”应理解为指的是从元素列举中的任意一种或多种元素中选择至少一个元素,但不一定包括在元素列举中具体列出的每一元素的至少一个,并且不排除元素列表中的元素的任意组合。该定义还允许可以任选地存在不同于短语“至少一个”所引用的元素列举中的被具体标识出的元素的其它元素,而无论其与这些具体标识出的元素有无关联。因此,作为一个非限制性示例,对“A和B中的至少一个”(或等同地,“A或B中的至少一个”,或等同地“A和/或B中的至少一个”)而言,在一个实施例中可以是指至少一个(任选地包含多于一个)A而没有B存在(并且任选地包括不同于B的元素);在另一实施例中可以是指至少一个(任选地包含多于一个)B而没有A存在(并且任选地包括不同于A的元素);在又一实施例中,是指至少一个(任选地包括多于一个)A,以及至少一个(并且任选地包括多于一个)B(并且任选地包括其它元素);等。
在权利要求中,以及在上述说明书中,所有比如“包含”、“包括”、“承载”、“具有”、“含有”、“涉及”、“持有”等的过渡词均应被理解为开放式的,即应被理解为指的是包括但不限于。
只有“由……组成”和“主要由……组成”等过渡词会分别是封闭式或半封闭连接词,与美国专利局专利审查程序指南第2111.03节中所阐述。
在权利要求中使用诸如“第一”、“第二”、“第三”等序数术语来修饰权利要求要素本身并不暗示一个权利要求要素具有优于另一权利要求要素的任何优先性、在先性或顺序或执行方法的动作的时间顺序,而仅用作区分具有某一名称的一个权利要求要素与具有同一名称(除了序数术语的使用)的另一要素以区分权利要求要素的标志。
还应当理解,除非明确指示相反情形,在本文中要求保护的包括多于一个步骤或动作的任何方法中,该方法的步骤或动作的顺序不一定受限于该方法所列举的步骤或动作的顺序。

Claims (20)

1.一种用于对基因表达数据进行转换的方法,所述方法包括:
使用样本表达数据来构建用于将基因表达数据从第一谱分析平台转换到第二谱分析平台的初级模型,其中,构建所述初级模型包括:
识别利用第一谱分析平台导出的核酸表达数据的第一集合与利用第二谱分析平台导出的核酸表达数据的第二集合之间的至少一个共同表达,每个共同表达与所述第一集合和所述第二集合两者中都存在的样本相关联;
在所述至少一个共同表达上执行回归分析,得到针对每个样本的回归参数的一个集合;
从所述第一谱分析平台选择预测所述回归参数的至少一个集合的至少一个候选特征;并且
识别用于与所选择的所述至少一个候选特征中的每个相关联的逐样本数据转换的初级模型。
2.根据权利要求1所述的方法,还包括利用谱分析平台生成表达数据的至少一个集合,表达数据的所述至少一个集合是表达数据的所述第一集合和所述第二集合中的至少一个集合。
3.根据权利要求1所述的方法,还包括:
利用所构建的初级模型来对所述样本表达数据进行转换;以及
通过根据以下中的至少一项进行回归分析来构建分类模型:(a)经转换的样本表达数据中的至少一些、以及(b)所述共同表达中的至少一些。
4.根据权利要求3所述的方法,其中,以下中的至少一项基于表型数据或己知的引入跨平台偏差的任何因子:(a)对经转换的样本表达数据中的至少一些的选择、以及(b)对所述共同表达中的至少一些的选择。
5.根据权利要求3所述的方法,还包括,使用根据经转换的样本表达数据构建的所述分类模型来对经转换的样本表达数据进行转换并从其构建另一分类模型来对权利要求4进行迭代。
6.根据权利要求5所述的方法,还包括,通过以所构建的分类模型构建的顺序应用所构建的分类模型来将表达数据的集合从所述第一谱分析平台转换到所述第二谱分析平台。
7.根据权利要求1所述的方法,其中,所述第一谱分析平台或所述第二谱分析平台选自包括以下项的组:
Agilent Gene Expression Microarrays、Affymetrix Gene Profiling Array cGMPU133 P2/Human Genome U133 Plus 2.0/U133A 2.0、Illumina Genome Analyzer/MiSeq/NextSeq/HiSeq、NanoString nCounter SPRINT/MAX/FLEX、以及Oxford Nanopore MinION/PromethION/GridION。
8.根据权利要求1所述的方法,其中,所述至少一个共同表达通过以下中的至少一种来识别:匹配基因组位置、匹配外显子、匹配亚型和匹配转录。
9.根据权利要求1所述的方法,其中,所述至少一个候选特征选自包括以下项的组:平均转录表达、平均归一化探针强度、检测到的基因的数量、每个样本的读数的数量、每个外显子/基因/亚型的读数的平均数量、读数范围和样本统计。
10.根据权利要求5所述的方法,其中,所述模型中的每个选自包括以下项的组:线性模型、对数模型、分段线性模型、以及回归模型。
11.一种用于对基因表达数据进行转换的装置,所述装置包括:
处理器;
接口;以及
计算机可执行指令,其能在所述处理器上运行以:
利用样本表达数据构建初级模型,所述初级模型用于将基因表达数据从第一谱分析平台转换到第二谱分析平台,使得经转换的数据的总体分布类似于所述第二平台的数据总体分布,其中,用于构建所述初级模型的所述计算机可执行指令包括用于以下的计算可执行指令:
识别利用第一谱分析平台导出的核酸表达数据的第一集合与利用第二谱分析平台导出的核酸表达数据的第二集合之间的至少一个共同表达,每个共同表达与所述第一集合和所述第二集合两者中都存在的样本相关联;
对所述至少一个共同表达执行回归分析,得到针对每个样本的回归参数的一个集合;
从所述第一谱分析平台选择预测所述回归参数的至少一个集合的至少一个候选特征;并且
识别与所选择的所述至少一个候选特征中的每个相关联的初级模型。
12.根据权利要求11所述的装置,其中,所述接口被配置为从谱分析平台接收表达数据的至少一个集合,表达数据的所述至少一个集合是表达数据的所述第一集合和所述第二集合中的至少一个集合。
13.根据权利要求11所述的装置,还包括能在所述处理器上运行以进行以下操作的计算机可执行指令:
利用所构建的初级模型来对所述样本表达数据进行转换;并且
通过根据以下中的至少一项进行回归分析来构建分类模型:(a)经转换的样本表达数据中的至少一些和(b)所述共同表达中的至少一些。
14.根据权利要求13所述的装置,其中,以下中的至少一项是基于表型数据或己知的引入跨平台偏差的任何因子的:(a)对经转换的样本表达数据中的至少一些的选择和(b)对所述共同表达中的至少一些的选择。
15.根据权利要求13所述的装置,还包括能在所述处理器上运行以进行以下操作的计算机可执行指令:使用根据经转换的样本表达数据构建的所述分类模型来对经转换的样本表达数据进行转换并从其构建另一分类模型而对权利要求13进行迭代。
16.根据权利要求15所述的装置,还包括能在所述处理器上运行以进行以下操作的计算机可执行指令:通过以所构建的分类模型构建的顺序应用所构建的分类模型而将表达数据的集合从所述第一谱分析平台转换到所述第二谱分析平台。
17.根据权利要求11所述的装置,其中,所述第一谱分析平台或所述第二谱分析平台选自包括以下项的组:
Agilent Gene Expression Microarrays、Affymetrix Gene Profiling Array cGMPU133 P2/Human Genome U133 Plus 2.0/U133A 2.0、Illumina Genome Analyzer/MiSeq/NextSeq/HiSeq、NanoString nCounter SPRINT/MAX/FLEX、以及Oxford Nanopore MinION/PromethION/GridION。
18.根据权利要求11所述的装置,其中,用于识别至少一个共同表达的所述计算机可执行指令包括,用于通过匹配基因组位置、匹配外显子、匹配亚型和匹配转录中的至少一种来识别至少一个共同表达的计算机可执行指令。
19.根据权利要求11所述的装置,其中,所述至少一个候选特征选自包括以下项的组:平均转录表达、平均归一化探针强度、检测到的基因的数量、每个样本的读数的数量、每个外显子/基因/亚型的读数的平均数量、读数范围和样本统计。
20.根据权利要求15所述的装置,其中,所述模型中的每个选自包括以下项的组:对数模型、线性模型、分段线性模型和回归模型。
CN201580056231.7A 2014-10-17 2015-10-16 基因表达数据的跨平台转换 Active CN107075510B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462065367P 2014-10-17 2014-10-17
US62/065,367 2014-10-17
PCT/IB2015/057952 WO2016059604A1 (en) 2014-10-17 2015-10-16 Cross-platform transformation of gene expression data

Publications (2)

Publication Number Publication Date
CN107075510A CN107075510A (zh) 2017-08-18
CN107075510B true CN107075510B (zh) 2021-03-23

Family

ID=54601845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580056231.7A Active CN107075510B (zh) 2014-10-17 2015-10-16 基因表达数据的跨平台转换

Country Status (4)

Country Link
US (1) US20170249422A1 (zh)
EP (1) EP3207133B1 (zh)
CN (1) CN107075510B (zh)
WO (1) WO2016059604A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019152836A1 (en) 2018-02-01 2019-08-08 Strattec Security Corporation Methods and systems for providing bluetooth -based passive entry and passive start (peps) for a vehicle

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102227731A (zh) * 2008-12-02 2011-10-26 索尼公司 基因聚类程序、基因聚类方法及基因聚类分析装置
CN102789550A (zh) * 2011-05-17 2012-11-21 中国科学院上海生命科学研究院 一种利用跨物种相似性的元分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102227731A (zh) * 2008-12-02 2011-10-26 索尼公司 基因聚类程序、基因聚类方法及基因聚类分析装置
CN102789550A (zh) * 2011-05-17 2012-11-21 中国科学院上海生命科学研究院 一种利用跨物种相似性的元分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《"Transformation of expression intensities across generations of affymetrix microarrays using sequence matching and regression modeling》;Bhattacharya S等;《NUCLEIC ACIDS RESEARCH》;20051231;第33卷(第18期);摘要、第2页第2栏第2段、第3-4页、第6页左栏第2段,第7页右栏第2段 *
《Iterative approach to model identification of biological networks》;Gadkar KG等;《BMC BIOINFORMATICS》;20050620;第6卷;摘要、图1 *
《Towards the integration, annotation and association of historical microarray experiments with RNA-seq》;Chavan Shweta S.等;《BMC BIOINFORMATICS》;20131009;第14卷;第1-11页 *
Bhattacharya S等.《"Transformation of expression intensities across generations of affymetrix microarrays using sequence matching and regression modeling》.《NUCLEIC ACIDS RESEARCH》.2005,第33卷(第18期),第1-10页. *

Also Published As

Publication number Publication date
EP3207133A1 (en) 2017-08-23
CN107075510A (zh) 2017-08-18
WO2016059604A1 (en) 2016-04-21
US20170249422A1 (en) 2017-08-31
EP3207133B1 (en) 2021-05-05

Similar Documents

Publication Publication Date Title
Zhu et al. Statistical methods for SNP heritability estimation and partition: A review
Campagna et al. Epigenome-wide association studies: current knowledge, strategies and recommendations
Breslin et al. HIrisPlex-S system for eye, hair, and skin color prediction from DNA: Massively parallel sequencing solutions for two common forensically used platforms
Teschendorff et al. Statistical and integrative system-level analysis of DNA methylation data
Huang et al. Using genotyping-by-sequencing (GBS) for genomic discovery in cultivated oat
Harvey et al. QuASAR: quantitative allele-specific analysis of reads
Willems et al. Population-scale sequencing data enable precise estimates of Y-STR mutation rates
Yu et al. Pathway analysis by adaptive combination of P‐values
Magwene et al. The statistics of bulk segregant analysis using next generation sequencing
Pineda et al. Integration analysis of three omics data using penalized regression methods: an application to bladder cancer
Mascher et al. Application of genotyping-by-sequencing on semiconductor sequencing platforms: a comparison of genetic and reference-based marker ordering in barley
Rigaill et al. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis
Rivera-Colón et al. Population genomics analysis with RAD, reprised: Stacks 2
Dehghannasiri et al. Unsupervised reference-free inference reveals unrecognized regulated transcriptomic complexity in human single cells
Anastasiadi et al. Bioinformatic analysis for age prediction using epigenetic clocks: Application to fisheries management and conservation biology
McCarthy et al. Cardelino: Integrating whole exomes and single-cell transcriptomes to reveal phenotypic impact of somatic variants
Wardenaar et al. Evaluation of MeDIP-chip in the context of whole-genome bisulfite sequencing (WGBS-seq) in Arabidopsis
Zhang et al. Genome-wide identification of allele-specific effects on gene expression for single and multiple individuals
Munch et al. A hidden Markov model approach for determining expression from genomic tiling micro arrays
Chen et al. Precise inference of copy number alterations in tumor samples from SNP arrays
CN107075510B (zh) 基因表达数据的跨平台转换
Wen Effective qtl discovery incorporating genomic annotations
EP3884502A1 (en) Method and computer program product for analysis of fetal dna by massive sequencing
Kendall et al. Computational methods for DNA copy-number analysis of tumors
Chiogna et al. A comparison on effects of normalisations in the detection of differentially expressed genes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant