CN109997194B - 异常值显著性评价的系统和方法 - Google Patents

异常值显著性评价的系统和方法 Download PDF

Info

Publication number
CN109997194B
CN109997194B CN201780066229.7A CN201780066229A CN109997194B CN 109997194 B CN109997194 B CN 109997194B CN 201780066229 A CN201780066229 A CN 201780066229A CN 109997194 B CN109997194 B CN 109997194B
Authority
CN
China
Prior art keywords
distribution
gene expression
value
values
expression data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780066229.7A
Other languages
English (en)
Other versions
CN109997194A (zh
Inventor
山姆·吴
洪·高
亨德里库斯·贾斯珀·格尔曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Illumina Inc
Original Assignee
Illumina Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Illumina Inc filed Critical Illumina Inc
Publication of CN109997194A publication Critical patent/CN109997194A/zh
Application granted granted Critical
Publication of CN109997194B publication Critical patent/CN109997194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

提供了识别多个样本中具有异常表达基因的系统和方法,包括至少一个处理器,以及包含指令的至少一个非暂时性计算机可读介质,当所述指令通过所述至少一个处理器执行时,引起所述至少一个处理器执行操作,所述操作包括:接收多个样本的基因表达数据,所述样本包括对应于基因的基因表达值;使用每个基因的中位数和绝对中位差标准化所述基因表达数据;基于异常基因表达数据的概率确定标准化的基因表达观测结果的分布统计值;使用标准化的基因表达数据确定所述分布统计的零分布;以及输出所述多个样本中所述基因的显著性值,所述显著性值基于所述分布统计和所述零分布的值。

Description

异常值显著性评价的系统和方法
本申请要求2016年11月3日提交的美国临时专利申请第62/417,149号的优先权,其全部内容通过引用并入本文中。
技术领域
本公开的系统和方法涉及异常值识别。更具体地,本公开的系统和方法涉及在包含样本的分析中确定连续值观测结果的因子显著性的改进方法,所述样本包括与因子对应的观测数据。
背景技术
异常值分析可以确定在基因表达观测数据中的异常值。然而,目前的异常值分析在不同的分析仪之间或不同的输入参数下不能直接比较。这限制了在荟萃分析(meta-analysis)中整合分析的结果。另外,目前荟萃分析的方法可能需要大量分析,并且可能无法根据不同规模的分析调整结果。因此存在改进的空间。
发明内容
识别多个样本中具有异常表达基因的检测系统,可以包括:至少一个处理器、以及包含指令的至少一个非暂时性计算机可读介质。当所述指令通过所述至少一个处理器执行时,引起所述至少一个处理器执行操作,所述操作包括:接收多个样本的基因表达数据,所述样本包括对应于基因的基因表达值;使用每个基因的中位数和绝对中位差标准化所述基因表达数据;基于异常基因表达数据的概率确定标准化的基因表达观测结果的分布统计值;使用所述标准化的基因表达数据确定所述分布统计的零分布;以及输出所述多个样本中所述基因的显著性值,所述显著性值基于所述分布统计和所述零分布的值。
识别多个样本中具有异常表达基因的包含指令的非暂时性计算机可读介质,当所述指令通过所述至少一个处理器执行时,引起所述至少一个处理器执行操作。这些操作可以包括:接收多个样本的基因表达数据,所述样本包括对应于基因的基因表达值;使用每个基因的中位数和绝对中位差标准化所述基因表达数据;基于异常基因表达数据的概率确定标准化的基因表达观测结果的分布统计的值;使用所述标准化的基因表达数据确定所述分布统计的零分布;以及输出所述多个样本中所述基因的显著性值,所述显著性值基于所述分布统计和所述零分布的值。
识别多个样本中具有异常表达基因的计算机实施方法,可以包括:接收多个样本的基因表达数据,所述样本包括对应于基因的基因表达值;使用每个基因的中位数和绝对中位差标准化所述基因表达数据;基于异常基因表达数据的概率确定标准化的基因表达观测结果的分布统计的值;使用所述标准化的基因表达数据确定所述分布统计的零分布;以及输出所述多个样本中所述基因的显著性值,所述显著性值基于所述分布统计和所述零分布的值。
需要理解的是,上述的简要描述和以下的详细描述均仅为示例性和解释性的,并不是对要求保护的公开的实施方式的限制。
附图说明
所述附图未必按比例或详尽绘制。相反,重点通常在于说明本文所述发明的原理。包含并构成说明书一部分的附图示出了与本公开一致的一些实施方式,并与说明书一起用于解释本公开的原理。在附图中:
图1描述了确定观测数据中异常值显著性的系统的示例性示意图。
图2A、2B和2C描述了确定观测数据中异常值显著性的方法的示例性流程图。
图3A和3B描述了根据预期的系统和方法估计零分布的示例图。
图3C描述了使用零分布确定观测数据中异常值显著性的两种示例性方法之间的比较。
图4A描述了使用伯努利试验确定观测数据中异常值显著性的方法的示例性流程图。
图4B示出了使用伯努利试验确定观测数据中异常值显著性的特征的示例性概念图。
图5描述了确定观测数据中异常值显著性的两种示例性方法之间的比较。
图6描述了执行改良秩-积检验荟萃分析的方法的示例性流程图。
图7A和7B描述了适于实施公开的系统和方法的示例性计算系统。
图8描述了根据本发明实施方式的自助重抽样技术。
图9描述了根据本发明实施方式的与函数拟合的自助重抽样技术。
图10描述了根据本发明实施方式的测量异常值观测数据的二项概率技术。
图11显示了根据本发明实施方式与自助重抽样相比的随机重排的性能。
图12显示了根据本发明实施方式的数据集的COPA得分的重抽样分布的示例。
图13显示了根据本发明实施方式的逼近经验分布尾部函数的重抽样的拟合。
图14显示了根据本发明实施方式的拟合p值之间的匹配。
图15显示了根据本发明实施方式的与自助重抽样p值相比的二项重抽样和自助法+函数的性能。
图16显示了根据本发明实施方式的与自助重抽样p值相比的二项重抽样和自助法+函数的性能。
图17显示了根据本发明实施方式的与二项相比的自助重抽样或自助法+函数的性能。
图18显示了根据本发明实施方式的二项与自助重抽样的比较。
图19A显示了根据本发明实施方式的具有相应得分信息的基因图谱。
图19B显示了根据本发明实施方式的五项研究之一的基因表达的瀑布图。
图19C显示了根据本发明实施方式的根据拷贝数变异(x轴)绘制的基因表达图(2log差异倍数,y轴)。
图19D显示了根据本发明实施方式的将一个基因鉴定为最重要的异常基因(使用积秩)的五项研究的荟萃分析。
图19E显示了根据本发明实施方式的示出在所有荟萃分析研究中的每个基因的归一化秩得分的热图,Q值为log10。
图19F显示了根据本发明实施方式的TCGA中的存活分析,显示了FAM5C上调大于7倍的异常值对象与那些没有明显差异倍数(<2)的相比总生存率差。
图19G显示了根据本发明实施方式的基础空间相关工具疾病图谱程序,显示了31项公共乳腺癌研究,其中FAM5C也是上调的。
图20显示了根据本发明实施方式的二项方法的图示。
具体实施方式
现在将详细参照公开的实施方式,实施例在附图进行说明。在任何方便的情况下,整个附图中使用相同的参考标号来表示相同或相似的部分。
下面详细的讨论本发明的一些实施方式。在描述实施方式中,为了清楚使用了特定术语。然而,本发明并不旨在限制所选择的特定术语。在相关领域的技术人员能够认识到的,在不脱离本发明宽泛概念的情况下,可以采用其他等效组件以及开发其他方法。在说明书任何地方引用的全部参考文献,包括背景技术和具体实施方式部分,均通过引用合并,如同每个都已单独合并。
基因表达分析是发现驱使癌症和其他疾病的基因的有效方法,但大多数方法仅仅对大多数受试者中失调的基因敏感。尽管在许多情况下,驱使基因仅在较小的受试者亚群中失调。例如,HER2(ERBB2)在大约20%的乳腺癌受试者中过表达的发现,导致成功靶向的治疗方法的发展,诸如曲妥单抗。发现失调的疾病基因作为生物标记和药物靶点是学术和制药研究的主要焦点。在肿瘤学中,但也可能潜在在其他疾病或健康人群的研究中,少数受试者亚群可能表现极端异常模式(例如,但不限制于,特定癌症类型中的基因的RNA表达)。识别具有异常模式的基因是有意义的,因为它们可能参与驱使疾病进展的途径并且可能是有效的药物靶点。然而,许多这些仅在疾病中的一小组异常中失调,例如,在癌症中具有扩增和融合基因的受试者。比较病例与对照的一般统计检测,如t检验,并非旨在找到这些异常基因。
最近,引入了一些方法来解决这个问题,包括Tomlins等人的癌症异常值谱图分析(Cancer Outlier Profile Analysis,COPA)。COPA可以确定哪些基因在样本集合中具有异质表达,诸如从癌症患者收集的样本。示例性COPA方法在Scott A. Tomlins, Daniel R.Rhodes, Sven Perner, Saravana M. Dhanasekaran, Rohit Mehra, Xiao-Wei Sun,SooryanarayanaVarambally, Xuhong Cao, Joelle Tchinda, Rainer Kuefer, CharlesLee, James E. Montie, Rajal B. Shah, Kenneth J. Pienta, Mark A. Rubin, andArul M. Chinnaiyan的“Recurrent fusion of TMPRSS2 and ETS transcription factorgenes in prostate cancer”中描述,其全部内容通过引用并入本文中。如下将进一步描述的,COPA方法通过应用基于分位数的基因表达谱的中位数和绝对中位差的数值变换来强调和识别异常值谱图。然而,COPA和其他方法有几个主要的缺点。应用COPA得分的一个技术问题是它们在不同的研究或不同的输入参数下不能直接比较。它们不提供p值而是得分,这些得分在荟萃分析的研究无法比较。因此,目前的方法未能在单一研究或分析中为COPA得分(源自COPA方法)赋予显著性,使得难以知道在该分析中鉴定的哪些异常基因实际上具有统计学意义。此外,COPA得分的大小在不同分析或不同输入参数中可能无法直接比较。这限制了在荟萃分析(meta-analysis)中整合分析的结果。进一步地,目前用于异常值得分的荟萃分析的解决方案,包括基于秩的方法和二项检验,也需要大量研究数据并且不调整研究规模的差异。
最近,COPA方法已经扩展到包括荟萃分析策略,通过结合多项研究提高在表达中检测深刻变化的能力。例如,Rhodes等人[8]对包括近3200个微阵列实验的31项基因表达谱研究进行了大规模分析,并鉴定了AGTR1,血管紧张素II-I型受体,在一组乳腺癌患者中明显过表达。这项meta-COPA研究的一个中止是采用二项检验来进行荟萃分析。二项检验通过在多项独立研究的每一项中使用具有异常值表达谱的前1%基因中存在/缺乏的基因来工作,但它实际上仅使用数据的最小信息。当研究数量很大时适用;当研究数量很少时,很容易形成联系,导致顶端异常基因之间缺乏差异化。
Chang等人[9]比较多种荟萃分析的方法。基于秩的方法通常是稳健且可靠的。然而,它们平等对待每项研究,未能考虑不同研究样本规模的影响。基于荟萃分析方法的p值自然调节样本规模的影响并允许不同研究间比较。其中,在方法比较中,Fisher的组合p值法在统计学上的稳健性和灵敏度方面取得了最佳性能[9],因此这对于meta-COPA分析尤为重要。
本文公开的系统和方法解决本领域的某些缺点和/或开发统计方法以评估COPA得分的显著性。根据某些公开的系统和方法,实施方式可以计算COPA得分的p值。例如,这些实施方式可以包括用于COPA统计显著性(ssCOPA)的自助重抽样(Bootstrap resampling)、自助法与函数(Bootstrap with function)(例如,广义帕累托分布(generalized Paretodistribution,GPD))以及二项重抽样(Binomial resampling)方法。通过自助重抽样,其精度可能受到执行的随机化数量的限制。为了减少所需的随机化次数,我们将广义帕累托分布(GPD)的尾部逼近应用于自助值(bootstrapped values)的分布。由于这两种方法仍然是计算密集型,我们开发了一种非参数解决方案,通过二项分布计算p值。我们描述每个实施方式。
一些实施方式的性能可以通过乳腺癌研究看出。在一些实施方式中,二项重抽样p值与使用10000次随机化的那些自助重抽样匹配,同时需要比自助重抽样或具有函数的自助法更少的计算。与具有二项检验的传统COPA(p值=10-14)相比,具有基于p值方法的本发明的实施方式可以在小型和大型荟萃分析(p值=10-17-10-24)之间实现明显更好的一致性。二项重抽样可以更灵敏、更快速地识别癌症和其他疾病中的重要驱使基因,并且可以在GitHub中获得,我们已经在Illumina(以前为NextBio Clinical)的BaseSpace™群组分析仪(BaseSpace™ Cohort Analyzer)平台中对COPA进行了一些改进。
COPA得分可以根据分析中的每个因子来确定。因子可以是基因组材料的任意子集(诸如,但不限于为基因、基因区域或基因亚群),其可以与连续值观测结果(continuous-valued observations)(诸如但不限于反映RNA表达、蛋白质表达、miRNA表达、其他的临床测量诸如胆固醇值、或任意其他类型的基因组表达观测结果的整数和非整数的值)相关联。显著性值(诸如,但不限于p值)可以由分析内的每个COPA得分计算。基于显著性值的荟萃分析可以在包括至少一些相同因子的多个分析中进行,以产生荟萃分析中因子修正的显著性值。下面至少结合以下的图2A、图2B和图4A进一步详细讨论。
在一些实施方式中,可以执行基于COPA得分对因子排序的荟萃分析以确定因子的显著性值。这可以在确定或不确定每个独立分析中的显著性值的情况下进行。下面至少结合以下的图2C和图6进一步详细讨论。
图1描述了确定观测数据中异常值显著性的系统的示例性示意图。系统100可以包括数据系统105、分析系统110以及配置为通过网络130通信的用户设备120。与公开的实施方式一致,用户120A可以与系统100交互以确定在观测数据中对应于连续值观测结果的因子显著性。
数据系统105可以包括一个或多个用于存储和提取观测数据的系统。如上所述,该观测数据可以是对应于因子的连续值观测结果。在一些方面,观测数据可以对应于来自微阵列的数据,诸如DNA或RNA微阵列数据。在一些方面,观测数据可以包括从多个细胞样本获得的基因表达信息。作为非限制性实施例,观测数据中的每个样本可以包括连续值观测结果,或细胞样本的细胞转录组的测量,诸如来自肿瘤的细胞样本。连续值观测结果的值可以表明抽样细胞中的基因表达水平。在一些实施方式中,包含该观测数据的样本可能来自不同的患者。作为进一步地非限制性的实施例,该观测数据可以表明样本中基因组材料的特异性序列的存在和数量,诸如DNA或RNA。在某些方面,每个因子可能对应于基因组材料的特异性序列,诸如对应于基因的信使RNA。在一些实施方式中,在某些组织中某些RNA序列的表达可能被鉴定为上调或下调。此类组织的非限制性的实施例包括肿瘤。
如上所述,以及在以下某些实施方式中讨论的,存储在数据系统105的观测数据可能是表明因子表达水平的值(也成为连续值观测结果),诸如基因或基因组材料的其他亚群。可以将COPA方法应用于该观测数据以产生因子的分布统计值,诸如COPA得分。然后,COPA得分可以确定表明统计显著性的显著性值。该统计显著性可以用于评估确定的因子是否值得进一步调查。
分析系统110可以包括一个或多个计算系统。以下参考图7A描述分析系统110的示例性组件。在一些实施方式中,分析系统110可以包括并行计算环境。在一些方面,该并行计算环境可以根据Jeffrey Dean和Sanjay Ghemawat的“MapReduce: Simplified DataProcessing on Large Clusters”中描述的MapReduce架构来实现,其全部内容通过引用并入本文中。在多个方面,该并行计算环境可以根据MateiZaharia、Mosharaf Chowdhury、Michael J. Franklin、Scott Shenker和Ion Stoica的“Spark: Cluster ComputingwithWorking Sets”中描述的Spark架构来实现,其全部内容通过引用并入本文中。如本领域技术人员能够认识到的,这些实施方式旨在是示例性的而非限制性的。在多个实施方式中,分析系统110可以使用一个或多个计算集群、服务器、工作站、台式机、笔记本电脑来实施。在一些实施方式中,分析系统110可以使用基于云计算环境来实施。在一些实施方式中,分析系统110可以被配置为分析数据。该数据可以包括从系统100的一个或多个其他组件,诸如数据系统105或用户设备120,或其他系统接收的观测数据。
用户设备120可以包括被配置为与系统100其他组件通信的计算系统。以下参考图7A描述用户设备120的示例性组件。用户设备120可以被配置为发送和接收来自分析系统110和数据系统105中的至少一个的数据或指令。用户设备120可以被配置为通过网络130与系统100的其他组件通信。在一些实施方式中,用户设备120可以作为系统100另一组件的客户端运行。用户设备120可以包括但不限于一个或多个服务器、工作站、台式机或移动计算设备(例如笔记本电脑、平板、平板手机或智能手机)。用户设备120可以被配置为能够与用户120A交互。在一些方面,用户设备120可以提供用于显示信息的图形用户界面。该显示信息可以由用户设备120接收,或可以由用户设备120产生。作为非限制性实施例,该显示信息可以包括由系统100产生的观测数据或结果的至少一个部分(例如显著性值)。
与公开的实施方式一致,用户120A可以与用户设备120交互以使用系统100。在一些实施方式中,用户120A可以与用户设备120交互以使数据系统105提供数据。该提供的数据可以包括观测数据。该提供的数据可以包括其他分析或数据集、排名、显著性值或其他信息。该提供的观测数据可以由数据系统105、系统100的另一组件或另一系统产生。该数据可以提供给分析系统110或系统100的其他组件。在某些实施方式中,用户120A可以与用户设备120交互以使分析系统110确定显著性值。在一些实施方式中,该显著性值描述了观测数据中与观测结果(诸如连续值观测结果)相对应的因子的显著性。在一些实施方式中,用户120A可以与用户设备120交互以使分析系统110执行如下所述的荟萃分析。在一些方面,用户120A可以与用户设备120交互以使分析系统110提供数据。该提供的数据可以包括显著性值。该提供的显著性值可以由分析系统110、系统100的另一组件或其他系统产生。该数据可以提供给用户设备120、或系统100的另一组件、或另一系统。
网络130可以被配置为提供图1组件之间的通信。作为非限制性实施例,网络130可以是提供通信、交换信息和/或促进信息交换的任意类型的网络(包括基础设施),诸如因特网、局域网或其他适合的连接,以使系统100在系统100组件之间、系统100组件与其他系统之间以及系统100与其他系统之间发送和接收信息。
图2A、2B和2C描述了确定观测数据中因子显著性的方法的示例性流程图。如图2A、2B和2C所示,对应于因子的连续值观测结果可以标准化(如步骤201所讨论的)。根据标准化的连续值观测结果,可以确定每个因子的分布统计值(如步骤203所讨论的)。可选地,在某些实施方式中,步骤201和203可以作为COPA方法202的一部分执行,如虚线框所示。当作为COPA方法202的一部分执行时,该分布统计值可以为COPA得分。相反的,当不执行COPA方法202时,该分布统计值可以源自其他任意分布统计的分布统计值,诸如(但不限于)平均值、中位数、众数、异常值之和(在Robert Tibshirani和Trevor Hastie的“Outlier sums fordifferential gene expression analysis”中进一步详细描述,其全部内容通过引用并入本文中)或最大有序子集t-统计(在HengLian的“MOST: detecting cancer differentialgene expression”中进一步详细描述)
如图2A和2B所示,根据分布统计值,零分布可以通过函数法(如结合步骤205B所讨论的)或自助重抽样方法(如结合步骤205A所讨论的)确定。显著性值可以使用零分布计算(如结合步骤207所讨论的)。可选地,该显著性值可以与其他分析一起执行荟萃分析(如结合通过虚线的可选步骤209所讨论的)以产生修正显著性值。
图2A、2B和2C方法操作的观测数据可以包括在至少一个非暂时性存储器中存储的数据。在一些实施方式中,该观测数据可以包括一个分析的多个样本。每个样本可以包括多个连续值观测结果。每个连续值观测结果可以对应于一个因子。作为非限制性实施例,该观测数据可以以表格或矩阵形式存储、组织或提供、该矩阵的列对应于样本、行对应于因子、条目对应于连续值观测结果。
参照图1,在一些方面,分析系统110可以被配置为从样本中接收观测数据以执行与图2A、2B和2C相关的描述的方法。作为非限制性实施例,分析系统110可以被配置为接收系统100的一个或多个其他构件或另一系统包含样本的观测数据。作为非限制性实施例,分析系统110可以被配置为接收包括来自数据系统105包含样本的观测数据。作为另外的非限制性实施例,分析系统110可以被配置为接收包括来自用户设备120包含样本的观测数据。在多个方面,接收包含样本的观测数据可以包括检索来自非暂时性存储器包含样本的观测数据,例如与系统100的构件或另一系统相关联的非暂时性存储器。
回到图2A、2B和2C,步骤201中,与公开的实施方式一致,分析系统110可以被配置为标准化该观测数据。在一些方面,连续值观测结果的值可能不是按因子相同分布的。作为非限制性实施例,第一因子的连续值观测结果的值可以从第二因子的连续值观测结果的值的不同的概率分布中得出。分析系统110可以被配置为标准化该观测数据,以使连续值观测结果接近从相同分布的独立随机变量中提取的样本。该标准化可以使所公开的系统和方法能够更好地估计每个因子的零分布。
例如,步骤201中,与公开的实施方式一致,分析系统110可以被配置为确定因子的连续值观测结果的集中趋势和离散的程度以标准化该因子的观测数据。一个分析的观测数据中的至少一部分因子来确定集中趋势和离散程度。集中趋势和离散程度的值可以包括存储在至少一个非暂时性存储器中的数据。在一些实施方式中,集中趋势的程度可以包括算法平均数、几何平均数、四分位平均数或中位数。在多个实施方式中,集中趋势的程度可以包括如本领域技术人员认识的位置稳健估计器(robust estimator)。在一些实施方式中,离散度可以包括标准偏差、四分位间距、绝对中位差、平均绝对偏差或最大绝对偏差。在多个实施方式中,离散度可以包括如本领域技术人员认识的比例稳健估计器。作为非限制性实施例,分析系统110可以被配置为根据公式和/>确定对应于因子的连续值观测结果的中位数和绝对中位差,其中是对应于因子的一组连续值观测结果。因此,M是中观测结果的值与中位数值之差的绝对值的中位数。
进一步到步骤201,分析系统110可以被配置为使用集中趋势和离散程度以标准化分析中的该连续值观测结果。在一些实施方式中,与公开的实施方式一致,分析系统110可以被配置为缩放该连续值观测结果。缩放的连续值观测结果可以存储在至少一个非暂时性存储器中。在一些方面,缩放连续值观测可以包括将对应于每个因子的连续值观测结果减去该因子的集中趋势度值,然后除以该因子的离散度值。
步骤203中,与公开的实施方式一致,可以确定因子的分布统计值。该值可以包括存储在非暂时性存储器中的数据。在一些实施方式中,分析系统110可以被配置为使用对应于因子的缩放的连续值观测结果确定因子的分布统计值。在一些方面,该分布统计可以包括分位数或百分位数,诸如第95或第5百分位数。作为非限制性实施例,分析系统110可以被配置为对应于因子的连续值观测结果的缩放的第95百分位值确定为分布统计值。在一些实施方式中,分析系统110可以被配置为确定因子的多个分布统计的值。作为非限制性实施例,分析系统110可以被配置为确定因子的第95百分位数和第5百分位数。在某些实施方式中,分布静态值可以是从COPA确定的值作为COPA得分。
进一步到步骤203,该分布统计可以建立因子的阈值,表明观测结果是由于因子的剩余缩放的连续值观测结果方面是极端的异常值。在某些实施方式中,如下结合图4A进一步所讨论的,阈值可以用于确认零显著性阈值。如本领域技术人员能够认识到的,其他分布统计可以用于建立阈值。例如,可以使用对应于因子的连续值观测结果的缩放的平均值加上一些标准偏差建立该阈值。
回到图2A、2B和2C,如虚线框的步骤202所示,步骤201和203可以是COPA方法的步骤以确定作为因子分布统计值的COPA得分。作为非限制性实施例,作为与步骤201相关地进一步讨论的标准化连续值观测结果的一部分,COPA方法可以包括基于中位数和绝对中位差对因子的连续值观测结果应用数值变换。然后,结合步骤203进一步讨论的,作为确定的因子分布统计值的一部分,变换的连续值观测结果可以取分位数以产生COPA得分。COPA得分将对应于与连续值观测结果相关的因子。因此,在分析中,每个因子可以具有来自不同样本的多个连续值观测结果和来自不同样本的多个连续值观测结果的单个COPA得分。
在图2A的步骤205A以及图2B的步骤205B中,与所公开的实施方式一致,可以确定分布统计的零分布。在假设观测数据中的方差仅取决于偶然的情况下,零分布可以包括分布统计的统计分布。
在某些实施方式中,如图2A的步骤205A所示,可以通过自助法凭经验确定零分布。例如,分析系统110可以被配置为确定至少一部分因子或所有因子的零分布。在多个方面,分析系统110可以被配置为使用重抽样技术来确定零分布。作为非限制性实施例,分析系统110可以被配置为使用自助法来确定零分布。在一些方面,分析系统110可以被配置为使用标准化观测数据确定零分布。作为非限制性实施例,分析系统110可以被配置为从标准化观测数据中随机选择一组缩放的连续值观测结果以确定零分布。该组中的观测结果数量可以等于对应于因子的标准化观测数据中的缩放的连续值观测结果的数量。作为非限制性实施例,当分析中的观测数据集为对应于因子的行以及对应于样本的列的矩阵形式排列时,该集合中的观测结果数可以等于观测数据集中的列数。分析系统110可以被配置为计算随机选择的集合的分布统计值。分析系统110可以被配置为从标准化观测数据重复地和随机地选择集合并计算分布统计值。该选择过程可以通过或不通过替换来进行。在一些实施方式中,分析系统110可以被配置为以预定次数重复该过程。作为非限制性实施例,分析系统110可以被配置为重复该过程100次、1000次或1百万次。在某些实施方式中,分析系统110可替代地被配置为重复该过程直至经过预定量的时间,诸如直到10秒、100秒或10000秒。分析系统110可以被配置为使用随机选择的集合的分布统计值来确定显著性值。
在一些实施方式中,如结合图2B中205B讨论的,分析系统110可以被配置为通过函数法确定零分布,无需完成上述结合步骤205A的自助重抽样方法确定零分布,与公开的实施方式一致。在一些实施方式中,如上所述,分析系统110可以被配置为生成自助值。在某些方面,分析系统110可以被配置为使用自助值估计零分布的一部分(并未完成确定零分布的自助法)。作为非限制性实施例,可以通过分析系统110估计零分布的尾部。该尾部可以是零分布的右尾(upper tail)或左尾(lower tail)。在一些方面,分析系统110可以被配置为通过将函数拟合到自助值的至少一部分来估计零分布的尾部。分析系统110可以被配置为使用本领域技术人员已知的方法和系统来完成该函数拟合。作为非限制性实施例,分析系统110可以被配置为在全距内选择最小化某些泛函(诸如均方误差)的函数参数。该范围可以是零分布的一部分,诸如零分布的尾部。该函数可以是正态分布或“重尾”分布,与所公开的实施方式一致。在一些实施方式中,该函数可以是幂律分布。作为非限制性实施例,该函数可以是帕累托分布,并且可以通过比例参数xm和形状参数α来描述。
进一步至步骤205B,在一些实施方式中,分析系统110可以被配置为在使用函数(作为函数法的一部分)估计零分布的尾部时使用减少数量的自助法样本,与当执行如结合图2A的步骤205A所讨论的自助重抽样方法时的自助法样本的数量相反。作为非限制性实施例,在执行结合步骤205B讨论的函数法时,分析系统110可以被配置为随机50次、75次或100次以在使用函数估计零分布尾部时产生零分布。如本领域技术人员所理解的,随机化数量的减少提高了系统100的效率,并降低了存储器和处理要求。因此,这些实施例构成对技术和技术领域的改进,并且改进系统100本身的机能。
在图2A和图2B的步骤207中,零分布可以部分用于确定显著性值,与公开的实施方式一致。该显著性值可以包括存储在至少一个非暂时性存储器中的数据。在一些实施方式中,分析系统110可以被配置为基于该零分布确定至少一部分显著性值。作为非限制性实施例,在一些方面,分析系统110可以被配置为使用根据零分布的零假设随机生成的值确定因子的显著性值(通过结合图2A中步骤205A讨论的自助重抽样法或结合图2B中步骤205B讨论的函数法确定)。进一步至包括如上讨论的COPA方法202的示例性实施方式,每个因子可能具有来自不同样本的多个连续值观测结果、来自不同样本的该多个连续值观测结果的单个COPA得分和基于该COPA得分的显著性值(诸如p值)。作为非限制性实施例,分析系统110可以被配置为确定因子的显著性值作为超过因子分布统计值的随机生成值的比例。可以找到超过因子统计分布值的随机生成值作为零分布的一部分。作为非限制性实施例,因子的第90百分位数(作为结合步骤203所讨论的示例性分位数)得分可以是30。
进一步至步骤207,如上所述,通过观测数据的随机化重复生成第90百分位数得分以估计零分布。在非限制性实施例中,当执行结合图2A中步骤205A讨论的自助重抽样法时,照这样生成的10000个随机化中的5个可能超过值30。因此,在非限制性实施例中,因子的显著性值可能是5/10000或0.0005。
进一步至步骤207,在一些实施方式中,分析系统110可以被配置为使用确定为结合图2B的步骤205B讨论的函数法的部分的函数确定因子的显著性值。在一些方面,分析系统110可以被配置为通过估计函数下的面积来确定显著性值。在某些方面,该面积的值可以是显著性值。在多个实施方式中,分析系统110可以被配置为使用对应于估计函数的累计分布函数来确定显著性值。作为非限制性实施例,当估计函数是具有比例参数xm和形状参数α的广义帕累托分布时,累积分布函数可以为。分析系统110可以被配置为通过将因子分布统计值代入累积分布函数来直接确定因子显著性。该确定可以取决于因子是否具有位于零分布的左右尾的值。在非限制性实施例中,假设xm=5,α=2以及因子的第90百分位数得分值为30,则第90百分位数得分小于30的概率为/>。分析系统110可以被配置为估计因子的显著性为一减去累积分布函数值,或在该非限制性实施例中为0.03。作为另一非限制性实施例,假设xm=6,α=2以及因子的第10百分位数得分值为6.1,则第10百分位数得分小于6.1的概率为/>。分析系统110可以被配置为估计因子的显著性为累积分布函数的值,或在该非限制性示例中为0.03。
进一步至步骤207,分析系统110可以被配置为输出因子显著性值,与公开的实施方式一致。在一些实施方式中,如上所述,显著性值可以基于分布统计和零分布的值。在多个实施例中,输出显著性值可以包括由分析系统110显示和/或打印、存储或提供显著性值的至少一部分中的至少一个。在某些方面,分析系统110可以被配置为存储在非暂时性存储器中的显著性值的至少一部分。在多个方面,分析系统110可以被配置为提供显著性值至系统100的一个或多个其他组件或其他系统中。作为非限制性实施例,分析系统110可以被配置为向用户设备120提供显著性值的至少一部分。用户设备120可以被配置为执行显示和/或打印、存储或提供显著性值的至少一部分中至少一个。如本领域技术人员认识到的,显示和打印可以包含一系列视觉呈现方法,并且所公开的主旨不旨在限于特定的方法。
可选地,如图2A和图2B中虚线框所示,某些实施方式可以通过荟萃分析执行可选步骤209以生成修正的显著性值,与公开的实施方式一致。在一些实施方式中,该荟萃分析可以组合分析。分析系统110可以被配置为接收或生成(使用本文描述的方法和/或本文未描述的其他方法)包括在荟萃分析中的额外分析。作为非限制性实施例,分析系统110可以被配置为从系统100的另一个组件或另一个系统接收至少一些分析。作为另外的实施例,分析系统110可以被配置为从来自系统100的另一个组件或另一个系统接收的观测数据中生成至少一些分析。这种荟萃分析可以使用户组合多组观测数据的结果,以确定所有观测数据集中的最显著因子。
进一步至步骤209,在一些实施方式中,分析系统110可以被配置为使用Fisher的组合概率检验来确定分析中每个因子的修正的显著性值(诸如但不限于修正的p值)。作为非限制性实施例,分析系统110可以被配置为使用Fisher的组合概率检验来确定基于来自一个分析的显著性值和来自第二分析的显著性值的每个因子修正的显著性值。在多个实施例中,分析系统110可以被配置为使用其他类型的荟萃分析(诸如,但不限于秩-积检验)来确定每个因子的修正的显著性值。
参照图2C,在一些实施方式中,分析系统110可以被配置为使用改良秩-积检验确定基于分析的每个因子的显著性值。在一些实施方式中,分析系统110可以被配置为在缺少显著性值时使用秩-积检验。如图2C所示,缺乏结合图2A和图2B的步骤207所讨论的确定的显著性值时,可以使用在步骤203中产生的分布统计执行改良秩-积类型的荟萃分析(如图2C步骤600所示以及结合图6进一步讨论)。如下进一步讨论的,示例性秩-积检验在RobEisinga、Rainer Breitling和Tom Heskes的“The exact probability distribution ofthe rank product statistics for replicated experiments”以及Rob Eisinga、RainerBreitling和Tom Heskes的“A fast algorithm for determining bounds and accurateapproximate p-values of the rank product statistic for replicate experiments”中描述,两者的全部内容通过引用并入本文中。改良秩-积方法利用归一化秩以计算分析中的缺失值(秩)。在Eisinga等人参考文献的原始方法中没有涵盖分析中缺失值的计算。如下进一步详细讨论的,归一化秩通过计算每个分析的比例因子并将分析中的每个因子的秩乘以比例因子来执行。用于分析的比例因子可以取决于分析中的多个因子,并且可以取决于改良秩-积荟萃分析中的所有分析中的完整因子集的大小。分析的比例因子可以是所有分析中的完整因子集大小与分析中的因子数量的比率。
图3A和3B描述了根据预期的系统和方法估计的零分布的实施例。使用癌症基因组图谱乳腺浸润性癌(TCGA BRCA)分析计算、使用上述关于图2A、图2B和图2C中的中位数和绝对中位差标准化这些零分布。图3A描述了两个分布统计的两个示例性零分布,与公开的实施方式一致。如本领域技术人员理解的,所述零分布为概率密度函数。对于图3A中每个描述的零分布,横坐标为描述性统计值,纵坐标为对应的概率密度。在该限制性实施例中,假设标准化的观测数据中的任意方差来自偶然,零分布301可以为标准化的观测数据的第90百分位数的分布。同样的,假设标准化观测数据的任意方差来自偶然,零分布303可以为标准化的观测数据的第95百分位数的分布。在该非限制性实施例中,分布统计值305可以为对应于因子的标准化的观测数据的第90百分位数的值。如图3A所示,在零分布301的曲线下,分布统计值305右侧存在区域。在一些方面,该区域的面积可以是对应于因子的标准化的观测数据的第90百分位数的值由于偶然性超过统计值305的可能性。同样的,分布统计值307可以为对应于因子的标准化的观测数据的第95百分位数的值。如图3A所示,在零分布303的曲线下,分布统计值307右侧存在区域。在一些方面,该区域的面积可以是对应于因子的标准化的观测数据的第95百分位数的值由于偶然性超过统计值307的可能性。在一些实施方式中,随着描述性统计的变化,零分布的特征可能改变。在一些方面,零分布的对称性或极值行为中的至少一个可以随着描述性统计变化而改变。作为非限制性实施例,如图3A所示,当描述性统计从第90百分位数变为第95百分位数时,分布更加重尾,具有极值和增加的正偏态的更大的可能性。如本领域技术人员所认识到的,根据标准化观测数据的偏斜,较低一侧百分位数(例如,第5和第10百分位数)的分布可以近似反映较高一侧百分位数(例如,第90和第95百分位数)的分布。
图3B描绘了与所公开的实施方式一致的用于分布统计的增广的示例性零分布。对于图3B描绘的零分布,横坐标为描述性统计的值,纵坐标为对应的概率密度。该非限制性实施例描绘了第95百分位数的增广的零分布的生成。如上关于图2A、图2B和图2C所述,分析中的连续值观测结果被标准化,并且生成第95百分位数的零分布的随机化。在该非限制性实施例中,生成了100个随机化。这些随机化描述了零分布311。但是由于随机化的数量少,零分布311在分布的右尾表现出不良行为。在该非限制性实施例中,使用广义帕累托分布313来逼近零分布311的尾部。这充分减少了获得不可能事件的显著性值精确估计需要的随机化数量(即分布中远在尾部的那些)。如图3B所示,基于随机化的分布,广义帕累托分布313适于零分布311的尾部。可以使用拟合优度检验来测量函数的普适性。如上关于图2A、图2B和图2C所述,拟合函数可以用于直接估计描述性统计极值的p值(显著性值)。
图3C描绘了估计显著性值的两种方法之间的示例性比较,与公开的实施方式一致。该示例性比较还使用TCGA BRCA分析、使用中位数和绝对中位差标准化。在分析中计算每个基因(即因子)的第95百分位数。根据自助重抽样方法,使用10000次随机化估计零分布。每个基因的p值(显著性值)计算为零分布中随机化大于或等于基因的第95百分位数的测量值的比例。根据该自助重抽样方法计算的,显著分布321的横坐标为每个基因p值对数的负数。根据函数法,使用100个随机化估计零分布。广义帕累托分布拟合到第95百分位数分布的尾部。基于每个基因第95百分位数和对应于拟合的帕累托分布的广义累积分布函数计算每个基因的p值。根据该函数法计算的,显著性分布321的纵坐标为每个基因p值对数的负数。当通过自助重抽样方法和函数法获得的基因的p值相等时,基因的显著分布321的值位于线323上。显著分布321位于线323下方,由函数法获得的p值小于使用自助重抽样方法获得的p值。许多基因具有相同的横坐标值:对于这些基因,相同数量的随机化大于或等于测量值。只有通过大大增加随机化数量才能打破这些联系,并获得观测数据准确的p值。相反的,从图3C中可以观测到的,函数法倾向于保守估计p值,但是能够使用少得多的随机化来估计测量统计的更加极端的值的p值。在图3A-3C可以看出,自助重抽样方法和函数法都代表了技术和技术领域的改进,因为它们能够通过系统100改进对观测分析(例如TCGABRCA分析)中基因的显著性值的计算。
图4A描绘了用于确定观测数据中的异常值显著性的计算法的示例性流程图,与公开的实施方式一致。在一些实施方式中,该计算法可以根据伯努利试验来模拟分布统计的估计,从而允许最小计算的精确解(通过不要求零分布的确定)。如上所述,零分布的确定促进计算资源的大量支出。如上结合图2B所讨论的,功能方法可能有助于增加零分布。然而,该计算法提供了更多优点,因为不需要计算零分布来产生显著性值。通过该计算法提供最小的计算精确,通过提高效率和减少存储器和处理要求来改进系统100的功能。因此这些实施方式构成了对技术和技术领域的改进,以及对系统100本身功能的改进。
如上关于图1所述的,分析系统110可以被配置为接收观测数据,与公开的实施方式一致。观测数据可以包括样本。该样本可以包括对应于因子的许多连续值观测结果。
另外,如上关于图2A,图2B和图2C的步骤201所述,分析系统110可以被配置为在图4A中的步骤201中标准化观测数据。在一些实施方式中,标准化数据可以包括确定集中趋势和离散的程度。对应于因子的连续值观测结果可以确定集中趋势和离散的程度。如上关于步骤201所述的,可以使用集中趋势和离散的多种程度。作为非限制性实施例,集中趋势的程度可以是中位数。作为非限制性实施例,离散度可以是绝对中位差。在一些实施方式中,如上关于步骤201所述的,分析系统110可以被配置为通过集中趋势和离散的程度来缩放对应于该因子的连续值观测结果。
在步骤203中,如上结合图2A、图2B和图2C所讨论的,分析系统110可以被配置为确定因子的分布统计值。作为非限制性实施例,分析系统110可以被配置为确定对应于观测分析中的连续值观测结果的每个因子的分布统计值。分布统计的值可以包括存储在至少一个非暂时性存储器中的数据。在一些方面,分布统计可以包括分位数。作为非限制性实施例,包括分位数的分布统计量可以包括对应于因子的连续值观测结果的第5、第10、第25、第75、第90或第95百分位数。在多个方面,分布统计可以包括对应于因子(例如,最高或最低观测结果,下一个最高或最低观测结果等)的连续值观测结果的排序表中的预定观测位置。
如上结合图2A-2C进一步讨论的带有虚线的步骤202中所示的,步骤201和203可以是COPA方法的步骤以确定COPA得分为因子的分布统计值。
在步骤403中,分析系统110可以被配置为确定零显著性似然(null significancelikelihood),与公开的实施方式一致。零显著性似然的值可以包括存储在至少一个非暂时性存储器中的数据。在一些实施方式中,零显著性似然可以取决于标准化观测数据。在某些方面,分析系统110可以被配置为确定因子的零显著性似然。作为非限制性实施例,分析系统110可以被配置为确定观测分析中的连续值观测结果子集对应的每个因子的零显著性似然。在一些实施方式中,零显著性似然可以取决于在步骤203中确定的分布统计值(分布统计值)。
进一步至步骤403,在一些实施方式中,分析系统110可以被配置为确定零显著性似然,因为标准化观测数据中的缩放连续值观测结果的比例比在步骤203中确定的分布统计值更极端。换句话说,在分析中选择连续值观测结果似然比分布统计更极端。当分布统计量涉及较高的分位数时,这样的极端数据可以具有等于或大于分布统计值。当分布统计量涉及较低的分位数时,这样的极端数据可以具有等于或小于分布统计值。下面结合图4B进一步讨论零显著性似然。
在步骤405中,分析系统110可以被配置为确定因子的零显著性阈值,与公开的实施方式一致。作为非限制性实施例,分析系统110可以被配置为根据观测数据内所选的分位数的值和的样本数量来确定观测分析的零显著性阈值。零显著性阈值的值可以包括存储在至少一个非暂时性存储器中的数据。分析系统110可以被配置为根据观测数据内所选择的分位数和的样本数来确定零显著性阈值的值。
进一步至步骤405,在一些方面,当分布统计为分位数时,分布统计量可以位于对应于因子的观测值的排序表中的预定位置。在一些方面,分析系统110可以被配置为将该预定观测位置设置为零显著性阈值。在多个方面,分析系统110可以被配置为基于分位数确定零显著性阈值。
进一步至步骤405,在一些方面,分析系统110可以使用用于估计分位数的该预定观测位置的公式来确定零显著性阈值。在一些方面,该公式可以取决于与因子和分位数参数相关联的连续值观测结果的数量。作为非限制性实施例,用于确定该预定观测位置的公式可以对应于分位数的特定估计类型。作为非限制性实施例,该估计类型可以对应于分位数的R-7估计类型,其中零显著性阈值可以取决于h=(N-1q i+1,其中N为对应于因子的连续值观测结果的数量,q i为分位数参数。在一些实施例中,分析系统110可以被配置为将零显著性阈值设置为h的最接近的整数、h的底值或h的上限。在一些实施例中,非整数零显著性阈值可以使用不完全β函数用于插值近似分位数。可以如下计算分位数参数q i
q i=min(q,1-q)
,其中q为分布统计量的分位数除以分位数总数。作为非限制性实施例,当分布统计为第5百分位数并且N等于200时,q可以为0.05,q i可以为0.05,h可以为10.95。作为另外的非限制性实施例,其中分布统计为第3四分位数并且N等于200,q可以为0.75(即,第三四分位数除以四个四分位数),q i可以为0.25,h可以为50.75。如此,与公开的实施例一致,可以容纳关于零分布的右尾和左尾的分布统计。
进一步至步骤405,本领域普通技术人员理解的所公开的实施方式不限于这些示例性公式。从这些公式可以明显看出,零显著性阈值可以随着分位数变得更加极端而减小。作为非限制性实施例,当N为200时,第10百分位数的零显著性阈值可以为20.9,以及第一百分位数的零显著性阈值可以为2.99。作为另外的非限制性实施例,当N为200时,第80百分位数的零显著性阈值可以为40.8,以及第99百分位数的零显著性阈值可以为2.99。
在步骤407中,分析系统110可以被配置为确定根据伯努利试验的因子的显著性值,与公开的实施方式一致。如上结合图2A所讨论的,分析系统110可以被配置为将因子的显著性值确定为随机生成值超过因子的分布统计值的比例。作为非限制性实施例,分析系统110可以被配置为确定对应于分析中的连续值观测结果的每个因子的显著性值。显著性值可以包括存储在至少一个非暂时性存储器中的数据。在一些实施例中,分析系统110可以被配置为根据分布确定因子的显著性值。在一些方面,该确定可以使用对应于因子的零显著性似然和零显著性阈值。
进一步至步骤407,如上所述,分析系统110可以被配置为根据伯努利试验来模拟分布统计的估计。在这样的试验中,累积二项分布描述了比观测值更极端的值的可能性:
,其中α(显著性值)为随机抽样值比观测值更极端的概率,N为与因子相关的连续值观测结果的数量,β为零显著性阈值,ρ为零显著性似然。照这样,分析系统110可以被配置为在不通过抽样估计零分布的情况下确定因子的显著性(如上结合图2A和图2B所讨论的)。相反,如上所公开的可以直接估计该因子。
进一步至步骤407,在这样的试验中,当对应于因子的随机选择的连续值观测结果的数量(随机选择的连续值观测结果对应分析中样本数量)至少等于零显著性阈值时,分布统计的随机生成值可能比分布统计的观测值更加极端。作为非限制性实施例,如果预定观测位置是第3位置,则分布统计为第3位置中的排序的连续值观测结果(即,分布统计值为第三最大观测结果),然后当从标准化观测数据中随机选择的至少三个值超过观测值时,分布统计的随机生成值可能比分布统计的观测值更极端。作为进一步的非限制性实施例,如果预定观测位置为第一十分位数以及连续值观测结果的数量为201,那么当分布统计的观测值超过至少21个从标准化观测数据中随机选择的值时,分布统计的随机生成值可能比分布统计的观测值更极端。
进一步至步骤407,在一些实施方式中,分析系统110可以被配置为使用不完全β分布来代替累积二项分布:
,其中α(显著性值)为随机抽样值比观测值更极端的概率,N为与因子相关的连续值观测结果的数量,β为零显著性阈值,ρ为零显著性似然。这种不完全β分布的使用可以使分析系统110能够使用β的非整数值作为零显著性阈值。因此,分析系统110可以被配置为使用h作为零显著性阈值,而不是h的最接近的整数、h的底值或h的上限。
图4B是标准化分析450和连续值观测结果的排序表460的示例性概念图,其对应于说明零显著性和无效阈值的因子,与公开的实施方式一致的。标准化分析450表示为对应因子的行以及对应样本的列的矩阵。如上结合图2A、图2B、图3C和图4A的步骤201进一步讨论标准化。每个方形表示连续值观测结果。具有实心填充的方形表示比任意分布统计值更极端的标准化连续值观测结果。
图4B中还示出了来自图4B所示的分析的因子的标准化连续值观测结果,但是对于标准化连续值观测结果,其被重新排序为随机因子的排序表460。该随机因子的排序表460包括在分析450中的所有连续值观测结果中随机选择的标准化连续值观测结果。换句话说,排序表460可以对应于分析450的自助重抽样中的随机因子。作为排序表460的一部分,可以对这21个标准化连续值观测结果进行排序以使每个标准化连续值观测结果比右侧标准化连续值观测结果更极端。尽管在所示实施方式中存在21个标准化连续值观测结果,但是标准化连续值观测结果的数量是任意的并且在此选择用于说明目的,但是对应于分析450中的样本数量。在排名表中的第一标准化连续值观测结果可以称为X[1],最后一个可以称为X[21]。具有实心填充的方形表示比分布统计值更极端的标准化连续值观测结果。
进一步至图4B,箭头462指出排序表460是从分析450中随机选择的连续值观测结果的集合。随机选择的连续值观测结果的数量对应于分析450中的样本数量。连续值观测结果是实心填充方形的可能性是零显著性似然。因此,零显著性似然是分析450中实心填充方形占总方形数的比例。
此外,进一步至图4B,可以使用伯努利试验确定因子的零显著性阈值,而不计算分析450的零分布。这可以基于对分析的整个标准化值的洞察,表示为伯努利试验,可用于表示(并代替确定)分析的零分布。因此,在排序表460中,实心填充的方形456是在零显著性阈值处的标准化连续值观测结果。换句话说,对应于零显著性阈值的实心填充方形456的存在表明了该排序表460与分布统计相同或更极端。参考如上讨论的分位数的R-7估计类型,实心填充方形456可以是X[6],或X[h],其中h=(N-1q i+1(零显著性阈值),并且其中h为6,N为21,q i为1/4。
回至图4A,可选地,如虚线所示,某些实施方式可执行步骤209以通过荟萃分析产生修正的显著性值,与公开的实施方式一致,如上结合关于图2A和图2B进一步讨论的步骤209所述。该荟萃分析可以组合分析,该分析包括在步骤407中确定的结果。例如,如上所述,在一些实施方式中,分析系统110可以被配置为使用Fisher的组合概率检验,确定基于第一分析的显著性值(诸如在步骤407中确定的)和第二分析的显著性值的每个因子的修正的显著性值。
图5描绘了关于图2B中的自助重抽样(函数法503)描述的函数法和关于图4A描述的计算法(计算法505)的示例性比较。使用来自Illumina®BaseSpaceTM Cohort Analyzer平台中的五种不同乳腺癌分析的基因的每种方法计算显著性值。对于来自如关于图2B所述的零分布的10000个样品的每个基因由经验确定显著性值。计算显著性值时的不准确性表现为与等值线的偏差。如图5所示,使用计算法505计算的显著性值比使用函数法503中的广义帕累托分布的近似零分布确定的显著性值更精确。如图所示,计算法505通常不偏离等值线,而函数法503随着经验确定的显著性值减小,越来越低估显著性值。
图6描绘了用于执行改良秩-积荟萃分析的示例性方法,与公开的实施方式一致的。该方法可以包括聚集或以其他方式接收分析,如下结合步骤601进一步讨论。分析可以包括存储在至少一个非暂时性存储器中的数据。可以对所接收的分析进行排序以产生如下结合步骤602进一步讨论的排序因子。所接收的分析可以包括不同数量的因子,并且在分析之间排序因子可以不同。所接收的分析可以共同定义因子的完整集合,每个单独的分析可以包括至少一些因子的完整集合。该方法可以进一步包括对秩进行归一化以考虑分析之间的不同数量的因子,如下结合步骤603进一步讨论。如下结合步骤603进一步讨论的,可以通过将分析中的每个因子的秩乘以比例因子来对秩进行归一化,该比例因子为分析中整个因子集尺寸数量与分析中的因子数量之比。该方法可以另外包括如下面结合步骤605进一步讨论的计算秩-积。该方法可以另外包括结合步骤607进一步讨论的使用秩-积确定因子的显著性值。如下进一步讨论的,改良秩积检验方法利用归一化秩来计算分析中的缺失值,未涵盖在Eisinga等人的参考文献描述的原始方法中。
分析系统110可以被配置为在步骤601中接收分析,与公开的实施方式一致。分析系统110可以被配置为从系统100的一个或多个其他组件(例如数据系统105,用户设备120)或另一个系统接收分析。接收多个分析可以包括从非暂时性存储器中检索分析,例如与系统100的组件或另一个系统相关联的非暂时性存储器。接受分析可以包括生成至少一个分析,与公开的实施方式一致。在一些方面,分析系统110可以被配置为使用所接收的观测数据生成至少一个分析。该观测数据可以从系统100的一个或多个其他组件(例如,数据系统105或用户设备120)或另一系统接收。在一些方面,分析系统110可以被配置为确定或接收分析中的因子的得分,例如关于图2A、图2B、图2C和图4A所述,作为非限制性实施例,因子的得分可以是如上进一步讨论的COPA得分。
在多个方面,分析系统110可以被配置为基于步骤602中的得分对观测数据中的因子进行排序。在多个方面,分析系统110可以被配置为基于步骤602中的得分对观测数据中的因子进行排序。作为非限制性实施例,分析系统110可以被配置为将最低秩分配给具有最大极值的因子,并且将连续较高秩分配给具有连续较低极值的因子。可以根据本领域技术人员已知的方法说明联系。作为另一非限制性实施例,分析系统110可以被配置为将最高秩分配给具有最大极值的因子,并且将连续较低秩分配给具有连续较低极值的因子。作为另一非限制性实施例,分析系统110可以被配置为将最低秩分配给具有较高分位数的最高值(例如,第90或第95百分位数)的因子。作为另外的非限制性实施例,分析系统110可以被配置为将最低秩分配给具有较低分位数的较低值(例如,第1或第2十分位数)的因子。参考上述某些实施例中COPA得分的讨论,分析系统110可以被配置为将最低秩分配给具有最极端COPA的得分的因子,并且将连续地较高秩分配给具有连续地不太极端的COPA得分的因子。或者,分析系统110可以被配置为将最高秩分配给具有最极端COPA得分的因子,并且将连续地较低秩分配给具有连续地不太极端的COPA得分的因子。与公开的实施方式一致,分析系统110可以被配置为在步骤603中生成标准化秩。标准化秩可以包括存储在至少一个非暂时性存储器中的数据。分析系统110可以被配置为确定如上所述接收的分析的标准化秩。在一些方面,分析系统110可以被配置为计算每个分析的比例因子。用于分析的比例因子可以取决于分析中的多个因子,以及可以取决于在改良秩-积检验荟萃分析中所有分析的完整因子集的大小。用于分析的比例因子可以是改良秩-积检验荟萃分析中所有分析的完整因子集大小的数量与分析中因子数量的比值。分析系统110可以被配置为将分析中的每个因子的秩乘以比例因子。作为在步骤603中标准化的秩的非限制性优点,改良秩-积检验荟萃分析可以在具有不同数量的因子或不同因子的分析之间执行荟萃分析,而不是被限制在与Eisinga等人的参考文献中描述的原始秩-积检验荟萃分析中的相同因子的分析之间进行荟萃分析。
进一步至步骤603,作为非限制性实施例,分析系统110可能已经接收在改良秩-积检验荟萃分析中的所有分析中定义的20000个因子的完整集合的分析。分析系统110可以被配置为计算第一分析的比例因子为20000/18000,或1.11。分析系统110可以被配置为将第一分析中的每个因子的秩乘以1.11。因此,在第一分析中,第一因子的秩将归一化为1.11,第二因子的秩将归一化为2.22,第三因子的秩将归一化为3.33等。
分析系统110可以被配置为在步骤605中计算秩-积,与公开的实施方式一致。分析系统110可以被配置为计算因子的秩-积,作为包括因子的分析的每个分析中的因子的归一化秩的乘积。作为非限制性实施例,四个分析中的三个可以包括因子。第一分析中因子的归一化秩可以是19.5。第二分析中因子的归一化秩可以是36.05。第三分析中因子的归一化秩可以是14。因子的秩积可以是9841.65,这三个归一化秩的乘积。分析系统110可以被配置为使用秩积计算至少一些因子的完整集合的秩-积、包括因子的分析的数量以及因子完整集合的大小。
分析系统110可以被配置为在步骤607中确定因子的显著性值,与公开的实施方式一致。分析系统110可以被配置为使用标准化秩-积,诸如在步骤605中生成的那些,作为秩-积检验的一部分。某些秩-积检验,诸如Eisinga等人描述的快速算法,以及通过引用并入本文,使用多次复制计算显著性值。在一些实施方式中,分析系统110可以被配置为使用包括作为复制次数的因子的分析数量。作为非限制性实施例,当在四个分析中的三个出现因子时,复制的数量将是三个。
目前进行荟萃分析的解决方案,诸如由美国马萨诸塞州沃尔瑟姆的ThermoFisher Scientific维护的ONCOMINE产品所采用的ONCOMINE二项检验荟萃分析程序,可能需要大量分析才有效。ONCOMINE采用的二项检验荟萃分析程序在Daniel R. Rhodes、Jianjun Yu, K. Shanker、Nandan Deshpande、Radhika Varambally、Debashis Ghosh、Terrence Barrette、Akhilesh Pandey和Arul M Chinnaiyan的“ONCOMINE: A CancerMicroarray Database and Integrated Data-Mining Platform”中描述。
有利地,所公开的系统和方法能够在较低分析计数下识别具有比ONCOMINE二项检验荟萃分析更高准确度(更高灵敏度)的异常值。进行实验表明使用自助重抽样方法(如下至少结合图2A进一步讨论)、函数法(如下至少结合图2B进一步讨论)或计算法(如下至少结合图4A进一步讨论),与Fisher的组合概率检验荟萃分析或改良秩-积检验荟萃分析(如下至少结合图2C和图6进一步讨论)一起进行的5次分析,比应用至5个分析的ONCOMINE二项检验荟萃更有效地识别31个分析的ONCOMINE二项检验荟萃一致的异常值。
改良秩-积检验可能优于上述讨论的ONCOMINE二项检验荟萃分析,因为改良秩-积检验在较低的分析计数下可能更敏感。这可能是由于改良秩-积检验取决于分析中因子的相对排名,而不是在分析中将相似的排序因子处理为与ONCOMINE二项检验荟萃分析中相同的排名因子(诸如相似的高排名因子)。
实施例1
自助重抽样
为了估计统计显著性,当抽样分布未知时排列是标准做法[10]。然而,这种方法不能用于这种情况,因为排列样品标签对COPA得分没有影响,COPA得分是通过对基因样本的值进行排序并在标准化后取指定百分位数获得的。因此,我们采用略微不同的随机化策略,我们将其称为自助重抽样。
为了进行COPA随机化检验,基因中的基因表达值需要随机化,然而,表达值不一定彼此独立且相等分布。为了解决这个问题,在标准化之后进行随机化,其将值放在相同的比例上。因此,我们可以假设标准化值针对数据类型和平台(例如RNA-Seq-Illumina HiSeq)总体上独立且相等分布。我们随机地有/无替换(有/无取样的抽样不影响图11所示的结果)进行标准化值的重抽样,以产生新的矩阵并获得每个基因的百分位数,即COPA得分,如图8所示。然后该重抽样步骤重复多次(例如,10000)以产生COPA值的零分布。观测的COPA得分的p值可以容易地从该零分布获得。图12提供了在不同百分位数的两个乳腺癌数据集(GSE41998和TCGA乳腺癌数据集)的COPA得分的重抽样分布的实施例。显然分布从在75%的轻尾变为在95%的重尾。并且COPA得分在较低侧百分位数(例如5%、10%、25%)的分布反映了上侧百分位数(例如,95%、90%、75%)。
自助重抽样的一个限制是重抽样的p值通常被执行的随机化的数量限制,因此难以将那些最重要的基因与超过重新抽样的分辨率的真实p值区分开。
图8显示了自助重抽样的示意图。自助重抽样方法通过随机化接近COPA得分的显著性。随机抽取可以通过归一化的表达矩阵的自助法、随机抽样替换,然后计算那些随机化的COPA得分来获得。红色条表示抽样值与观测到的COPA得分一样,或更极端。注意的是仅当抽样的极值(红色条)数量超过COPA阈值(虚线)时,随机抽样的COPA得分比观测的得分更极端。这可能是通过二项重抽样实现精确计算的关键的观测结果。
实施例2
自助法+广义帕累托分布(函数法)
众所周知重抽样p值的分辨率受所执行的随机化数量的限制。为了获得更高的分辨率,它通常涉及密集型运算,因此通常不适用于大规模应用。Knijnenburg等人[11]提出使用极值理论估计小的排列p值,即通过广义帕累托分布接近分布的尾部。这可以扩展到重抽样p值。
因此具有函数的自助重抽样可以应用于TCGA BRCA数据集,以接近由自助重抽样的100次随机化产生的COPA得分的零分布的尾部。这大大减少了产生p值所需的随机化次数。基于重抽样的COPA得分的分布,右部(或对称的左部)尾部(对应于重抽样的COPA得分的0.1%)可以与广义帕累托分布拟合。密度图(图13)显示了GPD(橙线)向经验分布(黑线)尾部的拟合。通过拟合优度检验(p值=1)验证该拟合相当好。基于拟合的GPD,我们可以获得估计的p值,其与重抽样的p值相比倾向于保守。图14显示拟合p值和重抽样p值之间的良好匹配。当接近重抽样p值的分辨率极限时,出现拟合p值与重抽样p值的小偏差。垂直条的形成是因为在超过分辨率极限之后,例如10-7,对于许多顶部基因重抽样p值是相同的,而拟合p值仍然可以区分这些基因。重抽样相关方法的局限性仍然是计算密集型,特别是对于大规模研究是不可行的。
图9为示意图,其显示了通过确定产生COPA得分相同或更极端的随机化概率,然后对于自助重抽样方法可以根据经验确定观测的COPA得分的显著性。通过拟合广义帕累托分布(GPD),具有GPD的自助法能够通过推断p值分布来估计较少随机化范围的尾部末端的显著性。
图13和14将GPD拟合至重抽样的COPA得分的尾部分布。图13显示了经验分布(黑线)的尾部和拟合GPD(橙线)。图14显示了在达到分辨率极限之前拟合p值和重抽样p值之间的良好匹配。
实施例3
ssCOPA,二项重抽样方法
虽然通过随机化检验可以根据经验获得给定的观测的COPA得分的p值,但随着试验组大小增加变为计算密集型。此外,极显著性p值需要不可行数量的自助重抽样检验来实现估计它们所需的分辨率,这又需要大量计算。为了解决这个问题,我们引入了允许直接计算p值的精确的解决方案。
在随机化检验中,给定观测的COPA得分的p值,k,其由与k相等或更显著的自助重抽样检验的总数除以自助重抽样检验的总数确定。通过随机化数据集中的值并获得每行的第q百分位数的值来计算自助COPA得分。为了使给定的自助COPA得分与k相等或更显著,必须存在至少一定数量的抽样值与k相等或更显著,以使第q百分位数也相等或更显著。由于q用于下侧,1-q用于上侧,用于自助COPA得分与k相等或更显著的值的比例为r=min(q,1-q)。对应于r的值的数量取决于百分位数的计算,在我们的实现中我们使用R-7估计类型,因此该值是从最显著到最不显著的值(Hyndman等,1996)的N值排序表中的第((N-1)r+1)值。由于与k相同或更显著的抽样值的概率取决于从图10提取值的列,该设置描述了具有不等概率的伯努利试验。
图10是二项重抽样方法的示意图。如图所示,二项重抽样提供了用于计算自助重抽样的p值的精确解,无需随机化,通过直接计算随机抽样COPA得分的概率,其与在过程中作为伯努利试验的观测的COPA得分一致或更极端。
对于伯努利试验,我们能够计算在N次试验中以概率p发生的s次成功的概率。在这种情况下,成功被定义为抽样与观测的COPA得分k相等或更重要的值,并且成功的数量s需要至少为(N-1)r+1。为了匹配我们的自助重抽样设置,其中在替换的数据集中置换值,抽取与k相等或更显著的值的概率p与满足该要求的数据中的值的比例有关。可以通过二项分布来解析描述该设置。
所有三种方法在两种乳腺癌数据集的准确性的比较
为了评估三种方法中每一种的准确性,我们将其用作基线自助重抽样并将其与自助+函数和二项重抽样的准确性进行比较。将每种方法应用于Illumina BaseSpaceTMCohort Analyzer平台内的五种不同的乳腺癌研究,并与10000次自助重抽样随机化的经验推导的p值进行比较。我们将自助法+函数法的随机化减少到100,这将计算时间缩短了99%。log10(p值)的比较绘制在如下图15和图16中。
图11显示了与自助重抽样的p值相比的二项重抽样方法和自助法+函数的性能。橙线表示二项重抽样方法的线,蓝线表示自助+函数的p值。
二项方法对经验推导的p值显示出最佳准确度。此外,图17中自助法+函数法对更显著的p值也会被限制。因此,二项方法是最合适的显著性评价方法,用于提高准确性和减少计算时间。
二项方法对TCGA乳腺癌数据在低样本和特征量下的准确性
由于在低样本量下COPA得分的近似值的差异,我们怀疑经验模型和二项模型的p值可能不同。图18证实了这种现象,因为在较低的样本量下随机COPA得分的变化更大,因为在任意给定百分位数的抽样极值的可能性增加,特别是因为COPA函数更多地依赖于不同于从连续β函数得到的近似值的给定点数更少的插值。此外,计算时间似乎随着统计检验数量的增加而线性增长,每个特征一个,具有固定数量的数据点。对于二项推导的p值,计算时间也显著减少。因此,计算时间参考图18,其中观测结果为特征(因子)的增加导致所有方法的计算时间的增加,但是二项方法快几个数量级,因为它与随机化的数量无关。换句话说自助重抽样和自助函数法需要更多的随机化和更多的计算时间来产生准确的数,而二项方法是直接计算,其不依赖于额外的计算时间使其准确。
基于p值的方法与二项检验的荟萃分析比较
我们在表1中列出了从Illumina BaseSpaceTM Cohort Analyzer平台下载了五项乳腺癌研究,四项研究基于来自Gene Expression Omnibus(GEO)的微阵列,一项为使用RNA-Seq技术的TCGA BRCA研究。与微阵列数据不同,RNA-Seq对许多样本产生零值。COPA算法对超过30%的样本具有零值的基因中出现的小标准偏差敏感。因此,对于每个RNA-Seq数据集,我们省略了超过30%的样本中具有零表达值的那些基因。除了减少假结果外,我们从微阵列和RNA-Seq中省略了具有最低20%平均表达的基因。
然后我们将这三种方法应用于这些研究的p值计算。在生成每项研究的p值之后,使用在荟萃分析方法比较[9]中具有统计学上的稳健性和敏感性的Fisher的组合p值方法来进行荟萃分析。我们将此与对COPA得分进行的四种荟萃分析进行了比较。首先,我们应用了二项检验,其常用于meta-COPA分析[8]。我们还评估了三种现有的基于秩的方法,包括中位数秩,平均秩和积秩[Chang]。
为了评估不同p值计算法的性能,我们使用ONCOMINE通过31项乳腺癌研究[8]的大规模meta-COPA分析发现的前23个基因列表作为验证基因集。我们采用了Running Fisher(RF)检验(Kupershmidt等人,2010)来评估其中一种荟萃分析方法生成的每个测试基因列表与ONCOMINE基因列表的一致性。Running Fisher方法扫描该测试基因列表,当从验证集到每个匹配的基因时,进行Fisher精确检验以产生p值。最后,获得最小p值以测量测试基因列表与验证集的一致性。该方法评估两组之间的基因富集,类似于基因集富集分析(GSEA),但比GSEA更灵活和灵敏。
我们首先评估在具有ONCOMINE基因列表的个体研究中产生的基因列表的一致性(见表1)。显然,研究样本量越大,Running Fisherp值越小。接下来,我们使用各种方法对五项研究进行了荟萃分析(见表2)。二项检验主要使用独立研究中前1%列表中基因的缺失/存在信息。通常需要大量研究才能获得足够的灵敏度。正如预期的,五项研究的二项检验在RF的p值为2.95e-14时表现最差,因为许多基因具有来自二项检验的相同p值。使用多种p值生成方法的Fisher组合p值都表现得相当好,其中自助法+函数优于所有方法。二项方法的Fisher的组合p值实现了高精度和计算效率。基于秩的方法也表现良好,积秩优于中位数秩或平均秩。最后,我们还通过移除五项研究中的每一项来评估荟萃分析的稳定性和稳健性,以确定是否有一项研究主导结果(见表3)。在移除五项研究中的每一项后,对于这些方法的这些p值通常是稳定的。
表1. 五项乳腺癌研究列表。第一列显示了五项乳腺癌研究的名称。第二列显示每项研究的样本量。第三列显示每项研究的Running Fisherp值以评估与ONCOMINE基因列表的一致性。
表2.五项乳腺癌研究的荟萃分析的多种方法的性能。第一列显示了用于五项乳腺癌研究的荟萃分析的方法。第二列显示使用每种方法进行荟萃分析的RFp值,以评估与ONCOMINE基因列表的一致性。
表3.各种荟萃分析方法的稳定性评估。第一列显示了用于四项乳腺癌研究的荟萃分析的方法。其余五列显示了去除五项研究中的每一项后的RFp值。
讨论
自其引入以来,Meta-COPA分析一直是鉴定靶向疾病的分子标志物的常用方法。目前进行荟萃分析的解决方案存在缺点,即它们需要大量研究。此外,在单项研究中目前对每个COPA得分没有意义,因此无法知道哪些异常基因具有统计学意义。我们通过引入评估各个COPA得分显著性的三种方法来解决这些问题,包括自助重抽样、自助法+函数和二项方法。自助重抽样是生成p值的标准方法,但是为计算密集型。自助法+函数法通过近似基于少量随机化研究的COPA得分的尾部分布来工作,保守地估计p值,特别是对于顶部基因。分析解法,二项重抽样方法,允许在不需要随机化检验的情况下估计p值,因此计算简洁。此外,二项方法产生最准确的结果,显示了与经验p值的最小偏差。建议在Illumina BaseSpaceTMCohort Analyzer平台中实施二项方法,以获得准确性和性能。
在实践中,我们开发的这些显著性评估方法仍然有一些需要改进的地方,包括放宽那些检验的假设。例如,COPA方法每次扫描一个百分位数以检测具有异常值模式的基因。然而,当识别具有异常值受试者的基因时,固定一个百分位数的COPA得分可能会破坏COPA方法的敏感性。例如,在前列腺癌受试者中,ERG基因在35%的受试者中显着上调。如果我们只扫描第90或第95百分位数,ERG将被埋藏在数千个基因之下。由于我们的显著性评估方法能够在不同参数(例如百分位数)之间进行公平比较,因此研究人员现在可以扫描多个百分位数(例如,上尾的60%、65%、...、90%、95%以及下尾的5%、10%、...、40%)并选择具有最小p值的百分位数来表示特定基因。这将促进检测分子标记物的基因表达的异质亚群的灵敏度。
当前方法的另一个潜在扩展是在正常样本中异常值模式进行调整。目前p值的计算集合了所有基因,假设这些基因在受试者中表现相似且独立。实际上,即使在正常样本中,基因也可能具有不同的模式。一些基因可能在正常情况下具有显著变化,在受试者中引起虚假异常值信号。在正常情况下调整异常值模式对于生成COPA得分的精确p值是非常关键,特别是对于高度可变的基因。
理论上,我们的方法不仅可以应用于RNA表达,而且可以应用于具有适当归一化和标准化的任意连续测量,包括蛋白质表达,miRNA表达和其他临床测量,诸如胆固醇值。生成的p值是灵活的,可以在研究或参数中进行比较。然后这允许我们使用Fisher的组合p值方法进行荟萃分析。我们预计我们的方法将改进分子标记物的识别,以促进个体化医疗。
材料和方法
表达数据和预处理
通过包括从Gene Expression Omnibus(GEO)和The Cancer Genome Atlas(TCGA)的公开群组合并的数据的Illumina BaseSpaceTM Cohort Analyzer平台获得表达数据集。用于该分析的数据集包括来自GEO的四项乳腺癌微阵列研究、一项乳腺癌RNA-Seq群组和来自TCGA的一个TCGA前列腺癌RNA-Seq群组。在COPA分析之前,通过滤除具有可能导致假阳性的低表达值的基因来预处理该数据,并且对数值进行对数转换以减少偏度,从而导致在较低和较高百分位数的COPA得分的更大可比较的量级。首先,对于所有数据类型,移除平均值的最低20%的低表达者中的基因。其次,对于RNA-Seq数据,移除具有>30% RPKM值为零的样本的基因。最后,在对每个值添加0.01之后对数据进行log2变换,以使表达数据类型的值更加对称分布。增加0.01是为了防止涉及零对数的冲突。
百分位数估计函数
在大多数情况下,百分位数不会落在用于COPA计算的离散指数上。在这些情况下插入的百分位数值是常规操作,然而,在不同情况下采用了几种插值策略。对于我们的COPA实现,我们使用R-7估计类型而不是其他估计类型,因为它导致r ϵ [0,1]的平滑函数而不是1:N的指数。其他估计类型,诸如R-6,在尾部变平坦导致极值处的百分位值之间的分辨率降低。
对于R-7估计类型,通过识别已排序的值的数组中的第h值来计算百分位数。指数h计算如下:
h=(N-1r+1
当指数h不落在整数值上时,百分位数值的插值处理为:
自助重抽样
为了评估单个研究中COPA值的显著性,我们测试了零假设,即在我们的群组中不存在异常值样本,因此在所有样本中所有基因应该是独立的并且相同分布。为了检验该假设,我们进行随机化以计算我们的观察数据与零模型的统计偏差,然而,由于COPA得分是逐行进行测量,每行内的随机化对于COPA是不够的。为了进行数据集随机化,我们假设给定测量平台的每个值遵循相同的整体分布。对于大多数测量平台,诸如RNA-Seq或微阵列,由于基础表达或化学水平差异,基因之间的值不能直接比较。为了解决这个问题,COPA使用的标准化用于在随机化之前根据中位数和绝对中位差来缩放值。具有替换的随机标准化值的重抽样允许我们为COPA值生成零分布。给定足够大的数据集,我们假设数据集中的标准化值代表了推导的这些样本的整个群体。
广义帕累托分布(GPD)函数的自助重抽样的尾部逼近
为了实现极端COPA值的p值的高分辨率,需要棘手数量的随机化。由于这种高计算成本,我们使用诸如广义帕累托分布(GPD)之类的函数来开发尾部逼近。该0.1%右尾的近似p值计算为,其中f t表示尾部得分的分数,即得分的分数≥tt为尾部的阈值),在这个示例中f t=0.1%。F GPD表示GPD的累积分布。
二项重抽样方法
在我们的自助重抽样模型中标准化之后的随机化和百分位数计算的唯一组合可以分析计算,而不需要重复随机化。使用二项累积分布进行p值估计的准确解决方案如下(同样见图20):
由于二项累积分布与上述等式中的正则化不完全β分布有关,它用于计算二项分布,可以直接估计(N-1)r+1的非整数值而不需要加权几何平均数(Press等人,1992)。
作为关于二项重抽样的上述公开的补充或替代,用于p值估计的二项累积分布可以如下:
图8描述了自助重抽样和具有函数的自助法通过随机化接近COPA得分的显著性。随机抽取可以通过归一化的表达矩阵的自助法、随机抽样替换,然后计算那些随机化的COPA得分来获得。红色条表示抽样值与观测到的COPA得分一样,或更极端。注意的是仅当抽样的极值(红色条)数量超过COPA阈值(虚线)时,随机抽样的COPA得分比观测的得分更极端,能够通过二项重抽样实现精确计算的关键的观测结果。
图9显示了通过确定产生COPA得分相同或更极端的随机化概率,然后对于自助重抽样方法可以根据经验确定观测的COPA得分的显著性。通过拟合广义帕累托分布(GPD),具有GPD的自助法能够通过推断p值分布来估计较少随机化范围的尾部末端的显著性。
图10显示了二项重抽样提供了用于自助重抽样计算p值的精确解决方案而无需随机化,通过直接计算随机抽样COPA得分的概率,其与在过程中作为伯努利试验的观测的COPA得分一致或更极端。
图11显示了与自助重抽样的比较的随机重排,因其涉及TCGA BRCA基因。
图19A显示了Q值=0.02的ERBB2在多个检验显著性结果之中(但不会出现在单项研究中)。
图19B显示了五项研究之一(TCGA)的基因表达的瀑布图。
图19C显示了根据拷贝数变异(x轴)绘制的ERBB2表达图(2log差异倍数,y轴),显示了ERBB2异常值过表达可以通过扩增解释,正如小提琴图显示的>3拷贝的ERBB2受试者解释了大多数高表达者。
图19D显示了将FAM5C鉴定为最重要的异常基因(使用积秩)的五项BRC研究的荟萃分析。
图19E显示了在所有荟萃分析研究中的每个基因的归一化秩得分的热图,Q值为log10。
图19F显示了TCGA中的存活分析,显示了FAM5C上调大于7倍的异常值对象与那些没有明显差异倍数(<2)的相比总生存率差。
图19G显示了基础空间相关工具疾病图谱(BaseSpace Correlation EngineDisease Atlas)程序,显示了31项公共乳腺癌研究,其中FAM5C也是上调的。
因此,用于识别多个样本中具有异常值表达的基因检测系统,可以包括至少一个处理器,以及包含指令的至少一个非暂时性计算机可读介质,当所述指令通过所述至少一个处理器执行时,引起所述至少一个处理器执行操作。这些操作可以包括:接收多个样本的基因表达数据,该样本包括对应于基因的基因表达值;使用每个基因的中位数和绝对中位差标准化该基因表达数据;基于异常基因表达数据的概率确定标准化的基因表达观测结果的分布统计值;使用标准化的基因表达数据确定该分布统计的零分布;以及输出该多个样本中该基因的显著性值,该显著性值基于该分布统计和该零分布的值。
该检测系统可以根据自助重抽样方法的原理进行检测,其中确定所述分布统计的值包含自助重抽样,自助重抽样包括执行重排所述基因表达数据的随机迭代,所述基因表达数据生成每个基因新分配的基因表达值。使用这种方法,观测的和随机化的基因表达值中的异常基因表达数据的概率可以计算。
该检测系统也可以被配置为诸如从标准化观测数据中随机选择的具有替换的随机选择的观测数据。该检测系统也可以被配置为诸如包括随机迭代的用于随机化基因表达值的所有可能组合的自助重抽样。
该分布统计可以包括分位数,诸如75%。
该检测系统可以根据具有函数法的自助重抽样进行工作。确定分布统计值的步骤可以包括:通过随机化标准化的基因表达数据的所有可能的随机迭代的一部分生成基因的自助值,并拟合函数至自助值的至少一部分以估计基因零分布的尾部,该尾部包括显著性值的异常值数据。异常基因表达数据的可能性可以从估计的尾部计算得到。该函数可以为通过至少一个比例参数和形状参数参数化的连续概率分布。该函数可以为广义帕累托分布。
根据本发明的实施方式,操作还可以包括接收基因的额外显著性值,以及基于接收的基因额外显著性值和所述基因的显著性值,输出所述基因的修正的显著性值。
根据包括分配任务给工作器的控制器的分布架构实现该系统。
使用二项方法的原理可以实现该检测系统。在这个实施方式中,确定分布统计的值可以包括基于样本总数和基因的百分位数截止点,对每个样本使用伯努利试验计算表达位于或高于预定阈值的基因概率。
计算样本的可能性可以包括根据公式对值进行二值化(binarizing)
其中k=异常值COPA得分,N=样本数,r=异常值分位数,p=发生≥k的概率(probability of a draw≥k)。
零显著性似然还可以取决于分位数为较高分位数或较低分位数。该分布包括累积二项分布。
该操作可以包括接收因子额外的显著性值并基于接收的因子额外显著性值和因子的显著性值,输出因子修正的显著性值。
使用并行计算架构实现该系统。该分布包括不完全β分布。
识别多个样本中具有异常表达基因的非暂时性计算机可读介质,可以包含指令,当所述指令通过所述至少一个处理器执行时,引起所述至少一个处理器执行操作。该操作包括:接收多个样本的基因表达数据,该样本包括对应于基因的基因表达值;使用每个基因的中位数和绝对中位差标准化该基因表达数据;基于异常基因表达数据的概率确定标准化的基因表达观测结果的分布统计值;使用标准化的基因表达数据确定该分布统计的零分布;以及输出该多个样本中该基因的显著性值,该显著性值基于该分布统计和该零分布的值。
识别多个样本中具有异常表达的基因的计算机实施方法,可以包括:接收多个样本的基因表达数据,该样本包括对应于基因的基因表达值;使用每个基因的中位数和绝对中位差标准化该基因表达数据;基于异常基因表达数据的概率确定标准化的基因表达观测结果的分布统计值;使用标准化的基因表达数据确定该分布统计的零分布;以及输出该多个样本中该基因的显著性值,该显著性值基于该分布统计和该零分布的值。
图7A描绘了用于实现所公开的实施方式的示例性计算设备700的示意图。系统100的组件,诸如用户设备120、分析系统110和数据系统105,通常可以作为计算设备700中的一个或多个来实现。根据一些实施方式,示例性计算设备700可以包括处理器705、存储器710、显示器715、I/O接口720和网络适配器725。这些单元可以通过总线730或无线彼此通信。图7中所示的组件可以存在于单个设备或多个设备中。
处理器705可以是根据所公开的实施方式执行各种方法的一个或多个微处理器、中央处理单元或图形处理单元。这些处理单元可包括一个或多个核心。存储器710可以包括一个或多个计算硬盘、随机存取存储器、移动存储器或远程计算机存储器。在多种实施方式中,存储器710存储由处理器705执行的多种软件程序。显示器715可以是提供视觉输出的任意设备,例如,计算机监视器、LCD屏等。I/O接口720可以包括键盘、鼠标、音频输入设备、触摸屏或类似的人机接口设备。网络适配器725可以包括用于使计算设备700能够与外部网络交换信息的硬件和/或硬件和软件的组合。作为非限制性实施例,网络适配器725可以包括无线广域网(WWAN)适配器、蓝牙模块、近场通信模块或局域网(LAN)适配器。
图7B描绘了用于显著性值的分布式计算的示例性系统的示意图,与公开的实施方式一致。在这样的实施方式中,可以使用并行计算架构实施系统100。可以使用如根据图7A所述的一个或多个计算设备实现该并行计算架构。在这样的架构(例如,Hadoop等)中,系统100的一个或多个组件可以包括控制器740和工作器745。呼叫器735可以包括使用该并行计算架构请求计算结果的系统100的组件。在一些实施方式中,呼叫器735可以被配置为与控制器740或并行计算架构的另一元件通信,以请求计算结果。控制器740可以包括配置有管理分布式计算性能的数据和指令的并行计算集群的一个或多个节点。控制器740可以被配置为将并行计算集群的节点分配为工作器745。工作器745可以包括配置有用于执行分布式计算的数据和指令的并行计算集群的一个或多个节点。工作器745可以包括映射器和减速器。映射器可以被配置为对数据元素进行分组,诸如观测值,以通过减速器聚合。减速器可以被配置为计算每组映射数据元素的聚合结果。控制器740可以被配置为将工作节点分配为映射器和减速器。控制器740还可以被配置为追踪工作器745的状态,根据需要向工作节点分配和重新分配任务(诸如映射和缩减)。控制器740还可以被配置为向呼叫器735提供分布式计算的结果。如本领域技术人员认识到的,其他并行计算实现是可能的,并且上述公开不旨在限制。
呈现上述公开的实施方式仅出于说明的目的。本公开不是详尽的,并且所要求保护的主题不限制于所公开的明确实施方式。本领域技术人员从上述描述中可以理解的,根据上述教导或者从实践本发明中获得的修改和变化是可能的。在一些方面,与所公开的实施方式一致的方法可以排除所公开的方法步骤,或者可以改变所公开的方法步骤的顺序或所公开的方法步骤之间的分离程度。作为非限制性实施例,可以根据需要省略、重复或组合方法步骤,以达到相同或相似的目标。在多个方面,非暂时性计算机可读介质可以存储用于执行与所公开的实施方式一致的排除所公开方法步骤的方法的指令,或者改变所公开的方法步骤的顺序或者所公开的方法步骤之间的分离程度。作为非限制性实施例,非暂时性计算机可读介质可以存储用于执行与所公开的实施例一致的必要时省略、重复或组合方法步骤以实现相同或相似的目标的方法的指令。在某些方面,系统不一定包括每个公开的部件,并且可以包括其他未公开的部件。作为非限制性示实施例,系统可以根据需要省略、重复或组合部件以实现相同或相似的目标。因此,所要求保护的主题不限于所公开的实施方式,而是根据所附的权利要求的全部等同物的范围来限定。
参考文献
1. Tomlins SA, Rhodes DR, Perner S, Dhanasekaran SM, Mehra R, et al.Recurrent fusion of TMPRSS2 and ETS transcription factor genes in prostatecancer. Science 2005310, 644–648.
2. Rhodes DR,Yu J,Shanker K,Deshpande N,Varambally R, et al.ONCOMINE: A Cancer Microarray Database and Integrated Data-Mining Platform.Neoplasia 2004 6(1): 1–6.
3. Tibshirani R, Hastie T. Outlier sums for differential geneexpression analysis.Biostatistics2006 8, 2–8.
4. Wu B. 2007. Cancer outlier differential gene expressiondetection.Biostatistics2007 8(3):566–575.
5. Lian H. MOST: detecting cancer differential geneexpression.Biostatistics2008 9(3):411–418.
6. de Ronde JJ,Rigaill G,Rottenberg S,Rodenhuis S,Wessels LF.Identifying subgroup markers in heterogeneous populations. Nucleic AcidsResearch 2013 41(21) e200.
7. Wang C, Taciroglu A, Maetschke SR, Nelson CC, Ragan MA, et al.mCOPA: analysis of heterogeneous features in cancer expression data. JClinBioinforma. 2012 2: 22.
8. Rhodes DR,Ateeq B,Cao Q,Tomlins SA,Mehra R, et al. AGTR1overexpression defines a subset of breast cancer and confers sensitivity tolosartan, an AGTR1 antagonist. Proc. Natl. Acad. Sci. 2009 106(25):10284–10289.
9. Chang LC, Lin, HM,Sibille E,Tseng GC. Meta-analysis methods forcombining multiple expression profiles: comparisons, statisticalcharacterization and an application guideline. BMC Bioinformatics 2013 14:368.
10. Edgington E. Randomization Tests. Marcel Dekker, Inc. 1980.
11. Knijnenburg TA, Wessels LFA, Reinders MJT, Shmulevich I. Fewerpermutations, more accurate P-values. Bioinformatics 2009 25: 161-168.
12. Gumbel EJ. Statistics of extremes. Columbia University Press, NewYork 1958.
13. Kupershmidt I, Su QJ, Grewal A, Sundaresh S, Halperin I, et al.Ontology-Based Meta-Analysis of Global Collections of High-Throughput PublicData. PLoS ONE 2010 5(9): e13066.
14. Heskes T, Eisinga R, Breitling R. A fast algorithm fordetermining bounds and accurate approximate p-values of the rank productstatistic for replicate experiments. BMC Bioinformatics 2014 15(367).
15. Hyndman RJ and Fan Y. Sample quantiles in statistical packages.The American Statistician 1996, 50(4): 361-365.
16. Press WH, Flannery BP, Teukolsky SA, and Vetterling WT. NumericalRecipes in C: The Art of Scientific Computing. Press Syndicate of theUniversity of Cambridge 1992, Second Edition.

Claims (13)

1.识别多个样本中具有异常表达基因的检测系统,包括:
至少一个处理器,以及
包含指令的至少一个非暂时性计算机可读介质,当所述指令通过所述至少一个处理器执行时,引起所述至少一个处理器执行操作,所述操作包括:
接收多个样本的基因表达数据,所述样本包括对应于基因的基因表达值;
使用每个基因的中位数和绝对中位差标准化所述基因表达数据;
基于异常基因表达数据的概率确定标准化的基因表达数据的分布统计的值;
使用标准化的基因表达数据确定所述分布统计的零分布;以及
输出多个所述样本中所述基因的显著性值,所述显著性值基于所述分布统计和所述零分布的值计算获得,
确定所述分布统计的值包括:自助重抽样,所述自助重抽样包括执行重排所述基因表达数据的随机迭代,所述基因表达数据生成每个基因新分配的基因表达值,其中所述异常基因表达数据的概率根据观测的和随机的基因表达值计算,或
确定所述分布统计的值包括:通过随机化所述标准化的基因表达数据的所有随机迭代的一部分生成基因的自助值,以及将函数拟合至所述自助值的至少一部分以估计所述基因的所述零分布的尾部,所述尾部包括显著性值的异常值数据,其中所述异常基因表达数据的概率根据估计的尾部计算,或
确定所述分布统计的值包括:对于每个所述样本,使用基于样本总数和基因百分位数截止点的伯努利试验计算基因表达数据等于或高于预定阈值的概率。
2.如权利要求1所述的检测系统,其中所述自助重抽样包括随机基因表达值的所有组合的随机迭代。
3.如权利要求1所述的检测系统,其中所述分布统计包括分位数。
4.如权利要求1所述的检测系统,其中所述函数为通过比例参数和形状参数的至少一个参数的连续概率分布。
5.如权利要求1所述的检测系统,其中所述函数为广义帕累托分布。
6.如权利要求1所述的检测系统,其中所述操作还包括接收基因额外显著性值,以及基于接收的所述基因额外显著性值和所述基因的显著性值,输出所述基因修正的显著性值。
7.如权利要求1所述的检测系统,其中所述系统根据分布架构实施,所述分布架构包括分配任务给工作器的控制器。
8.如权利要求1所述的检测系统,其中零显著性似然还取决于分位数是上分位数或下分位数。
9.如权利要求1所述的检测系统,其中所述分布统计的值中的分布包括累计二项分布。
10.如权利要求1所述的检测系统,其中所述系统采用并行计算架构实施。
11.如权利要求1所述的检测系统,其中所述分布统计的值中的分布包括不完全β分布。
12.识别多个样本中具有异常表达基因的非暂时性计算机可读介质,其包含指令,所述指令当通过至少一个处理器执行时,引起所述至少一个处理器执行操作,所述操作包括:
接收多个样本的基因表达数据,所述样本包括对应于基因的基因表达值;
使用每个基因的中位数和绝对中位差标准化所述基因表达数据;
基于异常基因表达数据的概率确定标准化的基因表达数据的分布统计的值;
使用标准化的基因表达数据确定所述分布统计的零分布;以及
输出所述多个样本中所述基因的显著性值,所述显著性值基于所述分布统计和所述零分布的值计算获得,
确定所述分布统计的值包括:自助重抽样,所述自助重抽样包括执行重排所述基因表达数据的随机迭代,所述基因表达数据生成每个基因新分配的基因表达值,其中所述异常基因表达数据的概率根据观测的和随机的基因表达值计算,或
确定所述分布统计的值包括:通过随机化所述标准化的基因表达数据的所有随机迭代的一部分生成基因的自助值,以及将函数拟合至所述自助值的至少一部分以估计所述基因的所述零分布的尾部,所述尾部包括显著性值的异常值数据,其中所述异常基因表达数据的概率根据估计的尾部计算,或
确定所述分布统计的值包括:对于每个样本,使用基于样本总数和基因百分位数截止点的伯努利试验计算基因表达数据等于或高于预定阈值的概率。
13.识别多个样本中具有异常表达基因的计算机实施方法,包括:
接收多个样本的基因表达数据,所述样本包括对应于基因的基因表达值;
使用每个基因的中位数和绝对中位差标准化所述基因表达数据;
基于异常基因表达数据的概率确定标准化的基因表达数据的分布统计的值;
使用标准化的基因表达数据确定所述分布统计的零分布;以及
输出所述多个样本中所述基因的显著性值,所述显著性值基于所述分布统计和所述零分布的值计算获得,
确定所述分布统计的值包括:自助重抽样,所述自助重抽样包括执行重排所述基因表达数据的随机迭代,所述基因表达数据生成每个基因新分配的基因表达值,其中所述异常基因表达数据的概率根据观测的和随机的基因表达值计算,或
确定所述分布统计的值包括:通过随机化所述标准化的基因表达数据的所有随机迭代的一部分生成基因的自助值,以及将函数拟合至所述自助值的至少一部分以估计所述基因的所述零分布的尾部,所述尾部包括显著性值的异常值数据,其中所述异常基因表达数据的概率根据估计的尾部计算,或
确定所述分布统计的值包括:对于每个样本,使用基于样本总数和基因百分位数截止点的伯努利试验计算基因表达数据等于或高于预定阈值的概率。
CN201780066229.7A 2016-11-03 2017-11-02 异常值显著性评价的系统和方法 Active CN109997194B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662417149P 2016-11-03 2016-11-03
US62/417,149 2016-11-03
PCT/US2017/059785 WO2018085585A1 (en) 2016-11-03 2017-11-02 Systems and methods for outlier significance assessment

Publications (2)

Publication Number Publication Date
CN109997194A CN109997194A (zh) 2019-07-09
CN109997194B true CN109997194B (zh) 2024-01-30

Family

ID=60452763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780066229.7A Active CN109997194B (zh) 2016-11-03 2017-11-02 异常值显著性评价的系统和方法

Country Status (5)

Country Link
US (1) US20190371430A1 (zh)
EP (1) EP3535678B1 (zh)
CN (1) CN109997194B (zh)
AU (1) AU2017353871B2 (zh)
WO (1) WO2018085585A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110910954A (zh) * 2019-12-04 2020-03-24 上海捷易生物科技有限公司 一种低深度全基因组基因拷贝数变异的检测方法及系统
CN111430038B (zh) * 2020-04-21 2023-03-07 江苏品生医疗科技集团有限公司 一种基于逻辑回归对临床大样本因素危险性评估系统
US11198121B1 (en) 2020-06-10 2021-12-14 Element Biosciences, Inc. Flow cell systems and devices

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6763308B2 (en) * 2002-05-28 2004-07-13 Sas Institute Inc. Statistical outlier detection for gene expression microarray data
CN101250584B (zh) * 2008-03-19 2012-06-13 南京大学 一种识别显著差异表达基因集合的方法
CN103049680B (zh) * 2012-12-29 2016-09-07 深圳先进技术研究院 基因测序数据读取方法及系统
CN103745137B (zh) * 2014-01-30 2017-03-15 思博奥科生物信息科技(北京)有限公司 一种跨芯片平台的基因表达数据整合方法
CN105893789A (zh) * 2016-04-10 2016-08-24 塔里木大学 一种显著性分析方法

Also Published As

Publication number Publication date
EP3535678A1 (en) 2019-09-11
US20190371430A1 (en) 2019-12-05
AU2017353871A1 (en) 2019-04-18
AU2017353871B2 (en) 2023-02-09
WO2018085585A1 (en) 2018-05-11
EP3535678B1 (en) 2021-12-22
CN109997194A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
US20230114581A1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
CN109997194B (zh) 异常值显著性评价的系统和方法
Daemen et al. Improved modeling of clinical data with kernel methods
Khunlertgit et al. Identification of Robust Pathway Markers for Cancer through Rank‐Based Pathway Activity Inference
Kakati et al. THD-Tricluster: A robust triclustering technique and its application in condition specific change analysis in HIV-1 progression data
Cuperlovic-Culf et al. Determination of tumour marker genes from gene expression data
US20120117018A1 (en) Method for the systematic evaluation of the prognostic properties of gene pairs of medical conditions, and certain gene pairs identified
Phan et al. omniBiomarker: a web-based application for knowledge-driven biomarker identification
WO2001036658A2 (en) Method for evaluating states of biological systems
Saei et al. A glance at DNA microarray technology and applications
Lurie et al. The Use of Inductive Methods to Identify Subtypes of Glioblastomas in Gene Clustering.
US8463590B2 (en) Algorithms for classification of disease subtypes and for prognosis with gene expression profiling
Cao et al. A novel filter feature selection method for paired microarray expression data analysis
Tsai et al. Significance analysis of ROC indices for comparing diagnostic markers: applications to gene microarray data
Yu et al. Digout: Viewing differential expression genes as outliers
Valls et al. CLEAR-test: combining inference for differential expression and variability in microarray data analysis
Vetro et al. TIDE: Inter-chromosomal translocation and insertion detection using embeddings
Kuznetsov et al. Statistically weighted voting analysis of microarrays for molecular pattern selection and discovery cancer genotypes
Alshehri et al. Compare and contrast of differential gene expression software packages of RNA-Seq
Kaddi et al. Developing robust predictive models for head and neck cancer across microarray and RNA-seq data
Lauria Rank‐Based miRNA Signatures for Early Cancer Detection
Jackson et al. The correlation threshold as a strategy for gene filtering, with application to irritable bowel syndrome and breast cancer microarray data
DeConde et al. Combining results of microarray experiments: a rank aggregation approach
Li et al. Clustering algorithm based on DINNSM and its application in gene expression data analysis
Asifuzzaman et al. Improved k-nearest neighbors approach for incomplete and contaminated gene expression datasets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant