CN102841986A - 异常微阵列特征的识别 - Google Patents

异常微阵列特征的识别 Download PDF

Info

Publication number
CN102841986A
CN102841986A CN2012101400695A CN201210140069A CN102841986A CN 102841986 A CN102841986 A CN 102841986A CN 2012101400695 A CN2012101400695 A CN 2012101400695A CN 201210140069 A CN201210140069 A CN 201210140069A CN 102841986 A CN102841986 A CN 102841986A
Authority
CN
China
Prior art keywords
characteristic
log conversion
normalized value
array
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101400695A
Other languages
English (en)
Other versions
CN102841986B (zh
Inventor
保罗·肯尼斯·沃伯
罗伯特·佩吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agilent Technologies Inc
Original Assignee
Agilent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agilent Technologies Inc filed Critical Agilent Technologies Inc
Publication of CN102841986A publication Critical patent/CN102841986A/zh
Application granted granted Critical
Publication of CN102841986B publication Critical patent/CN102841986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及异常微阵列特征的识别。概括地,本发明公开了一种在核酸阵列中识别异常特征的方法,该方法包括:a)提供log变换的归一化值,所述log变换的归一化值表示测试样品对核酸阵列中的第一特征的杂交量;b)利用所述log变换的归一化值和表示对照样品对多个参比阵列中的相应特征的杂交量的参比log变换的归一化值的分布来计算所述第一特征的z得分;以及c)如果所述测试特征具有高于或低于规定的阈值的z得分,那么识别所述测试特征是异常的。

Description

异常微阵列特征的识别
引言
在阵列分析中,为了避免微阵列数据集合被不良品质的数据污染,识别和标记异常特征(即展现与众不同的统计学性质或形态性质的特征)是重要的。本公开涉及识别异常微阵列特征的方法。
发明内容
本文描述了一种识别核酸阵列中的异常特征的方法。概括地,本发明包括:a)提供log变换的归一化值(log transformed normalized value),所述log变换的归一化值表示测试样品对核酸阵列中的第一特征的杂交量;b)利用所述log变换的归一化值和表示对照样品对多个参比阵列中的同一特征的杂交量的参比log变换的归一化值的分布来计算所述第一特征的z得分;以及c)如果存在高于或低于规定的阈值的z得分,那么识别所述测试特征是异常的。
附图说明
图1是表示本发明方法的一个实施方式的一些方面的流程图。
图2是表示本发明方法的另一实施方式的一些方面的流程图。
图3是高%CV载玻片(slide)上的八个阵列的z得分图。
图4是载玻片252665211142的z得分图。
图5是载玻片252665211142的二元标记图。
图6表示在被标记为具有低z得分的各个阵列中各特征分数的柱图。
定义
本文中使用的术语“样品”是指,含有感兴趣的一个或多个核酸(DNA或RNA)分析物的原料或原料混合物,其通常是液体形式,但并非必然是液体形式。
本文中使用的术语“以生物学方式衍生的样品”是指,由活细胞制成或衍生得到的核酸样品。由生物体的组织(例如活体解剖等)或细胞系(包括其冷冻或贮藏形式)制成的样品是以生物学方式衍生的样品的实例。
本文中使用的术语“以非生物学方式衍生的样品”是指,由预定的合成方式制备的寡核苷酸组成的核酸样品。美国专利申请公开号US20060121491中描述了以非生物学方式衍生的样品的实例。
本文中使用的术语“测试样品”是指,研究中的样品。
本文中使用的术语“对照样品”是指,可与测试样品比较的样品。正如以下更详细描述地,相对于测试样品,对照样品可以是例如同一样品的不同等分试样;可以来自同一组织;或者来自同一细胞系。
术语“核苷酸”意欲包括如下这些片段,这些片段不仅包含已知的嘌呤和嘧啶碱基,还包含已被修饰的其他杂环碱基的片段。所述修饰包括甲基化的嘌呤或嘧啶、酰基化的嘌呤或嘧啶、烷基化的核糖或其他杂环。另外,术语“核苷酸”还包括如下这些片段,这些片段包含半抗原或荧光标记,而且还可以包含常规核糖和脱氧核糖糖类,以及其他糖类。经修饰的核苷酸或核苷酸还包括,在糖片段上的修饰,例如在羟基基团中的一个或多个被卤原子或脂族基团替代时,被功能化成醚类、胺类等等。核苷酸可以包括,当被掺入核酸的伸展链中时能够继续伸展的那些(非链终止核苷酸)和抑制随后伸展的那些(例如链终止剂)。
术语“核酸”和“聚核苷酸”在本文可互换使用,用于描述由诸如脱氧核糖核苷酸或核糖核苷酸的核苷酸构成的并且具有例如大于约2个碱基、大于约10个碱基、大于约100个碱基、大于约500个碱基、大于1000个碱基、直至约10000或更多个碱基的任意长度的聚合物,其可以通过酶促方式或合成方式(例如在美国专利号5,948,902以及其中引用的参考文献中所描述的PNA)生产,其可以序列特异性方式与天然核酸杂交(类似于两种天然核酸那样杂交),例如可以参与Watson-Crick碱基对相互作用。天然存在的核苷酸包括鸟嘌呤、胞核嘧啶、腺嘌呤、尿嘧啶和胸腺嘧啶(分别为G、C、A、U和T)。
本文中使用的“寡核苷酸”表示,由约2至5000个核苷酸(例如2至200个核苷酸)构成的核苷酸的单链多聚体。寡核苷酸可以是合成的,或者可以以酶促方式制成,在一些实施方式中,其具有小于10至50个核苷酸的长度。寡核苷酸可以包含核糖核苷酸单体(即可以是寡核糖核苷酸)或脱氧核糖核苷酸单体。寡核苷酸可以具有例如10至20个、11至30个、31至40个、41至50个、51至60个、61至70个、71至80个、80至100个、100至150个、或150至200个、直至500个或更多个核苷酸长度。
本文中使用的术语“探针”是指,与感兴趣的核苷酸分析物互补的核酸。在某些情况中,目标分析物的探测需要探针对目标的杂交。在某些实施方式中,探针可以固定在底物的表面上,其中底物可以具有各种构造,例如片材结构、珠子结构或其他结构。在某些实施方式中,探针可以存在于平面底物的表面上,例如以阵列形式。
“阵列”包括可设定地址的区域的任何二维或三维的排列,所述区域例如为带有核苷酸、特别带有寡核苷酸或其合成类似物等的可在空间上设定地址的区域或在可光学上设定地址的区域。在一些情况下,阵列的多个可设定地址的区域可以不是彼此物理相连的,例如多个彼此不同的珠子通过光学或其他装置可以构成阵列。在阵列是核酸阵列时,所述核酸可在沿着核酸链的任意一个或多个点上被吸附、被物理吸附、被化学吸附、或被共价连接到阵列上。
阵列在原位制造的情况下可以利用液滴沉积由脉冲喷射前驱体单元(诸如核苷酸或氨基酸单体)制造,或者可以利用液滴沉积由脉冲喷射先前得到的核酸制造。例如在先前引用的参考文献(包括Caren等人的美国专利申请公开号20040203138和专利号US 6,242,266、US 6,232,072、US6,180,351、US 6,171,797、US 6,323,043,以及其中引用的参考文献)中详细描述了上述方法。正如已经提到过的,这些参考文献通过引用插入本文。也可以使用其他液滴沉积方法来进行制造,如本文先前所述。而且,可以使用照相平板印刷阵列制造方法替代液滴沉积方法。特征间区域不必存在,特别在阵列由那些专利中描述的照相平板印刷方法制成的时候。
阵列还可以通过使与珠子(也被称为微球)连接的预先合成的核酸分布在固体支持物上来进行制造。在某些实施方式中,将独一无二的光学信号(例如荧光染料)结合到珠子上,它们能用于识别在任意特定珠子上的化学官能性。因此,首先采用光学信号对珠子进行编码,所以阵列可以稍后进行解码,这样可以在阵列已经制成之后使单个位点在阵列中的位置与在特定位点的探针有相关性。例如在美国专利号6,355,431、7,033,754和7,060,431中详细描述了上述方法。
阵列在具有多个不同片段(例如,不同的寡核苷酸序列)的区域时是“可设定地址的”,这样使得在阵列的特定预定位置(即“地址”)上的特征(即阵列的“单元”或“点”)包含特定序列。阵列特征通常通过居间间隔进行隔离,但这不是必要的。阵列还在阵列的每个特征具有能够识别存在于该特征上的片段的光学可探测信号的情况下是“可设定地址的”。阵列还在阵列的每个特征具有可通过非光学装置探测并且能够识别存在于该特征上的片段的信号的情况下是“可设定地址的”。
本文中使用的术语“异常特征”是指,具有与众不同的统计学性质或形态性质的特征。异常特征可能由例如在例如阵列合成(例如不完善的偶联化学反应)、阵列储存、阵列处理、杂交或扫描期间发生的问题引起的。
正如以下更详细描述的,在某些案例中,不同阵列中的特征会被描述成彼此“相应”。例如,数据可由一个阵列的第一特征得到,也可由其他阵列的相应特征得到。在这些案例中,彼此相应的特征具有同一探针序列。同样地,如果一个阵列上的第一特征具有其他阵列上的相应特征,那么所述第一特征和所述相应特征具有同一探针。
术语“确定”、“测量”、“评估”、“估计”、“分析”和“检验”在本文中可互换使用,它们是指任何形式的测量并且包括确定是否存在要素。这些术语包括定量的和/或定性的确定。“估计”可以是相对的或绝对的。“估计...的存在”包括确定存在某物的量以及确定其是否存在。
术语“使用”具有其常规含义,其原意指,利用方法或组合物(例如使方法或组合物工作)以达到目标。例如,如果使用程序来创建文件,那么执行程序来产生文件,该文件通常是该程序的输出结果。在另一实施例中,如果使用计算机文件,那么该文件通常被访问、被读取且信息被存储在所利用的文件中以达到目标。类似地,如果使用独一无二的标识符(例如表形码),那么通常读取该独一无二的标识符来识别例如与该独一无二的标识符相关的对象或文件。
本文中使用的术语“数据”是指,通常由在实验室或计算机模拟(insilico)中的实验结果衍生得到的有组织的信息的集合,或本领域技术人员可得到的其他数据。数据作为一组变量的测量结果或观测结果可以是数字形式、文字形式、注解形式、或图像形式。数据可以存储在各种形式的电子介质中以及可由辅助数据库获得。
本文中使用的术语“获得”当在获得数据的上下文中使用时将进行广义解释,意指,用于取得数据的任何方式,包括访问存储数据的文件、接受数据和生成数据(例如进行实验)。
本文中使用的术语“多个”是指,至少2个,例如至少5个、至少10个、至少20个、至少50个、至少100个、至少500个、至少1000个、至少5000个、至少10000个或更多,直至50000个,或100000个或更多。
正如以下更详细描述的,特征在具有“高于或低于规定的阈值的z得分”时可被称为异常。确定特征是否是异常的方法通常包括:将该特征的z得分与另一数字(规定的阈值)相比较,从而确定所述z得分是否高于或低于规定的阈值。特征在如下情况下可以是异常的:a)其具有低于规定的阈值的z得分(即,在规定的阈值是负数(例如-6)时,具有小于该负数的z得分的特征是异常的);b)其具有高于规定的阈值的z得分(例如,在规定的阈值是正数(例如6)时,具有大于该数字的z得分的特征是异常的)。确定z得分是否“高于或低于规定的阈值”包括,确定z得分是否在规定的范围内或规定的范围外,以及确定z得分是大于/小于规定的阈值还是等于规定的阈值。规定的阈值可以例如依经验、依照理论或者任意定义。
具体实施方式
在更详细地描述本发明之前,要理解本发明并不局限于所描述的特定实施方式,这些实施方式当然可以进行变化。还要理解,本文中使用的术语仅用于描述特定实施方式,不应构成限制,因为本发明的范围仅仅由所附权利要求限制。
在提供数值范围的情况下,要理解到,该范围的上限和下限之间的每个中间数值(加减该下限的1/10单位,除非另有声明)以及在所记载范围内的任意其他记载的数值或中间数值都包含在本发明之内。
除非另有声明,本文中使用的所有技术术语和科学术语都具有与本发明领域的普通技术人员通常理解的相同含义。尽管与本文所述那些类似或等同的任意方法和原料也可以用在本发明的实践或测试中,但是现在描述优选的方法和原料。
本说明书中引用的所有出版物和专利通过引用插入本文,就像每篇出版物或专利被具体或单独指出通过引用插入一样,本说明书中引用的所有出版物和专利通过引用插入本文以公开且描述与所引用的出版物相关的方法和/或原料。申请日前的任意出版物的引用是为了公开,不应解释为由于在先发明而承认本发明迟于这样的出版物。此外,所提供的公开日可以与实际公开日不同,这可能需要单独确认。
必须注意,本文中以及所附权利要求中使用的单数形式“一”、“一个”、“该”包括复数形式,除非另有声明。还应注意,权利要求书可被起草成排除任何可选要素。同样地,这个记载意欲作为使用与权利要求要素的记载相关的诸如“唯一地”、“仅仅”等排他术语或使用“否定”限制的引用基础
对阅读了本公开的本领域技术人员来说,本文中描述和阐述的各个实施方式中的每一个显然具有分散的组件和特征,可以容易地将这些组件和特征与其他若干实施方式的任意一个中的特征分离或组合,而并未脱离本发明的范围或精神。任意记载的方法可以以所记载的时间顺序执行或者可以以逻辑上合理的任意其他顺序执行。
以下更详细描述的方法通常用在阵列数据(例如基因表达或CGH数据)的分析中,其中,对核酸样品中的特定核酸分析物(RNA或DNA)的量进行检验。一般而言,这些检验利用如下步骤:a)标记核酸样品;b)使标记的样品与用于该样品的分析物的探针在足以使该探针和该分析物之间发生特异性结合的条件下进行接触;以及c)识别所得分析物/探针复合物中的标记的量,从而确定样品中的分析物的量。这样的方法通常是已知的。
具体地,将经标记的样品应用到包含至少一个探针的底物上,并且在适合于在探针和样品中的经标记分析物之间形成分析物/探针复合物(例如核酸双螺旋,即RNA/RNA、DNA/RNA、或DNA/DNA双螺旋)的条件(如果存在这样的经标记分析物)下进行培养。在某些实施方式中,包含探针的底物是探针的阵列,其中每个探针包含在该阵列的一个特征中,并且其中阵列包含至少约20个、至少约50个、至少约100个、至少约200个、至少约500个、至少约1000个、至少约2000个、至少约5000个、至少约10,000个、至少约20,000个、至少约50,000个、通常直至约100,000个或更多特征。
培养之后,未与探针结合的经标记样品通常被从底物上洗掉,并且通过能够定量测量结合标记的仪器(例如扫描荧光仪)扫描现在包含经标记的分析物/探针双螺旋的底物。然后,确定与阵列的特征(各特征包含例如目标分析物/探针复合物或者在不存在目标分析物的情况下包含探针)相关的各标记的数量。在一些实施方式中,以相应于探针的区别特征的两个通道对底物进行扫描,从而以与其他标记独立地(即没有干扰地)的方式确定与各个特征相关的两个区别标记的量。在某些实施方式中,扫描得到两个扫描结果(一个通道一个),其通常表示底物的像素化图像,从而反映了与底物的特征相关的标记的量。例如,图像的每一个像素被授予一个表示标记信号的亮度水平的信号水平。来自唯一一个通道的数据需要用在下面的方法中。如上所述,扫描方法是本领域已知的(例如DeRisi等人的Science 278:680-686,1997),若干适当的扫描仪可由Perkin-Elmer、Agilent或Axon Instruments等等商购,并且在美国专利号5,091,652;5,760,951;6,320,196和6,355,934有所描述,上述专利的公开内容通过引用插入本文。
特征提取是这样的方法,由该方法从阵列获得数字数据。一般而言,特征提取方法包括:识别经杂交阵列的扫描上的特征(通常相应于探针),并且测量与该特征相关的标记(例如荧光)的量。在大多数实施方式中,特征提取方法提供用于阵列的各特征的数字图(numericalfigure)。若干商购程序进行微阵列的特征提取,所述程序诸如BioDiscovery(Marina Del Rey,CA)的IMAGINE
Figure BSA00000713238700081
Stanford University的“ScanAlyze”软件包,Scanalytics(Fairfax,VA)的Microarray Suite,“DeArray”(NIH);Research Genetics(Huntsville,Ala.)的PATHWAYS
Figure BSA00000713238700082
Incyte Pharmaceuticals,Inc.,(Palo Alto,Calif.)的GEM tools
Figure BSA00000713238700083
ImagingResearch(Amersham Pharmacia Biotech,Inc.,Piscataway,N.J.);Rosetta(Kirkland,WA)的RESOLVER
Figure BSA00000713238700084
系统和Agilent Technologies(Palo Alto,CA)的Feature Extraction Software。使用上述特征提取软件生成相应于与阵列的各特征相关的标记量的数值。数值可以以信号的定量(即绝对)数值的形式或者以信号的定性(例如相对)数值的形式进行测量,正如本领域已知的。
本发明利用三种统计学技术以如下方式对来自特定阵列上的特定特征的信号进行重新调节,以这种方式,所有来自阵列组中的所有阵列的所有特征的信号以同一尺度进行测量。
所述方法的可选第一步骤包括,识别“对照”阵列的子集。上述识别可以基于阵列数据品质的一些客观指标(例如%CV)或一些其他阵列性质(例如阵列制造时间段)进行。这个第一步骤不是必要的,如果缺陷影响不同阵列的不同区域,那么给定特征的数据在大多数阵列上将是“正常的”。然而,识别并且使用“正常”阵列的适当对照集合可以改善本发明的敏感性,特别用于具有一些异常特征的阵列。
在本发明的第二步骤中,数值(即由特征获得的信号量)被归一化。信号归一化的标准方法是:将来自给定阵列上的给定颜色通道中的非对照探针的所有信号除以对于该阵列上的该颜色通道中的非对照探针的例如第75%区间信号(75th percentile signal),但也可以使用其他方法。这个变换消除了由不同样品标记效率、不同杂交效率、微阵列扫描仪增益的差异等引起的阵列之间的成比例的信号差异。
例如,归一化可以包括:将一个数据组中的每个数值乘以一个数值,以使得那些量与第二数据组中的量可以直接进行比较。业已描述了多种归一化策略(Quackenbush等人,Nat Genet.32 Suppl:496-501,2002,Bilban等人Curr Issues Mol Biol.4:57-64,2002,Finkelstein等人,Plant MolBiol.48(1-2):119-31,2002,和Hegde等人Biotechniques.29:548-554,2000)。适用于本发明方法的归一化的具体实例包括线性归一化方法、非线性归一化方法(例如利用针对成对数据的Lowess局部衰减作为信号强度的函数)、信号依赖性非线性归一化、qspline归一化和空间归一化,正如Workman等人所述(Genome Biol.20023,1-16)。
在第三步骤中,使归一化的数值进行log变换(例如利用log2,但也可以使用任意底数的log变换)。由重复的等同特征得到的数值通常不会产生正态(即高斯)分布的数值。然而,信号的对数几乎呈正态分布。将信号变换成几乎呈正态分布的形式使得在随后的步骤中有效使用分布性质的标准统计学量度,诸如平均值(均值)和标准偏差。可供选择地或者除此以外,在随后的步骤中可以使用并未假设正态分布的量度,诸如中值和四分间距(inter-quartile range)。
在第四步骤中,计算对于对照阵列集合中的每个特征的归一化log变换信号而言的均值和标准偏差。这个计算量化了由一群完全功能化的阵列的每个特征得到的log变换的归一化信号的分布中心和宽度。请注意,如果log变换的归一化信号的分布是高斯分布,那么均值和标准偏差参数完全决定了该分布。或者,可以计算稳健评级次序(robust rank-order)统计学量度,诸如中值(替代均值)和四分间距IQR(替代标准偏差)。在这种情况下,IQR应当成比例缩放,即应当使用0.74*IQR,这是因为对于高斯分布,标准偏差=0.74*IQR。
在下一步骤中,计算测试阵列的每个特征的z得分统计量。z得分是表示数量与该数量的均值(或中值)之间差异的统计学度量(statisticalmetric),以标准偏差(或IQR)的单位计:
z i , j = s i , j - μ s σ s
其中,S是log变换的归一化信号,μs是S的均值(或中值),σs是S的标准偏差(或0.74*IQR),指数i和j分别指阵列数和特征数。可以计算类似得分用于分布的其他度量。一般而言,所有信号都被转换成相同尺度,从而测量来自特定特征的信号的特定值位于由适当功能化阵列中的那些特征观察到的信号的分布中的哪个位置。
向z得分统计量的变换使得能够通过可视或计算机辅助识别具有与众不同的正的或负的z得分的特征从而清楚地识别异常特征或这种特征组。z得分是具有标准解释的纯无量纲数字:其衡量偏离由分布的一些成员所设置的该分布的均值的标准偏差的个数。因此,可以使用来自统计学过程控制理论的标准方法来设定用于识别应当作为潜在缺陷被标记出的特征的阈值。最后,z得分统计量可被用于改变沿着阵列表面的各特征图的颜色,从而使得能够快速可视识别异常特征组。
对于将原始z得分变换成对展示异常信号的特征簇敏感的总度量,有利的是,首先以加重成簇的异常特征区域并且抑制孤立异常特征的方式对原始z得分图像进行加工。一种特别简单的用于实现这个的方法是,应用如下形式的“投票法则”:如果特定特征j的最近邻的特征中z得分小于或等于某一阈值tz的分数(fraction)大于或等于某一阈值tf,那么将该特征标记为占据“低z”附近。如果该特征自己具有小于或等于阈值tz的z得分,那么额外地将该特征标记为“低z”特征。类似的法则可被写成用于“高z”或“界外值z”(即不寻常地高或低)。对于六角网格诸如用于一些微阵列的那些来说,简单定义的内部特征的“最近邻”是包括讨论中的特征以及由直接围绕该特征的6个特征组成的六角形的集合(同样的通用定义用于边和角特征,不同之处在于缺少围绕近邻六角形的一些成员)。标记值还可用于产生对“黑袋”缺陷(下述)特别敏感的阵列可视化。
一旦特征已被标记为“低z”或者位于“低z”附近,我们就可以基于该标记计算各种阵列宽的度量。特别有用的度量是阵列中被标记为展现低z值或者被标记为位于低z附近(或二者)的特征的百分比。这个量度与量度的“中值%CV”族非常相关。
因此,提供了一种用于识别核酸阵列中的异常特征的方法。在这个实施方式中,所述方法包括:a)提供log变换的归一化值,所述log变换的归一化值表示测试样品对核酸阵列中的第一特征的杂交量;b)利用i所述log变换的归一化值和ii表示对照样品对多个参比阵列中的相应特征的杂交量的参比log变换的归一化值的分布来计算所述第一特征的z得分;以及c)如果存在高于或低于规定的阈值的z得分,那么识别所述测试特征是异常的。
z得分可以以许多不同方式计算,例如利用a)分布的中值或均值,以及b)分布的标准偏差或四分间距。
在特定实施方式中,z得分表示所述第一特征的log变换的归一化值高于或低于参比log变换的归一化值的均值多少个标准偏差。在这个实施方式中,可以利用如下公式计算z得分:
z = x - μ σ
其中:x是第一特征的所述log变换的归一化值;μ是参比log变换的归一化值的均值或中值;以及σ是参比log变换的归一化值的标准偏差。
在可供选择的实施方式中,可以利用该分布的按比例缩放的四分间距计算z得分。在这些实施方式中,z得分表示所述第一特征的log变换的归一化值高于或低于参比log变换的归一化值的均值多少个按比例缩放的四分间距(0.74*IQR)。
取决于测试的严谨度(stringency),规定的阈值对于异常高的z得分可以在4.0至8.0的范围内,例如为5.0至7.0,或5.5至6.5,或者对于异常低的z得分可以在-4.0至-8.0的范围内,例如为-5.0至-7.0,或-5.5至-6.5。
用于产生分布的对照样品的个数可以变化。然而,在一些实施方式中,参比log变换的归一化值通过如下获得:使至少6个(例如至少8个、至少10个、至少15个、至少25个、至少100个、直至100个或更多个)对照样本与含有该特征的参比阵列杂交。对照样品应当来自与测试样品类似的来源,即预期产生与测试样品类似基因表达图样的来源。在一些实施方式中,对照和测试样品得自相同组织(例如大脑、肾上腺、皮肤、肺脏、脾脏、肾脏、肝脏、脾脏、淋巴腺、骨髓、膀胱、胃、小肠、大肠或肌肉等),体液(包括血糖、血浆、唾液(saliva)、黏液、粘痰、脑脊髓液、胸膜液、泪液、lactal管液、淋巴、唾液(sputum)、脑脊髓液、滑液、尿、羊水和精液等),或者得自不同个体的同类型癌的活体解剖。如果核酸样品要由细胞系制成,那么可以利用含有相同细胞(例如肌肉细胞、肝脏细胞等)的细胞系。在特定情况下,可以将单一样品分开并将它们用作对照样品和测试样本,同样在某些情况下,对照样品可以与测试样品相同。
可以选择适当的对照数据集合满足某些标准,例如一致的特征形态,在适当范围内的信号(即过高的(饱和的)或过低的(不是统计学显著的)信号),较少比例的界外值,以及由重复的相同特征的集合得到的信号的变化系数的平均百分比(%CV)低(参见例如van Hijum等人的BMC Genomics.2005 6:77,通过引用插入此处,等等)。
在特定案例中,对照样品和测试样品都是以生物学方式衍生得到的样品。然而,在其他实施方式中,对照样品和测试样品包括对特征杂交的合成寡核苷酸。在特定实施方式中,核酸阵列和参比阵列可以来自相同批次或不同批次。
本文所述方法可以在阵列的多个特征上进行。在这些实施方式中,阵列可被看做表示z-得分的数量级的颜色图(即热量图)。在这个实施方式中,异常特征簇可以通过眼睛识别。在其他实施方式中,异常特征簇可以利用最近邻分析识别,即通过确定是否异常特征具有也是异常的邻近特征来识别。
在这些实施方式中,所述方法包括:a)提供多个log变换的归一化值,所述log变换的归一化值表示测试样品对核酸阵列中的多个特征的杂交量;b)利用i所述log变换的归一化值和ii表示对照样品对多个参比阵列中的相应特征的杂交量的参比log变换的归一化值的分布来计算所述特征的z得分;以及c)如果存在高于或低于规定的阈值的z得分,那么识别所述多个特征中的任意一个都是异常的。
在一个实施方式中,对照和参比样品包括对特征杂交的寡核苷酸的混合物(参见,例如在美国专利申请公开US2006012491中描述的寡核苷酸)。
在某些实施方式中,使用下式计算z得分:
z i , j = s i , j - μ s σ s .
其中,S是log变换的归一化信号,μs是S的均值或中值,σs是S的标准偏差或0.74*IQR,指数i和j分别指阵列数和特征数。
正如以上所表明的,本方法还包括,提供所述阵列中的异常特征图,结果可以通过眼睛识别包含异常特征簇的所述核酸阵列的所述区域。本方法可以进一步包括,在多个特征上进行最近邻分析,从而识别所述阵列中邻近异常特征的簇。
示意性地阐述本发明的一个实施方式的流程图示于图1和图2中。该流程图的各个步骤中使用的数据变换是不言而喻的。
在一个实施方式中,本方法可以通过计算机(一种包含用于进行以上所述方法的指令(即程序)的有形计算可读介质)执行。程序可以提供在物理存储或传送介质中。接收该指令的计算机然后可以执行运算法则并且/或者加工由本发明的方法得到的数据。计算机可读存储介质的实例包括软盘、磁带、DVD、CD-ROM、硬盘驱动、ROM或集成电路、磁光盘或计算机可读卡诸如PCMCIA卡等,不论上述设备对计算机来说是内部的还是外部的。包含信息的文件可以“存储”在计算机可读介质上,其中“存储”意指记录信息,从而日后该信息可通过局域或远程网络中的计算机访问和获取。在计算机执行方法的上下文中,“获得”可以是访问存储数据的文件。
实施例1
识别“黑袋”(Dark Pocket)
“黑袋”是阵列中这样的区域,其中制造问题可能损害了该区域中的特征的探针。这些缺陷可以以可视方式在具有窄信号动态范围的阵列(例如CGH阵列)上识别,但是难以在具有较宽信号动态范围的阵列(即多数其他阵列应用类型)上识别。
在如下实施例中,使用来自六个“8-组合”“常态”(低%CV)单色基因表达(GE)阵列和两个异常(高%CV)阵列的数据。在阵列图像本身中未能见到黑袋的证据。没有黑袋可以通过对在常态(低%CV)载玻片之一上的8个阵列的z得分可视化观察到(数据未示出)。高%CV载玻片的图示于图3中。
这些载玻片的可视解释是相当明显的:常态载玻片表示非常少的高或低z得分,并且所观察的几个异常得分并非剧烈成组。完全相反,在高%CV载玻片上存在一些成簇的异常低z得分的区域。受影响特征的个数容易地通过如下评估:计算具有小于某一阈值(例如-6)的z得分的特征的个数。请注意:这种分析容易识别“黑袋”问题,不论对不同的阵列应用不同的样品与否,也不论在扫描的阵列图像中“黑袋”是否不可探测。这些结论表明,本方法是稳健的、敏感的。
实施例2
z得分图转化成二元“标记图”
载玻片252665211142在对标记的部分简并寡聚物(参见美国专利申请号US20060121491)的样品杂交之后产生z得分图(图4)。
这个图以及如下标记图的数据都通过计算机执行方法产生。所有阵列分别被认为是单一组;中值和0.74*IQR被用作归一化的log信号分布中心和宽度的统计值。具有≤-5的z得分的特征被标记为低,具有≥0.3的低最近邻特征分数的特征被标记为占据“低z区域”。用于“低z”和“第z区域”的所得二元标记值的图示于图5中。
最后,表6表示,各个阵列中被标记为具有低z-得分、被标记为占据低z附近或被标记为二者的特征的分数的柱状图,以及来自3个其他载玻片的数值。左图中的两个载玻片展现“黑袋”;右侧的两个没有。
实施例3
Z得分度量和中值%CV之间的相关性
各个阵列中被标记为具有低z-得分、被标记为占据低z附近或被标记为二者(z得分度量)的特征的分数与绿色通道加工信号的中值%CV强相关(数据未示出)。
这个数据通过如下获得:使同时制成的阵列对寡核苷酸样品的混合物进行杂交,特征提取数据(这样产生中值%CV度量的数值),然后对低z特征和区域进行分析。还证实了阵列中的一些通过可视检查展现“黑袋”。
本说明书中引用的所有出版物和专利通过引用插入本文,就像每篇出版物或专利被具体或单独指出通过引用插入一样。申请日前的任意出版物的引用是为了公开,不应解释为由于在先发明而承认本发明迟于这样的出版物。
虽然为了清楚理解的目的,通过说明性实施例对本发明进行了相当详细地描述,但对本领域技术人员来说明显的是,不离开所附权利要求的精神和范围的基础上可以进行某些改变和修正。

Claims (10)

1.一种识别核酸阵列中的异常特征的方法,其包括:
a)提供log变换的归一化值,所述log变换的归一化值表示测试样品对核酸阵列中的第一特征的杂交量;
b)利用:i所述log变换的归一化值和ii表示对照样品对多个参比阵列中的相应特征的杂交量的参比log变换的归一化值的分布来计算所述第一特征的z得分;以及
c)如果所述测试特征具有高于或低于规定的阈值的z得分,那么识别所述测试特征是异常的。
2.权利要求1的方法,其中,所述z得分表示所述第一特征的所述log变换的归一化值高于或低于所述参比log变换的归一化值的均值或中值多少个标准偏差,其根据如下公式计算:
z = x - μ σ
其中:x是所述第一特征的所述log变换的归一化值;
μ是所述参比log变换的归一化值的均值或中值;以及
σ是所述参比log变换的归一化值的标准偏差或按比例缩放的IQR。
3.权利要求1的方法,其中,所述z得分表示所述第一特征的所述log变换的归一化值高于或低于所述参比log变换的归一化值的均值或中值多少个按比例缩放的四分间距(0.74*IQR)。
4.权利要求1的方法,其中,所述参比log变换的归一化值通过如下得到:使至少六个对照样品与包含所述特征的参比阵列杂交。
5.权利要求1的方法,其中,所述对照样品与所述测试样品相同。
6.权利要求1的方法,其中,所述对照样品和所述测试样品是以生物学方式衍生得到的样品。
7.权利要求1的方法,其中,所述方法包括:
a)提供多个log变换的归一化值,所述log变换的归一化值表示测试样品对核酸阵列中的多个特征的杂交量;
b)利用:i所述log变换的归一化值和ii表示对照样品对多个参比阵列中的相应特征的杂交量的参比log变换的归一化值的分布来计算所述特征中每一个的z得分;以及
c)如果所述多个测试特征中的任意测试特征具有高于或低于规定的阈值的z得分,那么识别它们是异常的。
8.权利要求7的方法,还包括:提供所述阵列中的异常特征图,结果可以通过眼睛识别所述核酸阵列中包含异常特征簇的所述区域。
9.权利要求7的方法,进一步包括,在所述多个特征上进行最近邻分析,从而识别所述阵列中邻近异常特征的簇。
10.一种有形计算机可读介质,其包括用于执行权利要求1的方法的程序。
CN201210140069.5A 2011-06-03 2012-05-03 异常微阵列特征的识别 Active CN102841986B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/152,602 US8478545B2 (en) 2011-06-03 2011-06-03 Identification of aberrant microarray features
US13/152,602 2011-06-03

Publications (2)

Publication Number Publication Date
CN102841986A true CN102841986A (zh) 2012-12-26
CN102841986B CN102841986B (zh) 2018-04-13

Family

ID=46149176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210140069.5A Active CN102841986B (zh) 2011-06-03 2012-05-03 异常微阵列特征的识别

Country Status (4)

Country Link
US (1) US8478545B2 (zh)
EP (1) EP2530616A3 (zh)
JP (1) JP6055200B2 (zh)
CN (1) CN102841986B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017070498A1 (en) * 2015-10-21 2017-04-27 Smpl Bio, Llc Methods for assessing the quality of gene expression libraries
US10936651B2 (en) * 2016-06-22 2021-03-02 Gracenote, Inc. Matching audio fingerprints

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5091652A (en) 1990-01-12 1992-02-25 The Regents Of The University Of California Laser excited confocal microscope fluorescence scanner and method
GB9218482D0 (en) 1992-09-01 1992-10-14 Dixon Arthur E Apparatus and method for scanning laser imaging of macroscopic samples
US5888751A (en) * 1997-07-15 1999-03-30 Ludwig Institute For Cancer Research Method for diagnosis and treating cancers, and methods for identifying pathogenic markers in a sample of normal cells
US5948902A (en) 1997-11-20 1999-09-07 South Alabama Medical Science Foundation Antisense oligonucleotides to human serine/threonine protein phosphatase genes
EP1090293B2 (en) 1998-06-24 2019-01-23 Illumina, Inc. Decoding of array sensors with microspheres
US6320196B1 (en) 1999-01-28 2001-11-20 Agilent Technologies, Inc. Multichannel high dynamic range scanner
US6355934B1 (en) 1999-02-26 2002-03-12 Packard Biochip Technologies Imaging system for an optical scanner
US6355431B1 (en) 1999-04-20 2002-03-12 Illumina, Inc. Detection of nucleic acid amplification reactions using bead arrays
US6242266B1 (en) 1999-04-30 2001-06-05 Agilent Technologies Inc. Preparation of biopolymer arrays
US20040203138A1 (en) 1999-04-30 2004-10-14 Caren Michael P. Polynucleotide array fabrication
US6323043B1 (en) 1999-04-30 2001-11-27 Agilent Technologies, Inc. Fabricating biopolymer arrays
US6180351B1 (en) 1999-07-22 2001-01-30 Agilent Technologies Inc. Chemical array fabrication with identifier
US6232072B1 (en) 1999-10-15 2001-05-15 Agilent Technologies, Inc. Biopolymer array inspection
US6171797B1 (en) 1999-10-20 2001-01-09 Agilent Technologies Inc. Methods of making polymeric arrays
US20040229245A1 (en) * 2003-01-06 2004-11-18 Anton Bittner Methods and algorithms for performing quality control during gene expression profiling on DNA microarray technology
US20070031883A1 (en) * 2004-03-04 2007-02-08 Kincaid Robert H Analyzing CGH data to identify aberrations
US20060012491A1 (en) 2004-07-14 2006-01-19 Mahowald Peter H Utility meter reading system
US20060121491A1 (en) 2004-12-02 2006-06-08 Wolber Paul K Partially degenerate oligonucleotide standards and methods for generating the same

Also Published As

Publication number Publication date
JP2012249632A (ja) 2012-12-20
JP6055200B2 (ja) 2016-12-27
EP2530616A3 (en) 2013-05-29
US20120310537A1 (en) 2012-12-06
CN102841986B (zh) 2018-04-13
US8478545B2 (en) 2013-07-02
EP2530616A2 (en) 2012-12-05

Similar Documents

Publication Publication Date Title
Järvinen et al. Are data from different gene expression microarray platforms comparable?
Lucito et al. Representational oligonucleotide microarray analysis: a high-resolution method to detect genome copy number variation
Fu et al. Counting individual DNA molecules by the stochastic attachment of diverse labels
Causton et al. Microarray gene expression data analysis: a beginner's guide
Mah et al. A comparison of oligonucleotide and cDNA-based microarray systems
Deyholos et al. High‐density microarrays for gene expression analysis
CN109074430A (zh) 分子标记计数调整方法
CN107077537A (zh) 用短读测序数据检测重复扩增
CN105986008A (zh) Cnv检测方法和装置
CN101790731A (zh) 用于清除遗传数据干扰并确定染色体拷贝数的系统和方法
Watson et al. The “chip” as a specific genetic tool
Ghaffari et al. Modeling the next generation sequencing sample processing pipeline for the purposes of classification
CN102203788B (zh) 用于装配成小组的癌细胞系以用于测试一种或多种药物组合物的功效的方法
CA3099819A1 (en) Methods and reagents for resolving nucleic acid mixtures and mixed cell populations and associated applications
US20060121491A1 (en) Partially degenerate oligonucleotide standards and methods for generating the same
CN104769130A (zh) 一种确定rna完整性的方法
EP1889924B1 (en) Method of designing probes for detecting target sequence and method of detecting target sequence using the probes
US20150111205A1 (en) Methods for Mapping Bar-Coded Molecules for Structural Variation Detection and Sequencing
CN102841986A (zh) 异常微阵列特征的识别
Reed et al. Identifying individual DNA species in a complex mixture by precisely measuring the spacing between nicking restriction enzymes with atomic force microscope
EP1630709B1 (en) Mathematical analysis for the estimation of changes in the level of gene expression
US20070275389A1 (en) Array design facilitated by consideration of hybridization kinetics
Scharpf et al. Statistical modeling and visualization of molecular profiles in cancer
Shirai et al. Vertical flow array chips reliably identify cell types from single-cell mRNA sequencing experiments
CN107018668B (zh) 一种针对东亚人群全基因组范围内的非编码区的SNPs的DNA芯片

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant