CN101553824A

CN101553824A - 对微阵列图像进行自动解码的方法

Info

Publication number: CN101553824A
Application number: CNA2007800445395A
Authority: CN
Inventors: L·阿尼霍特里; J·D·沙弗; N·蒂米特罗瓦
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2006-12-01
Filing date: 2007-12-03
Publication date: 2009-10-07
Anticipated expiration: 2027-12-03
Also published as: BRPI0719585A2; RU2445698C2; JP5011394B2; US8199991B2; RU2009125056A; EP2089831A1; EP2089831B1; WO2008065634A1; CN101553824B; BRPI0719585B1; US20100008554A1; JP2010511244A; ATE530993T1

Abstract

一种在具有图像空间的高密度和高分辨率微阵列扫描图像中，即使在拐角处不存在探针的情况下也能自动识别微阵列芯片的拐角和探针的方法，其中，该方法通过将多遍拐角寻找算法应用到所述图像上使得在扫描过程中产生的图像中的误差失真最小化，所述方法包括：(a)将Radon变换应用于输入的微阵列图像，以将该图像投影到角度和距离空间中，在该空间中可以找到直线的取向；(b)将快速傅里叶变换应用于步骤(a)的所述投影图像10，以寻找该投影图像的最佳倾角；(c)确定所述最佳倾角的最佳第一个和最后一个局部极大值；(d)将所述确定的第一个和最后一个局部极大值反投影到所述图像空间中，以寻找所述图像的第一个列线和最后一个列线的第一近似；(e)旋转所述图像并重复步骤(a)至(d)，以寻找所述图像的顶部行线和底部行线的第一近似；(f)从所述列线和行线的交点中确定所述图像的四个拐角的第一近似；(g)应用启发式算法，以确定步骤(f)的所述第一近似是否足够；以及(h)可选地，在所述四个拐角的第一近似周围修剪所述扫描图像并且重复步骤(a)至(f)。

Description

对微阵列图像进行自动解码的方法

对相关申请的交叉引用

申请人要求2006年12月1日提交的临时申请序列号60/868129的优先权。

技术领域

本发明涉及在微阵列图像上自动确定探针点的位置从而可以将图像数据转换为生物活性的度量的方法。

背景技术

DNA微阵列技术是新近出现的并且发展迅速。目前，在全球基因表达项目的系统研究中广泛使用：使用微阵列来推断基因功能，测量基因拷贝数的多态性，以及基因组DNA蛋白质的相互作用。从微阵列图像中提取数据具有许多内在的问题：不一致的杂交导致不均匀的探针强度和几何结构；将芯片放置到扫描仪中的位置不是固定的，这意味着芯片的拐角可以在任何地方；扫描仪经常使得到的图像失真，而这对于将这些图像转换为需要的数据而言会产生问题；由于同时存在许多不同的设计模式，因此基准可被置于许多不同的组合中。

DNA微阵列包括固体表面，单链的DNA分子已被化学地结合到该固体表面上。微阵列被广泛用于研究基因表达，以将基因活动与生物过程关联起来并且将基因分组为互连活动的网络。微阵列是非常有利的，因为它们允许以并行和半自动的方式来测量数千个基因的表达。在功能基因组学中，存在不同类型的微阵列，包括基因表达阵列、单核苷酸多态性(SNP)阵列、基因启动子阵列、比较基因组杂交阵列、CpG岛阵列--在此仅提及其中的一些。对于所有这些类型的阵列而言，需要处理扫描的图像，以恢复微阵列数据。

作为比较基因组杂交方法[6]的例子，代表性寡核苷酸微阵列分析(ROMA)已在冷泉港实验室(CSHL)被开发出来。此技术在可获得的用于在人体基因组中检查拷贝数的多态性(CNP)的分辨率方面是一项非常重大的进步。通过采用具有较少(6个碱基对)识别位点(recognition site)的酶来消化基因组，大量差不多均匀分布在该基因组上的片段将会产生。在每个片段中，唯一的探针被识别并被放置在微阵列上的一个点上。目前正在使用具有85000个探针的芯片，而具有大约400000个探针的芯片正在测试中。用该芯片标记和杂交从样本组织细胞中提取的DNA；强度的变化与样本中片段的拷贝数成比例。通过使用此方法，人们能够识别出肿瘤和正常基因组之间的变化，以及正常的人体基因组之间的变化。

然而，这些高密度的芯片向可获得的芯片读取器提出了挑战。通过使用步进电机和激光扫描仪，激发的杂交探针被转换为图像，即像素阵列。电机每次将扫描仪移动几个微米，并且获得新行读出。采用这种方法，根据电机采取的步长，在1、2或5微米的各种分辨率上数字化微阵列芯片。通过扫描仪的机械和光学操作将图像中的探针阵列平移和旋转未知的量。此外，可能存在梯形失真(keystoning)效应(即阵列成为梯形而不是矩形)，和/或在探针位置中较小的正弦扰动(也就是说，探针实际上在正弦曲线上对齐，而不是在直线上对齐)。对于具有高密度微阵列的高吞吐量研究而言所需要的是，自动(即没有人的介入)识别探针位置的软件，这些探针位置的强度将被转换为探针强度。

目前，正在研究芯片上的探针模式，但是用棋盘模式实现了最大密度。也就是说，必须废弃一半芯片面积，因为目前的图像处理软件不能足够地分辨探针。如果可以设计出改进的软件，那么在ROMA芯片上可能实现两倍的信息密度。

在文献资料中存在其他试图进行自动微阵列图像分析的算法。Brandle等人[参考文献1]和Uehara和Kakadiaris[参考文献6]都提出了将图像转换到期望的数值所需要的全部功能的方法，并且都倡导使用Radon变换(见下文)，但是就我们所知，还未提出用于校正微阵列图像中梯形失真问题的方法。软件工具BioDiscovery Imagene 7.0声称即使在用于多个阵列的批模式处理中也能自动地找到位点以及放置网格，然而这些算法目前不是公用的(http://www/biodiscovery.com/index/imagene-cgh)。Khojasteh等人[参考文献2]提出了一种通过多尺度的边缘检测算法[2]从阵列CGH数据中自动识别DNA拷贝数的增多和减少的区域的算法。

在此公开的从微阵列扫描图像中自动识别拐角和探针的方法克服了这些问题。测试图像来自ROMA微阵列技术，但是该方法足以普遍地用在其他类型的微阵列图像上。

发明内容

根据本发明，公开了一种在具有图像空间的高密度和高分辨率微阵列扫描图像中自动识别微阵列芯片拐角和探针的方法，其中，该方法通过将多遍(multipass)拐角寻找算法应用到所述图像，使得在扫描过程中产生的图像中的误差失真最小化。

具体地，本发明的目的在于提供一种即使在拐角自身处没有探针的情况下，也能在具有图像空间的高密度和高分辨率微阵列扫描图像中自动识别微阵列芯片拐角和探针的方法，其中，该方法通过将多遍拐角寻找算法应用到所述图像，使得在扫描过程中产生的图像中的误差失真最小化，该方法包括：

将Radon变换应用于输入的微阵列图像，以将该图像投影到角度和距离空间中，其中在该空间中可以找到直线的取向；

将快速傅里叶变换应用于步骤(a)的投影图像，以寻找该投影图像的最佳倾角；

为所述最佳倾角确定最佳的第一个和最后一个局部极大值；

将所确定的第一个和最后一个局部极大值反投影到所述图像空间中，以寻找所述图像的第一个列线和最后一个列线的第一近似；

旋转所述图像并重复步骤(a)至(d)，以寻找所述图像的顶部行线和底部行线的第一近似；

从所述列线和行线的交点中确定该图像的所述四个拐角的第一近似；

应用启发式算法，以确定步骤(f)的第一近似是否足够；以及

可选地，在所述四个拐角的第一近似周围修剪所述扫描图像并且重复步骤(a)至(f)。

本发明的另一个目的在于提供一种方法，其中，所述微阵列扫描图像是从选自由以下项组成的组中的成员所产生的图像：代表性寡核苷酸微阵列分析、基因表达阵列、单核苷酸多态性阵列、CgP岛阵列、启动子微阵列和蛋白质-DNA相互作用阵列。

本发明的另一个目的在于，提供一种方法，其中，在所述图像中的误差失真包括梯形失真效应。

本发明的另一个目的在于，提供一种方法，其中，在所述图像中的误差失真包括正弦的或弯曲的探针位置线而不是直的位置线。

本发明的另一个目的在于，提供一种方法，其中，所述扫描图像的分辨率为1、2或5微米。

本发明的另一个目的在于，提供一种方法，其中，用Cy3和Cy5荧光团扫描所述扫描图像。

本发明的另一个目的在于，提供一种方法，其中，所述扫描图像是由包含大约85000个探针到大约400000个探针的芯片产生的。

本发明的另一个目的在于，提供一种进一步包括权利要求1的方法的方法，该方法进一步包括估计一个或多个探针的位置。

本发明的另一个目的在于，提供一种进一步包括权利要求1的方法的方法，该方法进一步包括以子采样或剪裁的方式处理所述图像。

本发明的另一个目的在于，提供一种进一步包括权利要求1的方法的方法，该方法进一步包括将所述图像数据转换为生物活性的度量。

附图说明

参考以下实施例和附图，更详细地解释本发明的这些和其他方面。

图1示出了ROMA图像，其中85000个探针以2μm的分辨率扫描(图像大小为150MB)；

图2示出了程序的图像轴系统；

图3示出了寻找拐角(Find_corners)(图像)算法的伪代码；

图4示出了用于图像空间投影的Radon空间；

图5示出了对最佳角度的采样Radon变换；

图6示出了图像投影的采样FFT；

图7示出了对具有基准点的图像进行Radon变换的例子；

图8示出了图7所示的投影的放大图；

图9示出了在ROMA图像中的估计线。

具体实施方式

在此公开的内容提出了一种用于寻找微阵列图像的拐角以及网格化或寻找微阵列图像的内部探针的自动方法，该方法有助于将该图像解码成数字。我们使用了图像处理方法，例如Radon变换和快速傅里叶变换以及若干启发式算法来寻找微阵列拐角和探针的精确位置。基于我们的技术，甚至在拐角处本身没有探针的布局的情况下，我们能够将拐角识别到几个像素内。

在图1中示出了高密度微阵列图像(在我们的实例中为ROMA图像)的例子。存在多种探针设计放置方法。迄今所检查的探针是边长为16μm的正方形，这些正方形之间具有2μm的通道。可以以5μm、2μm或1μm扫描这些图像，或甚至小于微米的分辨率被考虑，从而产生每探针具有3、8或16个像素以及每个通道具有0、1或2个像素的图像。

根据在此公开的方法，启发式算法可以通过以下方式用于高密度芯片(即85000～400000个探针)：1)在水平和垂直方向上对图像进行子采样(例如取每两个像素中的一个像素或每四个像素中的一个像素)。我们还可以取左上角四分之一图像的一部分，以及右上角四分之一、左下角四分之一和右下角四分之一图像中的一部分，以便以合理的图像尺寸开始第一次近似。这也可以基于印制图案和基准标志。

此外，采用多种基准标志图案(作为非常明亮的探针而可见)来印制芯片。以两个彩色频率(通常为Cy3和Cy5荧光团)扫描每个图像。用于拐角寻找算法的最佳图像处理结果可以从对总强度图像，即所述两个彩色频率的总和，所进行的分析中获得。需要自动微阵列图像解码，以寻找拐角点、执行网格化和解码为微阵列数据。在此过程中，需要智能的图像处理算法，以矫正由化学反应(即标准化)和扫描过程产生的伪像。

所开发的和以下所描述的软件的目标在于，自动地在像素坐标中定位探针阵列的四个拐角。采用此信息，假设不存在正弦扰动，双线性变换可以被用于定位探针形心。用于高密度阵列的ROMA技术是一种新方法，并且目前还不存在处理这些图像的适当方法。

寻找微阵列图像中的拐角点是进行网格化以在该图像上寻找探针位置并解码为微阵列数据所需要的第一步骤。成像过程引入伪像并且使图像歪斜。检测和补偿由扫描过程产生的伪像是重要的。我们设计了多遍算法，以在高分辨率和高密度微阵列图像中检测拐角点。该算法包括外循环和内循环。外循环执行第一遍(pass)以寻找拐角，倘若不存在梯形失真(即，探针阵列仍为矩形)，那么该第一遍拐角寻找将是准确的。拟合优度(goodness-of-fit)度量被计算，并且如果结果令人满意，那么该算法将报告其结果并停止。如果此测试失败，那么执行内循环以试图校正梯形失真。拟合优度度量被再次计算，并且如果结果可以接受，那么就报告该结果，否则该算法报告失败并停止。如图2所示，所述结果包括以像素为单位的探针阵列拐角的x和y坐标。

所述算法使用了Radon变换[5]。可以认为Radon变换类似于从不同角度观察果园。当正好以直角观察时，各行之间的所有树和通道将清晰可见。如果图像中的像素是在该角度被总计的，那么会产生清晰和规则的强度振荡(见图7和图8)。计算Radon变换的傅里叶变换[4]，并且使用启发式算法标准来识别最佳角度。

应用此启发式算法以获得在水平和垂直方向上旋转的最佳角度。在选定了最佳旋转角度之后，通过对该角度选择Radon变换中的第一个和最后一个局部极大值，识别出探针阵列的边缘。此操作首先在整个图像上执行。然后，如果拟合优度测量表明图像发生了梯形失真，那么用经剪裁的子图像在水平方向上和/或垂直方向上重复整个过程，以仅检测不平行的边缘。图3示出了用于该算法的伪代码。

用于沿着图像的最右面和最左面的边缘来寻找线(findLines)的算法如下：

我们将Radon变换应用到输入微阵列图像。Radon变换将图像投影到极坐标空间中，即角度和距离空间(θ和ρ)，在该空间中，可以找到直线的取向。

g (ρ, θ) = {&Integral;}_{- \infty}^{\infty} {&Integral;}_{- \infty}^{\infty} g (x, y) δ (ρ - x \cos θ - y \sin θ) dxdy

其中，g(x，y)为原始图像，其作为笛卡儿坐标中的强度阵列，g(ρ，θ)为经Radon变换的图像，θ为旋转角，ρ为到轴系统的原点的最小距离，δ()为Diracδ函数。

为了最小化计算量，该算法执行分级Radon变换，该Radon变换开始于以0.1度的步长将θ从-1度到+1度变化。我们的关于来自一个扫描仪的图像的经验表明，此范围对于此扫描仪而言是足够的。其他的具有更多旋转可变性的扫描仪可能需要扩展此范围。Radon变换被逐步地应用到所有的θ∈{-1，-0.9，-0.8，...，1}。图5示出了对于特定θ的Radon变换的采样投影。

我们将快速傅里叶变换应用到每个θ曲线，以寻找图像的倾角。所选择的倾角θ_k是其FFT包含单频中最高能量的那个倾角。图6示出了图5中所示的投影的FFT。

我们选取θ_k并且这次以0.01的步长从θ_k-0.1到θ_k+0.1应用Radon变换并且进行到步骤3。再一次，可能必须改变这些参数选择，以用于不同的扫描仪图像组。对于特定θ值的Radon变换的每个应用，我们获得在ρ空间上的图像的垂直投影。对于每个θ：(θ₁，...，θ₂₁)，我们获得单独的曲线，从该曲线中选择在其快速傅里叶变换中的单频中具有最高能量的θ作为旋转的最佳角度。

我们寻找最佳角度的Radon变换的局部极大值。下面的图7示出了对在单频中具有最高能量的角度的Radon变换。星形表示局部极大值。

我们寻找至少达到全局最大值的20％的第一个和最后一个局部极大值。在图7中的开始处和结束处的小圆圈表示选定的第一个和最后一个局部极大值。可替换地，如果我们找到比平均信号水平高很多的峰值，那么我们接受该峰值为我们的第一个/最后一个局部极大值并且忽略这些极大值周围的其他峰值(图7)。这通常发生于探针周围具有基准标志的设计中。图8示出了投影和选定的局部极大值的放大图。第一列和最后一列由满足一定标准的第一个和最后一个局部极大值估计得到。这些对于在阵列图像实际开始之前避免选取噪声而言是必要的。为了进行该处理，我们仅处理图像的前三分之一和最后三分之一中的极大值。我们选取其局部平均梯度小于20％的局部极大值的子集。然后，我们寻找第一最大值点，其高度至少为该图像中间三分之一中的平均强度的25％。这捕获了典型的阵列边缘。接着，在存在基准点的情况下，我们测试在该图像的前(或最后)三分之一中的最大值是否比该图像的前(或最后)三分之一中的平均值的两倍大。如果我们获得了这样的点，我们指定它们为第一个和最后一个有效的极大值，以取代之前找到的极大值。在图7的开始处和结束处所示的小圆圈表示选定的第一个和最后一个局部极大值。图8示出了投影和选定的局部极大值的放大图。

我们将对应的第一个和最后一个局部极大值反投影到图像空间，以寻找经过图像的第一列和最后一列的线的第一近似。此时，我们具有由我们从反投影中找到的点和角度定义的线。这些线是通过最左列和最右列的线。下式将Radon空间中的ρ映射到图像空间。图4用图形表示了需要执行的估计。

每个Radon变换具有长度Radon尺寸，该Radon尺寸是Radon变换可以达到的最大可能尺寸。这由下式给出：

用于所有其他角度的Radon变换仅覆盖了Radon尺寸的阵列的一部分。这由下式给出：

实际Radon尺寸(sizeActualRadon)＝宽度＊cos(θ)+高度＊sin(θ)

对于Radon变换中的每个期望点，其到图像空间的反投影由下式给出：

我们需要计算在图像中经过此点的线的方程式。

y＝mx+c

倾斜角是由执行快速傅里叶变换(FFT)后选定为在单频中具有最高值的θ给定的。为了估计方程中常数c的值，我们使y＝0，以用于Radon变换的反投影点。因此，

c＝-m*X_bp

接着我们对经旋转的图像执行步骤2-7，以估计经过顶部行和底部行的线。

为了找到拐角的第一近似，我们寻找四条线(顶部、底部、左边和右边)的交点。通过以上步骤，我们具有这四条线的方程式，并且我们求解这四个方程式，以估计这四个拐角点。

接下来，我们测试估计的拐角是否合适。为此目的，我们再次使用Radon变换。对于选定的θ(θ_i)的Radon变换的FFT，计算全局最大值与全局最大能量频率自身周围的能量总和的比值，该比值由以下等式计算得到：

[最大能量i]＝max(fft)

最大能量和＝sum(fft(i-10∶i+10))

r_i＝最大能量和/最大能量

如果此比值r_i在选定的阈值(基于若干实验以及估计哪个适用，启发式地将该阈值选为0.4)以下，那么我们在第一近似周围修剪该图像并且再次应用Radon变换。重复以上过程，并且如果甚至在第二轮中，此比值仍在选定的阈值以下，那么返回失败。

我们使用了具有各种分辨率的测试图像来测试我们的算法。在表1中提供了各种测试图像和它们的分辨率。在许多情况下，Cy5和Cy3是两个被捆绑在一个tiff文件中的图像。总计测试了14个图像。

扫描分辨率	图像的数量	图像号
扫描分辨率	图像的数量	图像号	5μm	9	1-9
2μm	2+2^＊	10-11	5μm	9	1-9
2μm	2+2^＊	10-11	1μm	1	12

表1测试图像和它们的分辨率

表2示出了表1中所引用14个图像中的12个图像的拐角的真实数据(ground truth)位置。对于以下计算没有考虑在图1中表示为2^＊的以2μm扫描的两个图像，因为所述算法返回失败。这两个图像被冲洗(wash out)，而且所述算法不能较好地估计旋转角度，并且在对剪裁的图像执行了Radon变换之后，在步骤9中宣告失败。真实数据是通过人工观察MATLAB图中的图像和以右上方的探针为中心而估计出来的。在不存在探针的情况下，线被绘制，并且拐角点被确定为这些线的交点。对于图像11，ROMA芯片的杂交出现问题，拐角被冲洗并且不能被人工估计(在表中标识为“无”)。对于这样的情况，拥有自动化的方法是非常宝贵的，因为对于操作员而言不可能找到拐角。用于精度计算的图像11的真实数据被取为与图像10的真实数据相同，图像10是C3y荧光团的扫描。

真实数据的拐角

x1

x2

x3

x4

y1

y2

y3

y4

1	105	80	2690	2665	50	3504	64.1	3519
1	105	80	2690	2665	50	3504	64.1	3519	2	91.5	94	2677	2679	87	3541	83	3536.5
3	91	93.5	2676.5	2679	86	3540	81	3534.5	2	91.5	94	2677	2679	87	3541	83	3536.5
3	91	93.5	2676.5	2679	86	3540	81	3534.5	4	70	74	2655	2659.5	46	3500	39.5	3493.5
5	70	74.5	2655	2659.5	46	3500	39.5	3493	4	70	74	2655	2659.5	46	3500	39.5	3493.5
5	70	74.5	2655	2659.5	46	3500	39.5	3493	6	86.4	89.4	2668.7	2672.6	110.4	3563.6	104	3557.6
7	79.4	82.5	2664.6	2666.6	152.3	3605.4	147.4	3601.4	6	86.4	89.4	2668.7	2672.6	110.4	3563.6	104	3557.6
7	79.4	82.5	2664.6	2666.6	152.3	3605.4	147.4	3601.4	8	58.5	61.5	2643.5	2646.5	114	3567.5	108.5	3562
9	73.5	75.5	2656.5	2658.5	53.5	3506.5	51	3504.5	8	58.5	61.5	2643.5	2646.5	114	3567.5	108.5	3562
9	73.5	75.5	2656.5	2658.5	53.5	3506.5	51	3504.5	10	421	398	7241	7215	263	8657	200	8592
11	无	无	7241	7216.5	无	无	200	8593	10	421	398	7241	7215	263	8657	200	8592
11	无	无	7241	7216.5	无	无	200	8593	12	1017.5	982	14244	14206	511.5	17568	377	17432

表212个图像的拐角的真实数据位置

表3示出了通过所述算法和用于每个图像的表2中的真实数据值得到的估计拐角和拐角估计值之间的总绝对差(TAD)。例如，对于图像1，表3中的TAD是如此计算出来的，即对表2和表3中的x1(或105.3-105＝0.3)；x2(或80-80＝0)；x3(2690.3-2690＝0.3)；x4(2665-2665＝0)；y1(50.4-50＝0.4)；y2(3504.4-3504＝0.4)；y3(64.6-64.1＝0.5)；和y4(3519.5-3519＝0.5)取绝对差的和。因此，通过相加这些绝对差，图像1的TAD为2.4。图9示出了在ROMA图像中估计线和估计拐角的例子。这是程序的可视化输出，其中我们可以看到叠加在实际ROMA阵列上的估计线和估计拐角。

估计拐角	x1	x2	x3	x4	y1	y2	y3	y4	总绝对差(TAD)
估计拐角	x1	x2	x3	x4	y1	y2	y3	y4	总绝对差(TAD)	1	105.3	80	2690.3	2665	50.4	3504.4	64.6	3519.5	2.4
2	92.1	94.8	2677.1	2679.8	86.6	3540.6	82.3	3536.3	4	1	105.3	80	2690.3	2665	50.4	3504.4	64.6	3519.5	2.4
2	92.1	94.8	2677.1	2679.8	86.6	3540.6	82.3	3536.3	4	3	92.1	94.8	2677.1	2679.8	85.9	3539.9	81.1	3535.1	4.7

4	70.5	74.4	2656.5	2660.4	46.1	3500.1	40.9	3494.9	6.3
4	70.5	74.4	2656.5	2660.4	46.1	3500.1	40.9	3494.9	6.3	5	70.5	74.4	2655.5	2659.4	46.6	3499.6	40.5	3493.5	3.7
6	86.4	90.6	2669.4	2673.6	111.8	3564.8	105.2	3558.2	7.3	5	70.5	74.4	2655.5	2659.4	46.6	3499.6	40.5	3493.5	3.7
6	86.4	90.6	2669.4	2673.6	111.8	3564.8	105.2	3558.2	7.3	7	80.2	82.9	2665.2	2667.9	152.9	3606.9	148.2	3602.2	6.8
8	59	62	2644	2647	113.5	3567.5	108.5	3562.5	3	7	80.2	82.9	2665.2	2667.9	152.9	3606.9	148.2	3602.2	6.8
8	59	62	2644	2647	113.5	3567.5	108.5	3562.5	3	9	74.3	76.7	2657.3	2659.7	52.9	3505.9	51.1	3504.1	5.7
10	421.3	397.9	7239.5	7216.1	265.5	8658.1	200	8592.6	7.2	9	74.3	76.7	2657.3	2659.7	52.9	3505.9	51.1	3504.1	5.7
10	421.3	397.9	7239.5	7216.1	265.5	8658.1	200	8592.6	7.2	11	421.3	397.9	7239.5	7216.1	265.5	8658.1	200	8592.6	2.3
12	1010.4	992.5	14238	14220	512.9	17568	377.8	17433	5.45	11	421.3	397.9	7239.5	7216.1	265.5	8658.1	200	8592.6	2.3

表3拐角的估计位置以及从整个图像的用于拐角的真实数据中得到的总绝对差

表4示出了每个估计像素的差异(DPEP)值以及作为探针尺寸的百分比的该值。这是在每个不同的扫描分辨率中的所有绝对差的和除以八倍的图像数目(我们为每个图像估计八个值)所得到的。每个探针是边长为16μm的正方形。所以，在5μm处，每个探针大约有3x3个像素。

DPEP＝∑TAD/(图像总数*8)

扫描尺寸	每个估计值的差值	每个探针的像素(16μm宽)	探针尺寸的百分比
扫描尺寸	每个估计值的差值	每个探针的像素(16μm宽)	探针尺寸的百分比	5μm	0.609722	3x3	20.32407
2μm	0.59375	8x8	7.421875	5μm	0.609722	3x3	20.32407
2μm	0.59375	8x8	7.421875	1μm	1.3625	16x16	8.515625

表4每个估计值的绝对差以及作为探针尺寸的百分比

因此，通过使用Radon变换，我们能够精确地估计高密度ROMA图像的拐角。在目前的数据集中，最大差值大约为探针尺寸的20％。这正意味着，为了找到最佳拟合的网格，在估计拐角周围的搜索区域最多需要是大约几个像素。这将免去为了找到图像的网格点而对人工介入的需要，从而允许此技术的大量部署。根据本发明的在此公开的方法给出了使高分辨率的ROMA图像转换到数字的整个过程自动化的良好前景。

除了与ROMA一起使用，本公开的方法还可以考虑与不同种类的阵列一起使用，这些不同种类的阵列包括基因表达阵列、单核苷酸多态性(SNP)阵列、CpG岛阵列、启动子微阵列、蛋白质-DNA相互作用阵列和其他包括在拐角上具有“空白”探针的、用人工方法非常难估计的微阵列的阵列。此外，借助与Radon变换结合的快速傅里叶变换，可以发现正弦波，该正弦波可能发生在扫描仪以高分辨率工作的时候。此外，我们相信我们的算法的扩展将可能使微阵列上的容量翻一倍，并且可以使用芯片上的所有地方，而不是如现在所使用的以使探针能正确被读取的棋盘模式。

与上述仅对直线进行Radon投影的方法相类似，为了补偿正弦变化，我们可以沿着变化频率的正弦曲线、在不同的相位处和在不同的幅度处投影图像，以寻找最合适的正弦曲线和旋转角度。此方法将能够对正弦变化进行补偿并且能够以更佳的精度定位探针。需要这样的投影，以寻找所选择的Radon变换的局部极小值，并且查看极小值的和是否在阈值之内。在没有正弦变化的情况下，这些极小值接近于0。否则，将存在比背景噪声大一点的值，该值可以触发此正弦变化补偿步骤被执行。

为了估计探针，我们为最佳角度、频率、相位和幅度寻找Radon变换的局部极大值，并且在水平和垂直两个方向上将这些局部极大值投影回成像空间中。这些线的交点给出了探针的位置。

本公开的方法还可以考虑用于：1)以子采样或剪裁的方式处理图像，以改善处理的速度--这在较高密度或批处理中将是十分重要的；2)对解码到数据进行处理。一种选择是在空间域中解码剪裁的矩阵。这也可以基于傅里叶变换数据来实现。

虽然已经关于本发明的具体实施例描述了本发明，但是本领域技术人员应当认识到，在不偏离本发明的精神和范围的情况下，可以实现许多修改、改进和/或改变。因此，明确的是本发明仅由权利要求书及其等同物的范围限定。

Claims

1.一种在具有图像空间的高密度和高分辨率微阵列扫描图像中自动识别微阵列芯片的拐角和探针的方法，该方法包括以下步骤：

(a)将Radon变换应用于输入的微阵列图像，以将该图像投影到角度和距离空间中，在该空间中可以找到直线的取向；

(b)将快速傅里叶变换应用于步骤(a)的所述投影图像，并且应用启发式算法，以寻找该投影图像的最佳倾角；

(c)应用启发式算法，以为所述最佳倾角确定最佳的第一个和最后一个局部极大值；

(d)将所确定的第一个和最后一个局部极大值反投影到所述图像空间中，以寻找所述图像的第一个列线和最后一个列线的第一近似；

(e)旋转所述图像并重复步骤(a)至(d)，以寻找所述图像的顶部行线和底部行线的第一近似；

(f)从所述列线和行线的交点中确定所述图像的四个拐角的第一近似；

(g)应用启发式算法，以确定步骤(f)的所述第一近似是否足够；以及

(h)可选地，在所述四个拐角的第一近似周围修剪所述扫描图像并且重复步骤(a)至(f)。

2.根据权利要求1所述的方法，其中，所述微阵列扫描图像是从选自由以下项组成的组中的成员所产生的图像：代表性寡核苷酸微阵列分析、基因表达阵列、单核苷酸多态性阵列、CgP岛阵列、启动子微阵列和蛋白质-DNA相互作用阵列。

3.根据权利要求1所述的方法，其中，在所述图像中的误差失真包括梯形失真效应。

4.根据权利要求1所述的方法，其中，在所述图像中的误差失真包括正弦的或弯曲的探针位置线而不是直的位置线。

5.根据权利要求1所述的方法，其中，所述扫描图像的分辨率为1、2或5微米。

6.根据权利要求1所述的方法，其中，用Cy3和Cy5荧光团扫描所述扫描图像。

7.根据权利要求1所述的方法，其中，所述扫描图像是由包含大约85000个探针到大约400000个探针的芯片产生的。

8.根据权利要求1所述的方法，该方法进一步包括估计一个或多个探针的位置的步骤。

9.根据权利要求1所述的方法，该方法进一步包括以子采样或剪裁的方式处理所述图像的步骤。

10.根据权利要求1所述的方法，该方法进一步包括将所述图像数据转换为生物活性度量的步骤。