CN102132495B

CN102132495B - 用于压缩和解压缩图像数据组的方法、设备

Info

Publication number: CN102132495B
Application number: CN200980117416.9A
Authority: CN
Inventors: H·达恩德; N·迪米特罗瓦; H·米斯拉
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2008-05-15
Filing date: 2009-05-11
Publication date: 2015-04-29
Anticipated expiration: 2029-05-11
Also published as: EP2289173A2; US8885957B2; EP2289173B1; PL2289173T3; CN102132495A; WO2009138938A2; US20110069898A1; WO2009138938A3; US20130308872A1; US8503808B2

Abstract

本发明提供了一种用于压缩和/或解压缩诸如DNA测序图像之类的生物医学图像的方法。该方法包括使用多个即刻生成的分布函数再生完整图像。得到的压缩比约为10至20倍，其对于临床相关信息而言接近于无损失；这使其非常适用于这些DNA测序图像。

Description

用于压缩和解压缩图像数据组的方法、设备

技术领域

本发明总体上涉及基因测序领域。本发明更具体地涉及一种用于基因测序图像的压缩方法。

背景技术

当前，基因测序是活跃的研究领域。对基因组变异的理解将使我们能够完全理解遗传易感性和对于所有个体的药物反应的药物基因组学以及个性化分子诊断试验的问题。当前基因测序的主要问题在于其涉及到的成本。

通过荧光或微阵列技术生成的表示DNA序列的基因测序图像在尺寸上很大。而且，该图像在真实信息方面是稀疏的，并常常具有类似于天体图像的外观。

已经提出了许多完成测序过程的方法，但极少足够有希望将成本带到负担得起的水平以内。Solexa Technologies已经开发了一种特殊的方法。他们采用边合成边测序的方法，其中首先将基因片段样本置于同样的副本的菌落的高密度阵列中。然后循环地为它们添加用荧光团标记的核苷酸，发射的荧光被用于确定片段中基的顺序，一次一个。在每个周期期间，被芯片上的菌落发射的荧光以生物医学图像的形式被捕获：对于平均三十个基对，每个周期4个图像（对于A、C、G和T）。在操作结束时，图像的尺寸累积到千兆字节数量级。

因此，例如根据边合成边测序的方法得到的测序图像常常具有巨大的尺寸。未压缩的图像集数周左右就快速地达到千兆字节数量级因此不适用于存档目的。

图1a示出了原始基因测序图像的片段，图1b示出了增强的基因测序图像，其示出了图像的总密度。根据图1a和图1b，难以断言哪个部分属于信息，哪个部分属于噪声。尽管有少数亮簇或斑点表示真实信息（即核苷酸基对）的指示，但是剩下的是在获得图像的同时由光衍射获得的噪声。

图2是图示更高像素值中针对同一周期中四个基的基因测序图像的典型柱状图的示意图。因此，该柱状图的尾部对应于至关重要且必须保存的值。

因此，在有损失的域和无损失的域中，没有普遍知晓的压缩技术能够以令人满意的方式存储基因测序图像中的信息。有损失意味着在原始图像和经解压缩的图像（从压缩图像得到）之间存在一些信息损失。如果在原始图像和经解压缩的图像之间不存在信息损失，那么这可以称为无损失压缩。每个基因测序图像包括太多的数据，并非这些数据中的全部对于再生基因组序列而言都很重要。一些普遍知晓的方法采用直接的阈值处理，这移除了大部分的噪声数据，但也移除了可能与临床有关的较低强度的斑点。

因此，需要能够跨越公司和学术机构来传输和存档基因测序图像。然而，这些图像巨大的尺寸是一个限制因素。因此，用于图像数据组的压缩和解压缩的改进的方法、设备和计算机程序产品是有益的。

发明内容

因此，本发明优选地设法通过提供根据所附专利权利要求的方法和设备来单独地或以任意组合地缓解、减轻或消除一个或多个上面提到的现有技术中的缺点和劣势并至少解决上述问题。

在本发明的一个方面中，提供了一种在图像数据组的压缩中使用的方法。该方法包括将图像数据组中属于信息的第一像素组和属于噪声的第二像素组分离，其中第一像素组中的每个像素属于该图像数据组中的信息峰。通过识别该图像数据组中的最小像素值来进行分离步骤。该分离步骤还可包括计算像素值相对于最小像素值的标准差，其中如果像素x_r满足，那么图像数据组的像素x_r被定义为属于第二像素组；如果像素x_ij是局部最大值且不满足，其中N_Th是噪声阈值参数，那么图像数据组的像素x_ij被定义为属于第一像素组。将所述第一像素组存储在稀疏矩阵中,根据第二像素组确定分布参数并在报头中存储分布参数,其中所述分布参数包括所述图像数据组中的最小像素大小或标准差,以及基于所述稀疏矩阵和所述报头中的信息生成压缩的图像数据组。

在本发明的另一个方面中，提供了一种用于解压缩经压缩的图像数据组的方法，所述经压缩的图像数据组包括：包含属于原始图像数据组中的信息的第一像素组的稀疏矩阵和包含属于原始图像数据组中的噪声的第二像素组的报头。该方法包括：在包括在压缩的图像数据组的稀疏矩阵中的第一像素组周围生长信息，这导致再生的信息。该方法还包括基于包括在压缩的图像数据组的报头中的分布参数在第二像素组周围生长噪声信息，这导致再生的噪声，其中所述分布参数包括所述图像数据组中的最小像素大小或标准差。该方法还包括基于再生的信息和再生的噪声再生解压缩的图像数据组。

在本发明的又一个方面，提供了在图像数据组的压缩中使用的设备。该设备包括配置成将图像数据组中属于信息的第一像素组和属于噪声的第二像素组分离的分离单元，其中第一像素组中的每个像素属于图像数据组中的信息峰。分离单元还包括配置成识别图像数据组中的最小像素值和最大发生像素值的识别单元（711）。所述分离还包括配置成计算像素值相对于最小像素值的标准差的计算单元（712），其中所述分离单元还配置成如果像素x_r满足，那么将图像数据组的像素x_r分类为属于第二像素组；如果像素x_ij是局部最大值且不满足，其中N_Th是噪声阈值参数，那么图像数据组的像素x_ij被定义为属于第一像素组,配置成将所述第一像素组存储在稀疏矩阵中的存储单元,配置成根据第二像素组确定分布参数并在报头中存储分布参数的确定单元,其中所述分布参数包括所述图像数据组中的最小像素大小或标准差，以及配置成基于所述稀疏矩阵和所述报头中的信息生成压缩的图像数据组的图像生成单元。

在本发明的另一个方面，一种设备用于解压缩经压缩的图像数据组，该经压缩的图像数据组包括：包含属于原始图像数据组中的信息的第一像素组的稀疏矩阵和包含属于原始图像数据组的噪声的第二像素组的报头。该设备包括配置成在包括在压缩的图像数据组的稀疏矩阵中的第一像素组周围生长信息的单元，这导致再生的信息。该设备还包括配置成基于包括在压缩的图像数据组的报头中的分布参数在第二像素组周围生长噪声信息的单元，这导致再生的噪声,其中所述分布参数包括所述图像数据组中的最小像素大小或标准差。该设备还包括配置成基于再生信息和再生噪声再生解压缩的图像数据组的单元。

根据一些实施例，本发明的目的是有效地减小用于测序和微阵列图像的存储空间。出于后代考虑，这些图像是重要的，并可能需要被更长期地存档，压缩使这变得可行。

根据一些实施例，本方法和设备实现了这些图像的存档并提供了适度的压缩，同时仍保持了信息完整。

根据一些实施例，本发明公开了一种特别适用于基因测序图像的压缩方法。该方法基于通过多个分布函数（即刻生成的）再生完整图像的新颖思想。得到的压缩比约为10至20倍，其对于临床相关信息而言接近于无损失，这使其非常适用于DNA测序图像。

根据一些实施例，本方法提供了非常高的压缩比，例如大约10或更高，同时不损失基础的重要测序数据。

根据一些实施例，本方法利用了DNA压缩图像的图像特性-其具有大部分的暗区域和少许亮斑点。

根据一些实施例，本方法包括减少了需要被存储的图像信息的噪声生长步骤。

附图说明

根据下面的本发明实施例的描述，本发明能够实现的这些和其他方面、特征和优势将变得清楚明白，并得以阐述，参考附图，其中

图1a是示出原始基因测序图像的片段的图示；

图1b是示出图1a增强版本的图示；

图2是示出基因测序图像中峰周围的像素强度分布的示意图；

图3是示出六个来自基因测序图像的表示假色剪裁区域的子图像，其中每个子图像示出了同一区域，并且通过变化的大小程度进行了阈值处理；

图4是根据实施例的压缩方法的流程图；

图5是根据实施例的解压缩方法的流程图；

图6a是原始图像数据组的3D图；

图6b是解压缩的图像数据组的3D图；

图7是根据实施例的设备的框图；以及

图8是根据实施例的设备的框图。

具体实施方式

下面将参照附图更详细地描述本发明的若干实施例，以便让本领域技术人员能够实现本发明。然而，本发明可以以许多不同的形式体现且不应该解释为受限于本文提到的实施例。相反，提供这些实施例，使得这个公开将是全面的和完整的，并将本发明的范围完全地传达给本领域技术人员。这些实施例不限制本发明，而是，本发明仅由所附的专利权利要求限定。另外，在附图中图示的特定实施例的详细描述中使用的术语不旨在作为本发明的限制。

下面的描述聚焦于适用于基因测序图像数据组的本发明的实施例。然而，将理解的是，本发明不限于这个应用，而是可以应用于其中希望进行压缩的所有图像数据组。

根据实施例的用于压缩诸如测序图像之类的图像数据组的方法在图像数据组的空间域特性上操作。本方法的一个动机可以在下面的图3中观察到，在图3中，子图像表示来自测序图像的假色剪裁的区域。每个子图像显示出通过变化的程度进行了阈值处理的同一区域。可以观察到，利用更多的阈值处理，这些区域汇聚在种子点周围，种子点在说明书通篇里也表示为数据点。使用相反的方法，如果在数据和种子点中的信息之间存在某些已知的关联，那么这些种子点可以用于确切地再创建原始图像数据组。这给出了对于基于阈值处理的压缩方法和用于解压缩(即再生)经压缩的图像数据组的方法的动机。

当考虑表示基因测序图像数据组中的某信息的每一个亮簇或斑点中的峰时，可以观察到少许特性。一个特性与由于强度下降导致峰周围信息中的突然下落有关，这指示大部分信息被包含在强度峰周围。另一个特性可能与遍及图像的持续噪声区域有关。再一个特性可能与取决于信息峰的伸展和分布有关(参见图6)。

压缩方法

图3图示了6个子图像，即图像数据组的子区域，(3a到3f)表示来自基因测序图像的假色剪裁区域。每个子图像示出通过变化的大小程度进行了阈值处理的同一区域。可以观察到，最初的像素充当种子，并逐渐径向地生长以增大尺寸，直到它们并入到包括噪声区域的周围环境内。

在一个实施例中，根据图4，提供了用于压缩诸如基因测序图像数据组之类的图像数据组的方法40.该方法包括通过将图像数据组中属于信息的第一像素组和属于噪声的第二像素组分离来将图像数据组中的噪声和信息分离41。第一像素组中的每个像素属于图像数据组中的信息峰。

该方法还包括将第一像素组的每个像素存储42在稀疏矩阵的对应位置处。稀疏矩阵应当被理解为主要由零构成的矩阵。

另外，本方法还可以包括根据第二像素组确定43分布参数(一个或多个)。分布参数可以与基于前面进行的实验或估计的例如标准差和最小像素大小有关。

该方法还可以包括将分布参数存储44在报头中。报头可以与放置在数据块开头(例如，处于在随后步骤47中生成的最终得到的压缩图像数据组的开头)的补充数据有关，其包含用于处理压缩的图像数据组的信息。

另外，本方法可以包括基于所述稀疏矩阵和所述报头中的信息生成45压缩图像数据组。压缩图像数据组可以例如具有减小了10倍或减小更多的图像尺寸，而无信息保真度方面的妥协。

简而言之，分离步骤41包括孤立原始图像数据组的最小数据组，这可以用于稍后以最大保真度重新构建原始图像。这个信息由原始图像数据组中的斑点表示，且这些数据的完整性是重要的考虑因素，因为它们表示被用于识别核苷酸的主要衍射图案。在保存信息完整性时重要的是保存来自每个峰的足够信息使得随后能够将它再生。可以使用基本的大小-阈值处理来丢弃较低的峰，并保留仅对应于较高峰的比需求更多的信息，同时使用关于给定区域中每个峰的局部最大值，也包括许多噪声区域中的局部最大值。因此，用于在分离步骤41中使用的阈值处理方案必须动态地决定将被考虑为信息的最低峰。

在一个实施例中，分离步骤基于两个阶段：对将被考虑为信息的最低峰作出决定；然后评估局部最大值。

在一个实施例中，分离步骤41包括将包括重要性高的信息的第一像素组和包括重要性低的信息的第二像素组分离。第一像素组可以包括在所谓的高信息区域中，并也可以称为数据像素或控制像素或信息峰。第二像素组可以包括在所谓的低信息区域并属于噪声。

使用子图像将给出更好的统计结果，因为峰是在其直接近邻的环境中而非整个图像中评估的。如果秩(rank)大于噪声阈值参数(其可以基于实验确定)，那么信息像素被保留为属于第一像素组的数据像素。如果不是这样，则将其丢弃。这样一来，可以在存储步骤42中基于分离的第一像素组来构建稀疏矩阵。

考虑原始图像的第r个子图像。分离步骤41然后可以包括识别411图像数据组中的最小像素值以及可选地最大发生像素值或模接下来，像素值相对于的标准差σ_r可以计算412为：

{\hat{σ}}_{r} = \sqrt{\frac{1}{N - 1} \underset{x_{rs} &Element; X}{Σ} {(x_{rs} - {\hat{m}}_{r})}^{2}},

其中

X_r＝{x_r1，x_r2，...，x_rN，}是第r个子图像的N个像素的组。另外，第s个子图像的第r个像素x_rs可以考虑为噪声，条件是，

其中和分别是所考虑的子图像的最小值和标准差，并且其中，这里，第N个是噪声阈值参数。

对于诸如一些DNA测序图像之类的一些图像数据组，本发明人已经表明可以使用N_Th＝0.65。在实验期间使用这个N_Th已给出～3dB的最低可能信噪比(其中信号是最低信号峰，噪声是区域中的模 )。这个准确性的峰检测已被证明对随后的再生目的而言是足够的。

从所述阈值像素之中，可以确定局部最大值。

当与处于上面指定的参数值的DNA测序图像一起工作时，这使子图像具有仅约1/15^th到1/20^th非零元素。因此，这些子图像可以当成稀疏矩阵，对于它们存在许多无损失的压缩方案。

用于孤立适合于重建的局部最大值的原则是识别所考虑的子图像中的每个像素的秩R(用于确定局部最大值的参数)。为了这样做，掩码(mask)M_pxp被应用于2维子图像的每个像素x_ij，使得x_ij是中心元素。作为掩码维度的p是大于1的奇整数。像素x_ij的秩于是被定义为：

R(x_ij)＝M_pxp中小于x_ij的元素数量

其中R(x_ij)是原始图像数据组的子图像中位置(i，j)处的信息像素x关于pxp周围矩阵M_pxp中的所有其他像素的秩。现在，如果像素x_ij的秩R(x_ij)被发现大于或等于常数R0(其可以被认为对于给定的测序图像组不变)，则像素x_ij有资格作为局部最大值。接下来，使用不等式测试x_ij。如果其有资格作为信息，则将其保留，否则丢弃。

根据一些实施例，在本方法中采用p＝3和R₀的结果在图6a和6b中示出，其中图6b图示了解压缩的图像数据组，图6b图示了原始图像数据组。

在本发明人进行的实验中，所有子图像被合并成构成原始图像数据组的维度的大稀疏矩阵，并将该大的稀疏矩阵转换到通过Lempel-Ziv-Welch(LZW)压缩的16位TIFF图像，Lempel-Ziv-Welch(LZW)是一个广泛使用的无损失的数据压缩算法。

解压缩方法

图5是示出用于解压缩经压缩的DNA-测序图像的方法的流程图。该方法包括

接收51压缩的图像数据组，

在包括在压缩的图像数据组的稀疏矩阵中的第一像素组周围生长52信息，这导致再生的信息，

基于包括在压缩的图像数据组的报头中的分布参数在第二像素组周围生长53噪声信息，这导致再生的噪声，

基于再生的信息和再生的噪声再生54解压缩的图像数据组。

生长信息步骤52

根据一些实施例，思想是使用合适的连续(例如即刻)确定的再生函数仅基于属于高信息区域的第一像素组再生整个图像。

在解压缩阶段，信息将被从种子信息向回生长。这是一个插值问题，因为给出了稀疏分散的数据，期望的是使用压缩的图像数据组重建表面。该重建的表面应当尽可能紧地遵循原始图像数据组的表面表示。

本发明的发明人已经研究了两个可以在这方面使用的普通程序，例如使用分形插值函数的重建，以及用于分散的数据插值的一般化程序。

利用分形，再生过程进行得缓慢，并且甚至在六个再生迭代之后，原始稀疏图像的重要部分仍然有待填充。这个方法的另一个缺点在于它没有利用原始图像数据组中信息峰的特性(例如峰的径向对称性)。

替代使用分形插值方法，可以使用更一般的分散数据插值方法。分散的数据插值在二维中的一般问题是：在上给出一组n个不规则分布的点P_i＝(x_i，y_i)，i＝1，...，n，且与每个点关联的对于一些基础的函数F(x；y)满足F_i＝F(x_i；y_i)的标量值F_i，寻找插值函数使得对于i＝1，...，n，该插值函数可以用于重建高信息区域。点P_i(峰或尖峰或控制至高点)全部假设为在上述问题中是明晰的，并是非共线的。如果可以发现函数满足等式4并严密地遵循峰的轮廓，则其可以用于以高的保真度重建信息区域中的峰。为了构建这样的函数，需要识别信息区域中典型峰的轮廓。

一个有趣的现象是，DNA测序图像可以与天体图像或天文图像非常类似。天体图像中峰的轮廓与测序图像中峰的轮廓很类似，因为它们的原点都在点光源的衍射中。星轮廓的光谱分析可以表明，通过地球大气的衍射创建的点伸展函数(PSF)具有圆对称性，并可以由高斯函数来近似

g (i, j) = g_{0} e^{\frac{{(i - i_{0})}^{2} + {(j - j_{0})}^{2}}{2 σ^{2}}} + B

其中g₀是星轮廓的峰的最大值，i₀；j₀是星的位置，s是星轮廓的宽度，以及B是天空级的强度。根据本发明，可以使用表面插值技术，例如由Goshtasby开发[Ardeshir Goshtasby.Design and recovery of 2-d and 3-d shapes using rational gaussian curves and surfaces.International Journal of Computer Vision，10，1993]并随后由Liao等人推广[J.K.Aggarwal and Wen-Hung Liao.Curve and surface interpolation using rational radial basis functions.Pattern Recognition，Proceedings of the13th International Conference on，4，1996.]的表面插值技术。该技术涉及使用旋转径向基函数的曲线和表面的插值。采用该技术的主要动机在于，不仅可以使用Gaussian来重建孤立的峰的轮廓，而且同时，对应于彼此间紧密相邻的一组尖峰的Gaussian总和又与Gaussian非常像。

可以用作用于插值的径向函数。

给出控制点的序列，例如第一像素组的像素{V_i：i＝1，...，n}，通过对每一个构建Gaussian来近似这些点的函数给出如下

\overset{&OverBar;}{F} (x, y) = Σ_{i = 1}^{n} w_{i} V_{i} G_{i} (x, y),

(等式1)

其中G_i(x；y)，第i个径向基函数是高斯函数，其中标准差σ_i具有以这个数据点x，y为中心的径向对称性：

G_{i} (x, y) = \exp (\frac{- [{(x - x_{i})}^{2} + {(y - y_{i})}^{2}}{2 σ_{i}^{2}})

(等式2)

并且w_i是分配给第i个控制点的用于重建的权重，而(x_i；y_i)是大小为V_i的控制点的位置。因此，V_i表示从稀疏矩阵获得的第i个数据点的大小或强度。

一些DNA测序图像也可以要求高斯函数不应当将零大小作为基。如果它们的基础水平在噪声区域的某处将更为适当。

使用更小的图像，所有高斯函数Gi(x；y)的基础水平可以被定义为给定第r个子图像的最小像素大小在压缩期间，被置于报头信息中。接下来，可以从全部的非零元素(起始尖峰)中减去来获得集合Vi可以用作一组控制点，并且因此等式1可以重新表述为

{\overset{&OverBar;}{F}}_{r} (x, y) = Σ_{i = 1}^{n} ω_{i} V_{i} G_{i} (x, y) + {\hat{m}}_{r}

(等式3)

其中符号具有与等式1中的相同的意义，而中的下标r表示这是第r个子图像的插值函数。

对于{w_i：i＝1，...，n}的评估，需要观察到，存在n个对应于的值的等式，即，

{\overset{&OverBar;}{F}}_{r} (x_{i}, y_{i}) = V_{i} + {\hat{m}}_{r}, i = 1, . . . n

(等式4)

已知正在使用的函数G_i是径向对称的。因此，等式2可以重新表述为

{\hat{G}}_{i} (r) = G_{i} (x, y),

(等式5)

其中r是点(x；y)和点(x_i；y_i)之间的径向距离。使用等式3，4和5，这n个等式可以重写为矩阵的形式：

或简单地重写为

其中d_ij是任意两个控制点i和j之间的径向距离。可以观察到矩阵在性质上本质是稀疏的，即具有许多非常接近零的值。这促进了在计算上成本不那么高的转置(inversion)。需要考虑的重要的参数组是对应于每个控制点的全部Gaussian的方差集合，即{σ_i：i＝1，...，n}。现在要求捕获V_i及其邻近信息这二者，这在例如基于对局部数据的敏感性保持或σ_i的普通方法中是不可能的。

在一个实施例中，假设控制点应当全都具有在大小上几乎一样的σ_i。具有较高大小V_i的控制点应当比具有较小大小的控制点具有更多的伸展。V_i成倍数地变化，例如平均从2000到8000，而为了重建的目的，其可能要求很小的σ_i的变化。

在一个实施例中，生长步骤32包括使用以下公式：

σ_i＝A_r log(V_i)

其中A_r是每个子图像的比例常数，并且V_i是第r个子图像中的控制点的集合。这个公式涉及对第i个径向基函数的伸展的评估。常数A_r的评估是根据以下假设来进行的：如果在模M_r处存在假定的控制点，那么其应当具有等于常数的σ，该常数根据等式为给定集合的全部图像共有，其中如果在最大发生像素值处存在假定的控制点，那么σ_Mode是等于为全部图像所共有的常数σ。本发明的发明人做出的这个假设已经产生很有前景的结果。没有考虑噪声区域而再生的示例性子图像被示于图5a和5b中。在其上构建全部Gaussian的平基(flat base)实际上是这个子图像的最小像素值如可观察到的，已如期望那样地生长了信息区域，并且从质量上看，图5a和5b看起来很类似。平均50×50子像素的控制至高点的数量在60和150之间变化。这意味着可以仅使用60/2500到150/2500的像素总数目来实现信息再生。

噪声生长步骤53

在前面的子部分中，讨论了如何再生长信息区域，且原始图像的噪声区域被分配了它们所属的子图像的最小值噪声区域本质上是稳固的并在节点周围伸展。用类推的方法，噪声在任何子图像中的填充可以与液体在皮氏培养皿中的填充相比，具有等于区域最小值的像素值处的基。

对于生长的噪声，可能不期望使用基于高斯函数的插值函数因为其基于实验，通过将原始图像数据组和重建的图像数据组作比较，已经表明噪声区域中可能发生明显误差。其原因在于，插值函数中的做出贡献的Gaussian很快消亡。

当试图通过延伸Gaussian来再生噪声区域时，即延伸所述宽度σ_i，那么峰的轮廓可能变得扭曲。这明显是不期望的。

替代地，根据一个实施例，生长步骤53可以包括两步算法，例如在图6b中示出的信息再生图像上应用的那个算法。

生长步骤53可以包括例如基于像素的大小的基识别531需要用噪声来填充的每个像素。例如，如果像素的高度，即像素强度，低于那么它可以被考虑为噪声，并被称为噪声像素。

生长步骤还可以包括针对每个噪声像素评估532到每个控制点的径向距离。

如果离特定控制点i的距离小于α×σ_i，，那么这个控制点的贡献将继续来自Gaussian G_i。

如果那么来自这个控制点的贡献现在是以控制点i为中心的衰减较缓慢的径向基函数的贡献。以此方式，检查了来自每个标记i的针对像素p_noise的贡献。朝向生长步骤53的末尾，已经获得了全部的噪声图像。

α是决定Gaussian到达范围的阈值，并且向前地，衰减较缓慢的函数接手(take over)。为了我们的目的，我们使用拉普拉斯算子函数作为衰减较缓慢的径向基函数来对噪声区域建模。拉普拉斯算子可以定义为：

L_{i} (x) = A_{Li} \exp (- | \frac{x}{a_{i}} |)

(等式6)

其中A_Li是第i个数据点的值V_i的不变的分数。a_i是拉普拉斯算子函数伸展的度量。

在等式6中，有两个参数A_Li和a_i将对应着每个控制点i来确定。A_Li可以选择为或者等于w_iV_i(控制点的加权高度)，或者，它可以根据期望的噪声填充范围被选择为高度的固定分数。在一个实施例中，可以使用A_L＝w_iV_i/4。并且，按照以下限制来计算a_i：在离控制点i的距离α×σ_i处，其中Gaussian w_iV_iG_i的值和拉普拉斯算子L_i相等，即它们相交。

因此，生长步骤53可以包括使用与高斯函数相比具有缓慢衰减的第二径向基函数。例如，该第二径向基函数可以是拉普拉斯算子函数。

因此，生长步骤52、53可以包括使用诸如径向高斯函数和/或拉普拉斯算子函数之类的径向基函数的组合在第一像素组周围生长噪声和数据点。使用径向基函数的组合的优点在于，该解压缩方法接近于无损失，尽管压缩的图像包括高压缩率。

噪声阈值参数

在一个实施例中，噪声阈值参数可以是以此方式，当像素的高度，即像素强度，低于时，那么其可以被考虑为噪声，并被称为噪声像素。

噪声阈值参数可以通过实验来确定。实验可以通过使用上述分布参数(例如高斯函数的σ_i)的各种组合来进行。

根据一些实施例的压缩方法可以在一组原始图像上使用以识别分布参数。这样一来，压缩和解压缩方法可以用作参数搜索方法。在使用不同分布参数时，这个参数搜索方法可以通过将每个解压缩的图像与每个对应的原始图像进行比较以检查出每个解压缩的图像和每个原始图像之间的误差是否变得更小来进行。这可以通过彻底的搜索来进行，即其中在次序上顺序地对每个可能性进行测试以确定它是否是解决方案，或者使用贪婪算法，该算法可以是任何遵循在每个阶段做出局部最优选择以期找到全局最优的解决问题的内启发式的算法。通过利用这样的比较，噪声阈值可以对于更一般的原始图像数据组得以改进。

前面确定的噪声阈值可以用作待压缩和解压缩的每个新图像数据组的基。因此，通过将每个解压缩的图像数据组与原始图像数据组进行比较，噪声阈值参数值和所选的分布函数的分布参数可以得以最优化。

在一个实施例中，一旦例如为第一子图像找到第一分布参数组，可以在开始处理第二子图像以更快地得到新的最优分布参数值时使用第一分布参数。因此，与用未知的参数值启动每个参数搜索相比，通过使用参数搜索方法使用这样的迭代方法将加快取回最优的分布参数组的过程。

参数搜索方法合并了多个分布函数并给出了编码原始图像的最大可能灵活性，从这个意义上讲，参数搜索方法可被认为是独特的。

例如，当存在在属于信息的第一像素组中的每个像素周围具有快速下落和圆形伸展的分布时，诸如sinc²函数之类的径向高斯函数可以用作插值函数。

在另一个实施例中，当存在在第一像素组中的每个像素周围具有较缓慢下落和更分布的伸展的分布时，拉普拉斯算子分布可以用作插值函数。可以根据原始图像信息或通过使用上述迭代参数搜索方法来确定参数。

因此，根据一些实施例，可以依赖于包括在存储于压缩图像的报头中的第二像素组中的噪声类型来在所述方法中使用不同的插值函数。

表1说明了不同噪声分布的动态分配，即插值函数，以便再生压缩的图像数据组的数据。

表1

分布类型	可选函数类型
		具有快速下落和圆形伸展的分布	径向高斯函数，sinc²函数
具有较缓慢下落、更分布伸展的分布	拉普拉斯算子函数

在确定步骤43中确定的分布参数可以例如是信息峰的高度、信息的紧密度或到相邻数据像素的距离。对于每个新的原始图像数据组，可以使用迭代参数搜索，其中针对每个图像建立分布参数，这些建立的分布参数可以作为迭代参数搜索方法的“特征”。这使得能够基于比较解压缩的图像与原始图像有多接近来分类为好的参数和差劲的参数。诸如神经网络或支持向量机之类的分类器可以被训练成将参数组分类为“好的”或“差劲的”。训练之后是借助于压缩的实际使用步骤。当新的原始图像数据组将被压缩时，生成多组参数并为原始图像选择匹配“好的”组的参数组。

在上述实施例中，已经公开了诸如高斯函数和拉普拉斯算子函数之类的插值函数。然而，按照某些实施例的本方法并不仅限于这样的插值函数，而是，在本发明的范围内，可以使用对图像数据组的强度峰的分布进行建模的任何插值函数。

上述实施例的应用和用途是各种各样的，根据一些实施例的本方法可以应用于DNA测序存储和存档方法。而且，本方法可以用于存储DNA测序数据以及顾客的微阵列数据这二者，例如MD Anderson完成数千个临床实验，这些临床实验产生成像和分子级的信息。平均超过10倍压缩但仍具有接近无损失压缩的DNA生物医学图像的压缩和存储是重要的，因为允许了出于后代原因的存档。

根据一些实施例的本方法可以用于DNA测序机，使得所述图像能够在任意一次传出系统之前得到压缩。根据实施例的本方法也可以用在基因组学或成像临床数据库(例如与针对诊断图像的PACS系统类似的基因组存档系统)中。

在一个实施例中，提供了诸如基因组存档系统之类的数据库，用于将由使用根据一些实施例的方法得到的压缩和/或解压缩的图像和患者信息一起存储。

在根据图7的实施例中，提供了用于压缩图像数据组的设备70，该设备包括配置成将图像数据组中属于信息的第一像素组和属于噪声的第二像素组分离的分离单元71，其中第一像素组中的每个像素属于图像数据组中的信息峰。所述分离单元71设备还可以包括配置成识别图像数据组中的最小像素值和最大发生像素值的识别单元711。所述设备还可以包括配置成计算像素值相对于最小像素值的标准差σ_r的计算单元712，所述分离单元还可以配置成如果像素x_r满足那么将图像数据组的像素x_r分类为属于第二像素组；如果像素x_r不满足其中N_th是噪声阈值参数，那么图像数据组的像素x_ij被定义为属于第一像素组。该设备也可以配置成在稀疏矩阵中存储第一像素组。该设备还可以包括配置成根据第二像素组确定分布参数并将分布参数存储在报头中的确定单元73。该设备还可以包括配置成基于所述稀疏矩阵和所述报头中的信息创建压缩图像数据组的图像生成单元74。

在根据图8的实施例中，提供一种用于解压缩经压缩的图像数据组的设备80，所述经压缩的图像数据组包括：包含属于原始图像数据组中的信息的第一像素组的稀疏矩阵和包含属于原始图像数据组中的噪声的第二像素组的报头。该设备包括单元82，单元82配置成在包括于压缩的图像数据组的稀疏矩阵中的第一像素组周围生长信息，从而导致再生的信息。该设备还可以包括单元83，单元83配置成基于包括在压缩的图像数据组的报头中的分布参数在第二像素组周围生长噪声信息，从而导致再生的噪声。该设备还可以包括配置成基于再生的信息和再生的噪声再生解压缩的图像数据组的图像再生单元84。

在一个实施例中，所述设备包括配置成执行根据一些实施例的方法的任意一种特征的单元。

包括在根据一些实施例的设备中的(一个或多个)单元可以是任何通常用于执行所涉及任务的单元，例如诸如具有存储器的处理器的硬件。

本发明可以以包括硬件、软件、固件或这些的任何组合的任何适当形式实现。然而，优选地，本发明实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和部件可以以任何合适的方式物理地、功能性地、和逻辑地实现。确实地，功能性可以在单个单元中实现、多个单元中实现或作为其他功能单元的一部分而实现。同样，本发明可以以单个单元实现，或者可以物理地和功能性地分布在不同单元和处理器之间。

在一个实施例中，提供计算机程序产品，其包括用于执行根据一些实施例的方法的任何步骤的代码段。

尽管已经在上面参照特定实施例描述了本发明，但不意图将其限制于本文给出的特定形式。而是，本发明仅由所附权利要求限定，并且在这些所附权利要求范围内，除上面的特定实施例以外的其他实施例同样是可能的。

在权利要求中，词语“包括”不排除其他元件或步骤的存在。而且，尽管多个装置、元件或方法步骤是单独列出的，但是它们仍可以通过例如单个单元或处理器来实现。此外，尽管单个特征可以包括在不同权利要求中，但这些可能有利地进行组合，并且包括在不同权利要求中不意味着特征的组合不是可行的和/或有益的。另外，单数引用不排除多个。词语“一”、“第一”、“第二”等不排除多个。提供的权利要求中的附图标记仅用作阐述性的实例，不应当解释为以任何方式限制权利要求的范围。

Claims

1.一种用于在图像数据组的压缩中使用的方法（40），包括

将图像数据组中属于信息的第一像素组和属于噪声的第二像素组分离（41），其中第一像素组中的每个像素属于图像数据组中的信息峰，其通过如下步骤实现：

识别（411）图像数据组中的最小像素值，

相对于最小像素值计算（411）像素值的标准差，其中如果像素x_ij满足，那么图像数据组的像素x_ij被定义为属于第二像素组，如果像素x_ij是局部最大值且不满足，其中N_Th是噪声阈值参数，那么图像数据组的像素x_ij被定义为属于第一像素组,

将所述第一像素组存储（42）在稀疏矩阵中,

根据第二像素组确定（43）分布参数并在报头中存储（44）分布参数,其中所述分布参数包括所述图像数据组中的最小像素大小或标准差,以及

基于所述稀疏矩阵和所述报头中的信息生成（45）压缩的图像数据组。

2.根据权利要求1的方法，其中如果像素x_ij满足R(x_ij)>R₀,其中R(x_ij)＝M_pxp中小于x_ij的元素数量，则像素x_ij被定义为局部最大值，其中R(x_ij) 是图像数据组的子图像中的信息像素x_ij关于p x p周围矩阵M_pxp中的所有其他像素的秩，R₀是常数。

3.一种用于解压缩经压缩的图像数据组的方法，所述经压缩的图像数据组包括：包含属于原始图像数据组中的信息的第一像素组的稀疏矩阵和包含属于原始图像数据组中的噪声的第二像素组的报头，该方法包括

在压缩的图像数据组的稀疏矩阵中所包括的第一像素组周围生长（52）信息，这导致再生的信息，

基于包括在压缩的图像数据组的报头中的分布参数在第二像素组周围生长（53）噪声信息，这导致再生的噪声，其中所述分布参数包括所述图像数据组中的最小像素大小或标准差，

基于再生的信息和再生的噪声再生（54）解压缩的图像数据组;

其中所述信息的生长（52）通过以下步骤来进行：

在前识别包括信息的图像数据组的典型像素的轮廓，

构建对应于所述轮廓的插值函数，并在所述第一像素组上应用所述插值函数，导致包括再生长的信息的重建的图像数据组；以及

其中所述噪声的生长（53）通过以下步骤来进行：

识别（531）压缩图像中属于噪声的每个像素，

为每个噪声像素评估（532）到所述第一像素组中的每个像素的径向距离，使得

如果离所述第一像素组的像素的距离小于，其中是阈值，是高斯插值函数的标准差，那么所述第一像素组的像素的贡献将来自高斯插值函数，以及

如果离所述第一像素组的像素的距离大于，那么所述第一像素组的像素的贡献将来自以该像素为中心的衰减较缓慢的径向基函数。

4.根据权利要求3的方法，其中所述插值函数是高斯函数。

5.根据权利要求3的方法，其中所述衰减较缓慢的径向基函数是拉普拉斯算子插值函数。

6.根据权利要求3的方法，还包括：

基于如下步骤计算任意图像数据组的改进的分布参数组：

将由使用根据权利要求3的使用第一组分布参数的方法而得到的第一解压缩的图像数据组与其原始图像数据组相比较，得到第一误差值，

将由使用根据权利要求3的使用第二组分布参数的方法而得到的第二解压缩的图像数据组与其原始图像数据组相比较，得到第二误差值，

如果所述第一误差值小于所述第二误差值，则存储所述第一组分布参数以供将来在根据权利要求1或3的方法中使用，以及

如果所述第一误差值大于所述第二误差值，则存储所述第二组分布参数以供将来在根据权利要求1或3的方法中使用。

7. 根据权利要求6的方法，还包括训练关于所述第一或第二组分布参数的分类器，使得能够基于比较解压缩的图像与其对应的原始图像有多接近来将分布参数分类为“好的”分布参数或“差劲的”分布参数。

8. 一种用于压缩图像数据组的设备（70），包括

配置成将图像数据组中属于信息的第一像素组和属于噪声的第二像素组分离的分离单元（71），其中第一像素组中的每个像素属于图像数据组中的信息峰，其中所述分离单元还包括

配置成识别图像数据组中的最小像素值的识别单元（711），

配置成计算像素值相对于最小像素值的标准差的计算单元（712），并且其中所述分离单元还配置成如果像素x_r满足，那么将图像数据组的像素x_r分类为属于第二像素组；如果像素x_ij是局部最大值且不满足，其中N_Th是噪声阈值参数，那么图像数据组的像素x_ij被定义为属于第一像素组，

配置成将所述第一像素组存储（42）在稀疏矩阵中的存储单元,

配置成根据第二像素组确定（43）分布参数并在报头中存储（44）分布参数的确定单元（73）,其中所述分布参数包括所述图像数据组中的最小像素大小或标准差，以及

配置成基于所述稀疏矩阵和所述报头中的信息生成（45）压缩的图像数据组的图像生成单元（74）。

9. 一种用于解压缩经压缩的图像数据组的设备（80），所述经压缩的图像数据组包括：包含属于原始图像数据组中的信息的第一像素组的稀疏矩阵，以及包含属于原始图像数据组中的噪声的第二像素组的报头，所述设备包括

配置成在压缩的图像数据组的稀疏矩阵中所包含的第一像素组周围生长信息而导致再生的信息的单元（52），

配置成基于在压缩的图像数据组的报头中所包含的分布参数在第二像素组周围生长噪声信息而导致再生的噪声的单元（53），其中所述分布参数包括所述图像数据组中的最小像素大小或标准差，以及

配置成基于再生的信息和再生的噪声再生解压缩的图像数据组的单元（54）；

其中配置成生长所述信息的单元（52）还适于：

在前识别包括信息的图像数据组的典型像素的轮廓，

其中配置成生长所述噪声的单元（53）还适于：

识别（531）压缩图像中属于噪声的每个像素，