CN107533588B

CN107533588B - 估计dna芯片探针-靶亲和性的方法和制造dna芯片的方法

Info

Publication number: CN107533588B
Application number: CN201580074888.6A
Authority: CN
Inventors: J·贝克尔; P·佩罗; F·马莱
Original assignee: Lyon Public Shelter; Biomerieux SA
Current assignee: Lyon Public Shelter; Biomerieux SA
Priority date: 2014-12-01
Filing date: 2015-11-30
Publication date: 2021-04-20
Anticipated expiration: 2035-11-30
Also published as: US10964407B2; FR3029290B1; EP3227813A1; WO2016087756A1; US20170270242A1; FR3029290A1; EP3227813B1; CN107533588A

Abstract

一种估计第一DNA链或“探针”与第二DNA链或“靶”杂交形成长度为L_bp的杂交体的亲和性φ的方法，所述方法包括：在杂交体的一组M个分区的每一分区内，计数一组P个DNA链杂交体的每一杂交体存在于所述分区中的次数，所述杂交体长度为k，小于长度L_bp，或是“k‑杂交体”；对于长度为L_bp的杂交体中一组L个错配组合的每一错配组合，确定所述错配对是否存在于所述杂交体中；和根据以下关系式计算亲和性φ：

该表达式中：

是当P个k‑杂交体组的第p个k‑杂交体存在于所述分区的第m个区域时，定量此第p个k‑杂交体对亲和性φ的贡献的预定标量，且x_m，p是这第p个k‑杂交体在所述分区的第m个区域中被计数的次数；和α是实数项。

Description

估计DNA芯片探针-靶亲和性的方法和制造DNA芯片的方法

本发明涉及转录物组领域，尤其是DNA链之间的杂交研究。

本发明特别用于设计杂交支持物的领域，尤其是DNA芯片。

技术领域

DNA芯片测量转录物表达水平，这是根据简单DNA链与互补DNA链一起时自发重新形成双链的性质，即其与互补链杂交的性质。为了解生物样品中的转录物表达水平，DNA芯片包括含氮碱基的序列，称为“探针”，其设计成与一组感兴趣转录物或“靶”转录物特异杂交。为提高测量的稳健性，转录物由数个探针靶向，共同形成“探针组”。出于高速筛选的目的，DNA芯片因而包括靶向I个转录物的I个“探针组”，总共J个不同探针。出于测量目的，每一探针同样重复大量次数，重复的探针布置在孔中。

寻求表达的靶转录物能产生数千个或数以万计的含氮碱基A、G、C、T，其首先通过扩增过程转化成含较小DNA片段的溶液，所述片段长度通常为25-200个含氮碱基，由荧光着色剂标记。如此获得的溶液随后沉积于DNA芯片孔中。每一孔对应于重复数次并针对转录物设计的探针，这因而引起一些这类片段与孔中探针的杂交。洗涤DNA芯片以仅保持孔中形成的杂交体后，每一孔荧光的测量随后通过高分辨率扫描仪实施，该量度代表孔中存在的杂交体数量。随后应用表述“探针荧光”或“探针强度”。

为较好理解以下内容，必须引入下列定义。因此，术语“探针”指构成DNA芯片、更常指采用与探针杂交的任何装置的含氮碱基或“核苷酸”序列。术语“靶”指来自转录物的含氮碱基序列，能与其探针形成杂交体。表述“特异靶”涉及这样的靶，其对应于已鉴定的转录物的一部分、根据碱基序列和转录物中的定位针对其设计探针。术语“完美”或“相同”杂交体涉及由探针和靶形成的杂交体，其在含氮碱基方面彼此严格互补(杂交体更多地被称为“完美匹配”)。表述“错配”涉及探针与靶的杂交体，其中彼此面对的探针的碱基与靶的碱基不互补(更多地被称为“错配”)或是不面对任何碱基的靶的或探针的碱基(更多地被称为“缺口”)。这也称为探针与靶错配。术语“k-聚体”涉及k个核酸碱基的序列。含氮碱基序列的“长度”对应于其包含的含氮碱基数目。探针/靶杂交体的长度更通常对应于探针的长度。

DNA芯片的一般原理似乎简单，因为其包括选择对应于互补转录物片段的DNA序列的探针，然而难以将其付诸实施以获得高质量DNA芯片。

事实上，首先，可能认为选择与靶形成完美杂交体的探针是足够简单的。目前，完美杂交体可能太不稳定，从而无法耐受洗涤，这最终导致所测信号过弱，无法确定转录物表达水平。因此应注意，对于给定转录物，其产生探针的部分不等同，因而最好是选择能获得足够稳定以获得有意义的测量的探针/靶杂交体的转录物部分。此外，潜在显示一个或多个错配的探针与靶也可能稳定杂交。这种靶能够与特异靶不同，可源自生物样品中存在的另一转录物，该情况中获得错误检测或“假阳性”。

这是寻求探针的原因，所述探针：

-仅靶向转录物的单一确定部分，该部分独特且因而与在另一位置的转录物自身或生物样品内可能存在的另一转录物中所见不同，并展示出与显示错配的任何其它靶亲和性低。随后应用表述“特异探针”；和

-展示出与特异靶的强亲和性，即与之形成稳定杂交体。这称为“探针与特异靶的强亲和性”，或者“亲和”或“敏感”探针。

应记住转录物可包括数以万计的碱基，生物样品可包括许多转录物，而不能简单和有效检查样品组成，易理解长度小于100左右碱基的探针数需要设计并测试以仅保留特异和亲和探针。由于DNA芯片的实验设计困难甚至不可行，因而设计生物计算工具以评价探针的特异性和亲和性并因此协助DNA芯片设计。

例如，Mei等(“Probe selection for high-density oligonucleotide arrays”,Proceedings of the National Academy of Science,100(20):11237-11242,September2003)的文献描述定量探针质量的评分。该评分包括定量探针特异性的第一项与获自探针亲和性的第二项的乘积。第一项在全人类基因组上测定探针与不同于靶转录物的其它转录物之间的交叉反应风险。第二项就其部分而言，包括敏感性项，表示为直线I＝K+S.ln([T])的斜率(coefficient directeur)，其中I是给定探针的强度，S是敏感性，K是靶-探针亲和性以及[T]是靶浓度。作者显示此敏感性项能用基于探针核酸序列的杂交模型计算。根据此模型，因而从亲和性观点出发认为探针仅与碱基并列，其之间没有特定关联，且与其能杂交的靶之间也没有任何关联。此亲和性模型有时称为“任何-位置单体模型”，因此仅表示为每一碱基在每一位置存在/不存在的函数。

然而，此亲和性模型被证明不令人满意，因为其不考虑探针与靶之间的错配，且仅寻求对探针与其特异靶的亲和性建模。因此，设计更复杂的亲和性模型以考虑非特异杂交或交叉反应。例如，Zhang等(“A model of molecular interactions on shortoligonucleotide microarrays”,Nature biotechnology,21(7):818-821,July 2003)的文献描述统计模型，将所测强度表示为2个项之和，其分别与探针和其特异靶杂交以及探针和非特异靶组杂交相关。此文献中，反映第j个转录物的表达水平的DNA芯片第i个孔即第i个探针的强度因而根据以下关系式预测：

其中

是预测强度；

N_j是靶的量，获自第j个转录物，通过DNA芯片上沉积的溶液内存在的第j个探针组测量；

是靶的量，获自被DNA芯片上沉积的溶液内存在的探针组中的探针靶向的第j个转录物的不同转录物；

ε(b_k,b_k+1)是分别存在于探针的k和k+1位的探针连续碱基(b_k,b_k+1)对或“二聚体”的释能(énergie de libération)，独立于探针中所述对的位置，当探针与其特异靶杂交并因而与此靶形成完美杂交体时所述对的释能；

ω_k是在探针与此靶杂交时，定量探针中(b_k,b_k+1)对的位置影响的因子；

ε^★(b_k,b_k+1)是(b_k,b_k+1)对的释能，独立于其在探针中的位置，当探针与获自另一转录物的靶杂交并因而能包括错配时所述对的释能；和

是在探针与此靶杂交时，定量探针中(b_k,b_k+1)对的位置影响的因子；和

B是标量。

这些参数的值如下测定：在文献作者所测强度的基础上实施鉴定。

第一项

对应于特异靶的贡献，等于DNA芯片上杂交的特异片段的量以及反映探针与其特异靶之间亲和性的项(即具有分离探针与其特异靶所需能量的指数项)的商。根据模型，能量等于二聚体(b_k,b_k+1)各贡献之和，由依赖于二聚体位置的项确定权重。依照定义，此项因而只源于探针组中形成的完美杂交体。因而对于每一二聚体，仅有单一构型，即与其互补体的连接。

第二项

就其部分而言对应于非特异探针的比例。目前，不同于与特异靶杂交的探针，当考虑与其它转录物的靶杂交即交叉杂交时，可能确实有完美杂交(如果另一转录物产生与特异靶相同的靶)但首先是有一个或多个错配的杂交。因此，对于给定二聚体，有不少于24种不同的杂交构型。因此，第二项无法区分不同错配类型。

此类模型有一定问题。首先，产生鉴定问题。应注意，事实上，必须鉴定作为彼此乘积的项。没有假定一定数量的额外约束，也未描述于Zhang的文献的情况下，因而仅根据上述等式无法了解鉴定算法如何分配二聚体(b_k,b_k+1)在项ε(b_k,b_k+1)与项ω_k之间释能的贡献，甚至不了解算法如何分配其分子与分母之间商的值。换言之，在最好的情况下，以现状来说，仅项ω_k.ε(b_k,b_k+1)相关。同一评论明显适用于项

此外，同样涉及鉴定，应注意这些项在存在于分母部分的指数中出现，使得鉴定甚至更困难。

此外，即使有能相关区分不同项的鉴定算法，仅可使用项ω_k和ε(b_k,b_k+1)。项

和ε^★(b_k,b_k+1)就其部分而言，仅对学习DNA芯片有效。实际上，获得对应项目

的特定值以用于学习芯片产生的缺陷。如果目前考虑新DNA芯片的后续设计，包括在学习芯片所得项的特定值基础上通过计算机候选探针来测试，待设计的新芯片本质上不同于一种或多种学习芯片。这意味着错配与学习芯片中存在的那些不同的可能性高，甚至是确定性。因此，项

的值无效。实际上，项

和ε^★(b_k,b_k+1)影响非特异杂交均值，而不需特定了解DNA芯片上实际发生的错配。由此，从样品估计的参数不能被推广。

已提出其它更复杂的模型，例如文献“An improved physico-chemical model ofhybridization on high-density oligonucleotide microarrays”,Naoaki Ono等,Bioinformatics,vol.24,No.10,2008所述，其也以相同方式用于对非特异杂交建模。

然而，通常，现有技术模型提出鉴定的重大问题，并考虑错配而不区分，且因此与对应于错配的参数值太不相关，不能随后在DNA芯片设计阶段中再使用。因此，目前没有任何探针与靶亲和性的模型可产生有效的DNA芯片设计。

发明内容

本发明目的是对探针与靶之间的亲和性提出精确建模，无论是否是完美杂交(无错配)或是有一个或多个错配的杂交。

为此，本发明的主题是一种估计第一DNA链或“探针”与第二DNA链或“靶”杂交形成长度为L_bp的杂交体的亲和性φ的方法，所述方法包括：

-在杂交体的一组M个分区的每一分区内，计数一组P个DNA链杂交体的每一杂交体存在于所述分区中的次数，所述杂交体长度为k，小于长度L_bp，或是“k-杂交体”；

-对于长度为L_bp的杂交体中一组L个错配组合的每一错配组合，确定所述错配对是否存在于所述杂交体中；和

-根据以下关系式计算亲和性φ：

该表达式中：

是当P个k-杂交体组中第p个k-杂交体存在于所述分区的第m个区域时，定量此第p个k-杂交体对亲和性φ的贡献的预定标量，且x_m,p是对第p个k-杂交体计数所述杂交体在所述分区第m个区域中的次数；和

α是实数项。

换言之，所述亲和性模型直接基于探针/靶杂交体的真实组成且直接考虑杂交体所含亚杂交体的影响。如此，明确且单独考虑探针与靶之间的每个错配。这显然使得确定探针与其特异靶的亲和性成为可能，以及能确定交叉反应时探针与靶的亲和性，及因此在错配存在情况下。

此外，本发明所述模型是线性的，不同于考虑与指数成比例的亲和性的现有技术模型。由于模型的线性，能在凸问题基础上执行鉴定算法。由于这本身已知，此类鉴定是最稳健、最快速和最精确的。

例如，由计算机执行的亲和性估算在1条或2条DNA链测序或者含有该链的RNA或DNA测序后完成，该测序产生所述链的含氮碱基的数字序列，序列保存在计算机存储器内。k-杂交体的计数就其部分而言对应于获自第一和第二链杂交的双链结构的测量，随后处理该测量以估算亲和性。例如，所述方法包括a)测序第一DNA链以产生形成所述链的含氮碱基的第一数字序列，b)确定形成第二DNA链的含氮碱基的第二数字序列(例如通过测序已知链，通过专门构建序列，通过在完美杂交体亲和性背景下测定严格互补链等)，c)随后对第一和第二杂交的数字序列进行k-杂交体的计数。

例如，第一链是DNA芯片探针且第二链是DNA芯片的靶转录物的一部分，这显然使得通过确定亲和性来检测DNA芯片质量成为可能。在另一示范性应用中，第一链是信使RNA链例如病毒，第二链是功能是特异和稳定附着第一链以阻断其转录(通过使用所谓“反义”链的基因疗法)的链。因此，了解杂交体的亲和性使得鉴定疗法有效性成为可能。

根据一个实施方案：

该表达式中

是定量所述第l对错配对亲和性φ的贡献的预定标量，如果所述第l对错配存在于所述杂交体中，则

否则y_l＝0，π是实数，有利地等于0。

更特定地，所述方法包括：

-对于一组N个学习对的每一对，各包括能共同形成长度为L_bp的杂交体的第一和第二DNA链，集合一定量的所述对的第一DNA链和一定量的所述对的第二DNA链，并测量代表在此集合后形成的DNA链杂交体的量的强度I_n，所述校准对的杂交体包括至少一次的P个k-杂交体组中的每一k-杂交体；和

-最小化所测强度的向量

与所测强度的向量I的预测向量

之间的距离D来计算向量

向量

和向量

所述计算通过根据以下关系式解答优化问题来进行：

该表达式中，

Θ＝(θ₁…θ_n…θ_N)^T是

的向量，其中

θ_n是编码为第n个校准对而集合在一起的一定量的第一和/或第二DNA链的标量；

是

的预定设计的行矩阵，其中

是

的行矩阵且

是对于由第n个校准对的第一和第二DNA链形成的杂交体，第p个k-杂交体存在于所述分区的第m个区域的次数；

B＝(B₁…B_m…B_M)^T是

的向量，其中

是

的向量，并且

β_m,p是当P个k-杂交体组的第p个k-杂交体存在于所述分区的第m个区域时，定量此第p个k-杂交体对长度为L_bp的杂交体的亲和性的贡献的标量；

是

的预定设计的行矩阵，其中

如果所述第l对错配存在于由第n个校准对的第一和第二DNA链形成的杂交体中，则y_n,l＝1；和

-Δ＝(δ₁…δ_l…δ_L)^T是

的向量，其中

δ_l是定量对所述第l对错配对长度为L_bp的杂交体的亲和性的贡献的标量。

根据一个实施方案：

k-杂合体具有的长度k为2至7；和

所述分区的区域数M是2至25-k。

更特定地，区域数M是3至15。k-杂交体显然具有的长度k为3至5。

根据一个变化，解答优化问题通过根据以下关系式的额外约束来解决：

其中I是不同RNA的数，α是预定的正标量，有利地等于I。

根据一个变化，优化问题经迭代解决：

-通过在迭代i上设置向量B,Δ为其在之前迭代i-1上计算的值并根据以下关系式解答优化问题：

-通过在迭代i+1上设置向量Θ为其在迭代i上计算的值并根据以下关系式解答优化问题：

更特别地，第一次迭代通过设置

进行。

本发明的一个主题还是一种由计算机实施的估计长度为k的一组P个DNA链杂交体或“k-杂交体”中杂交体对长度为L_bp的DNA链杂交体的亲和性的贡献

的方法，所述方法包括：

-对于一组N个学习对的每一对，各包括能共同形成长度为L_bp的杂交体的第一和第二DNA链，集合一定量的所述对的第一DNA链和一定量的所述对的第二DNA链，并测量代表此集合后形成的DNA链杂交体的量的强度I_n，所述校准对的杂交体包括至少一次的P个k-杂交体组的每一k-杂交体；和

-最小化所测强度的向量

与所测强度的向量I的预测向量

之间的距离D来计算向量

向量

和向量

所述计算通过根据以下关系式解答优化问题来进行：

该表达式中，

Θ＝(θ₁…θ_n…θ_N)^T是

的向量，其中

是

的预定设计的行矩阵，其中

是

的行矩阵且

x_n,m,p是对于由第n个校准对的第一和第二DNA链形成的杂交体，第p个k-杂交体存在于所述分区的第m个区域的次数；

B＝(B₁…B_m…B_M)^T是

的向量，其中

是

的向量，并且

是当P个k-杂交体组中的第p个k-杂交体存在于所述分区的第m个区域时，定量此第p个k-杂交体对长度为L_bp的杂交体的亲和性的贡献的标量；

是

的预定设计的行矩阵，其中

Δ＝(δ₁…δ_l…δ_L)^T是

的向量，其中

是定量所述第l对错配对长度为L_bp的杂交体的亲和性的贡献的标量。

本发明的另一主题是计算机可用计算介质上储存的计算机程序产品，包括执行如前述权利要求中任一项所请求保护的方法的指令。

本发明的另一主题是制造DNA芯片的方法，所述芯片包括多拷贝的DNA链或探针，所述DNA链或探针能与核酸尤其是DNA(长度大于L_bp)的靶链形成长度L_bp的杂交体而没有错配，所述方法包括：

-鉴定靶DNA链上长度为L_bp的部分的组；

-对于靶DNA链的每一鉴定部分，或“候选靶”：

○确定互补DNA链或“候选探针”，和通过实施亲和性估算方法来计算候选探针与靶的第一亲和性φ，尤其是上述类型；

○通过实施亲和性估算方法来计算候选探针与参考核酸链组的每一元件的第二亲和性φ，尤其是上述类型，所述元件不包括候选靶；

-从所确定的候选探针选择至少一个探针

○第一亲和性φ高于预定的第一阈值；和

○每一第二亲和性φ低于第二阈值，所述第二阈值严格低于第一阈值；

-用每一选定的候选探针制造DNA芯片。

换言之，发现通过仅明确考虑探针亲和性，能设计DNA芯片。当仅明确考虑亲和性时，本发明所述方法确实也自然但隐含地考虑探针特异性。实际上，根据本发明，根据上述阈值标准保留的探针必定是特异性的。

因此，不需开发特异性模型和/或实施特异测试以评估后者。本发明所述芯片的设计因而大大简化。由此，通过使用本发明所述亲和性模型，第一测试产生了品质至少等同于现有技术的DNA芯片。

附图简述

通过阅读以下仅以举例方式的描述及附图可更好地理解本发明，其中：

-图1是信息加工单元的功能示意图，所述单元实施本发明所述用于DNA芯片的探针设计方法；

-图2-4的图表阐述探针/靶杂交体细分成k-杂交体；

-图5的图表阐述探针/靶杂交体细分成3个区域；

-图6的图表阐述探针/靶杂交体中的错配对；

-图7-9的图表阐述选择DNA芯片的候选探针；

-图10的流程图是学习k-杂交体对探针与转录物亲和性的贡献的方法；

-图11A-11D阐述确定本发明所述亲和性模型的系数变化，作为k-杂交体长度k以及探针/靶杂交体分区数M的函数；

-图12阐述验证用于根据本发明方法设计的DNA芯片的探针的方案；

-图13A和13B阐述根据本发明方法预测和在DNA芯片上测量的强度；

-图14A-14B阐述所测强度，作为2个DNA芯片上各自所预测强度的函数；

-图14C是对应图14A和14B的决定系数的框图；

-图15A-15G阐述根据本发明所述方法设计的DNA芯片测量的准确性；和

-图16A-16C阐述根据本发明所述方法设计的DNA芯片探针的特异性。

发明详述

A)估算亲和性和选择DNA芯片探针的系统

图1是功能组块的示意图，由信息处理单元10实施，例如个人电脑，或基于微处理器、RAM、ROM和大容量存储器等的任何装置，能执行含实施该方法所需计算指令的软件，用于选择测量特定转录物或“靶”转录物表达水平的DNA芯片的探针。通过此选择，单元10实施特定实施方案，旨在鉴定一个或多个长度L_bp的特异探针，其对靶转录物特异并有亲和性，且与其它转录物或“非特异”转录物不亲和或弱亲和，选定探针随后用于制造DNA芯片。

例如，DNA芯片设计成检测人基因组中存在的内源性逆转录病毒转录物或代表“人内源性逆转录病毒”的“HERV”，以及LTR逆转录转座子转录物(传染性逆转录病毒祖先)或代表“哺乳动物表观长末端重复逆转录转座子”的“MalR”。HERV/MarlR元件代表至多8％的人基因组，或约400 000个元件或基因座，各自能生成0、1或数个长度范围至多10 000个含氮碱基的转录物。根据惯例，这些元件称为“HERV/MarlR”。已知设计靶向特定HERV/MalR转录物的DNA芯片非常困难，因为HERV/MalR元件共有许多称为“重复”的DNA序列，即序列与许多人基因组位点存在的另一序列相同或系统发生上非常接近。

计算单元10包括：

-第一内存组块12，存储HERV/MalR基因座的数值库，或超过400 000个含氮碱基数字序列的组，与潜在HERV/MarlR转录物对应，例如，先前以已知方式测序的；

-第二内存组块14，存储编码靶HERV/MarlR转录物的数字序列，例如由DNA芯片设计者输入；

-第三内存组块16，存储系数

和

的

集合，定量对k-杂交体和错配对对亲和性的贡献，如下文更详细所解释；

-第四内存组块18，存储阈值S₁,S₂，使DNA芯片探针选择规则参数化；和

-内存组块20、22、24、26、28，存储中间探针选择结果。

单元10还包括计算组块，例如在计算机上执行的软件模块，尤其是：

-组块29，用于对非特异转录物产生编码含氮碱基数字序列组。组块28从转录物12的库建立一组新的含氮碱基数字序列，其从组块14存储的靶转录物中移出。因此，该新组编码非特异转录物，寻求对其具有弱亲和性的探针，并存储于内存组块20。有许多产生非特异转录物组的方式。例如，当库12的组仅包含这些转录物时，组块28可省略。为简化注释，在下文的提及与对应转录物的序列或转录物本身无关；

-组块30，用于产生靶转录物的候选探针。优选地，组块30鉴定靶转录物在其每一位置长度为L_BP的每一亚序列，然后就每一个这些亚序列就含氮碱基测定严格互补序列。这些互补亚序列形成DNA芯片的“候选”探针并存储于内存组块22。以此类推，对应候选探针的靶转录物部分表示为“候选靶”。当然，能执行许多其它候选探针选择规则。例如，如果预先知道一些靶转录物部分无法产生DNA芯片的合适探针，则将其忽略；

-比对组块32，形成内存组块22的每一候选探针与内存组块20的非特异转录物之间的杂交体。更特别地，组块32鉴定含最多2个错配的杂交体。为此，组块32鉴定具有最大匹配碱基对数量的杂交体，必要时引入缺口类型的错配。如此鉴定的杂交体存储于内存组块26。缺陷数的限制使得加速本发明所述方法和限制计算亲和性所需系数

的数目成为可能。实际上，发明人从3个错配中注意到探针与转录物的亲和性下降，而且对应于探针/转录物杂交体的DNA芯片强度掩埋于背景噪音中。此观察由研究“Custom humanendogenous retroviruses dedicated microarray identifies self-induced HERV-Wfamily elements reactivated in testicular cancer upon methylation control”，Gimenez等，Nucleic Acids Research，April 2010，卷38(7):2229–2246证实。例如，模块32执行“BWA”比对软件，如文献“Fast and accurate long-read alignment with Burrows–Wheeler transform”，Li H.等，Bioinformatices，卷26(5):589-595所述，其能在网址http://bio-bwa.sourceforge.net/下载。

-组块34，用于对内存组块24存储的每一杂交体和从候选探针及其靶转录物形成的每一杂交体建模，使用“k-杂交体”和错配对，采用下文所述方式。此建模就每一杂交体生成变量x_m,p和y_l的{x_m,p,y_l}集合，系数存储于内存组块24；

-计算组块36，就存储于内存组块26的每一{x_m,p,y_l}集合计算对应杂交体的亲和性φ，作为存储于内存组块16的系数

和

的函数，采用下文所述方式。所计算的亲和性φ随后存储于内存组块28。应注意，对于每一候选探针，计算数个亲和性φ，对于探针的靶转录物的亲和性φ₁以及对于非特异转录物的多个亲和性φ₂；和

-选择组块38，其选择至少一个探针，就其计算的亲和性φ存储于内存组块28，支持通过内存组块18所存储阈值S₁,S₂参数化的选择规则，采用下文所述方式。

B)估算探针与转录物的亲和性

由单元10实施的DNA芯片探针的选择部分地由本发明所述亲和性φ的建模定义，后者首先根据图2-6详述。特别地，为估算候选探针40与转录物42在其特定位置的亲和性φ，如图2所示，仅考虑由探针40与转录物42的部分形成的杂交体，探针40结合所述转录物部分。因此，图3在索引44下所示的该杂交体包括探针40，长度L_bp等于例如25个碱基，与具有相同长度的转录物46的部分杂交。根据惯例，探针和转录物部分的碱基从左开始自1-25编号。根据此同一惯例，杂交体中匹配碱基对的位置类似地从左开始编号1-25。

为估算探针40与转录物46的部分的亲和性φ，鉴定具有长度k＝5碱基的杂交体k-H₁,k-H₂,k-H₃,…k-H_25-k+1部分组，这些具有长度k的部分由表述“k-杂交体”指定。对于长度L_bp的杂交体，因而鉴定总共L_bp-k+1个“k-杂交体”。本发明所述亲和性φ的模型计算亲和性φ，作为每一鉴定的k-杂交体的贡献的函数，k-杂交体的贡献也取决于其在杂交体中的位置。

k-杂交体的位置可以是杂交体中的精确位置，例如由杂交体中最左边k-杂交体的匹配碱基对的位置确定。因此，所谓的“任意位置”模型引起考虑L_bp-k+1个不同位置。然而，位置数影响模型参数的数量，并因而影响其实施所需的计算资源以及所需学习数据量。

有利地，通过将杂交体分成有限数目M的区域，可减少杂交体中k-杂交体的位置数。例如，参考图5，杂交体44分成3个区域，称为具有相同宽度的“3’”、“中间”和“5’”。杂交体44中存在的k-杂交体组通过长度k＝5区段阐明，彼此偏移一个碱基。根据这个区分成3个区域，当最左侧杂交碱基对位于杂交体的1-7位时，k-杂交体属于第一区域“3’”，当所述碱基对位于杂交体的8-14位时，属于第二区域“中间”，当所述碱基对位于杂交体的15-21位时，属于第三区域“5’”。因而就每一区域获得鉴定的k-杂交体组，即分别为组：{k-H₁,k-H₂,…,k-H₇}_3′,{k-H₈,k-H₉,…,k-H₁₄}_中间,{k-H₁₅,k-H₁₆，…，k-H₂₁}_5′。

此外，预先计算杂交体区域中k-杂交体对亲和性φ的贡献，采用下文更详细所述方式，并存储于内存组块16的系数

更特别地，具有用于长度k的5个元素(A,C,T,G,缺口)字母表，有P种不同构型k-H¹,k-H²,k-H³,…k-H^p,…,k-H^P用于k-杂交体。对于每一个这些构型k-H^p，预先就第一区域“3’”计算贡献

就第二区域“中间”计算贡献

就第三区域“5’”计算贡献

随后，估算本发明所述亲和性φ的第一变量由以下组成：

a.对于每一k-杂交体构型k-H^p，计数：

-此构型在第一区域“3’”的{k-H₁,k-H₂,…，k-H₇}_3′组出现的次数x_3′，p；

-此构型在第二区域“中间”的{k-H₈,k-H₉，…，k-H₁₄}_中间组的出现次数x_中间，p；

-此构型在第三区域“5’”的{k-H₁₅,k-H₁₆,…,k-H₂₁}_5，组出现的次数x_5′，p；

b.然后根据以下关系式计算亲和性φ：

可以看出，通过明确考虑杂交体结构，从而明确考虑可能的错配，因为其参与P种不同构型k-H¹,k-H²,k-H³,…k-H^p,…,k-H^P。

对于任何数目的杂交体M区域，包括任意位置模型，上面的方程式易推广到以下方程式：

此外，杂交体中存在的错配之间有协同效应。此协同效应也称为“相互作用”，当错配属于同一杂交体时，其自然纳入系数

考虑。然而，当错配不一起纳入单一k-杂交体并因而被多于k个碱基分开时，关系式(2)所述亲和性模型使其不能纳入考虑。例如，参考图6，错配存在于杂交体44的2、4和7位。2和4位的缺陷对以及4和7的缺陷对被小于k＝5个碱基分开，这些对的协同效应因而通过细分成杂交体的k-杂交体而纳入考虑。相反，3和7位的缺陷被多于k＝5个碱基分开，在估算关系式(2)的亲和性时不考虑其协同效应。

有利地，前述亲和性模型通过考虑错配之间协同效应的项来完善。更特别地，对于给定长度L_bp和k，有2个错配的L种构型C₁,C₂,…,C_l,…C_L，所述错配被大于k个碱基分开，对于每个这些对C_l，预先计算对亲和性φ的贡献

此贡献存储于内存组块16。

因此，估算亲和性φ的第二变量也包括鉴定杂交体中由多于k个碱基分开的错配以及：

c.对于错配的每一构型C_l，确定此构型是否存在于鉴定的对内。若如此，变量y_l则设为等于1，否则为0，

d.然后根据以下关系式计算亲和性φ：

因此，应注意杂交体中的缺陷和其准确位置也纳入考虑以计算亲和性。

C)选择DNA芯片探针的方法

结合图7-9更详细描述选择DNA芯片探针的方法。通过举例方式和出于阐明附图的目的，这些图描述具有相同长度L_T的特异和非特异转录物，等于500个含氮碱基，所述碱基从1到500编号。仍然为了阐明附图，候选探针仅用4个碱基代表，其实际长度L_bp更大，尤其是20-100个含氮碱基。

参考图7，用于产生候选探针的模块30鉴定靶转录物60的长度L_bp的每一部分，所述部分通过彼此偏移一个碱基。对于每一个这些部分，模块30产生候选探针

由所述部分的互补序列构成。因而产生共L_T-L_bp+1个候选探针并存储于内存组块22。

参考图8，用于产生比对的模块32就每一非特异转录物62和候选探针SC_s 64对，鉴定含至多2个错配的杂交体组。例如，在图7中，在靶转录物的1、5、211和497位分别鉴定此类型的4个比对。如图9所示，建模模块34随后提取杂交体H_s,1,H_s,5,H_s,211,H_s,497，所述杂交体由候选探针64和结合其的转录物62的部分形成，如上图2和3所述，且也形成杂交体H_s,PM，该杂交体由候选探针64和获得其的特异转录物的部分构成。最后，对于形成的每一杂交体H_s,PM,H_s,1,H_s,5,H_s,211,H_s,497，模块34鉴定k-杂交体和错配对，并就此杂交体测定前述系数x_m,p和y_l，这些参数存储于内存组块26。

随后，模块36接着计算每一杂交体亲和性，作为以下的函数：内存组块24所存储系数x_m,p和y_l，内存组块16所存储的k-杂交体的贡献

以及错配对的贡献

此计算根据关系式(3)进行。如此计算的亲和性然后存储于内存组块28。对于从靶转录物产生的每一候选探针SC_s，由此计算：

-候选探针与其靶转录物的第一亲和性φ₁，与后者形成完美杂交体；

-候选探针与非特异转录物的第二亲和性φ₂，与后者形成不完美杂交体或不形成杂交体。

最后，作为计算的亲和性φ₁和φ₂以及内存组块18所存储的选择参数S₁和S₂的函数，选择组块38选择至少一个或多个候选探针，对于候选探针：

a.第一亲和性φ₁高于第一阈值S₁＞0；

b.第二亲和性φ₂低于第二阈值S₂>0，严格低于第一阈值S₁。

在一个变化中，可使用单一阈值S₁。第一亲和性φ₁高于或等于阈值S₁，且第二亲和性φ₂严格低于阈值S₁。

如此选择的一种或多种探针对靶转录物特异且有亲和性。这些探针随后用于制造旨在测量靶转录物的表达水平的DNA芯片。

还能执行另外的选择规则。尤其在一个变化中，选择组块38还选择一种或多种探针，对于其：

a.第一亲和性φ₁高于第一阈值S₁；

b.至多N个第二亲和性φ₂高于第二阈值S₂，N优选等于1或2。

所选的额外探针不具有第一探针的特定性质，并因而能与非特异转录物稳定杂交。相反，有DNA芯片，就其而言，构建和分析测量使得区分与靶转录物的杂交以及与非特异转录物的杂交或交叉反应成为可能。类似地，当已知与二阶探针杂交的靶转录物和非特异转录物共同存在于生物样品中的概率低或为零时，能保留二阶探针用于制造DNA芯片，所述生物样品是DNA芯片测量的对象。仍通过在芯片中使用这些探针，DNA芯片的灵敏度因而提高，同时保留特定性质用于此芯片。

根据本发明，为检查探针特异性，就每一探针计算特异性评分Spec，其等于第一亲和性φ₁与2种亲和性φ₂中更大的一个之间的差异，即根据以下关系式的评分：

Spec＝φ₁-max(φ₂)

D)学习贡献

和

图10的流程图阐述学习本发明所述亲和性模型的系数

和

的方法。

该学习开始于在70中构建实验学习数据，这是基于鉴定系数

和

的值。更特别地，仅DNA芯片探针或类似装置的“强度”是易获取的实验数据。因此，实验数据由一组{I_n}探针强度组成，与转录物形成杂交体，包括k-杂交体以及对应于寻求的参数

和

的错配对。

然而，在没有特定测量情况下，作为DNA芯片测量目标的起始生物样品包括数个转录物。因此，探针与转录物之间的每一稳定杂交体有助于探针强度，没有它的情况下能容易区分每一个贡献。构建实验数据的第一步72有利地包括选择已知对唯一的从其设计探针的靶转录物特异和有亲和性的探针。步骤72尤其包括选择第一组{SA_PM}学习探针，其获自常规细胞基因(或“蛋白编码基因”)。这些探针实际上显示很少或没有交叉反应。这特别意味着，这种探针的强度基本对应于探针与其靶转录物的强度，通过其形成完美杂交体。

在下一步骤74中，通过修饰探针的1个或2个碱基，从第一组{SA_PM}设计第二组{SA_MM}学习探针。由于第一组探针与其靶转录物的特异性极高，发明人注意到通过改变1个或2个碱基来退化(dégénérer)这类探针，也产生对靶转录物特异性很高的探针。因此，退化探针的强度也基本对应于其与靶转录物形成的杂交体的强度，所述杂交体因而显示1个或2个错配。此外，如下所述，实施过滤以消除在第一组{SA_PM}探针退化后可能发生的任何交叉反应。由此，选择第一组{SA_PM}和第二组{SA_MM}包括P种可能的k-杂交体构型以及L种错配对构型。优选地，对于系数

和

鉴定的稳健性，选择这些组包括数倍的每一个这些构型，且优选至少20倍。

一旦选择学习探针{SA_PM}和{SA_MM}，在76中从后者构建DNA芯片，然后在78中使用芯片测量从中设计探针{SA_PM}的靶转录物的表达水平。由此获得一组{I}′探针强度。任选地，在80中实施过滤以消除源自交叉反应的强度。例如，这种过滤描述于文献“Model-basedanalysis of oligonucleotide arrays:expression index computation and outlierdetection”,Li等,Proceedings of the National Academy of Science,vol.98(1):31-36,November 2006。随后保留强度I的一组{I}。每一强度I因而具有作为单一成因的单一杂交体，即由已知探针和已知转录物形成。

然后，鉴定系数

和

的方法继续用其计算，作为步骤82中强度{I}的函数。

更特别地，通过使用DNA芯片领域的标准注释，由于探针性质以及可能是所应用交叉反应的过滤，探针“j”的强度I_ij能根据以下关系式建模：

I_ij＝θ_i×φ_j (4)

其中θ_i是通过扩增转录物i获得的RNA的量，转录物i由探针“j”靶向，φ_j是第j个探针与其靶转录物之间的亲和性。

通过联合关系式(3)和(4)，探针的强度I_ij由此正式重写：

其中x_m,p和y_l因而在此对应于建模杂交体(作为k-杂交体)和杂交体错配对，与强度I_ij以及待鉴定的系数

和

相关。

通过采用矩阵表达式，显示关系式(5)如下重写：

该表达式中：

其中T是转置符号，注释

指定

的实列向量，以及因而含a个实分量的列向量。

应注意关系式(6)的右边项是非线性的，因为其等于乘积。相反，应注意项

就项

和

而言是线性的，以及矩阵X和Y是已知的，因为对应于强度I_ij的杂交体是已知的。

在发明的一种变化中，监控RNA的量且先验已知，从而关系式(6)变为线性。因此，也设置并已知下述优化问题的项

从而该问题是凸问题并因而能更简单解决。然而，监控RNA量是一项复杂且昂贵的技术。根据下述的变化，实施常规DNA芯片测量技术，该技术无法已知先验RNA量。因此，也鉴定这些量。

对于记录，在常规DNA芯片中，转录物被数个探针靶向，所述探针每个与转录物形成完美杂交体。此外，还能发生交叉反应。这解释了转录物和探针通常不用同一指标提及的原因，如关系式(4)-(6)所述。然而，由于学习探针的性质以及交叉反应的过滤，强度归结于(或假定为如此)探针与其靶转录物形成的杂交体，从而能减少注释而没有混淆单一指标“n”的风险，该注释用于下文以简化关系式。

如在鉴定领域常见，84中的计算步骤82包括分成2组的强度{I}组，即分成第一学习组{I_n}和第二验证组{I_q}。细分实验数据的方式、这些组每个的大小和验证方法本身已知，因而不详述。例如，组{I_n}包括2/3的组{I}和组{I_q}包括另外的1/3或验证根据“10倍交叉验证”技术实施。假定学习组{I_n}包括N种强度，按照惯例由整数n∈[1,N]编索引。根据同一惯例，学习探针的组{SA_n}和RNA量的组{θ_n}同样由整数n编索引，{θ_n}与学习组{I_n}相关。

计算步骤82还包括建模每一杂交体的步骤86，所述杂交体与保留的强度I相关，所述建模与图3-6所述的相同。对于组{I}的每一强度I，因而获得行矩阵

和

的行矩阵Y，如(7)-(12)所述。特别地，对于学习组{I_n}的每一强度I_n，获得矩阵X_n和矩阵Y_n。

在后续步骤88中，执行鉴定算法以最小化学习强度

的向量与通过模型

所预测强度之间的距离D，即解答优化问题：

关系式(14)-(15)的优化问题是常规的。任意距离D也称为“成本函数”，是例如合适的欧几里得范数。类似地，任何估计量类型是合适的，例如通过非线性回归的估计量。可以注意到，关系式(14)-(15)的问题并非凸问题并因而包括数个解决方案。在一个变化中，算法寻求数种解答，最终保留的是例如在用验证集{I_q}验证后显示最低估计误差的，或最小化AIC(“赤池信息准则”)或BIC(“贝叶斯信息准则”)类型准则的。

在一个优选变化中，搜索空间受添加约束的限制：

其中I是芯片上沉积的不同RNA的数目，α例如等于I。

发明人注意到关系式(14)、(15)和(16)的优化问题具有单一解决方案，且根据完成的试验，可能该解决方案是全局最优，或就是接近全局最优的局部最优。

根据一个优选变化，迭代求解关系式(14)、(15)和(16)问题：

-通过在迭代i上设置向量B,Δ为其在之前的迭代i-1上计算的值并根据以下关系式求解优化问题：

-通过在迭代i+1上设置向量Θ为其在迭代i上计算的值并根据以下关系式求解优化问题：

这些问题每个都是凸问题并因而易解答。例如，第一次迭代如下进行：设置每一探针亲和性为1，即

并由此计算向量

的第一初值

在一个变化中，第一次迭代如下进行：设置

并就向量

和

计算第一值B(1)和Δ(1)。如所知，当距离D不再变化或变化不显著时，问题的迭代求解随之终止。

有利地，关系式(20)-(21)的优化问题通过实施LASSO收缩优化(“LASSO收缩法”)来解答，LASSO收缩优化包括根据以下关系式添加约束：

||B||₁+||Δ||₁≤λ (22)

其中||·||₁是范数L₁且λ是LASSO优化通过交叉验证确定的参数，采用本身已知的方式。该方法使得降低估计量方差成为可能。

在步骤88结束时，由此获得向量

和向量

即值

和

定量k-杂交体及错配对对于亲和性φ的贡献。

所述方法随后在90中结束，验证计算的系数以判断其质量。特别地，前述计算步骤88在验证强度组{I_q}执行，这使得鉴定对应的RNA{θ_q}的量成为可能。然后，用学习强度{I_n}上计算的对于亲和性的贡献估计组{I_q}的每一强度I_q。因此，强度I_q根据以下关系式估算：

其中

是强度I_q的估算且X_q和Y_q是强度I_q相关杂交体的模型。还能实施通过亲和性比较验证的步骤，如下结合下文详述的图12所述。验证步骤特定基于以下事实：转录物的RNA量在孔之间基本相同，由于DNA芯片上沉积的溶液性质，这在实践中也如此。显然，如果根据操作生成的溶液不同于DNA芯片常用的，必须采用特定措施以确保此特性，例如溶液匀化。

随后，对估计误差

实施标准统计分析，采用本身已知的方式。

E)亲和性和探针选择的优选参数化

逻辑上，本发明所述亲和性模型随着长度k和/或区域数M增加而准确性提高。然而，这些参数增加会造成一定数量的问题，包括由于模型参数数增加而需要显著增加的计算资源以及需要设计具有数个长k-杂交体拷贝的学习探针组，其设计耗时且昂贵。

发明人进行了关于参数k和M对亲和性模型精度影响的测试。参考图11A-11D，其描述亲和性模型决定系数R²作为参数k和M函数的曲线，发明人观察到一旦超过k和M值，模型精度增加进展极小。根据这些测试，对于长度L_bp＝25的探针，对于最小数量的参数和最小数量的学习探针，下列范围能获得良好模型精度：

k处于2至7，尤其k处于3至5；和

M处于2至25-k，尤其M处于3至15。

F)结果

F.1)硬件和数据构建

下示4个实施例基于申请人开发的2个DNA芯片。所述探针具有25个含氮碱基的长度。

第一芯片称为芯片“V2”，包括开发成测量HERV转录组的第一“HERV”区室。该区室包含6个多拷贝逆转录病毒家族，对应于略小于6000个HERV转录物且描述于Pérot等的文献“Microarray-based sketches of the HERV transcriptome landscape”,PLoS One,2012；7(6):e40194,2012年6月。

在第二“基因”区室中，采用的格式与之前的相同，引入源自DNA芯片的513个探针组，所述芯片来自Affymetrix公司以标注“HG_U133_Plus2”销售。芯片HG_U133_Plus2靶向常规细胞基因并描述于技术文件“Design and Performance of the

HumanGenome U133Plus 2.0and Human Genome U133A 2.0Array”，其可在Affymetrix公司网站上获取。

第三“学习组”区室就其部分而言，设计用于学习错配引起同一家族HERV转录物之间交叉反应的影响。学习组源于HG_U133_Plus2芯片的20个探针组，定义成计划与其靶向的转录物形成完美杂交体。对于这20个探针组的每一探针，设计185个退化探针，其序列与探针变化1或2个错配，且在不同位置上。因此，学习组包含一组37 200个探针。

由此，芯片V2是学习亲和性预测模型的工具(第二区室)以及用于验证在已知DNA芯片上学习的模型的工具(第一区室)。

第二DNA芯片称为“V3”，是根据上示方法设计的DNA芯片，即基于关系式(3)的亲和性模型和图6-8所述的探针选择方法。特别地，仅保留特异及亲和探针用于设计此第二探针。

第二芯片包含约400 000个HERV/MalR元件，组成数十个家族。芯片V3由数个根据其靶向的特定人基因组元件或设计其所含探针的方法而彼此不同的区室(探针组)构成。

芯片V3特定包括3个区室“HERV-MalR”、“U133_HTA”和“OPTI”，其对应于2种类型的人基因组元件和2种独特探针设计方法：

-区室U133_HTA和OPTI靶向相同的1560个基因，而区室HERV-MalR靶向约400 000个不同的HERV及MaLR基因(所述基因由区室U133_HTA和OPTI靶向)元件；

-区室HERV-MalR和OPTI的探针根据上述方法设计，而区室U133_HTA的探针源自2个Affymetrix DNA芯片，分别称为“HG_U133_Plus2”芯片(下文的“U133”)和以标注“HTA”销售的芯片，并因而根据Affymetrix公司特定的方法设计。区室U133_HTA因而实际是2个不同探针组，源自2个靶向相同1560个基因的Affymetrix芯片。

更特别地，对于区室HERV-MalR和OPTI的设计，k-杂交体的长度k选择成等于5且区域数M选择成等于3。仅保留就其而言第一亲和性φ₁高于或等于阈值S₁且第二亲和性φ₂严格低于阈值S₁的探针。阈值S₁选择成等于4.4。

因此，芯片V3上的最大区室HERV_MalR构成本发明的实施方案。芯片V3的另2个区室(OPTI和U133_HTA)就其部分而言，允许比较本发明与根据现有技术方法设计的探针组。每一个这些区室因而包含与其靶转录物形成完美杂交体的探针。

F.2.)亲和性预测模型的精度和选择

本发明所述亲和性预测模型的验证取决于图12所示方案。先前确定了特定预测模型(因此用于长度k和特定分区M以及先前学习的对应矩阵

和

)，验证方案包括比较模型预测的探针亲和性与“重建”自所测探针强度的亲和性(“通过亲和性验证”分支，依靠计算机计算实施)和/或比较模型预测的探针强度与就这些探针测量的强度(“通过强度验证”分支，依靠计算机计算实施)。无论选择何种分支，方案开始于生成所测强度(“生成所测强度”分支，用于依靠计算机计算实施的大部分，除了涉及DNA芯片上所沉积溶液的生成和沉积)。

生成所测强度包括如下常规步骤：经DNA芯片102(其探针已知)从已知被靶向的转录物生成溶液100，将溶液沉积于芯片上，洗涤和测量芯片探针的强度{I＇_n}。通常，DNA芯片上沉积的溶液是均质的，从而转录物的RNA量对于芯片的每个孔是相同的。随后将所生成强度进行过滤104以消除由交叉反应引起或假定如此引起的强度或者校正强度作为交叉反应的函数，以获得探针强度{I_n}，其各自对应于探针与其靶转录物所形成的杂交体，并因而各自可根据关系式I_n＝θ_n×φ_n,建模，如上所述。

“通过亲和性验证”分支就其部分而言，包括：

-预测(在106中)每一探针的亲和性φ_n，与强度{I_n}相关，使用本发明所述模型

-估计(在108中)每一探针的亲和性值

作为强度{I_n}的函数。此计算描述于Li和Wong的文章“Model-based analysis of oligonucleotide arrays:Expression indexcomputation and outlier detection”,Proceedings of the National Academy ofSciences,98(1):31-36,2001。此计算尤其包括最小化依赖于差异(I_n-θ_n×φ_n)的成本函数，接受约束

此优化问题的解决是亲和性值

和RNA量

的预测

和

-比较(在110中)值φ_n与

“通过强度验证”分支就其部分而言，包括：

-预测(在112中)每一探针的亲和性φ_n，与强度{I_n}相关，使用本发明所述模型

-将探针强度组{I_n}在每一探针组内分成(在114中)2个亚组{I_n}₁和{I_n}₂，且相应地，将预测亲和性组{φ_n}以2/3及1/3比例分成2个亚组{φ_n}₁和{φ_n}₂；

-预测(在116中)RNA量θ_n，作为{I_n}₁和{φ_n}₁组的函数。特别地，此预测包括组{I_n}₁与组{θ_n×φ_n}之间的线性回归，因为φ_n的值已计算。因而，就倒入DNA芯片孔的每一RNA量θ_n获得预测值

-预测(在118中)亚组{I_n}₂的强度，根据关系式

-比较亚组(I_n}₂的强度与其对应预测

因此，评估模型的性能水平，(i)在亲和性水平，通过将模型预测的亲和性与Li&Wong(2001)模型估计的亲和性关联，和(ii)在强度水平，通过将模型预测的那些与观察到的强度关联，这些比较在探针之间进行。第一种情况中，在DNA芯片的每一探针组内计算相关性，因为Li&Wong模型施加约束

换言之，就每一探针组而言，计算相关性在探针之间进行，而不是在整个探针组上将模型预测的亲和性与Li&Wong的那些关联，

本实施例的目的在于阐明根据关系式(3)的亲和性模型的精度，即其精确预测探针的亲和性的能力。此实施例中，进行亲和性验证。

测试9个根据关系式

的亲和性预测模型。所评估的2个变量是k-杂交体大小(k从3到5不等)以及根据3个不同场景纳入空间信息：探针分成1、3和25-k分区(最后一种情况称为“任意位置”)。因此，每一模型与矩阵X,Y,

和

的自身结构以及矩阵

和

的自身值相关。学习模型以图10步骤82-88所述方法在第一芯片学习组上进行(图10的步骤70-80对应于第一DNA芯片学习组的构建)，采用常规“10倍交叉验证”方法以预防学习参数

期间过度学习的风险。

为根据强度验证9个模型，所用探针是芯片V2“基因”区室的探针组“CD59”的那些，与6个细胞行(RWPE1和从中衍生的5行)杂交。这些细胞行是源自人样品的均质细胞群(前列腺上皮细胞)，所述细胞经转化以增强其寿命。用于杂交(芯片上的扩增、片段化、标记、杂交)和从中衍生的测量的生物计算处理的方案描述于Pérot等的文献“Microarray-basedsketches of the HERV transcriptome landscape”。特别地，芯片上测量的原始强度遵循3个生物计算预处理步骤，其通常在此类分析中遵循并详述于文献“Exploration,normalization,and summaries of high density oligonucleotide array probe leveldata,Biostatistics”(Irizarry等.4(2):249-64.April 2003)。这3个步骤是背景噪音的校正、芯片间标准化、总结(就每一探针组而言)从构成探针组的探针的强度提供杂交RNA量的估算。此最后步骤如下进行：考虑每一探针强度是特异于探针的靶-探针亲和性效果与对所有亚组探针共同的RNA量效果之和。每一个这些效果用所谓的“中位数平滑”法稳健估计(参见Irizarry等.2003)。

完成16个测试，对应于16个芯片V2的探针组CD59上的测量，以证明模型即使面对强烈测量变化时的准确性，尤其是因为芯片V2上沉积的RNA量未准确控制。这些测试结果示于图13A和13B。在这些图中，用强度的对数作图，作为探针组CD59所含探针(其中的9个)参照的函数。每个图也包括完成的所有16个测试，因此每张图有16条曲线。16个探针组CD59上测量的强度示于图13B，预测的对应强度作为9个亲和性预测模型的函数，示于图13A。后者中，9个模型通过复杂性增加来排列，k-杂交体从上到下增加且空间建模的复杂性从左到右增加。2种趋势在图13B中清楚可见：这些模型对探针组内亲和性变化正确建模的能力随着以下增加：(i)k-杂交体大小和(ii)空间信息的复杂性。值得注意的是，终模型(5-杂交体3-分区)非常精确地跟踪芯片上测量的强度。这些性能水平在以下实施例中总体阐述。

F.3.)亲和性预测模型在另一平台上的有效性

本实施例的目的在于阐明本发明所述亲和性预测模型在芯片V2“基因”区室的513个探针组上的性能水平并证明该模型对于另一DNA芯片形式的有效性，即在芯片V3“U133_HTA”区室的3120个探针组上。实际上，芯片V2的孔规格等于芯片HERV-V2的那些，边长11μm，芯片V3的那些仅5μm。

为此，在亲和性预测模型上进行亲和性验证和强度验证，所述模型特征为k-杂交体长度等于5(k＝5)和探针分成3个区域(M＝3)。如前所述，本发明人注意到此模型的良好性能，甚至在长度k和区域数M减少的情况下。此模型的矩阵

和

在第一DNA芯片的学习组上学习。

用于此实施例的生物样品是4个不同细胞行，申请人同时一式三份在12个芯片V2和12个芯片V3上杂交(4行x 3个复制物＝12个芯片)。用于此实施例的杂交和生物计算处理方案描述于Pérot等的文献“Microarray-based sketches of the HERV transcriptomelandscape”。

图14A和14B阐述所测强度{I_n}₂的对数，作为预测强度

的对数的函数，分别用于芯片V2和芯片V3。图14C阐述芯片V2(基因区室)和芯片V3(U133_HTA区室)的决定系数分布(如决定系数的平方所定义，其代表由另一变量解释的一个变量的百分比变化)。

图14A和14B显示芯片V2和芯片V3上所测强度与预测强度之间的良好一致性，芯片V2(R²＝0.55)的相关性略好于芯片V3(R²＝0.45)。图14C中可以看出，决定系数分布反映本发明所述模型预测的亲和性与Li&Wong模型估计的匹配良好。因此，这些结果证明模型正确预测探针亲和性的能力，且无论芯片形式如何。

F.4.)DNA芯片设计方法的有效性和测量精度

DNA芯片可视为一种测量仪器，其目的在于使生物变异性最大化和最小化工具引入的技术变异性。技术变异性或误差通常分解为系统误差(或“偏差”)和随机误差的结果。

本实施例研究根据本发明所述设计方法获得的DNA芯片的技术变异性。此实施例所示结果的目标是证明用本发明所述探针选择方法设计并结合图1-8描述的探针产生良好测量精度，从而返回的结果与Affymetrix公司销售的DNA芯片所得一致。选择Affymetrix芯片作为比较，因为其质量受到认可。此比较在芯片V3上进行，其包括根据本发明设计的探针区室(“HERV-MaLR”区室和“OPTI”区室)和对应于Affymetrix芯片的区室(“U133_HTA”区室)。

技术变异性用“MicroArray Quality Check”(或“MAQC”)联盟提出的2种标准研究以判断DNA芯片品质：重复性(即当由操作者在相同条件下重复时的测量变异。此变异反映随机误差和单调滴定(量接近DNA芯片灵敏度，使得测量芯片所测强度与杂交RNA浓度之间的一致性成为可能))。这些标准在下文中评估。

用于此评估的样品是MAQC联盟所用的那些，如文献“The MicroArray QualityControl(MAQC)project shows inter-and intraplatform reproducibility of geneexpression measurements)”,24(9):1151-61.Nature Biotechnology,September 2006所述。

这些样品源自2个脑RNA样品，(A)称为“通用人参照RNA”的参照RNA，(B)对应于10个细胞行的混合物。这2个样品以3:1(C＝0.75xA+0.25xB)和1:3(D＝0.25xA+0.75xB)比例混合产生2个额外样品C和D。每个这些样品一式三份在芯片V3上杂交。用于此实施例的杂交和生物计算处理方案描述于Pérot等的文章“Microarray-based sketches of the HERVtranscriptome landscape”。

F.4.1.)研究重复性

为了解根据本发明所述方法设计的DNA芯片与Affymetrix芯片之间比较的相关性，首先进行研究以确保没有混淆效应使此比较偏斜。

此研究结果示于图15A-15G，该图阐述对于V3每一区室HERV_MalR(粉色)、U133_HTA(绿色)和OPTI(蓝色)的测量精度和差异表达基因的鉴定。

图15A和15B分别阐述表示混淆效应的变量分布，即每探针组的探针的强度和数目。图15A中，区室HERV_MalR的分布由字母“H”指示，区室U133_HTA的分布由字母“U”指示，区室OPTI的分布由字母“O”指示。图15B中，就X轴上表示的每一范围而言，密度从左到右分别是HERV_MalR、U133_HTA和OPTI的那些。

图15C和15D分别在探针水平和探针组水平阐述每强度范围的分层变异系数。这些图中，就X轴上表示的每一范围而言，柱从左到右分别是HERV_MalR、U133_HTA和OPTI，另外对于图15D，是下文所述区室“取样_U133_HTA”。

观察这些图时，可见MAQC样品强度和每探针组探针数的分布显示芯片V3的3个区室之间有高均一性，能通过强度和探针组大小使结果分层。常用于测量重复性的量度是重复之间的变异系数，此计算在探针水平(图15C)和探针组水平(图15D)进行。探针水平的比较显示强度对变异系数的强作用，除此之外，就给定强度范围而言，3个区室显示相同的性能水平。在探针组水平观察到强度的相同影响，其中加上探针组大小的影响：HERV_MalR的变异系数高于U133_HTA，在大部分情况下，第一个大多含每探针组3个探针，而第二个超过每探针组7个探针。为确保这2个周长之间的重复性差异与探针组大小(而不是探针设计)密切相关，探针组U133_HTA用每一探针组随机抽出的“X”探针再生，X是根据HERV_MalR探针组大小分配的随机变量。新形成的探针组(“取样_U133_HTA”)显示与区室HERV_MalR所计算的几乎相同的变异系数。这确认所探究探针的重复性类似，无论考虑的探针设计方法如何。

F.4.2)单调滴定

图15E和15F代表在探针和探针组水平的单调滴定。关于图15F，区室“取样_U133_HTA”由字母“SU”指示。用于此实施例的性能标准反映芯片上杂交的RNA浓度与所观察信号之间的一致性。通过使用具有已知水平的2种稀释(C和D)，C和D强度的排列必须能从起始样品(A和B)的相对表达中推断。因此，如果对于探针组i，关系为A_i>B_i，则A_i>C_i>D_i>B_i。当观察此分层结构的探针组百分比表示为其比例A/B和B/A的函数时，代表单调滴定的图预期形式如图15E和15F所示，是在分支末端有水平渐近线的“V”。因此，如果滴定百分比就低比例A_i/B_i而言达到100％阈值，则探针设计方法是优化的。换言之，“V”的分支越紧密联合，关联方法越好。

采用与重复性研究相同的方式，在探针和探针组水平比较3个区室，通过校正与第二情况中探针组大小相关的影响。在探针水平，区室OPTI产生的性能水平好于另2个区室(图15E)。在探针组水平，区室OPTI和U133_HTA显示观察A_i>C_i>D_i>B_i的探针组百分比，与区室HERV_MalR和取样_U133_HTA计算的几乎相同或略高(图15F)。因此，对于所研究1560个基因的组，本发明所述DNA芯片设计方法产生的结果在探针水平略好于Affymetrix，在探针组水平的结果相当，即使探针组更小也如此。

F.4.3)差异表达的基因

最后，图15G呈现区室OPTI、U133和HTA在鉴定样品A与B之间差异表达的基因方面的一致性。此类方法广泛用于采用DNA芯片的研究，实际上后者很少用于研究转录物在组织和给定条件下的绝对表达，而是用于旨在鉴定其表达水平在2种或更多条件之间变化的转录物的研究。图15G中，维恩图代表在区室OPTI、U133和HTA中有最大表达差异的100个基因的交集。

此实施例旨在显示，在MAQC的2个样品A与B之间有最强表达差异的100个基因在芯片V3的区室OPTI和U133_HTA(U133及HTA)中是相当的。差异表达的基因用SAM法鉴定，该方法描述于文献“Significance analysis of microarrays applied to the ionizingradiation response”,Tusher VG,Tibshirani R,Chu G.Proceedings of the NationalAcademy of Sciences of the USA.April 2001 24；98(9):5116-21，随后就芯片V3的3个区室各自而言，保留p值最低的100个基因。这3个区室之间的交集示于图15G的维恩图，其中可见OPTI与Affymetrix区室(U133和HTA)之间的共同基因数非常接近U133与HTA共有的基因数。换言之，OPTI与U133/HTA之间结果的一致性和U133与HTA之间存在的具有相同数量级，U133与HTA区室都由Affymetrix设计。重叠百分比(～65％)也处于由MAQC联盟的平台间比较发现的值的高均值中。这些结果因而证明用OPTI探针鉴定差异表达的基因与Affymetrix探针一致。

F.5)测量特异性

本实施例旨在证明本发明所述杂交模型不仅用于计算靶-探针亲和性，而且还能用于测量探针特异性。芯片V3的区室HERV-MalR的目的在于特异性鉴定HERV表达水平，HERV存在于人基因组中的约40个多拷贝家族中。这些元件的重复性质使得对其单独测量有困难。

为检查探针特异性，计算特异性评分Spec＝φ₁-max(φ₂)。换言之，对于给定探针，此评分测量特异杂交体与最稳定非特异杂交体之间的亲和性差异，后者即显示交叉反应风险最大的杂交体。为测试此特异性评分的有效性，可执行2类实验：

-对于给定探针，建立补充错配的“spike-ins”RNA(即在实验室中人工合成的RNA)并检查是否强度下降与特异性评分增加相关，后者计算为在反应混合物中没有的特异靶和杂交的非特异靶之间的亲和性差异。此类方法提供精确了解哪种RNA存在于反应混合物的优势。

-在芯片V2和V3上杂交同一生物样品并将2种芯片共同的HERV/MarR基因座强度相关联。更特别地，就所有探针计算上述特异性评分，然后在计算相关性时，仅考虑探针超过给定特异性阈值的探针组。如果特异性评分有效，V2和V3强度之间的相关性应随着特异性水平而增加。此方法比之前的更全面，选择其用于本实施例。

用于本实施例的生物样品源自与实施例F所示相同的4个细胞行。用于此实施例的杂交和生物计算处理方案描述于Pérot等的文章(“Microarray-based sketches of theHERV transcriptome landscape”)，包括芯片上扩增、片段化、标记、杂交的常见步骤，然后是背景校正、标准化和总结的步骤。

图16A-16C阐述探针亲和性和特异性评分比较，探针属于芯片V2和V3的共同元件。图16A和16B分别描述亲和性及特异性评分的百分比分布且图16C描述芯片V2和V3所测强度之间的决定系数，作为这些芯片共同的相同元件的特异性评分的函数。

图16A和16B中，属于芯片V2和V3的共同元件的探针亲和性评分即第一亲和性φ₁与特异性评分Spec的比较显示探针V2平均比芯片V3更具亲和性，但特异性更低。尤其在图16C中可见，芯片V2和V3在相同元件上进行的测量显示相关性随着探针特异性增加而提高。这意味着特异性评分能分辨不太特异的探针，其与特异探针的非特异转录物交叉杂交，特异探针在2种芯片上与同一转录物杂交并由此产生更高相关性。此实施例证明亲和性模型不仅可用于设计优化探针，而且可用于检查探针特异性。

G)详细实施方式的教导的延伸

已描述k-杂交体，其长度严格等于k。显然，本发明还涵盖杂交体细分成k-杂交体，其长度小于或等于k，即分成长度严格等于k的杂交体部分，分成严格等于k-1的杂交体部分等。上述数学框架可满足应用，设计矩阵X和Y以及贡献向量

和

简单在大小上增加以考虑额外的k-杂交体构型。

已描述杂交体细分成等长区域。本发明同等应用于不同长度的区域，使得更精确考虑每一区域影响成为可能。

DNA芯片探针选择方法在特定的本发明亲和性建模基础上描述。然而，本发明所述选择方法能基于其它类型的亲和性建模，最终基于阈值的选择规则仍然相同。

类似地，已描述特定数学方程式。如已知，就每一方程式而言，可以有数种可能的等价数学表达式，这些不同表达式也在本发明范围内。

Claims

1.一种估计第一DNA链或“探针”与第二DNA链或“靶”杂交以形成长度为L_bp的杂交体的亲和性φ的方法，所述方法包括：

在杂交体的一组M个分区的每一分区内，计数一组P个DNA链杂交体的每一杂交体存在于所述分区中的次数，所述DNA链杂交体长度为k，小于长度L_bp，称为“k-杂交体”；

对于长度为L_bp的杂交体中一组L个错配对的每一错配对，确定错配对是否存在于所述杂交体中；和

根据以下关系式计算亲和性φ：

该表达式中：

是当一组P个k-杂交体中第p个k-杂交体存在于所述分区的第m个区域时，定量此第p个k-杂交体对亲和性φ的贡献的预定标量，且x_m,p是此第p个k-杂交体在所述分区第m个区域中被计数的次数；和

α是实数项。

2.如权利要求1所述的方法，其中

该表达式中

是定量第l个错配对对亲和性φ的贡献的预定标量，如果第l个错配对存在于所述杂交体中，则y_l＝1，否则y_l＝0，π是实数。

3.如权利要求2所述的方法，其中π等于0。

4.如权利要求2所述的方法，其包括：

对于一组N个学习对的每一对，各包括能共同形成长度为L_bp的杂交体的第一和第二DNA链，集合一定量的所述对的第一DNA链和一定量的所述对的第二DNA链，并测量代表此集合后形成的DNA链杂交体的量的强度I_n，校准对的杂交体包括P个k-杂交体的组的每一k-杂交体至少一次；和

最小化所测强度的向量

与所测强度的向量I的预测向量

之间的距离D来计算向量

向量

和向量

所述计算通过根据以下关系式解答优化问题来进行：

该表达式中：

Θ＝(θ₁…θ_n…θ_N)^T是

的向量，其中

θ_n是编码为第n个校准对而集合在一起的第一和/或第二DNA链的量的标量；

X_n＝(X_n,1…X_n,m…X_n,M)是

的预定设计的行矩阵，其中

X_n,m＝(x_n,m,1…x_n,m,p…x_n,m,P)是

的行矩阵且

x_n,m,p是对于由第n个校准对的第一和第二DNA链形成的杂交体，第p个k-杂交体存在于所述分区的第m个区域中的次数；

B＝(B₁…B_m…B_M)^T是

的向量，其中

B_m＝(β_m,1…β_m,p…β_m,P)^T是

的向量，并且

β_m,p是当P个k-杂交体的组的第p个k-杂交体存在于所述分区的第m个区域时，定量此第p个k-杂交体对长度为L_bp的杂交体亲和性的贡献的标量；

Y_n＝(y_n,1…y_n,l…y_n,L)是

的预定设计的行矩阵，其中

如果第l个错配对存在于由第n个校准对的第一和第二DNA链形成的杂交体中，则y_n,l＝1；和

Δ＝(δ₁…δ_l…δ_L)^T是

的向量，其中

δ_l是定量第l个错配对对长度为L_bp的杂交体亲和性的贡献的标量。

5.如权利要求1-4中任一项所述的方法，其特征在于：

k-杂交体具有的长度k为2至7；和

所述分区的区域数M是2至25-k。

6.如权利要求5所述的方法，其特征在于，所述区域数M是3至15。

7.如权利要求5所述的方法，其特征在于，所述k-杂交体具有的长度k为3至5。

8.如权利要求4所述的方法，其特征在于，所述解答优化问题通过根据以下关系式的额外约束来解决：

其中I是不同RNA的数，α是预定的正标量。

9.如权利要求8所述的方法，其中α等于I。

10.如权利要求4所述的方法，其特征在于，所述优化问题经迭代解决：

通过在迭代i时设置向量B,Δ为其在之前迭代i-1时计算的值并根据以下关系式解答优化问题：

通过在迭代i+1时设置向量Θ为其在迭代i时计算的值并根据以下关系式解答优化问题：

11.如权利要求10所述的方法，其特征在于，第一次迭代通过设置

进行。

12.一种计算机可读计算介质，包括执行如前述权利要求中任一项所请求保护的方法的指令。

13.一种制造DNA芯片的方法，所述芯片包括多拷贝的DNA链或探针，所述DNA链或探针能与长度大于L_bp的核酸的靶链形成长度L_bp的杂交体而没有错配，所述方法包括：

鉴定靶链上长度为L_bp的部分组；

对于靶链的每一鉴定部分，或“候选靶”：

确定互补DNA链或“候选探针”，和通过实施权利要求1-11中任一项所述的方法来计算候选探针与靶的第一亲和性φ；

通过实施权利要求1-11中任一项所述的方法来计算候选探针与不包括候选靶的一组核酸链的每一元件的第二亲和性φ；

从确定的候选探针选择至少一个探针；

第一亲和性φ高于预定的第一阈值S₁；和

每一第二亲和性φ低于严格低于第一阈值S₁的第二阈值S₂；

用每一选定的候选探针制造DNA芯片。

14.如权利要求13所述的制造DNA芯片的方法，其中所述长度大于L_bp的核酸是DNA。

15.如权利要求13所述的制造DNA芯片的方法，所述方法包括从确定的候选探针选择至少一个探针，就其而言至多N个计算的亲和性高于预定阈值且其它第二计算的亲和性低于严格低于第一阈值的第二阈值。

16.一种用于估计第一DNA链或“探针”与第二DNA链或“靶”杂交以形成长度为L_bp的杂交体的亲和性φ的装置，所述装置包括：

用于在杂交体的一组M个分区的每一分区内，计数一组P个DNA链杂交体的每一杂交体存在于所述分区中的次数的单元，所述DNA链杂交体长度为k，小于长度L_bp，称为“k-杂交体”；

用于对于长度为L_bp的杂交体中一组L个错配对的每一错配对，确定错配对是否存在于所述杂交体中的单元；和

根据以下关系式计算亲和性φ的单元：

该表达式中：

α是实数项。

17.如权利要求16所述的装置，其中

该表达式中

18.如权利要求17所述的装置，其中π等于0。

19.如权利要求17所述的装置，其包括：

对于一组N个学习对的每一对，各包括能共同形成长度为L_bp的杂交体的第一和第二DNA链，用于集合一定量的所述对的第一DNA链和一定量的所述对的第二DNA链，并测量代表此集合后形成的DNA链杂交体的量的强度I_n的单元，校准对的杂交体包括P个k-杂交体的组的每一k-杂交体至少一次；和

用于最小化所测强度的向量

与所测强度的向量I的预测向量

之间的距离D来计算向量

向量

和向量

的单元，所述计算通过根据以下关系式解答优化问题来进行：

该表达式中：

Θ＝(θ₁…θ_n…θ_N)^T是

的向量，其中

X_n＝(X_n,1…X_n,m…X_n,M)是

的预定设计的行矩阵，其中

X_n,m＝(x_n,m,1…x_n,m,p…x_n,m,P)是

的行矩阵且

B＝(B₁…B_m…B_M)^T是

的向量，其中

B_m＝(β_m,1…β_m,p…β_m,P)^T是

的向量，并且

Y_n＝(y_n,1…y_n,l…y_n,L)是

的预定设计的行矩阵，其中

Δ＝(δ₁…δ_l…δ_L)^T是

的向量，其中

δ_l是定量所述第l个错配对对长度为L_bp的杂交体亲和性的贡献的标量。

20.如权利要求16-19中任一项所述的装置，其特征在于：

k-杂交体具有的长度k为2至7；和

所述分区的区域数M是2至25-k。

21.如权利要求20所述的装置，其特征在于，所述区域数M是3至15。

22.如权利要求20所述的装置，其特征在于，所述k-杂交体具有的长度k为3至5。

23.如权利要求19所述的装置，其特征在于，所述解答优化问题通过根据以下关系式的额外约束来解决：

其中I是不同RNA的数，α是预定的正标量。

24.如权利要求23所述的装置，其中α等于I。

25.如权利要求19所述的装置，其特征在于，所述优化问题经迭代解决：

26.如权利要求25所述的装置，其特征在于，第一次迭代通过设置

进行。