CN102191311A

CN102191311A - 一种通用寡核苷酸序列库的构建及应用

Info

Publication number: CN102191311A
Application number: CN201010120887XA
Authority: CN
Inventors: 雷向东; 魏崟泷
Original assignee: CHANGZHOU CT BIOSCIENCE Co Ltd
Current assignee: CHANGZHOU CT BIOSCIENCE Co Ltd
Priority date: 2010-03-10
Filing date: 2010-03-10
Publication date: 2011-09-21

Abstract

本发明公开了一种通用寡核苷酸序列库的构建及应用。传统遗传信息分析通常采用“一对一”的模式，如一条探针分析一个基因。这种模式的缺点和局限在于：缺乏通用性，成本高昂；从高度复杂的基因库直接到单一基因，无法对基因库进行分组分析；需要知道至少16个碱基的序列。本发明通过生物信息学的手段对多个已测序的物种进行序列分析，构建通用寡核苷酸序列库，克服传统“一对一”模式的局限。本发明的通用寡核苷酸序列库可应用于如下领域：作为分析探针用于实时荧光PCR；作为捕获探针用于DNA矩阵列、DNA固态芯片、基于磁珠或其它基质的液体芯片；作为通用引物启动一组带有该引物序列的RNA的反转录或DNA的复制。

Description

一种通用寡核苷酸序列库的构建及应用

技术领域

本发明属于生物技术领域，通过生物信息学的手段和优化算法对多个物种的遗传信息进行挖掘，得到由少数高频寡核苷酸序列组成的通用序列库。具体涉及一种可对多物种进行集成化实验设计的通用寡核苷酸序列库的构建方法及其应用领域。

背景技术

基于核酸序列的遗传信息分析是生物学的重要内容和技术手段。核酸序列分析的实验技术利用碱基互补配对的高度精确性，实现对某一特定目标DNA序列的检测。传统遗传信息分析通常使用“一对一”的模式，如一条探针分析一个基因。这种“一对一”的模式，虽然有专一性高的特点，但其缺点和局限也很明显：第一，缺乏通用性，导致成本高昂。例如，实时定量PCR(qPCR)实验中，对所选探针专一性和通用性的平衡始终是一个挑战。常用的由淬灭基团和荧光报导基团组成的双标记寡核苷酸荧光探针，也称为水解探针(hydrolysis probes)或TaqMan探针，设计为与目标序列上、下游引物间的序列配对，虽然具有较高的专一性，但这种“一对一”的模式没有灵活性和通用性，成本高昂。一旦目的序列或设计的引物改变，原先合成的探针便无用处。而本发明通过选择通用库中的探针，配合专一性的引物进行qPCR实验，即保证了对目标序列的专一性，又使探针具有通用性。

第二，“一对一”的模式直接从高度复杂的基因库到单一基因，无法对基因库进行分组分析。目前利用专一捕获探针进行靶序列捕获的基因捕获技术，虽然保证了对单一序列的特异性捕获，但无法对某一组功能基因进行分组分析，可重复利用性低，也导致了成本高昂。在本发明中，通过设计通用捕获探针的多种组合，可得到多种靶序列的分离、提纯；通过设计一系列这样的捕获探针组合，可实现对高度复杂的遗传信息的定向分离、筛选。

第三，“一对一”模式要求使用较长的探针或引物，通常需要知道至少16个碱基的序列，因而不适用序列不明的基因。而本发明的通用寡核苷酸序列库只需要8-12个碱基的序列，作为通用引物可启动一组带有该引物序列的RNA的反转录或DNA的复制。

随着LNA(Locked Nucleic Acid)和ZNA(Zip Nucleic Acids)等核苷酸修饰技术的出现，大幅度提高了短探针的解链温度，使得用8-12个碱基的短序列设计引物和各种探针成为可能。本发明通过建立通用寡核苷酸序列库，采用“一对多”的策略对传统遗传信息分析中“一对一”的模式进行补充和优化，可极大程度的降低遗传信息分析成本，并实现对遗传信息的分组分析。

发明内容

本发明涉及一种通用寡核苷酸序列库的构建方法及其应用，这里的寡核苷酸序列是一类可作为实验探针、引物的，经过分子修饰的8-12个碱基短序列。本发明通过生物信息学的手段，对多种模式生物和已测序物种的转录组、全基因组序列等信息进行挖掘；通过设计优化算法，对高频分布的寡核苷酸序列进行评价、筛选，最终得到由少量寡核苷酸组成的通用序列库。

本发明涉及对16个物种转录组、基因组中的高频8-12个碱基短序列的优化建库，包括七种模式生物：人、黑猩猩、小鼠、大鼠、果蝇、线虫、拟南芥；和已测序的九个物种：猕猴、牛、狗、马、原鸡、斑马鱼、海鞘、水稻和葡萄。并通过整合各个物种的通用序列库，得到对绝大多数物种适用的通用寡核苷酸序列库。

一种构建通用寡核苷酸序列库的方法：如图1所示，对所有可能的该长度的寡核苷酸序列，去掉出现连续四位相同碱基的序列；每条序列的GC含量在30％-70％之间。对这样的备选序列，我们分别在物种的转录组、基因组等目标序列集中对其出现频率和分布情况进行分析，选取出现频率最高的一部分序列组成高频备用寡核苷酸序列库。所选择的序列应不低于备选序列总数的0.1％，不高于备选序列总数的15％。后设计贪婪算法对备选高频序列在目标序列集中的分布情况进行分析，得到对目标序列集最优化的通用探针组合，即构成该目标序列集的通用寡核苷酸序列库。

由于图1的备选高频寡核苷酸序列库中存在大量的相似序列，它们大部分交叉重叠或仅相差1-2个碱基，这样的寡核苷酸序列往往互相伴随且均高频出现；此外，某些高频寡核苷酸序列在目标序列集的分布较集中，且盲区较多。对构建一个优化的通用序列库，显然仅仅统计目标序列集中寡核苷酸序列的出现频率是远远不够的。需要我们考察每条寡核苷酸序列及各种序列组合在目标序列集中的分布情况，利用一定数目的寡核苷酸序列对目标序列集中序列获得最大覆盖率的同时，保证寡核苷酸序列分布的均匀性和一定的分布密度，尽量少出现分布的盲区，这样得到的一组寡核苷酸序列才可作为优化的通用库。

基于上述考虑，本发明设计贪婪算法，对每条寡核苷酸序列及各种序列组合在目标序列集中的分布情况进行评价、打分。如图2所示，函数S(p_i)表示探针p_i对某序列集的分布函数；S(p₁，p₂，…，p_k)表示探针组p₁，p₂，…，p_k在该序列集的联合分布函数。对于包含n个探针的备选高频探针集(库)R＝{p₁，p₂，…，p_n}，我们有贪婪递进算法：S₁＝max{S(P_i)}，p_i∈R；S_k＝max{S_k-1∪S(p_i)}，p_i∈R且p_i不在S_i-1中。

其中S_k表示高频探针库R中包含k个探针的最佳联合分布组合。通过设计合理的打分函数可使S_k达到对目标序列集理想的覆盖率和分布情况。

本发明通过对具有代表性的16个物种转录组、基因组的一次优化建库，即可通过通用库中少量寡核苷酸序列的选择和组合，对绝大多数物种的遗传信息进行实验设计、分组分析。寡核苷酸序列在用作分析探针、捕获探针时，可通过LNA(Locked Nucleic Acid)、ZNA(Zip Nucleic Acids)等核苷酸修饰技术提高其解链温度。这种新颖的“一对多”设计理念真正意义上实现了探针的一次合成、多种使用，与传统的“一对一”分析相比大大的降低了成本、提高了实验效率，在不失对目的序列专一性的前提下达到了极佳的通用效果，具体可应用于如下领域：一、可对多个物种进行qPCR的通用探针设计。一般仅需要由70个左右的8bp、或140个左右的9bp的通用探针库，就可以对单个物种几乎所有的转录本进行定量分析或SNP分型。通过在qPCR实验中引入专一性的引物，配合选择通用库中的检测探针，可同时保证对目标序列的专一性和探针设计的通用性，达到“以不变应万变”的理想效果。

二、可作为捕获探针用于DNA矩阵列，DNA固态芯片，或基于磁珠(磁性微小球)或其它基质的液体芯片。通过设计有限的通用捕获探针的多种排列组合，得到多种靶序列的分离和提纯；也可设计对一组功能相关基因的通用捕获探针，实现对高度复杂的基因库的定向分离、筛选。

三、作为通用引物启动一组带有该引物序列的RNA的反转录或DNA的复制。如可对未测序物种的基因组样本进行通用引物的设计：通过对与待检物种亲缘关系较近的已测序物种基因组信息的挖掘，构建其基因组的通用寡核苷酸引物库，利用通用引物库中少量8-12个碱基的短引物，即可对待检基因组的PCR实验进行优化设计，得到比随机引物PCR更为理想的实验结果。

附图说明

图1为构建通用寡核苷酸序列库的流程图。

图2为通过贪婪算法筛选通用探针库的示意图。

图3为通过捕获探针的组合对核酸序列文库分组分析的示意图。

具体实施方式

实施例1：构建多物种转录组的通用寡核苷酸探针库如图1、图2所示，基于生物信息学的分析和算法设计，本发明对多个物种的转录组进行了通用寡核苷酸探针库的构建，具体涉及16个物种的8bp、9bp通用探针库。对可作为探针、引物设计的一类寡核苷酸序列，根据其在目标序列集中的出现频率排序，进一步筛选得到具有统计学显著性的高频备选探针库。通过贪婪算法对高频探针库中的每条探针和探针的不同组合，在目标序列集中的分布进行分析。实现用最少的通用探针，达到对物种转录本序列最大的覆盖率，并保证探针在各个转录本中分布的均匀性和分布密度。

本发明对16个物种的转录组分别进行通用探针库的构建。平均仅通过70个左右的8bp探针、或140个左右的9bp探针，就几乎可以覆盖单个物种的所有转录本，达到理想的探针分布效果。其中每个探针都可以匹配数百甚至上千个不同的转录本，每个转录本上平均可有5-10个不同的探针结合位点。通过对16个物种的通用探针库进行整合，我们得到了对绝大多数物种适用的8bp通用探针库，含385个通用探针；和9bp通用探针库，含752个通用探针。对亲缘关系较近的一群物种，其通用探针库可以互作参考；对于这16个物种以外的物种，其大多数转录本也可以从上述整合多物种的通用探针库中找到合适的匹配探针。

通用库中的探针在合成时采用LNA(Locked Nucleic Acid)、ZNA(Zip NucleicAcids)等核酸序列修饰技术，大幅度提高其解链温度。经过双标记合成的水解探针可识别出单个碱基的错配，与专一性的引物配合使用，可同时确保qPCR实验的灵敏度和特异性。而对不同的转录样本只须在通用探针库中搜寻与之匹配的探针和对多种匹配策略进行选择，无须从头设计和重新合成探针。这种“一对多”的设计思路开发了探针的反复利用性，特别适用于对大量转录本或核酸序列的集成分析，大大的节约了使用者的时间和成本。

实施例2：构建多物种基因组的通用寡核苷酸序列库根据图1、图2所示的流程和方法，本发明对多个物种的基因组进行了通用寡核苷酸序列库的构建。具体涉及已测序的16个物种的8bp、9bp通用序列库。对每个物种随机抽取一定比例的(可以是5％-50％)全基因组序列作为目标序列集，按照图1的流程，筛选得到目标序列集的备选高频探针库。对基因组序列进行分析的贪婪算法设计为：对每个备选探针或探针组合，目标序列在一段连续区域内(一般15-50个碱基)出现的多次或不同探针的匹配，均只计算一次。通过图2贪婪算法的示意流程，分析并得到目标序列集较理想的通用寡核苷酸序列库。

本发明涉及对16个物种基因组通用寡核苷酸序列库的构建，对单个物种平均选择50个左右的8bp探针、或100个左右的9bp探针，即可达到理想的覆盖率和分布效果。通用库中的寡核苷酸序列可较均匀的在物种基因组中出现，达到分布盲区的最小化。通过对16个物种的通用序列库进行整合，我们得到了对大多数物种适用的8bp基因组通用序列库，含374条寡核苷酸序列；和9bp基因组通用序列库，含725条寡核苷酸序列。

合理的选择和组合基因组通用序列库中的寡核苷酸序列，可较好的实现对大多数物种的基因组遗传分析、实验设计。例如，可设计和优化各种基因芯片、SNP分型芯片；也可以作为通用引物启动一组RNA的反转录或DNA的复制。在进行未知基因组的PCR实验时，通过合理的设计通用引物，可达到比传统的随机引物PCR更优化的实验结果。

实施例3：利用通用寡核苷酸序列库进行捕获探针的组合设计实例1、2中分析得到的用寡核苷酸序列库还可作为捕获探针应用于DNA矩阵列，DNA固态芯片，基于磁珠(磁性微小球)或其它基质的液体芯片。如图3中的实验流程，对需要分离、提纯的靶基因(或一组基因)，可在通用探针库中设计最优的顺序排列探针组p₁，p₂，…，p_i。核酸序列文库样本经过与捕获探针的结合、洗脱后，即可分流成具有该探针结合位点的和不具有该探针结合位点的两个次级库；最初的文库顺序经过所有捕获探针的各级筛选，最终可分离、纯化得到目标靶基因(或一组基因)。以8bp的捕获探针设计策略为例，设计一组3个通用捕获探针，总长相当于设计了一条24bp的探针；对于几乎所有的基因序列，一般设计4个以内探针的捕获策略即可达到理想的分离、纯化效果。

通过对有限的通用捕获探针的多种组合，不仅可以对多种靶基因(或一组基因)的分离和纯化，还可以设计对高度复杂的物种基因库进行集成化基因捕获的系统，实现对物种基因库的分级管理、对一类功能基因的批量分析等。利用集成化的设计思想，把图3中一个探针组的筛选流程作为一条分支、路径，而每次通过不同捕获探针筛选得到的各级核酸序列文库均可以再设计捕获探针进行分级。这样实现了一种网状的流程设计，每个捕获探针可作为网状矩阵列的一个节点，各级核酸文库通过某节点，经过对该节点捕获探针的结合、洗涤、洗脱一套实验流程，分离成下一级核酸文库。通过合理的设计各个捕获探针节点，组成捕获探针的网状矩阵列，可将高度复杂的基因文库定向的逐级分离管理、筛选纯化，最终得到各种靶基因(或一组基因)，而这种集成化的实验设计必将在今后生物研究中具有更大的应用前景。

Claims

1.一种构建通用寡核苷酸序列库的方法，其特征在于：对于可作为探针、引物的一类寡核苷酸序列，在目标序列集的中统计它们的出现频率，得到高频备用寡核苷酸序列库。后通过贪婪算法对高频序列库中的每条序列及不同的序列组合进行分布分析，利用最少的寡核苷酸序列达到对目标序列集最大的覆盖率，并保证探针分布的均匀性和分布密度，这样的一组寡核苷酸序列即构成通用序列库。

2.如权利要求1所述的构建通用寡核苷酸序列库的方法，其特征在于：寡核苷酸序列中不出现连续四位相同的碱基，序列的GC含量应在30％-70％之间。

3.如权利要求1所述的构建通用寡核苷酸序列库的方法，其特征在于：所选的寡核苷酸序列长度应在8-12个碱基。

4.如权利要求1所述的构建通用寡核苷酸序列库的方法，其特征在于：待分析的目标序列集可以是任何物种的转录组、基因组或任何一组核苷酸序列。

5.如权利要求1所述的构建通用寡核苷酸序列库的方法，其特征在于：将高频寡核苷酸序列按其在目标序列集中出现的频率排序，选取频率最高的一部分序列组成高频备用寡核苷酸序列库，所选择的序列应不低于备选序列总数的0.1％，不高于备选序列总数的15％。

6.如权利要求1所述的通用寡核苷酸序列库，对库中的每条序列，其反向互补序列也应包含在内。

7.如权利要求1所述的构建通用寡核苷酸序列库的方法，其特征在于：其中的序列作为分析探针、捕获探针时，应通过核苷酸修饰技术提高其解链温度。核苷酸修饰技术包括但不局限于LNA(Locked Nucleic Acid)、ZNA(Zip Nucleic Acids)。

8.如权利要求1所述的通用寡核苷酸序列库，其应用领域包括：(1)作为分析探针用于实时荧光PCR；(2)作为捕获探针用于DNA矩阵列，DNA固态芯片，或基于磁珠(磁性微小球)或其它基质的液体芯片；(3)作为通用引物启动一组带有该引物序列的RNA的反转录或DNA的复制。