CN107034267A

CN107034267A - 制备候选测序探针集的方法、装置及其应用

Info

Publication number: CN107034267A
Application number: CN201610075006.4A
Authority: CN
Inventors: 徐讯; 蒋慧; 耿春雨; 范广益; 梁恩靖; 祝珍珍
Original assignee: BGI Shenzhen Co Ltd
Current assignee: MGI Tech Co Ltd
Priority date: 2016-02-03
Filing date: 2016-02-03
Publication date: 2017-08-11
Anticipated expiration: 2036-02-03
Also published as: CN107034267B

Abstract

本发明公开了制备候选测序探针集的方法、装置及其应用，其中，制备候选测序探针集的方法包括：(1)基于参考基因组的目标mRNA序列设计探针，构建候选探针集合；(2)将候选探针集合与参考基因组的目标mRNA序列进行比对；(3)基于比对结果，对候选探针集合中的所有候选探针进行筛选；(4)针对参考基因组目标mRNA中的高度同源基因设计得到相同的探针；(5)合并特异性探针集和针对高度同源基因的探针。利用该方法能够有效地获得针对参考基因组全部mRNA的候选测序探针集，进而，基于其能够有效制备获得转录组文库特异性测序引物组，利用该测序引物组进行转录组测序，测序结果及确定的转录本序列准确可靠、数据偏向性低。

Description

制备候选测序探针集的方法、装置及其应用

技术领域

本发明涉及转录组文库测序分析技术领域，具体地涉及制备候选测序探针集的方法、装置及其应用。

背景技术

目前，转录组建库及测序领域可以基于短的双末端配对的读长序列进行全转录组的信息分析，包括了可变剪接等遗传表达事件的分析。然而，目前的转录组测序技术，获得的测序结果准确性低，数据偏向性高，后续无法将较为复杂的遗传信息进行解码注释，转录本和可变剪切分析难。

因而，目前的转录组测序技术仍有待改进。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的一个目的在于提出一种测序结果准确可靠、数据偏向性低，且能够有效检测获得新的转录本和可变剪切形式的转录组测序技术。

需要说明的是，本发明是基于发明人的下列发现而完成的：

基因测序发展到第二代高通量测序技术，在转录组建库及测序领域可以基于短的双末端配对的读长序列进行全转录组的信息分析，包括了可变剪接等遗传表达事件的分析，而由于较短的读长限制(50/90nt*2的碱基)使得转录组的分析无法将较为复杂的遗传信息进行解码注释。第三代单分子测序的技术达到几十kb级别的读长使得基因测序及后续分析软件不再受到短序列读长对数据分析的限制，然而第三代测序技术当前由于测序准确性只能达到85％的水平，从而使得该技术也无法快速应用于转录组等领域的测序。同时当前转录组建库技术需要经过核糖体去除、一链反转录、二链cDNA合成、全长cDNA打断、标准DNA建库等繁琐步骤，对总RNA的起始量要求较高，且繁琐的操作过程带来了数据的偏向性。

而发明人在实验研究中发现，通过对RNA数据的分析选择合适的测序引物组，通过不同的毗邻测序引物组进行几乎全长的RNA测序，进而通过测序得到的短读长进行连续较长读长的组合，能够更好地实现转录组测序，测序结果及确定的转录本序列准确可靠、数据偏向性低，有利于后续的转录本和可变剪切分析，且能够有效检测获得新的新的转录本和可变剪切形式。

在本发明的第一方面，本发明提供了一种制备候选测序探针集的方法。根据本发明的实施例，该方法包括以下步骤：

(1)基于参考基因组的目标mRNA序列，以20bp为窗口，10bp为步长设计探针，构建候选探针集合；

(2)将所述候选探针集合中的所有候选探针与所述参考基因组的目标mRNA序列进行比对，以便获得比对结果；

(3)基于所述比对结果，对所述候选探针集合中的所有候选探针进行筛选，以便得到特异性探针集，其中所述筛选包括：去除比对到除自身以外的mRNA的位置且连续比对上的长度大于10bp且错配小于等于2的候选探针；

(4)针对所述参考基因组目标mRNA中的高度同源基因，按照步骤(1)的方法设计得到相同的探针，以便得到针对高度同源基因的探针；

(5)合并所述特异性探针集和所述针对高度同源基因的探针，以便获得所述候选测序探针集。

发明人发现，利用本发明的制备候选测序探针集的方法，能够有效地获得针对参考基因组的目标mRNA(甚至全部mRNA)的候选测序探针集，进而，基于对该候选测序探针集的进一步筛选能够有效制备获得针对参考基因组转录组文库目标mRNA的特异性测序引物组，利用该特异性测序引物组进行测序得到的短读长进行连续较长读长的组合，能够更好地实现转录组测序，且测序结果及确定的转录本序列准确可靠、数据偏向性低，有利于后续的转录本和可变剪切分析，且能够有效检测获得新的转录本和可变剪切形式。

在本发明的第二方面，本发明提供了一种制备参考基因组目标mRNA特异性的测序引物组的方法。根据本发明的实施例，该方法包括以下步骤：根据前面所述的制备候选测序探针集的方法，制备待测样品的测序探针集；针对所述参考基因组目标mRNA中的每一个mRNA，均单独按照待测样品基因组转录组文库的插入片段长度X进行区域划分，每一个插入片段长度大小的区域作为一组，剩余不足插入片段长度大小的区域也视为一组，以便将所述参考基因组的目标mRNA分为M组，且基于各组在所述参考基因组上的位置顺序，将各组依次命名为第1组、第2组……第M组；基于所述转录组文库的插入片段长度X和测序读长Y，确定每一组设置的测序探针数目N，其中N≈X/Y；基于所述待测样品的候选测序探针集，在每一组均优选出N个最优探针作为测序探针，其中每一组的所述N个测序探针在参考基因组上的位置相邻，且依据各测序探针在参考基因组上的位置顺序，分别将每一组的测序探针以“组号-组中探针顺序号”进行命名，其中，第M组的测序探针依次为M-1、M-2……M-N；分别合并各组中探针顺序号相同的测序探针，以便获得N个参考基因组目标mRNA特异性的测序引物组，其中，第N组测序引物组中的测序探针为1-N、2-N……M-N。

发明人惊奇地发现，利用本发明的制备测序引物组的方法，能够有效制备获得针对参考基因组转录组文库目标mRNA的特异性测序引物组，进而利用该特异性测序引物组进行测序得到的短读长进行连续较长读长的组合，能够更好地实现转录组测序，且测序结果及确定的转录本序列准确可靠、数据偏向性低，有利于后续的转录本和可变剪切分析，且能够有效检测获得新的转录本和可变剪切形式。

其中，当所述分组基于参考基因组的全部mRNA进行时，利用上述方法能够有效制备针对整个参考基因组的测序引物组。

在本发明的第三方面，本发明提供了一种确定待测样品转录组文库的目标mRNA序列的方法。根据本发明的实施例，该方法包括以下步骤：提供待测样品的基因组转录组文库，所述基因组转录组文库的插入片段长度为X；根据前面所述的制备测序引物组的方法，制备获得N个参考基因组目标mRNA特异性的测序引物组；利用所述N个参考基因组目标MRNA特异性的测序引物组对所述待测样品的基因组转录组文库进行梯度测序，以便获得N组测序结果，其中，所述梯度测序包括N个测序循环，依次利用第1组至第N组测序引物组进行测序；以及基于每个测序引物组的测序探针的序列以及相应的测序结果，确定所述待测样品的基因组转录组文库的目标mRNA序列。

根据本发明的实施例，利用本发明的确定待测样品转录组文库序列的方法，利用获得的特异性测序引物组对待测样品的基因组转录组文库进行梯度测序，测序结果及确定的转录本序列准确可靠、数据偏向性低，并且基于测序得到的短读长能够有效进行连续较长读长的组合，从而有利于后续的转录本和可变剪切分析，且能够有效检测获得新的转录本和可变剪切形式。

当所述N个参考基因组目标mRNA特异性的测序引物组具有针对整个参考基因组的特异性时，利用上述方法能够有效确定待测样品的整个转录组文库的序列。

在本发明的第四方面，本发明提供了一种候选测序探针集制备装置。根据本发明的实施例，该装置包括：候选探针集合构建单元，所述候选探针集合构建单元用于基于参考基因组的目标mRNA序列，以20bp为窗口，10bp为步长设计探针，构建候选探针集合；比对单元，所述比对单元与所述候选探针集合构建单元相连，用于将所述候选探针集合中的所有候选探针与所述参考基因组的目标mRNA序列进行比对，以便获得比对结果；候选探针筛选单元，所述候选探针筛选单元与所述比对单元相连，用于基于所述比对结果，对所述候选探针集合中的所有候选探针进行筛选，以便得到特异性探针集，其中，所述候选探针筛选单元适于按照以下条件进行所述筛选：去除比对到除自身以外的mRNA的位置且连续比对上的长度大于10bp且错配小于等于2的候选探针；高度同源基因探针制备单元，所述高度同源基因探针制备单元用于针对所述参考基因组目标mRNA中的高度同源基因，以20bp为窗口，10bp为步长设计得到相同的探针，以便得到针对高度同源基因的探针；以及合并单元，所述合并单元分别与所述高度同源基因探针制备单元和所述候选探针筛选单元相连，用于合并所述特异性探针集和所述针对高度同源基因的探针，以便获得所述候选测序探针集。发明人发现，利用本发明的候选测序探针集制备装置能够有效地制备获得针对参考基因组目标mRNA的候选测序探针集，进而，基于对该候选测序探针集的进一步筛选能够有效制备获得针对参考基因组转录组文库目标mRNA的特异性测序引物组，利用该特异性测序引物组进行测序得到的短读长进行连续较长读长的组合，能够更好地实现转录组测序，且测序结果及确定的转录本序列准确可靠、数据偏向性低，有利于后续的转录本和可变剪切分析，且能够有效检测获得新的转录本和可变剪切形式。

在本发明的第五方面，本发明提供了一种测序引物组制备设备。根据本发明的实施例，该设备包括：前面所述的候选测序探针集制备装置，所述候选测序探针集制备装置用于制备待测样品的测序探针集；mRNA分组装置，所述mRNA分组装置用于针对所述参考基因组目标mRNA中的每一个mRNA，均单独按照待测样品基因组转录组文库的插入片段长度X进行区域划分，每一个插入片段长度大小的区域作为一组，剩余不足插入片段长度大小的区域也视为一组，以便将所述参考基因组的目标mRNA分为M组，且基于各组在所述参考基因组上的位置顺序，将各组依次命名为第1组、第2组……第M组；测序探针数目确定装置，所述测序探针数目确定装置用于基于所述转录组文库的插入片段长度X和测序读长Y，确定每一组设置的测序探针数目N，其中N≈X/Y；测序探针序列确定及命名装置，所述测序探针序列确定及命名装置分别与所述候选测序探针集制备装置、所述mRNA分组装置和所述测序探针数目确定装置相连，用于基于所述待测样品的候选测序探针集，在每一组均优选出N个最优探针作为测序探针，其中每一组的所述N个测序探针在参考基因组上的位置相邻，且依据各测序探针在参考基因组上的位置顺序，分别将每一组的测序探针以“组号-组中探针顺序号”进行命名，其中，第M组的测序探针依次为M-1、M-2……M-N；以及测序引物组确定装置，所述测序引物组确定装置与所述测序探针序列确定及命名装置相连，用于分别合并各组中探针顺序号相同的测序探针，以便获得N个参考基因组目标mRNA特异性的测序引物组，其中，第N组测序引物组中的测序探针为1-N、2-N……M-N。

发明人惊奇地发现，利用本发明的测序引物组制备设备能够有效制备获得针对参考基因组转录组文库目标mRNA的特异性测序引物组，进而利用该特异性测序引物组进行测序得到的短读长进行连续较长读长的组合，能够更好地实现转录组测序，且测序结果及确定的转录本序列准确可靠、数据偏向性低，有利于后续的转录本和可变剪切分析，且能够有效检测获得新的转录本和可变剪切形式。其中，当所述分组基于参考基因组的全部mRNA进行时，利用上述设备能够有效制备针对整个参考基因组的测序引物组。

在本发明的第六方面，本发明提供了一种用于确定待测样品转录组文库的目标mRNA序列的系统。根据本发明的实施例，该系统包括：转录组文库提供设备，所述转录组文库提供设备用于提供待测样品的基因组转录组文库，所述基因组转录组文库的插入片段长度为X；前面所述的测序引物组制备设备，所述测序引物组制备设备用于制备获得N个参考基因组目标mRNA特异性的测序引物组；测序设备，所述测序设备分别与所述转录组文库提供设备和所述测序引物组制备设备相连，用于利用所述N个参考基因组目标MRNA特异性的测序引物组对所述待测样品的基因组转录组文库进行梯度测序，以便获得N组测序结果，其中，所述梯度测序包括N个测序循环，依次利用第1组至第N组测序引物组进行测序；以及文库序列确定设备，所述文库序列确定设备与所述测序设备相连，用于基于每个测序引物组的测序探针的序列以及相应的测序结果，确定所述待测样品的基因组转录组文库的目标mRNA的序列。

根据本发明的实施例，本发明的用于确定待测样品转录组文库的目标mRNA序列的系统，能够利用获得的特异性测序引物组对待测样品的基因组转录组文库进行梯度测序，测序结果及确定的转录本序列准确可靠、数据偏向性低，并且基于测序得到的短读长能够有效进行连续较长读长的组合，从而有利于后续的转录本和可变剪切分析，且能够有效检测获得新的转录本和可变剪切形式。当所述N个参考基因组目标mRNA特异性的测序引物组具有针对整个参考基因组的特异性时，利用上述系统能够有效确定待测样品的整个转录组文库的序列。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1显示了根据本发明一个实施例的候选测序探针集制备装置的结构示意图；

图2显示了根据本发明一个实施例的测序引物组制备设备的结构示意图；

图3显示了根据本发明一个实施例的用于确定待测样品转录组文库的目标mRNA序列的系统的结构示意图；

图4显示了根据本发明一个实施例，转录组RNA全长测序探针设计示意图；以及

图5显示了根据本发明一个实施例，梯度引物组测序方法的流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

制备候选测序探针集的方法及其应用

发明人发现，利用本发明的制备候选测序探针集的方法，能够有效地获得针对参考基因组目标mRNA的候选测序探针集，进而，基于对该候选测序探针集的进一步筛选能够有效制备获得针对参考基因组转录组文库目标mRNA的特异性测序引物组，利用该特异性测序引物组进行测序得到的短读长进行连续较长读长的组合，能够更好地实现转录组测序，且测序结果及确定的转录本序列准确可靠、数据偏向性低，有利于后续的转录本和可变剪切分析，且能够有效检测获得新的转录本和可变剪切形式。

根据本发明的实施例，所述基因组转录组文库由以单链环状DNA形式存在的插入片段构成。

根据本发明的实施例，X＝200，Y＝50，N＝4。由此，获得的测序引物组特异性高。

根据本发明的实施例，所述参考基因组为人参考基因组。

根据本发明的实施例，基于所述待测样品的候选测序探针集，在每一组均优选出N个最优探针作为测序探针，进一步包括：针对每一组的N个最优探针，使每相邻的两个最优探针之间的距离为测序读长；以及当优选位置的探针为非特异性的探针时，重新在该优选位置的上下游10nt的位置进行探针选择，筛选最优探针。由此，筛选获得的测序探针特异性高。

在本发明的第三方面，本发明提供了一种确定待测样品转录组文库的目标mRNA序列的方法。根据本发明的实施例，该方法包括以下步骤：提供待测样品的基因组转录组文库，所述基因组转录组文库的插入片段长度为X；根据前面所述的制备测序引物组的方法，制备获得N个参考基因组目标mRNA特异性的测序引物组；利用所述N个参考基因组目标MRNA特异性的测序引物组对所述待测样品的基因组转录组文库进行梯度测序，以便获得N组测序结果，其中，所述梯度测序包括N个测序循环，依次利用第1组至第N组测序引物组进行测序；以及基于每个测序引物组的测序探针的序列以及相应的测序结果，确定所述待测样品的基因组转录组文库的目标mRNA的序列。

根据本发明的实施例，利用本发明的确定待测样品转录组文库序列的方法，利用获得的特异性测序引物组对待测样品的基因组转录组文库进行梯度测序，测序结果及确定的转录本序列准确可靠、数据偏向性低，并且基于测序得到的短读长能够有效进行连续较长读长的组合，从而有利于后续的转录本和可变剪切分析，且能够有效检测获得新的新的转录本和可变剪切形式。

根据本发明的实施例，进一步包括：将所述基因组转录组文库中的单链环状DNA制备成DNA纳米球。由此，便于后续进行梯度测序。

根据本发明的实施例，基于每个测序引物组的测序探针的序列以及相应的测序结果，确定所述待测样品的基因组转录组文库的目标mRNA的序列，进一步包括：基于测序探针序列的来源和在参考基因组上的位置顺序，确定测序结果中测序序列的来源；基于所述测序结果中测序序列的来源，组装获得转录本序列，所述转录本序列即为目标mRNA序列。由此，获得的转录本序列即目标mRNA序列准确可靠。

根据本发明的实施例，X＝200，Y＝50，N＝4。由此，确定的待测样品转录组文库序列准确可靠。

根据本发明的实施例，所述参考基因组为人参考基因组。

候选测序探针集制备装置及其应用

在本发明的第四方面，本发明提供了一种候选测序探针集制备装置。根据本发明的实施例，参照图1，该装置100包括：候选探针集合构建单元10、比对单元20、候选探针筛选单元30、高度同源基因探针制备单元40和合并单元50。

下面参照图1，对本发明的候选测序探针集制备装置100进行详细描述：

根据本发明的实施例，所述候选探针集合构建单元10用于基于参考基因组的目标mRNA序列，以20bp为窗口，10bp为步长设计探针，构建候选探针集合；所述比对单元20与所述候选探针集合构建单元10相连，用于将所述候选探针集合中的所有候选探针与所述参考基因组的目标mRNA序列进行比对，以便获得比对结果；所述候选探针筛选单元30与所述比对单元20相连，用于基于所述比对结果，对所述候选探针集合中的所有候选探针进行筛选，以便得到特异性探针集，其中，所述候选探针筛选单元30适于按照以下条件进行所述筛选：去除比对到除自身以外的mRNA的位置且连续比对上的长度大于10bp且错配小于等于2的候选探针；所述高度同源基因探针制备单元40用于针对所述参考基因组目标mRNA中的高度同源基因，以20bp为窗口，10bp为步长设计得到相同的探针，以便得到针对高度同源基因的探针；以及合并单元50，所述合并单元50分别与所述高度同源基因探针制备单元40和所述候选探针筛选单元30相连，用于合并所述特异性探针集和所述针对高度同源基因的探针，以便获得所述候选测序探针集。

发明人发现，利用本发明的候选测序探针集制备装置能够有效地制备获得针对参考基因组目标mRNA的候选测序探针集，进而，基于对该候选测序探针集的进一步筛选能够有效制备获得针对参考基因组转录组文库目标mRNA的特异性测序引物组，利用该特异性测序引物组进行测序得到的短读长进行连续较长读长的组合，能够更好地实现转录组测序，且测序结果及确定的转录本序列准确可靠、数据偏向性低，有利于后续的转录本和可变剪切分析，且能够有效检测获得新的转录本和可变剪切形式。

在本发明的第五方面，本发明提供了一种测序引物组制备设备。根据本发明的实施例，参照图2，该测序引物组制备设备1000包括：候选测序探针集制备装置100、mRNA分组装置200、测序探针数目确定装置300、测序探针序列确定及命名装置400和测序引物组确定装置500。

下面参照图2，对本发明的测序引物组制备设备1000进行详细描述：

根据本发明的实施例，所述候选测序探针集制备装置100用于制备待测样品的测序探针集；所述mRNA分组装置200用于针对所述参考基因组目标mRNA中的每一个mRNA，均单独按照待测样品基因组转录组文库的插入片段长度X进行区域划分，每一个插入片段长度大小的区域作为一组，剩余不足插入片段长度大小的区域也视为一组，以便将所述参考基因组的目标mRNA分为M组，且基于各组在所述参考基因组上的位置顺序，将各组依次命名为第1组、第2组……第M组；所述测序探针数目确定装置300用于基于所述转录组文库的插入片段长度X和测序读长Y，确定每一组设置的测序探针数目N，其中N≈X/Y；所述测序探针序列确定及命名装置400分别与所述候选测序探针集制备装置100、所述mRNA分组装置200和所述测序探针数目确定装置300相连，用于基于所述待测样品的候选测序探针集，在每一组均优选出N个最优探针作为测序探针，其中每一组的所述N个测序探针在参考基因组上的位置相邻，且依据各测序探针在参考基因组上的位置顺序，分别将每一组的测序探针以“组号-组中探针顺序号”进行命名，其中，第M组的测序探针依次为M-1、M-2……M-N；所述测序引物组确定装置500与所述测序探针序列确定及命名装置400相连，用于分别合并各组中探针顺序号相同的测序探针，以便获得N个参考基因组目标mRNA特异性的测序引物组，其中，第N组测序引物组中的测序探针为1-N、2-N……M-N。

发明人惊奇地发现，利用本发明的测序引物组制备设备能够有效制备获得针对参考基因组转录组文库目标mRNA的特异性测序引物组，进而利用该特异性测序引物组进行测序得到的短读长进行连续较长读长的组合，能够更好地实现转录组测序，且测序结果及确定的转录本序列准确可靠、数据偏向性低，有利于后续的转录本和可变剪切分析，且能够有效检测获得新的转录本和可变剪切形式。

根据本发明的实施例，所述参考基因组为人参考基因组。

根据本发明的实施例，所述测序探针序列确定及命名装置400进一步适于进行以下操作，以便基于所述待测样品的候选测序探针集，在每一组均优选出N个最优探针作为测序探针：针对每一组的N个最优探针，使每相邻的两个最优探针之间的距离为测序读长；以及当优选位置的探针为非特异性的探针时，重新在该优选位置的上下游10nt的位置进行探针选择，筛选最优探针。由此，筛选获得的测序探针特异性高。

在本发明的第六方面，本发明提供了一种用于确定待测样品转录组文库的目标mRNA序列的系统。根据本发明的实施例，参照图3，该用于确定待测样品转录组文库的目标mRNA序列的系统10000包括：测序引物组制备设备1000、转录组文库提供设备2000、测序设备3000和文库序列确定设备4000。

下面参照图3，对本发明的用于确定待测样品转录组文库的目标mRNA序列的系统10000进行详细描述：

根据本发明的实施例，所述转录组文库提供设备2000用于提供待测样品的基因组转录组文库，所述基因组转录组文库的插入片段长度为X；所述测序引物组制备设备1000用于制备获得N个参考基因组目标mRNA特异性的测序引物组；所述测序设备3000分别与所述转录组文库提供设备2000和所述测序引物组制备设备1000相连，用于利用所述N个参考基因组目标MRNA特异性的测序引物组对所述待测样品的基因组转录组文库进行梯度测序，以便获得N组测序结果，其中，所述梯度测序包括N个测序循环，依次利用第1组至第N组测序引物组进行测序；所述文库序列确定设备4000与所述测序设备3000相连，用于基于每个测序引物组的测序探针的序列以及相应的测序结果，确定所述待测样品的基因组转录组文库的目标mRNA的序列。

根据本发明的实施例，本发明的用于确定待测样品转录组文库的目标mRNA序列的系统，能够利用获得的特异性测序引物组对待测样品的基因组转录组文库进行梯度测序，测序结果及确定的转录本序列准确可靠、数据偏向性低，并且基于测序得到的短读长能够有效进行连续较长读长的组合，从而有利于后续的转录本和可变剪切分析，且能够有效检测获得新的转录本和可变剪切形式。

根据本发明的实施例，进一步包括DNA纳米球制备设备，所述DNA纳米球制备设备与所述转录组文库提供设备2000和所述测序设备3000相连，用于在进行所述梯度测序之前，将所述基因组转录组文库中的单链环状DNA制备成DNA纳米球。由此，便于后续进行梯度测序。

根据本发明的实施例，所述文库序列确定设备4000适于进行以下操作：基于测序探针序列的来源和在参考基因组上的位置顺序，确定测序结果中测序序列的来源；基于所述测序结果中测序序列的来源，组装获得转录本序列，所述转录本序列即为目标mRNA序列。由此，获得的转录本序列即目标mRNA序列准确可靠。

根据本发明的实施例，所述参考基因组为人参考基因组。

根据本发明的实施例，本发明的确定待测样品转录组文库序列的方法和装置具有下列优点的至少之一：

1、本发明基于RNA数据库将mRNA(目标mRNA例如基因组的全部mRNA)按照文库长度大小进行窗口区分，筛选得到特异的探针序列信息，进而根据特异探针序列和同一mRNA探针簇关系精确定位所测序列到mRNA上，避免了软件比对上带来的误差，准确计算gene表达量和鉴定变异；并且，根据同一mRNA探针簇聚类测序read，局部组装mRNA，从而检测新的转录本和可变剪切形式。

2、本发明测序过程中将DNA纳米球进行物理距离上设计的特异探针序列组成的各测序引物组的测序，对于同一个DNA纳米球(即同一段连续的mRNA序列)测序得到的几段读长可以组成连续的长reads信息，从而更容易进行后续的转录本分析和可变剪切的分析。

3、由于测序结果中已知探针的序列，可以通过探针序列的来源和前后顺序准确地确定测序序列的来源和组装转录本序列，从而可以准确无误的计算基因的表达量，鉴定可变剪切方式和得到新的转录本。

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件(例如参考J.萨姆布鲁克等著，黄培堂等译的《分子克隆实验指南》，第三版，科学出版社)或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品，例如可以采购自Illumina公司。

实施例1：

一、构建转录组文库

1.核糖体探针与总RNA退火

1)取200ng-5μg总RNA样品(MAQC标准品)于RNase–free的0.2ml PCR管中。

RNA	200ng-5μg
		杂交探针(10μM)	2μL
5×杂交缓冲液	1μL
		水(无核酸酶)	补至总体积为5μL

其中，采用的杂交探针为申请号为CN 201410505793.2的专利申请实施例1中所采用的探针，其具体序列请参见该专利申请的说明书，在此将其全文并入本文。

2)95℃，2min；梯度降温0.1℃/sec；22℃5min。

3)反应结束后，迅速置于冰上，进行下一步反应。

2.RNase H酶消化

1)按照下列的配比准备反应混合物：

2)37℃，反应30min。

3)反应结束后，迅速置于冰上，进行下一步反应。

3.DNase I酶消化

1)按照下列的配比准备反应混合物：

2)37℃，反应30min。

3)反应结束后，用1.2x RNA clean XP磁珠(30μL)纯化，最后溶于10μL Nucleasefreewater。

【注意事项】除酶切与变性过程外，以上其它操作均要在冰上进行以减少RNA降解。

4.mRNA片段化

向上一步中的洗脱液中加入3μL 5×打断缓冲液(其包含：250mM Tris-HCl(pH8.3)，375mM KCl，15mM MgCl₂)，94℃，10min，立即置于冰上。

5.一链cDNA合成并引入接头

1)制备接头：将序列3T和序列5T稀释到100μM，充分混合后离心，分别于3B、5B序列，按如下比例分别配制成3'接头和5'接头，具体如下：

H₂O	9μL
		1M Tris 8	0.5μL
5M NaCl	0.5μL
		100μM T序列	20μL
100μM B序列	20μL
		总体积	50μL

其中，

3T序列：N*NNNNNAAGTCGGAGGCCAAGC，其中N表示随机引物，*表示硫代修饰，

5T序列：GGTCTTAGGAAGACAAGCTCxxxxxxxxxxGACTCACTGAGATCGGGCTTCGACTGGAGACNNNNNN，其中，N表示随机引物，x表示标签序列：

标签序列名称	序列(SEQ ID NO：)
		标签序列1	TGTCATAAAT(1)
标签序列2	TTAATTAAGG(2)
		标签序列3	GACTCACTGA(3)
标签序列4	ATAAGGCAGT(4)
		标签序列5	TTGATAGATT(5)
标签序列6	CCTTCCTGGT(6)
		标签序列7	AATATCTCTC(7)
标签序列8	CATGTTTCCC(8)

3B：GCTTGGCCTCCGACTT(SEQ ID NO：9)，

5B：GTCTCCAGTCGAAGCCCGATCTCAGTGAGTCGAGCTTGTCT(SEQ ID NO：10)，

3T序列+3B序列＝3'接头，

5T序列+5B序列＝5'接头，

然后，按照下表中的体系(接头混合物中两种接头的配比为：[5'接头]:[3'接头]＝1:2)，制备接头混合物：

无RNA酶水	50μL
		40μM 5'接头	10μL
40μM 3'接头	20μL
		总体积	80μL

向5μL已纯化的mRNA(上述步骤4获得的经过片段化的mRNA)中加0.6μL 10μM上述制备的接头混合物，25°孵育5min；

孵育结束后，加入以下反应混合液：--退火

混匀，在PCR仪上按照以下程序进行反应：

Step 1 25℃ 2min

Step 2 37℃ 1h

Step 3 12℃ Hold

反应结束后，向以上反应体积中加1μL RNaseA、1μL RnaseH，37℃ 30min～1h。

2)纯化：用1.0X Ampure XP beads纯化，用TE或纯水回溶。

取1μL样品用HS Qubit定量。按照测定的浓度调整下一步反应使用的样本起始量不超过400ng使用1XTE将总体积补为60μL。

3)取60μL上述步骤的DNA到PCR管中，95°变性5min，立即置于冰上2min。

6.cDNA环化及线性消化

1)提前5分钟左右准备引物反应混合液，配制如下：

桥引物：5’-TCGAGCTTGTCTTCCTAAGACCGC-3’(SEQ ID NO：11)，

2)将上述混合液震荡充分混匀，离心后，向上一步得到的样品中加入16.4μL的引物反应混合液；

3)提前5分钟准备连接酶反应混合液，配制如下：

4)将连接酶反应混合液震荡充分混匀，离心后，向已经加入引物反应混合液的EP管中加入连接酶反应混合液22.3μL，震荡10s混匀，spin离心。

5)置于孵育箱中37℃孵育1.5h。

6)提前5分钟左右准备外切酶反应混合液，配制如下：

7)将上述混合液震荡充分混匀，离心后，向上一步得到的70μL的样品中分别加入10μL的反应混合液；

8)震荡10s混匀离心，置于孵育箱中37℃孵育30min。

9)酶切30min完成后，向样品中加入3μL 500mM EDTA终止酶反应，并用磁珠纯化得到单链环状的DNA文库分子。

二、制备测序引物组

1.制备候选测序探针集

1)针对参考基因组的全部mRNA序列(http://hgdownload.cse.ucsc.edu/goldenPath/hg38/database/)，以20bp为窗口，10bp为步长设计探针，取序列构建候选探针集合T。

2)将候选探针集合T与所述参考基因组的全部mRNA序列进行比对，并基于比对结果对候选探针集合T中的所有候选探针进行筛选，以便得到特异性探针集。其中，所述筛选包括：去除比对到除自身以外的mRNA的位置且连续比对上的长度大于10bp且错配小于等于2的候选探针。

3)高度同源基因的探针设计：因为任何一个物种中都包含有部分高度相似的基因即高度同源基因，这些基因的探针是不能通过第二步的方法得到非特异探针的，因此，针对它们，发明人设置相同的探针。即针对参考基因组中的高度同源基因，按照步骤(1)的方法设计得到相同的探针，以便得到针对高度同源基因的探针。

4)合并所述特异性探针集和所述针对高度同源基因的探针，以便获得候选测序探针集。

另外，需要说明的是，针对候选测序探针集的覆盖度：对于任意一个200nt的mRNA环化片段，最优状态下只需要4个探针就可以把整个200nt的片段测通；如果任意两个最优探针之间所有的探针都是非特异的探针，那么该区域50nt的长度为测序未覆盖区，该区域有特异探针存在，则在其他mRNA片段可以测到该区域。

如图4所示，基于全转录组的参考序列，本实施例针对转录组本身的序列特点设计出全转录组范围内位于不同位置的20bp的探针长度，用于介导高通量测序，而经过筛选后得到最佳的20bp的探针序列组(标记有1、2、3、4的序号)以使得设计的探针(即候选测序探针集中的探针)在最少条数的情况下得以最大范围的覆盖全转录组的参考序列。

2.制备测序引物组

插入片段长度X＝200，测序读长Y＝50，具体步骤如下：

1)针对所述参考基因组的每一个mRNA，均单独按照待测样品基因组转录组文库的插入片段长度X进行区域划分，每一个插入片段长度大小的区域作为一组，剩余不足插入片段长度大小的区域也视为一组，以便将所述参考基因组的所有mRNA分为M组，且基于各组在所述参考基因组上的位置顺序，将各组依次命名为第1组、第2组……第M组，针对本实施例，M＝mRNA总长度/X；

2)基于所述转录组文库的插入片段长度X和测序读长Y，确定每一组设置的测序探针数目N，其中N≈X/Y＝4；

3)基于前述制备获得的待测样品的候选测序探针集，在每一组均优选出N个最优探针作为测序探针，其中每一组的所述N个测序探针在参考基因组上的位置相邻，且依据各测序探针在参考基因组上的位置顺序，分别将每一组的测序探针以“组号-组中探针顺序号”进行命名，其中，第M组的测序探针依次为M-1、M-2……M-N；

4)分别合并各组中探针顺序号相同的测序探针，以便获得N个参考基因组目标MRNA特异性的测序引物组，其中，第N组测序引物组中的测序探针为1-N、2-N……M-N。具体地，例如：各组的1号探针合并混合成第一组测序引物组即“测序引物组1”(包含1-1、2-1、3-1……M-1)，各组的2号探针合并混合成第二组测序引物组即“测序引物组2”(包含1-2、2-2、3-2……M-2)，各组的3号探针合并混合成第三组测序引物组即“测序引物组3”(包含1-3、2-3、3-3……M-3)，依次类推。

由此，可将转录组的片段按照200bp插入片段的规格在三条不同引物的覆盖下全部测通，将组装到的200bp测序读长串联之后即可将全转录组的序列进行解析。从而达到了真正意义上的全转录组测序。

三、引物组测序

按照以下步骤进行测序：

1)将前述制备完成的单链DNA环状文库经过引物扩增，使用Phi29DNA聚合酶在30℃条件下滚环复制40min得到DNA纳米球。扩增引物为前述的桥引物：5’-TCGAGCTTGTCTTCCTAAGACCGC-3’(SEQ ID NO：11)。

2)基于Complete Genomics测序平台，利用前面制备获得的N个参考基因组目标MRNA特异性的测序引物组将上述得到DNA纳米球进行梯度测序，以便获得N组测序结果，其中，所述梯度测序包括N个测序循环，依次利用第1组至第N组测序引物组进行测序。具体地，将DNA纳米球经过测序引物组1退火后进行后续测序，随后进行测序引物组2至测序引物组N的测序(如图5所示)，同一个DNA纳米球测序产出的读长在物理位置上属于同一个长片段的mRNA序列。

其中，不同测序引物组测序的是一个DNA纳米球分子的不同区域，累加后可以覆盖整个DNA纳米球序列，而所有纳米球累加则覆盖整个转录组序列，由此，达到了全转录组测序的目的。

四、序列确定及分析

基于每个测序引物组的测序探针的序列以及相应的测序结果，确定所述待测样品的基因组转录组文库的序列。具体地，基于测序探针序列的来源和其在参考基因组上的位置顺序，确定测序结果中测序序列的来源；然后，基于所述测序结果中测序序列的来源，组装获得转录本序列。

结果发现，利用前述获得的特异性测序引物组对待测样品的基因组转录组文库进行梯度测序，测序结果及确定的转录本序列准确可靠、数据偏向性低，并且基于测序得到的短读长能够有效进行连续较长读长的组合，而后续的转录本和可变剪切分析较容易，且能够有效检测获得新的新的转录本和可变剪切形式。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种制备候选测序探针集的方法，其特征在于，包括以下步骤：

2.一种制备参考基因组目标mRNA特异性的测序引物组的方法，其特征在于，包括以下步骤：

根据权利要求1所述的方法，制备待测样品的测序探针集；

针对所述参考基因组目标mRNA中的每一个mRNA，均单独按照待测样品基因组转录组文库的插入片段长度X进行区域划分，每一个插入片段长度大小的区域作为一组，剩余不足插入片段长度大小的区域也视为一组，以便将所述参考基因组的目标mRNA分为M组，且基于各组在所述参考基因组上的位置顺序，将各组依次命名为第1组、第2组……第M组；

基于所述转录组文库的插入片段长度X和测序读长Y，确定每一组设置的测序探针数目N，其中N≈X/Y；

基于所述待测样品的候选测序探针集，在每一组均优选出N个最优探针作为测序探针，其中每一组的所述N个测序探针在参考基因组上的位置相邻，且依据各测序探针在参考基因组上的位置顺序，分别将每一组的测序探针以“组号-组中探针顺序号”进行命名，其中，第M组的测序探针依次为M-1、M-2……M-N；以及

分别合并各组中探针顺序号相同的测序探针，以便获得N个参考基因组目标mRNA特异性的测序引物组，其中，第N组测序引物组中的测序探针为1-N、2-N……M-N。

3.根据权利要求2所述的方法，其特征在于，所述基因组转录组文库由以单链环状DNA形式存在的插入片段构成，

任选地，X＝200，Y＝50，N＝4，

任选地，所述参考基因组为人参考基因组，

任选地，基于所述待测样品的候选测序探针集，在每一组均优选出N个最优探针作为测序探针，进一步包括：

针对每一组的N个最优探针，使每相邻的两个最优探针之间的距离为测序读长；以及

当优选位置的探针为非特异性的探针时，重新在该优选位置的上下游10nt的位置进行探针选择，筛选最优探针。

4.一种确定待测样品转录组文库的目标mRNA序列的方法，其特征在于，包括以下步骤：

提供待测样品的基因组转录组文库，所述基因组转录组文库的插入片段长度为X；

根据权利要求2或3所述的方法，制备获得N个参考基因组目标mRNA特异性的测序引物组；

利用所述N个参考基因组目标MRNA特异性的测序引物组对所述待测样品的基因组转录组文库进行梯度测序，以便获得N组测序结果，其中，所述梯度测序包括N个测序循环，依次利用第1组至第N组测序引物组进行测序；以及

基于每个测序引物组的测序探针的序列以及相应的测序结果，确定所述待测样品的基因组转录组文库的目标mRNA的序列。

5.根据权利要求4所述的方法，其特征在于，所述基因组转录组文库由以单链环状DNA形式存在的插入片段构成，

任选地，在进行所述梯度测序之前，进一步包括：

将所述基因组转录组文库中的单链环状DNA制备成DNA纳米球，

任选地，基于每个测序引物组的测序探针的序列以及相应的测序结果，确定所述待测样品的基因组转录组文库的目标mRNA的序列，进一步包括：

基于测序探针序列的来源和在参考基因组上的位置顺序，确定测序结果中测序序列的来源；

基于所述测序结果中测序序列的来源，组装获得转录本序列，所述转录本序列即为目标mRNA序列，

任选地，X＝200，Y＝50，N＝4，

任选地，所述参考基因组为人参考基因组。

6.一种候选测序探针集制备装置，其特征在于，包括：

候选探针集合构建单元，所述候选探针集合构建单元用于基于参考基因组的目标mRNA序列，以20bp为窗口，10bp为步长设计探针，构建候选探针集合；

比对单元，所述比对单元与所述候选探针集合构建单元相连，用于将所述候选探针集合中的所有候选探针与所述参考基因组的目标mRNA序列进行比对，以便获得比对结果；

候选探针筛选单元，所述候选探针筛选单元与所述比对单元相连，用于基于所述比对结果，对所述候选探针集合中的所有候选探针进行筛选，以便得到特异性探针集，其中，所述候选探针筛选单元适于按照以下条件进行所述筛选：去除比对到除自身以外的mRNA的位置且连续比对上的长度大于10bp且错配小于等于2的候选探针；

高度同源基因探针制备单元，所述高度同源基因探针制备单元用于针对所述参考基因组目标mRNA中的高度同源基因，以20bp为窗口，10bp为步长设计得到相同的探针，以便得到针对高度同源基因的探针；以及

合并单元，所述合并单元分别与所述高度同源基因探针制备单元和所述候选探针筛选单元相连，用于合并所述特异性探针集和所述针对高度同源基因的探针，以便获得所述候选测序探针集。

7.一种测序引物组制备设备，其特征在于，包括：

权利要求6所述的候选测序探针集制备装置，所述候选测序探针集制备装置用于制备待测样品的测序探针集；

mRNA分组装置，所述mRNA分组装置用于针对所述参考基因组目标mRNA中的每一个mRNA，均单独按照待测样品基因组转录组文库的插入片段长度X进行区域划分，每一个插入片段长度大小的区域作为一组，剩余不足插入片段长度大小的区域也视为一组，以便将所述参考基因组的目标mRNA分为M组，且基于各组在所述参考基因组上的位置顺序，将各组依次命名为第1组、第2组……第M组；

测序探针数目确定装置，所述测序探针数目确定装置用于基于所述转录组文库的插入片段长度X和测序读长Y，确定每一组设置的测序探针数目N，其中N≈X/Y；

测序探针序列确定及命名装置，所述测序探针序列确定及命名装置分别与所述候选测序探针集制备装置、所述mRNA分组装置和所述测序探针数目确定装置相连，用于基于所述待测样品的候选测序探针集，在每一组均优选出N个最优探针作为测序探针，其中每一组的所述N个测序探针在参考基因组上的位置相邻，且依据各测序探针在参考基因组上的位置顺序，分别将每一组的测序探针以“组号-组中探针顺序号”进行命名，其中，第M组的测序探针依次为M-1、M-2……M-N；以及

测序引物组确定装置，所述测序引物组确定装置与所述测序探针序列确定及命名装置相连，用于分别合并各组中探针顺序号相同的测序探针，以便获得N个参考基因组目标mRNA特异性的测序引物组，其中，第N组测序引物组中的测序探针为1-N、2-N……M-N。

8.根据权利要求7所述的设备，其特征在于，所述基因组转录组文库由以单链环状DNA形式存在的插入片段构成，

任选地，X＝200，Y＝50，N＝4，

任选地，所述参考基因组为人参考基因组，

任选地，所述测序探针序列确定及命名装置进一步适于进行以下操作，以便基于所述待测样品的候选测序探针集，在每一组均优选出N个最优探针作为测序探针：

9.一种用于确定待测样品转录组文库的目标mRNA序列的系统，其特征在于，包括：

转录组文库提供设备，所述转录组文库提供设备用于提供待测样品的基因组转录组文库，所述基因组转录组文库的插入片段长度为X；

权利要求7或8所述的测序引物组制备设备，所述测序引物组制备设备用于制备获得N个参考基因组目标mRNA特异性的测序引物组；

测序设备，所述测序设备分别与所述转录组文库提供设备和所述测序引物组制备设备相连，用于利用所述N个参考基因组目标MRNA特异性的测序引物组对所述待测样品的基因组转录组文库进行梯度测序，以便获得N组测序结果，其中，所述梯度测序包括N个测序循环，依次利用第1组至第N组测序引物组进行测序；以及

文库序列确定设备，所述文库序列确定设备与所述测序设备相连，用于基于每个测序引物组的测序探针的序列以及相应的测序结果，确定所述待测样品的基因组转录组文库的目标mRNA的序列。

10.根据权利要求9所述的系统，其特征在于，所述基因组转录组文库由以单链环状DNA形式存在的插入片段构成，

任选地，进一步包括DNA纳米球制备设备，所述DNA纳米球制备设备与所述转录组文库提供设备和所述测序设备相连，用于在进行所述梯度测序之前，将所述基因组转录组文库中的单链环状DNA制备成DNA纳米球，

任选地，所述文库序列确定设备适于进行以下操作：

任选地，X＝200，Y＝50，N＝4，

任选地，所述参考基因组为人参考基因组。