CN110527715A

CN110527715A - 一种功能基因组克隆子库的测序方法

Info

Publication number: CN110527715A
Application number: CN201910872486.0A
Authority: CN
Inventors: 李小方
Original assignee: Institute of Genetics and Developmental Biology of CAS
Current assignee: Institute of Genetics and Developmental Biology of CAS
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2019-12-03

Abstract

本发明公开了一种功能基因组克隆子库的测序方法。本发明结合Sanger测序和PacBio测序，利用Sanger测序快读高效获取每个克隆子置信度高的端部序列，同时利用PacBio测序的大容量和不受GC含量影响的测序优势，获取克隆子混合库的准确序列，然后以端部序列与PacBio测序得到的序列库进行比对，对应得到每个阳性克隆子的序列。本发明提高了测序效率，节约了测序成本，缩短了测序周期，是一种可以更好满足功能基因筛选研究需要的测序方法。

Description

一种功能基因组克隆子库的测序方法

技术领域

本发明属于生物工程技术领域，具体涉及一种功能基因组克隆子库的测序方法。

背景技术

功能基因组学提供了一种不任何假设发现新功能基因的方法。但是传统功能基因组学克隆子测序往往依赖一代Sanger测序，这种测序策略是依赖PCR的体外扩增，而这种测序策略基本上不适合高GC含量的克隆子库，这种库可能来自GC的全基因组库，也可能来自环境基因组中的高GC片段。关于高GC含量DNA序列的PCR存在的困难已经有很多报道，尽管通过一些技术可以克服，比如高保真酶或添加剂，但是这些技术一来昂贵，二来仍然不能实现高通量。这对于功能基因筛选，尤其是来自规模宏大的、资源异常丰富的宏基因组是极大的挑战。

Sanger测序在面对高GC片段时往往无法胜任，但仅针对片段序列端部的测序是可行的，在测序的速度和价格上是可以满足研究要求的。

随着基因组研究的不断推进，以PacBio测序为代表的第三代基因测序技术逐渐应用到多个科研领域。该平台利于单分子实时测序技术，又称作SMRT(Single MoleculeReal-Time)测序，基于纳米小孔的单分子读取技术，无需扩增即可快速完成序列读取。PacBio Sequel测序仪是美国太平洋生物技术公司(Pacific Biosciences)基于PacBioRSII 平台的基础上，最新推出的第三代测序平台，该系统以测序通量高、单Gb数据成本低、周期短而突出于RSII平台。

PacBio测序虽然具有众多优点，但对于功能基因组的克隆子库的测序却适用性不高，一是费用昂贵，二是对于混合样品库无法有效标识。

发明内容

为了解决上述技术问题，本发明提出了一种功能基因组克隆子库的测序方法。

一种高GC含量功能基因组克隆子库的测序方法，按照下列步骤进行：

步骤一、将高GC含量功能基因组克隆子库分为相同的两组样品，分别进行Sanger测序和PacBio测序，所述功能基因组克隆子的GC含量大于75％；

进行Sanger测序的实验组，对于每一个质粒样品分别测序；

进行PacBio测序的实验组，首先通过限制性内切酶进行线性化，将线性化的质粒混合后，通过PacBio测序一次性得到混合质粒样品的序列库；

步骤二、在步骤一所述Sanger测序得到的序列中去除空载体质粒的序列，通过测序的置信度，保留可信的部分，以得到每个克隆子的端部序列；

步骤三、将步骤二所述的端部序列(>10bp)与步骤一种所述PacBio测序得到的序列库进行比对，对应得到每个克隆子的序列。

在上述技术方案中，在上述步骤一中，所述功能基因组克隆子库是指将经筛选得到的阳性克隆子导入大肠杆菌扩增后，经提取含有阳性克隆子的质粒，由于片段存在GC含量不适于PCR，故采用体内扩增的方法得到适宜测序浓度的质粒DNA。

在上述技术方案中，在上述步骤一中，所述用于线性化的限制性内切酶在质粒上仅存在一个切割位点。

在上述技术方案中，在上述步骤一中，所述混合质粒样品的序列库的容量通过下列公式计算：

测序容量＝理论库容条数×测序深度×单条序列长度 (1) 在上述技术方案中，在上述步骤二中，所述端部序列的长度为>10bp，参照通用引物的长度为宜。

在上述技术方案中，在上述步骤三中，所述序列比对采用通用BLAST方法。

在上述技术方案中，在上述步骤三之后，在完成测定该微生物全基因组的基础上，将所得到功能基因片段同时与环形全基因组进行比对，以进一步核对这些片段的精确性。

一种功能基因组克隆子库的测序方法，按照下列步骤进行：

步骤一、将功能基因组克隆子库分为相同的两组样品，分别进行Sanger测序和PacBio 测序；

进行Sanger测序的实验组，对于每一个质粒样品分别测序；

上述所述一种功能基因组克隆子库的测序方法不局限于针对高GC含量，利用该方法可在提高功能基因组库效率的同时有效降低测序费用。

本发明的优点和有益效果为：

现有技术中，Sanger测序在面对高GC片段时往往无法胜任，但仅针对片段序列端部的测序是可行的，在测序的速度和价格上是可以满足研究要求的；而PacBio测序对于功能基因组的克隆子库的测序却适用性不高，一是费用昂贵，二是对于混合样品库无法有效标识。本发明结合Sanger测序和PacBio测序，利用Sanger测序快读高效获取每个克隆子置信度高的端部序列(>10bp)，同时利用PacBio测序的大容量和不受GC含量影响的测序优势，获取克隆子混合库的准确序列，然后以端部序列(>10bp)与PacBio 测序得到的序列库进行比对，对应得到每个阳性克隆子的序列。本发明提高了测序效率，节约了测序成本，缩短了测序周期，是一种可以更好满足功能基因筛选研究需要的测序方法。

附图说明

图1为本发明所述一种结合Sanger测序和PacBio测序的高GC含量功能基因组克隆子库的测序方法的工作流程图。

图2为重组质粒和线性化重组质粒的凝胶电泳图谱，A是质粒的凝胶电泳图谱，B是经HindIII切割后质粒的凝胶电泳图谱，C是Xbal切割后质粒的凝胶电泳图谱。

图3为Cd抗性菌落液滴测定。横向：pUC118：转化空pUC118质粒的大肠杆菌DH5ɑ 作为对照，从x29到x28分别表示包含x29到x28质粒的大肠杆菌DH5ɑ；数排：0、10^-1、 10^-2、10^-3、10^-4表示培养菌株的初始OD 600nm值。

对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据以上附图获得其他的相关附图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合具体实施例进一步说明本发明的技术方案。

实施例

一、提取宏基因组

样品采集自于2017年1月采集自石家庄栾城，一处未经氮肥施用的小麦、玉米种植土壤中，利用CTAB法提取其宏基因组。

二、构建宏基因组文库

本方法采用pUC 19质粒和大肠杆菌DH5ɑ进行基因组文库的构建。首先，利用限制酶BamHI(New England Biolabs,USA)对pUC 19质粒进行酶切，然后使用虾碱性磷酸酶脱去末端磷酸。对于宏基因组DNA，利用限制酶Sau3AI(New England Biolabs,USA)进行酶切，形成DNA片段。将DNA片段(长度为1-8kb)凝胶电泳后，使用QIAquick gel extractionkit进行片段的胶回收，回收的片段与pUC19质粒采用T4连接酶过夜连接反应。 10μL连接产物采用基于氯化钙的转化法转化进感受态大肠杆菌中，再放入1ml分解代谢抑制液体反应60min。为验证建库的质量，取10μL转化细胞涂布于含100μg氨苄酶素的培养基平板上。随机选取20个菌落，利用引物M13-f和M13-r(M13-f:5’- CGCCAGGGTTTTCCCAGTCACGAC-3’M13-r 5’-CACACAGGAAACAGCTATGAC-3’) 进行PCR验证连接的结果，并查看插入DNA片段的平均长度。PCR条件为：95℃5min； 28cycles 95℃30s；55℃30s；72℃8min；72℃10min。收集PCR产物并进行凝胶电泳。以上步骤重复进行10次，以得到大约容量为2GB的准完全宏基因组文库。扩增，将2ml 的转化细胞加入含有100μg ml^-1氨苄酶素的30ml液体LB中并在37℃培养6h。然后，通过4000×g，10min离心收集，在10ml含有15％(v/v)甘油的液体LB培养基中重悬，转化细胞在-80℃条件下储存用于后续分析。

三、Cd抗性筛选

在含有100μg ml^-1氨苄霉素和1mmol^-1Cd的固体LB培养基中进行Cd抗性筛选。具体步骤如下：将15μL转化细胞涂布于LB平板上在28℃培养36h，将仅转化pUC19 空质粒的细胞作为阴性对照。将36h培养后生长出的菌落在新的含有100μg ml^-1氨苄霉素的LB平板上在37℃过夜培养。

四、Cd抗性菌落液滴测定

图3显示出Cd抗性菌落液滴测定结果。横向：pUC118：转化空pUC118质粒的大肠杆菌DH5ɑ作为对照，从x29到x28分别表示包含x29到x28质粒的大肠杆菌DH5ɑ；数排：0、10^-1、10^-2、10^-3、10^-4表示培养菌株的初始OD 600nm值。由x29到x28组成的19个阳性克隆子构成了待测序的阳性可克隆子库。

五、测序

为得到符合测序浓度的DNA，将步骤四中经筛选得到的阳性克隆子导入大肠杆菌扩增后，经提取含有阳性克隆子的质粒。该步骤的意义在于：由于片段存在GC含量不适于PCR，故采用体内扩增的方法得到适宜测序浓度的质粒DNA。

将上述经扩增得到的克隆子库分为相同的两组样品，分别进行Sanger测序和PacBio 测序：

(1)Sanger测序

Sanger测序得到的序列中去除空载体质粒的序列，通过测序的置信度，保留可信的部分，以得到每个克隆子的端部序列；该端部序列的长度可参照引物的长度，大致约为20-25bp，使之在BLAST过程中保证高可信度。

(2)PacBio测序

PacBio测序采用来自美国Pacific Biosciences公司第三代测序系统—PacBioRS。进行PacBio测序的实验组，需要首先通过限制性内切酶进行线性化，通过pUC 19质粒图谱进行分析，挑选稀有的限制性内切酶对克隆子质粒进行切割，进行酶切试验的19个阳性克隆子中，如图2B中所示，18个克隆经HindIII切割后得到了一条完整的线性质粒，其中x13中包含2个HindIII位点，得到了2条条带，故针对x13采用Xbal进行了酶切，得到了一条完整的线性质粒，凝胶图谱结果如图2C中所示。将上述线性化的质粒混合后，通过PacBio测序一次性得到混合质粒样品的序列库。本实施例中仅以pUC 19质粒为例作为说明，不同的建库条件不同的质粒需根据情况挑选酶切位点，选择该位点的原则是质粒中需仅包含一个该限制性内切酶的酶切位点，形成一条完整线性质粒。

混合质粒样品的序列库在本实验中仅包含19条样品，但依据PacBio测序的深度，混合质粒样品的序列库的容量可通过下列公式计算：

测序容量＝理论库容条数×测序深度×单条序列长度 (1)

六、序列比对

将Sanger测序得到的端部序列(>10bp)与PacBio测序得到的序列库进行比对，对应得到每个克隆子的序列。

Sanger测序和PacBio测序的数据统计信息结果如下表所示。

表1 Sanger测序和PacBio测序的数据统计信息

七、验证

在完成测定该微生物全基因组的基础上，将所得到功能基因片段同时与环形全基因组进行比对，以进一步核对这些片段的精确性。匹配准确率结果达到100％。

如上述实施例所示，在本技术方案中，我们筛选到了一株高GC镉抗性菌株(Actinobacterium，75.6％GC含量)。通过传统方法(Functional Metagenomics to MineSoil Microbiome for Novel Cadmium Resistance Genetic Determinants；Zheng etal.2019)建立克隆子库，筛选镉抗性阳性克隆子，并将阳性克隆子导入受体大肠杆菌，在大肠杆菌体内进行体内扩增以获得足够的DNA后，提取含有阳性克隆子的质粒，此处质粒DNA分为两部分，同时使用一代和三代测序，使用一代sanger测序，获得端序列，通常是一个反应，选取置信度高的20-25bp长度左右的序列；将用于三代测序的质粒DNA线性化，以满足测序需求。这里有两个要求，第一要是线性DNA，第二线性化DNA不能把质粒切割为一个片段以上，即一个质粒只能有一个切割位点。先通过理论分析筛选了两组酶，然后用于实验分析，结果表明其中一个酶HindIII可用于大部分片段。不能用HindIII的，采用另一个Xbal也完成了单一切割位点的酶切。注意这种对于限制性内切的筛选并非一劳永逸，这两个酶是基于目前使用的质粒的序列，选定的理论位点，不同的质粒有可能用不同的酶。但原则是，一方面要进行质粒序列位点筛选，一方面尽量选用稀有酶，避免出现多处切割。将线性化的数十个DNA序列混合，使用三代测序进行一次测序。这种测序没有二代的Barcode，因此无法区分每个测出序列对应的阳性克隆子。但是读长(10000bp左右)足够覆盖所有短序列克隆子库序列的全长，而且通量媲美二代，通常混合100个克隆子没有问题。而传统一代测序测通100个超过3000bp的DNA序列需要数月时间。将一代测到的部分序列与三代测序结果进行比对。一般用一代端头10bp左右序列去三代无标记的序列库里BLAST即可。如此，三代高通量测到的全长序列就对应上了来自功能筛选的平板上的阳性克隆子号码。在本研究中，我们同时测定了该微生物的全基因组，这样将所得到功能基因片段同时与环形全基因组进行比对，以进一步核对这些片段的精确性。通过上述方法可提高测序效率，节约测序成本，缩短测序周期，本方法是一种可以更好满足功能基因筛选研究需要的测序方法。

以上对本发明做了示例性的描述，应该说明的是，在不脱离本发明的核心的情况下，任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。

Claims

1.一种高GC含量功能基因组克隆子库的测序方法，其特征在于：按照下列步骤进行：

步骤一、将高GC含量功能基因组克隆子库分别进行Sanger测序和PacBio测序，所述功能基因组克隆子的GC含量大于75％；

进行Sanger测序的实验组，对于每一个质粒样品分别测序；

步骤三、将步骤二所述的端部序列与步骤一种所述PacBio测序得到的序列库进行比对，对应得到每个克隆子的序列。

2.根据权利要求1所述的一种高GC含量功能基因组克隆子库的测序方法，其特征在于：在上述步骤一中，所述功能基因组克隆子库是指将经筛选得到的阳性克隆子导入大肠杆菌扩增后，经提取含有阳性克隆子的质粒。

3.根据权利要求1所述的一种高GC含量功能基因组克隆子库的测序方法，其特征在于：在上述步骤一中，所述用于线性化的限制性内切酶在质粒上仅存在一个切割位点。

4.根据权利要求1所述的一种高GC含量功能基因组克隆子库的测序方法，其特征在于：在上述步骤一中，所述混合质粒样品的序列库的容量通过下列公式计算：

测序容量＝理论库容条数×测序深度×单条序列长度 (1)。

5.根据权利要求1所述的一种高GC含量功能基因组克隆子库的测序方法，其特征在于：在上述步骤二中，所述端部序列的长度为>10bp。

6.根据权利要求1所述的一种高GC含量功能基因组克隆子库的测序方法，其特征在于：在上述步骤三中，所述序列比对采用通用BLAST方法。

7.根据权利要求1所述的一种高GC含量功能基因组克隆子库的测序方法，其特征在于：在上述步骤三之后，在完成测定该微生物全基因组的基础上，将所得到功能基因片段同时与环形全基因组进行比对，以进一步核对这些片段的精确性。

8.一种功能基因组克隆子库的测序方法，其特征在于：

步骤一、将功能基因组克隆子库分别进行Sanger测序和PacBio测序；

进行Sanger测序的实验组，对于每一个质粒样品分别测序；