CN110349624B

CN110349624B - sam文件flag标签定位T-DNA插入位点的方法

Info

Publication number: CN110349624B
Application number: CN201910461340.7A
Authority: CN
Inventors: 程文; 丁照华; 王志武; 赵素娴; 卢增斌; 尹昌果
Original assignee: Maize Research Institute of Shandong Academy of Agricultural Sciences
Current assignee: Maize Research Institute of Shandong Academy of Agricultural Sciences
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2021-09-21
Anticipated expiration: 2039-05-30
Also published as: CN110349624A

Abstract

本发明属于生物技术领域，公开了一种sam文件flag标签快速定位T‑DNA插入位点的方法，准备样品；进行全基因组重测序；根据测序结果获得去接头的clean_data；将测序结果与转基因载体序列比对；根据比对的结果文件的flag标签，去除完全比对以及不能比对到载体上的序列，同时去除多次比对的标签；提取筛选后的flag标签值的readsID以及序列；将获得的序列与拟南芥基因组进行序列比对。本发明根据比对结果，去除能够完全比对到拟南芥基因组上的序列；对剩余的reads序列进行筛选，获得插入位点；对插入位点中的假阳性值进行剔除，获得最终的插入位点。

Description

sam文件flag标签定位T-DNA插入位点的方法

技术领域

本发明属于生物信息处理技术领域，尤其涉及一种sam文件flag标签快速定位T-DNA插入位点的方法。

背景技术

目前，最接近的现有技术：

利用T-DNA插入获得转基因植株是研究植物基因功能的重要方式。但多数情况下，T-DNA插入的位点是未知的，可能处于基因间隔区、基因内含子或是外显子等。目前常用的T-DNA插入位点鉴定方法有反向PCR、半随机引物PCR（如Tail-PCR）等，上述传统方法除了操作相对复杂，消耗时间较长，对实验人员的技术要求较高之外，还存在特异性差，部分T-DNA插入突变为无法获得插入位点得问题。

近年来，随着二代测序技术的快速发展，全基因组测序技术及分析技术日趋成熟和完善。特别是测序的成本和时间大幅度下降，使得全基因组测序的应用越来越广泛。比如Nordstrom等利用全基因组测序技术进行突变位点基因的克隆，能够大大缩短图位克隆的时间。此外利用全基因组重测序技术获得T-DNA插入位点也有相关报道，如Hammoudi等通过对拟南芥T-DNA插入突变体进行测序，然后利用付费的CLC平台，获得T-DNA插入位点。但该方法算法相对复杂，耗时相对较长，且花费较高，不适合大范围推广。

综上所述，现有技术存在的问题是：

现有技术算法复杂，耗时较长，步骤繁琐，且花费较高，不适合大范围推广。

解决上述技术问题的难度：本发明专利，采用的比对软件bwa运算速度快，计算准确度高；对系统的要求较低（仅需安装blast、bwa及samtools等个别软件），其他的软件均为系统自带软件；针对步骤繁琐，本发明将所有步骤进行整合，操作人员仅需提供3个变量（参考基因组、转基因载体序列以及测序数据路径），就可以在20分钟以内，获得T-DNA插入的位点，绝大的多数的实验室都可以安装，操作简单。

发明内容

针对现有技术存在的问题，本发明提供了一种根据sam文件flag标签快速定位T-DNA插入位点的方法。

本发明是这样实现的，一种sam文件flag标签快速定位T-DNA插入位点的方法，包括以下步骤：

步骤一，准备拟南芥T-DNA插入的样品；

步骤二，联系测序公司，进行全基因组重测序；

步骤三，根据测序结果获得去接头的clean_data；

步骤四，将上述测序结果与转基因载体序列比对；

步骤五，根据比对的结果文件的flag标签，去除完全比对以及不能比对到载体上的序列，同时去除多次比对的标签；

步骤六，提取筛选后的flag标签值的reads ID以及序列；

步骤七，将获得的序列与拟南芥基因组进行序列比对；

步骤八，根据比对结果，去除能够完全比对到拟南芥基因组上的序列；

步骤九，对剩余的reads序列进行筛选，分别与转基因载体序列和拟南芥基因组序列比对，获得插入位点；

步骤十，插入位点中的假阳性值进行剔除，获得最终的插入位点；

步骤十一，提取插入位点所在的reads序列，用于辅助研究。

在本发明中，步骤三步至步骤十为软件中间运行的过程，用户在此仅需要提供3个变量即可（参考基因组、转基因载体序列、以及全基因组重测序的原始序列）。然后软件会自动开始运行。直至第十步，获得最终的插入位点结果。

进一步，所述步骤四中，将测序结果与转基因载体序列比对，采用软件为bwa(alignment via Burrows-Wheeler transformation)，版本为0.7.17-r1188。

进一步，所述步骤五中，flag标签值为77，83，99,141，147,163；flag标签大于256。

本发明另一目的在于提供一种实施所述根据sam文件flag标签快速定位T-DNA插入位点的方法的根据sam文件flag标签快速定位T-DNA插入位点系统。

综上所述，本发明的优点及积极效果为：

本发明方法操作简单：实验人员只需要将实验样品送测序公司测序；测序结果返回后，在程序中仅需输入3变量（参考基因组序列、转基因载体序列以及测序结果所在的路径）即可。

本发明方法省时高效：该方法对实验人员的时间和精力耗费极低，占用实验人员的时间仅为送样品的时间（大约10分钟），输入变量的时间（大约1分钟），其他无占用实验。在测序完成，获得原始数据，输入变量后，仅需大约15分钟的程序运行时间，就可以获得T-DNA插入位点得结果。

本发明方法成本低廉：现在的测序成本较低，建库约300元，测序约50元/Gb。测序数据要求基因的覆盖度为100×，拟南芥基因组为125Mb（0.125Gb）。因此价格算法为300元+0.125Gb×100×50元/Gb，共计约925元。此外，该方法可以将多个样品混样测序，如果5个样品混样测序的话，则每个样品的成本仅为185元。

本发明方法结果精准：利用该方法获得实验最终的T-DNA插入位点得结果，具有唯一性，能够100%排除假阳性结果，含有几个T-DNA插入位点，就能够鉴定出几个插入位点。此外，除上述的最终结果外，程序同时提供T-DNA插入位点附近的reads序列，这是最终的结果，不同的材料，用此算法得到的结果是不同的，方便用户进行核对。

附图说明

图1是本发明实施例提供的根据sam文件flag标签快速定位T-DNA插入位点的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为解决快速、免费、高效鉴定T-DNA插入位点的问题，本发明开发了一套利用全基因组重测序技术，使用转基因载体进行序列比对，根据比对结果文件的Flag标签进行筛选，然后将筛选后的序列与拟南芥基因组比对，最终获得T-DNA插入位点的方法。该方法具有操作简单、省时高效、成本低廉、结果精准的特点。

下面结合附图对本发明的应用原理作详细描述。

如图1所示，本发明实施例提供的sam文件flag标签快速定位T-DNA插入位点的方法，包括以下步骤：

S101：准备拟南芥T-DNA插入的样品；

S102：联系测序公司，进行全基因组重测序；

S103：根据测序结果获得去接头的clean_data；

S104：将上述测序结果与转基因载体序列比对；

S105：根据比对的结果文件的flag标签，去除完全比对以及不能比对到载体上的序列，同时去除多次比对的标签；

S106：提取筛选后的flag标签值的readsID以及序列；

S107：将获得的序列与拟南芥基因组进行序列比对；

S108：根据比对结果，去除能够完全比对到拟南芥基因组上的序列；

S109：对剩余的reads序列进行筛选，分别与转基因载体序列和拟南芥基因组序列比对，获得插入位点；

S110：插入位点中的假阳性值进行剔除，获得最终的插入位点；

S111：提取插入位点所在的reads序列，用于辅助研究。

作为本发明的优选实施例，所述步骤四中，将测序结果与转基因载体序列比对，采用软件为bwa (alignment via Burrows-Wheeler transformation)，版本为0.7.17-r1188。

作为本发明的优选实施例，所述步骤五中，flag标签值为77，83，99,141，147,163；flag标签大于256。

在本发明中，步骤S103至步骤S110为软件中间运行的过程，用户在此仅需要提供3个变量即可（参考基因组、转基因载体序列、以及全基因组重测序的原始序列）。然后软件会自动开始运行。直至第十步，获得最终的插入位点结果。

下面结合实验结果对本发明作进一步描述。

本发明操作简单：实验人员只需要将实验样品送测序公司测序；测序结果返回后，在程序中仅需输入3变量（参考基因组序列、转基因载体序列以及测序结果所在的路径）即可。

本发明省时高效：该方法对实验人员的时间和精力耗费极低，占用实验人员的时间仅为送样品的时间（大约10分钟），输入变量的时间（大约1分钟），其他无占用实验。在测序完成，获得原始数据，输入变量后，仅需大约15分钟的程序运行时间，就可以获得T-DNA插入位点得结果。

本发明成本低廉：现在的测序成本较低，建库约300元，测序约50元/Gb。测序数据要求基因的覆盖度为100×，拟南芥基因组为125Mb（0.125Gb）。因此价格算法为300元+0.125Gb×100×50元/Gb，共计约925元。此外，该方法可以将多个样品混样测序，如果5个样品混样测序的话，则每个样品的成本仅为185元。

本发明结果精准：利用该方法获得实验最终的T-DNA插入位点得结果，具有唯一性，能够100%排除假阳性结果，含有几个T-DNA插入位点，就能够鉴定出几个插入位点。此外，除上述的最终结果外，程序同时提供T-DNA插入位点附近的reads序列，方便用户进行核对。

运用本发明中的方法，本发明完成了实验室的拟南芥转基因材料中找到了多个插入位点（全部通过Tail-PCR验证）。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种sam文件flag标签快速定位T-DNA插入位点的方法，其特征在于，所述sam文件flag标签快速定位T-DNA插入位点的方法，包括以下步骤：

步骤一，准备拟南芥T-DNA插入的样品；

步骤二，进行全基因组重测序；

步骤三，根据测序结果获得去接头的clean_data；

步骤四，将上述测序结果与转基因载体序列比对；

步骤六，提取筛选后的flag标签值的readsID以及序列；

步骤七，将获得的序列与拟南芥基因组进行序列比对；

步骤十一，提取插入位点所在的reads序列。

2.如权利要求1所述sam文件flag标签快速定位T-DNA插入位点的方法，其特征在于，所述步骤四中，将测序结果与转基因载体序列比对，采用软件为bwa进行比对。

3.如权利要求1所述sam文件flag标签快速定位T-DNA插入位点的方法，其特征在于，所述步骤五中，flag标签值为77，83，99,141，147,163；flag标签大于256。

4.一种实施权利要求1所述sam文件flag标签快速定位T-DNA插入位点的方法的根据sam文件flag标签快速定位T-DNA插入位点系统。