CN110349624B - sam文件flag标签定位T-DNA插入位点的方法 - Google Patents

sam文件flag标签定位T-DNA插入位点的方法 Download PDF

Info

Publication number
CN110349624B
CN110349624B CN201910461340.7A CN201910461340A CN110349624B CN 110349624 B CN110349624 B CN 110349624B CN 201910461340 A CN201910461340 A CN 201910461340A CN 110349624 B CN110349624 B CN 110349624B
Authority
CN
China
Prior art keywords
sequence
flag tag
compared
sequencing
insertion site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910461340.7A
Other languages
English (en)
Other versions
CN110349624A (zh
Inventor
程文
丁照华
王志武
赵素娴
卢增斌
尹昌果
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maize Research Institute of Shandong Academy of Agricultural Sciences
Original Assignee
Maize Research Institute of Shandong Academy of Agricultural Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maize Research Institute of Shandong Academy of Agricultural Sciences filed Critical Maize Research Institute of Shandong Academy of Agricultural Sciences
Priority to CN201910461340.7A priority Critical patent/CN110349624B/zh
Publication of CN110349624A publication Critical patent/CN110349624A/zh
Application granted granted Critical
Publication of CN110349624B publication Critical patent/CN110349624B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于生物技术领域,公开了一种sam文件flag标签快速定位T‑DNA插入位点的方法,准备样品;进行全基因组重测序;根据测序结果获得去接头的clean_data;将测序结果与转基因载体序列比对;根据比对的结果文件的flag标签,去除完全比对以及不能比对到载体上的序列,同时去除多次比对的标签;提取筛选后的flag标签值的readsID以及序列;将获得的序列与拟南芥基因组进行序列比对。本发明根据比对结果,去除能够完全比对到拟南芥基因组上的序列;对剩余的reads序列进行筛选,获得插入位点;对插入位点中的假阳性值进行剔除,获得最终的插入位点。

Description

sam文件flag标签定位T-DNA插入位点的方法
技术领域
本发明属于生物信息处理技术领域,尤其涉及一种sam文件flag标签快速定位T-DNA插入位点的方法。
背景技术
目前,最接近的现有技术:
利用T-DNA插入获得转基因植株是研究植物基因功能的重要方式。但多数情况下,T-DNA插入的位点是未知的,可能处于基因间隔区、基因内含子或是外显子等。目前常用的T-DNA插入位点鉴定方法有反向PCR、半随机引物PCR(如Tail-PCR)等,上述传统方法除了操作相对复杂,消耗时间较长,对实验人员的技术要求较高之外,还存在特异性差,部分T-DNA插入突变为无法获得插入位点得问题。
近年来,随着二代测序技术的快速发展,全基因组测序技术及分析技术日趋成熟和完善。特别是测序的成本和时间大幅度下降,使得全基因组测序的应用越来越广泛。比如Nordstrom等利用全基因组测序技术进行突变位点基因的克隆,能够大大缩短图位克隆的时间。此外利用全基因组重测序技术获得T-DNA插入位点也有相关报道,如Hammoudi等通过对拟南芥T-DNA插入突变体进行测序,然后利用付费的CLC平台,获得T-DNA插入位点。但该方法算法相对复杂,耗时相对较长,且花费较高,不适合大范围推广。
综上所述,现有技术存在的问题是:
现有技术算法复杂,耗时较长,步骤繁琐,且花费较高,不适合大范围推广。
解决上述技术问题的难度:本发明专利,采用的比对软件bwa运算速度快,计算准确度高;对系统的要求较低(仅需安装blast、bwa及samtools等个别软件),其他的软件均为系统自带软件;针对步骤繁琐,本发明将所有步骤进行整合,操作人员仅需提供3个变量(参考基因组、转基因载体序列以及测序数据路径),就可以在20分钟以内,获得T-DNA插入的位点,绝大的多数的实验室都可以安装,操作简单。
发明内容
针对现有技术存在的问题,本发明提供了一种根据sam文件flag标签快速定位T-DNA插入位点的方法。
本发明是这样实现的,一种sam文件flag标签快速定位T-DNA插入位点的方法,包括以下步骤:
步骤一,准备拟南芥T-DNA插入的样品;
步骤二,联系测序公司,进行全基因组重测序;
步骤三,根据测序结果获得去接头的clean_data;
步骤四,将上述测序结果与转基因载体序列比对;
步骤五,根据比对的结果文件的flag标签,去除完全比对以及不能比对到载体上的序列,同时去除多次比对的标签;
步骤六,提取筛选后的flag标签值的reads ID以及序列;
步骤七,将获得的序列与拟南芥基因组进行序列比对;
步骤八,根据比对结果,去除能够完全比对到拟南芥基因组上的序列;
步骤九,对剩余的reads序列进行筛选,分别与转基因载体序列和拟南芥基因组序列比对,获得插入位点;
步骤十,插入位点中的假阳性值进行剔除,获得最终的插入位点;
步骤十一,提取插入位点所在的reads序列,用于辅助研究。
在本发明中,步骤三步至步骤十为软件中间运行的过程,用户在此仅需要提供3个变量即可(参考基因组、转基因载体序列、以及全基因组重测序的原始序列)。然后软件会自动开始运行。直至第十步,获得最终的插入位点结果。
进一步,所述步骤四中,将测序结果与转基因载体序列比对,采用软件为bwa(alignment via Burrows-Wheeler transformation),版本为0.7.17-r1188。
进一步,所述步骤五中,flag标签值为77,83,99,141,147,163;flag标签大于256。
本发明另一目的在于提供一种实施所述根据sam文件flag标签快速定位T-DNA插入位点的方法的根据sam文件flag标签快速定位T-DNA插入位点系统。
综上所述,本发明的优点及积极效果为:
本发明方法操作简单:实验人员只需要将实验样品送测序公司测序;测序结果返回后,在程序中仅需输入3变量(参考基因组序列、转基因载体序列以及测序结果所在的路径)即可。
本发明方法省时高效:该方法对实验人员的时间和精力耗费极低,占用实验人员的时间仅为送样品的时间(大约10分钟),输入变量的时间(大约1分钟),其他无占用实验。在测序完成,获得原始数据,输入变量后,仅需大约15分钟的程序运行时间,就可以获得T-DNA插入位点得结果。
本发明方法成本低廉:现在的测序成本较低,建库约300元,测序约50元/Gb。测序数据要求基因的覆盖度为100×,拟南芥基因组为125Mb(0.125Gb)。因此价格算法为300元+0.125Gb×100×50元/Gb,共计约925元。此外,该方法可以将多个样品混样测序,如果5个样品混样测序的话,则每个样品的成本仅为185元。
本发明方法结果精准:利用该方法获得实验最终的T-DNA插入位点得结果,具有唯一性,能够100%排除假阳性结果,含有几个T-DNA插入位点,就能够鉴定出几个插入位点。此外,除上述的最终结果外,程序同时提供T-DNA插入位点附近的reads序列,这是最终的结果,不同的材料,用此算法得到的结果是不同的,方便用户进行核对。
附图说明
图1是本发明实施例提供的根据sam文件flag标签快速定位T-DNA插入位点的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为解决快速、免费、高效鉴定T-DNA插入位点的问题,本发明开发了一套利用全基因组重测序技术,使用转基因载体进行序列比对,根据比对结果文件的Flag标签进行筛选,然后将筛选后的序列与拟南芥基因组比对,最终获得T-DNA插入位点的方法。该方法具有操作简单、省时高效、成本低廉、结果精准的特点。
下面结合附图对本发明的应用原理作详细描述。
如图1所示,本发明实施例提供的sam文件flag标签快速定位T-DNA插入位点的方法,包括以下步骤:
S101:准备拟南芥T-DNA插入的样品;
S102:联系测序公司,进行全基因组重测序;
S103:根据测序结果获得去接头的clean_data;
S104:将上述测序结果与转基因载体序列比对;
S105:根据比对的结果文件的flag标签,去除完全比对以及不能比对到载体上的序列,同时去除多次比对的标签;
S106:提取筛选后的flag标签值的readsID以及序列;
S107:将获得的序列与拟南芥基因组进行序列比对;
S108:根据比对结果,去除能够完全比对到拟南芥基因组上的序列;
S109:对剩余的reads序列进行筛选,分别与转基因载体序列和拟南芥基因组序列比对,获得插入位点;
S110:插入位点中的假阳性值进行剔除,获得最终的插入位点;
S111:提取插入位点所在的reads序列,用于辅助研究。
作为本发明的优选实施例,所述步骤四中,将测序结果与转基因载体序列比对,采用软件为bwa (alignment via Burrows-Wheeler transformation),版本为0.7.17-r1188。
作为本发明的优选实施例,所述步骤五中,flag标签值为77,83,99,141,147,163;flag标签大于256。
在本发明中,步骤S103至步骤S110为软件中间运行的过程,用户在此仅需要提供3个变量即可(参考基因组、转基因载体序列、以及全基因组重测序的原始序列)。然后软件会自动开始运行。直至第十步,获得最终的插入位点结果。
下面结合实验结果对本发明作进一步描述。
本发明操作简单:实验人员只需要将实验样品送测序公司测序;测序结果返回后,在程序中仅需输入3变量(参考基因组序列、转基因载体序列以及测序结果所在的路径)即可。
本发明省时高效:该方法对实验人员的时间和精力耗费极低,占用实验人员的时间仅为送样品的时间(大约10分钟),输入变量的时间(大约1分钟),其他无占用实验。在测序完成,获得原始数据,输入变量后,仅需大约15分钟的程序运行时间,就可以获得T-DNA插入位点得结果。
本发明成本低廉:现在的测序成本较低,建库约300元,测序约50元/Gb。测序数据要求基因的覆盖度为100×,拟南芥基因组为125Mb(0.125Gb)。因此价格算法为300元+0.125Gb×100×50元/Gb,共计约925元。此外,该方法可以将多个样品混样测序,如果5个样品混样测序的话,则每个样品的成本仅为185元。
本发明结果精准:利用该方法获得实验最终的T-DNA插入位点得结果,具有唯一性,能够100%排除假阳性结果,含有几个T-DNA插入位点,就能够鉴定出几个插入位点。此外,除上述的最终结果外,程序同时提供T-DNA插入位点附近的reads序列,方便用户进行核对。
运用本发明中的方法,本发明完成了实验室的拟南芥转基因材料中找到了多个插入位点(全部通过Tail-PCR验证)。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种sam文件flag标签快速定位T-DNA插入位点的方法,其特征在于,所述sam文件flag标签快速定位T-DNA插入位点的方法,包括以下步骤:
步骤一,准备拟南芥T-DNA插入的样品;
步骤二,进行全基因组重测序;
步骤三,根据测序结果获得去接头的clean_data;
步骤四,将上述测序结果与转基因载体序列比对;
步骤五,根据比对的结果文件的flag标签,去除完全比对以及不能比对到载体上的序列,同时去除多次比对的标签;
步骤六,提取筛选后的flag标签值的readsID以及序列;
步骤七,将获得的序列与拟南芥基因组进行序列比对;
步骤八,根据比对结果,去除能够完全比对到拟南芥基因组上的序列;
步骤九,对剩余的reads序列进行筛选,分别与转基因载体序列和拟南芥基因组序列比对,获得插入位点;
步骤十,插入位点中的假阳性值进行剔除,获得最终的插入位点;
步骤十一,提取插入位点所在的reads序列。
2.如权利要求1所述sam文件flag标签快速定位T-DNA插入位点的方法,其特征在于,所述步骤四中,将测序结果与转基因载体序列比对,采用软件为bwa进行比对。
3.如权利要求1所述sam文件flag标签快速定位T-DNA插入位点的方法,其特征在于,所述步骤五中,flag标签值为77,83,99,141,147,163;flag标签大于256。
4.一种实施权利要求1所述sam文件flag标签快速定位T-DNA插入位点的方法的根据sam文件flag标签快速定位T-DNA插入位点系统。
CN201910461340.7A 2019-05-30 2019-05-30 sam文件flag标签定位T-DNA插入位点的方法 Active CN110349624B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910461340.7A CN110349624B (zh) 2019-05-30 2019-05-30 sam文件flag标签定位T-DNA插入位点的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910461340.7A CN110349624B (zh) 2019-05-30 2019-05-30 sam文件flag标签定位T-DNA插入位点的方法

Publications (2)

Publication Number Publication Date
CN110349624A CN110349624A (zh) 2019-10-18
CN110349624B true CN110349624B (zh) 2021-09-21

Family

ID=68174514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910461340.7A Active CN110349624B (zh) 2019-05-30 2019-05-30 sam文件flag标签定位T-DNA插入位点的方法

Country Status (1)

Country Link
CN (1) CN110349624B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105950641A (zh) * 2016-06-18 2016-09-21 南京农业大学 一个嵌合型RbcS cTP基因及其表达载体和应用
CN107419021A (zh) * 2017-08-15 2017-12-01 天津农学院 一种小麦外源基因插入位点的鉴定方法
CN108441510A (zh) * 2018-03-26 2018-08-24 武汉天问生物科技有限公司 转基因水稻grh和黑金米的培育及grh目的基因的检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104812947B (zh) * 2012-07-17 2018-04-27 考希尔股份有限公司 检测遗传变异的系统和方法
CN108034706B (zh) * 2018-01-16 2021-03-26 浙江大学 利用重测序技术快速确定转基因株系插入位点的方法
CN109207569A (zh) * 2018-09-29 2019-01-15 中国科学院遗传与发育生物学研究所 一种基于基因组二代测序的载体插入位置检测方法
CN109741788A (zh) * 2018-12-24 2019-05-10 广州合众生物科技有限公司 一种snp位点分析方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105950641A (zh) * 2016-06-18 2016-09-21 南京农业大学 一个嵌合型RbcS cTP基因及其表达载体和应用
CN107419021A (zh) * 2017-08-15 2017-12-01 天津农学院 一种小麦外源基因插入位点的鉴定方法
CN108441510A (zh) * 2018-03-26 2018-08-24 武汉天问生物科技有限公司 转基因水稻grh和黑金米的培育及grh目的基因的检测方法

Also Published As

Publication number Publication date
CN110349624A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
Sijacic et al. Changes in chromatin accessibility between Arabidopsis stem cells and mesophyll cells illuminate cell type‐specific transcription factor networks
CN106947827B (zh) 一种获得鳙性别特异分子标记及其筛选方法和应用
CN103710455B (zh) 一种获得寡核苷酸探针的方法
CN105839196A (zh) 一种真核生物DNA的Hi-C高通量测序建库方法
CN107345256A (zh) 一种基于转录组测序开发山黧豆est‑ssr引物组及方法和应用
CN107217309A (zh) 构建待测基因组的dna测序文库的方法及其应用
CN115198023A (zh) 一种海南黄牛液相育种芯片及其应用
CN112289384A (zh) 一种柑橘全基因组kasp标记库的构建方法及应用
CN105969872A (zh) 铁皮石斛est-ssr引物组、开发方法及其在物种遗传多样性上的应用
CN110349624B (zh) sam文件flag标签定位T-DNA插入位点的方法
CN111554349B (zh) 一种基于高通量测序的物种鉴定系统和方法
CN109853047A (zh) 一种基因组dna测序文库快速构建方法及配套试剂盒
CN106709273B (zh) 微藻蛋白质特征序列标签匹配的快速检测方法及系统
CN110592253A (zh) 鉴定云南茶树品种的dna组合条形码及其鉴定方法
CN104818331B (zh) 雷蒙德氏棉功能着丝粒序列及其分子标记
CN106566872A (zh) 基于测序基因分型技术的猪snp标记位点的分析方法
CN108733974B (zh) 一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法
CN111235303B (zh) 一种鉴别大米草和互花米草的方法
CN103276097A (zh) 中华鳖四个种群种质鉴定pcr检测法、引物组和试剂盒
Zhou et al. Specific-locus amplified fragment sequencing (SLAF-Seq)
CN111172159A (zh) 一种牛属动物线粒体基因组捕获探针试剂盒
CN113549616B (zh) 鉴定文心兰品种的caps分子标记、筛选方法与应用
Alscher et al. Expresso: A problem solving environment for bioinformatics: Finding answers with microarray technology
Wu et al. CTREP-finder: A web service for quick identification and visualization of clean transgenic and genome-edited plants
CN109280699A (zh) 一种基于ddRAD方法的新品种鉴定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant