CN110349624B - sam文件flag标签定位T-DNA插入位点的方法 - Google Patents
sam文件flag标签定位T-DNA插入位点的方法 Download PDFInfo
- Publication number
- CN110349624B CN110349624B CN201910461340.7A CN201910461340A CN110349624B CN 110349624 B CN110349624 B CN 110349624B CN 201910461340 A CN201910461340 A CN 201910461340A CN 110349624 B CN110349624 B CN 110349624B
- Authority
- CN
- China
- Prior art keywords
- sequence
- flag tag
- compared
- sequencing
- insertion site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于生物技术领域,公开了一种sam文件flag标签快速定位T‑DNA插入位点的方法,准备样品;进行全基因组重测序;根据测序结果获得去接头的clean_data;将测序结果与转基因载体序列比对;根据比对的结果文件的flag标签,去除完全比对以及不能比对到载体上的序列,同时去除多次比对的标签;提取筛选后的flag标签值的readsID以及序列;将获得的序列与拟南芥基因组进行序列比对。本发明根据比对结果,去除能够完全比对到拟南芥基因组上的序列;对剩余的reads序列进行筛选,获得插入位点;对插入位点中的假阳性值进行剔除,获得最终的插入位点。
Description
技术领域
本发明属于生物信息处理技术领域,尤其涉及一种sam文件flag标签快速定位T-DNA插入位点的方法。
背景技术
目前,最接近的现有技术:
利用T-DNA插入获得转基因植株是研究植物基因功能的重要方式。但多数情况下,T-DNA插入的位点是未知的,可能处于基因间隔区、基因内含子或是外显子等。目前常用的T-DNA插入位点鉴定方法有反向PCR、半随机引物PCR(如Tail-PCR)等,上述传统方法除了操作相对复杂,消耗时间较长,对实验人员的技术要求较高之外,还存在特异性差,部分T-DNA插入突变为无法获得插入位点得问题。
近年来,随着二代测序技术的快速发展,全基因组测序技术及分析技术日趋成熟和完善。特别是测序的成本和时间大幅度下降,使得全基因组测序的应用越来越广泛。比如Nordstrom等利用全基因组测序技术进行突变位点基因的克隆,能够大大缩短图位克隆的时间。此外利用全基因组重测序技术获得T-DNA插入位点也有相关报道,如Hammoudi等通过对拟南芥T-DNA插入突变体进行测序,然后利用付费的CLC平台,获得T-DNA插入位点。但该方法算法相对复杂,耗时相对较长,且花费较高,不适合大范围推广。
综上所述,现有技术存在的问题是:
现有技术算法复杂,耗时较长,步骤繁琐,且花费较高,不适合大范围推广。
解决上述技术问题的难度:本发明专利,采用的比对软件bwa运算速度快,计算准确度高;对系统的要求较低(仅需安装blast、bwa及samtools等个别软件),其他的软件均为系统自带软件;针对步骤繁琐,本发明将所有步骤进行整合,操作人员仅需提供3个变量(参考基因组、转基因载体序列以及测序数据路径),就可以在20分钟以内,获得T-DNA插入的位点,绝大的多数的实验室都可以安装,操作简单。
发明内容
针对现有技术存在的问题,本发明提供了一种根据sam文件flag标签快速定位T-DNA插入位点的方法。
本发明是这样实现的,一种sam文件flag标签快速定位T-DNA插入位点的方法,包括以下步骤:
步骤一,准备拟南芥T-DNA插入的样品;
步骤二,联系测序公司,进行全基因组重测序;
步骤三,根据测序结果获得去接头的clean_data;
步骤四,将上述测序结果与转基因载体序列比对;
步骤五,根据比对的结果文件的flag标签,去除完全比对以及不能比对到载体上的序列,同时去除多次比对的标签;
步骤六,提取筛选后的flag标签值的reads ID以及序列;
步骤七,将获得的序列与拟南芥基因组进行序列比对;
步骤八,根据比对结果,去除能够完全比对到拟南芥基因组上的序列;
步骤九,对剩余的reads序列进行筛选,分别与转基因载体序列和拟南芥基因组序列比对,获得插入位点;
步骤十,插入位点中的假阳性值进行剔除,获得最终的插入位点;
步骤十一,提取插入位点所在的reads序列,用于辅助研究。
在本发明中,步骤三步至步骤十为软件中间运行的过程,用户在此仅需要提供3个变量即可(参考基因组、转基因载体序列、以及全基因组重测序的原始序列)。然后软件会自动开始运行。直至第十步,获得最终的插入位点结果。
进一步,所述步骤四中,将测序结果与转基因载体序列比对,采用软件为bwa(alignment via Burrows-Wheeler transformation),版本为0.7.17-r1188。
进一步,所述步骤五中,flag标签值为77,83,99,141,147,163;flag标签大于256。
本发明另一目的在于提供一种实施所述根据sam文件flag标签快速定位T-DNA插入位点的方法的根据sam文件flag标签快速定位T-DNA插入位点系统。
综上所述,本发明的优点及积极效果为:
本发明方法操作简单:实验人员只需要将实验样品送测序公司测序;测序结果返回后,在程序中仅需输入3变量(参考基因组序列、转基因载体序列以及测序结果所在的路径)即可。
本发明方法省时高效:该方法对实验人员的时间和精力耗费极低,占用实验人员的时间仅为送样品的时间(大约10分钟),输入变量的时间(大约1分钟),其他无占用实验。在测序完成,获得原始数据,输入变量后,仅需大约15分钟的程序运行时间,就可以获得T-DNA插入位点得结果。
本发明方法成本低廉:现在的测序成本较低,建库约300元,测序约50元/Gb。测序数据要求基因的覆盖度为100×,拟南芥基因组为125Mb(0.125Gb)。因此价格算法为300元+0.125Gb×100×50元/Gb,共计约925元。此外,该方法可以将多个样品混样测序,如果5个样品混样测序的话,则每个样品的成本仅为185元。
本发明方法结果精准:利用该方法获得实验最终的T-DNA插入位点得结果,具有唯一性,能够100%排除假阳性结果,含有几个T-DNA插入位点,就能够鉴定出几个插入位点。此外,除上述的最终结果外,程序同时提供T-DNA插入位点附近的reads序列,这是最终的结果,不同的材料,用此算法得到的结果是不同的,方便用户进行核对。
附图说明
图1是本发明实施例提供的根据sam文件flag标签快速定位T-DNA插入位点的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为解决快速、免费、高效鉴定T-DNA插入位点的问题,本发明开发了一套利用全基因组重测序技术,使用转基因载体进行序列比对,根据比对结果文件的Flag标签进行筛选,然后将筛选后的序列与拟南芥基因组比对,最终获得T-DNA插入位点的方法。该方法具有操作简单、省时高效、成本低廉、结果精准的特点。
下面结合附图对本发明的应用原理作详细描述。
如图1所示,本发明实施例提供的sam文件flag标签快速定位T-DNA插入位点的方法,包括以下步骤:
S101:准备拟南芥T-DNA插入的样品;
S102:联系测序公司,进行全基因组重测序;
S103:根据测序结果获得去接头的clean_data;
S104:将上述测序结果与转基因载体序列比对;
S105:根据比对的结果文件的flag标签,去除完全比对以及不能比对到载体上的序列,同时去除多次比对的标签;
S106:提取筛选后的flag标签值的readsID以及序列;
S107:将获得的序列与拟南芥基因组进行序列比对;
S108:根据比对结果,去除能够完全比对到拟南芥基因组上的序列;
S109:对剩余的reads序列进行筛选,分别与转基因载体序列和拟南芥基因组序列比对,获得插入位点;
S110:插入位点中的假阳性值进行剔除,获得最终的插入位点;
S111:提取插入位点所在的reads序列,用于辅助研究。
作为本发明的优选实施例,所述步骤四中,将测序结果与转基因载体序列比对,采用软件为bwa (alignment via Burrows-Wheeler transformation),版本为0.7.17-r1188。
作为本发明的优选实施例,所述步骤五中,flag标签值为77,83,99,141,147,163;flag标签大于256。
在本发明中,步骤S103至步骤S110为软件中间运行的过程,用户在此仅需要提供3个变量即可(参考基因组、转基因载体序列、以及全基因组重测序的原始序列)。然后软件会自动开始运行。直至第十步,获得最终的插入位点结果。
下面结合实验结果对本发明作进一步描述。
本发明操作简单:实验人员只需要将实验样品送测序公司测序;测序结果返回后,在程序中仅需输入3变量(参考基因组序列、转基因载体序列以及测序结果所在的路径)即可。
本发明省时高效:该方法对实验人员的时间和精力耗费极低,占用实验人员的时间仅为送样品的时间(大约10分钟),输入变量的时间(大约1分钟),其他无占用实验。在测序完成,获得原始数据,输入变量后,仅需大约15分钟的程序运行时间,就可以获得T-DNA插入位点得结果。
本发明成本低廉:现在的测序成本较低,建库约300元,测序约50元/Gb。测序数据要求基因的覆盖度为100×,拟南芥基因组为125Mb(0.125Gb)。因此价格算法为300元+0.125Gb×100×50元/Gb,共计约925元。此外,该方法可以将多个样品混样测序,如果5个样品混样测序的话,则每个样品的成本仅为185元。
本发明结果精准:利用该方法获得实验最终的T-DNA插入位点得结果,具有唯一性,能够100%排除假阳性结果,含有几个T-DNA插入位点,就能够鉴定出几个插入位点。此外,除上述的最终结果外,程序同时提供T-DNA插入位点附近的reads序列,方便用户进行核对。
运用本发明中的方法,本发明完成了实验室的拟南芥转基因材料中找到了多个插入位点(全部通过Tail-PCR验证)。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种sam文件flag标签快速定位T-DNA插入位点的方法,其特征在于,所述sam文件flag标签快速定位T-DNA插入位点的方法,包括以下步骤:
步骤一,准备拟南芥T-DNA插入的样品;
步骤二,进行全基因组重测序;
步骤三,根据测序结果获得去接头的clean_data;
步骤四,将上述测序结果与转基因载体序列比对;
步骤五,根据比对的结果文件的flag标签,去除完全比对以及不能比对到载体上的序列,同时去除多次比对的标签;
步骤六,提取筛选后的flag标签值的readsID以及序列;
步骤七,将获得的序列与拟南芥基因组进行序列比对;
步骤八,根据比对结果,去除能够完全比对到拟南芥基因组上的序列;
步骤九,对剩余的reads序列进行筛选,分别与转基因载体序列和拟南芥基因组序列比对,获得插入位点;
步骤十,插入位点中的假阳性值进行剔除,获得最终的插入位点;
步骤十一,提取插入位点所在的reads序列。
2.如权利要求1所述sam文件flag标签快速定位T-DNA插入位点的方法,其特征在于,所述步骤四中,将测序结果与转基因载体序列比对,采用软件为bwa进行比对。
3.如权利要求1所述sam文件flag标签快速定位T-DNA插入位点的方法,其特征在于,所述步骤五中,flag标签值为77,83,99,141,147,163;flag标签大于256。
4.一种实施权利要求1所述sam文件flag标签快速定位T-DNA插入位点的方法的根据sam文件flag标签快速定位T-DNA插入位点系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910461340.7A CN110349624B (zh) | 2019-05-30 | 2019-05-30 | sam文件flag标签定位T-DNA插入位点的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910461340.7A CN110349624B (zh) | 2019-05-30 | 2019-05-30 | sam文件flag标签定位T-DNA插入位点的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110349624A CN110349624A (zh) | 2019-10-18 |
CN110349624B true CN110349624B (zh) | 2021-09-21 |
Family
ID=68174514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910461340.7A Active CN110349624B (zh) | 2019-05-30 | 2019-05-30 | sam文件flag标签定位T-DNA插入位点的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110349624B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105950641A (zh) * | 2016-06-18 | 2016-09-21 | 南京农业大学 | 一个嵌合型RbcS cTP基因及其表达载体和应用 |
CN107419021A (zh) * | 2017-08-15 | 2017-12-01 | 天津农学院 | 一种小麦外源基因插入位点的鉴定方法 |
CN108441510A (zh) * | 2018-03-26 | 2018-08-24 | 武汉天问生物科技有限公司 | 转基因水稻grh和黑金米的培育及grh目的基因的检测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104812947B (zh) * | 2012-07-17 | 2018-04-27 | 考希尔股份有限公司 | 检测遗传变异的系统和方法 |
CN108034706B (zh) * | 2018-01-16 | 2021-03-26 | 浙江大学 | 利用重测序技术快速确定转基因株系插入位点的方法 |
CN109207569A (zh) * | 2018-09-29 | 2019-01-15 | 中国科学院遗传与发育生物学研究所 | 一种基于基因组二代测序的载体插入位置检测方法 |
CN109741788A (zh) * | 2018-12-24 | 2019-05-10 | 广州合众生物科技有限公司 | 一种snp位点分析方法及系统 |
-
2019
- 2019-05-30 CN CN201910461340.7A patent/CN110349624B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105950641A (zh) * | 2016-06-18 | 2016-09-21 | 南京农业大学 | 一个嵌合型RbcS cTP基因及其表达载体和应用 |
CN107419021A (zh) * | 2017-08-15 | 2017-12-01 | 天津农学院 | 一种小麦外源基因插入位点的鉴定方法 |
CN108441510A (zh) * | 2018-03-26 | 2018-08-24 | 武汉天问生物科技有限公司 | 转基因水稻grh和黑金米的培育及grh目的基因的检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110349624A (zh) | 2019-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sijacic et al. | Changes in chromatin accessibility between Arabidopsis stem cells and mesophyll cells illuminate cell type‐specific transcription factor networks | |
CN106947827B (zh) | 一种获得鳙性别特异分子标记及其筛选方法和应用 | |
CN103710455B (zh) | 一种获得寡核苷酸探针的方法 | |
CN105839196A (zh) | 一种真核生物DNA的Hi-C高通量测序建库方法 | |
CN107345256A (zh) | 一种基于转录组测序开发山黧豆est‑ssr引物组及方法和应用 | |
CN107217309A (zh) | 构建待测基因组的dna测序文库的方法及其应用 | |
CN115198023A (zh) | 一种海南黄牛液相育种芯片及其应用 | |
CN112289384A (zh) | 一种柑橘全基因组kasp标记库的构建方法及应用 | |
CN105969872A (zh) | 铁皮石斛est-ssr引物组、开发方法及其在物种遗传多样性上的应用 | |
CN110349624B (zh) | sam文件flag标签定位T-DNA插入位点的方法 | |
CN111554349B (zh) | 一种基于高通量测序的物种鉴定系统和方法 | |
CN109853047A (zh) | 一种基因组dna测序文库快速构建方法及配套试剂盒 | |
CN106709273B (zh) | 微藻蛋白质特征序列标签匹配的快速检测方法及系统 | |
CN110592253A (zh) | 鉴定云南茶树品种的dna组合条形码及其鉴定方法 | |
CN104818331B (zh) | 雷蒙德氏棉功能着丝粒序列及其分子标记 | |
CN106566872A (zh) | 基于测序基因分型技术的猪snp标记位点的分析方法 | |
CN108733974B (zh) | 一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法 | |
CN111235303B (zh) | 一种鉴别大米草和互花米草的方法 | |
CN103276097A (zh) | 中华鳖四个种群种质鉴定pcr检测法、引物组和试剂盒 | |
Zhou et al. | Specific-locus amplified fragment sequencing (SLAF-Seq) | |
CN111172159A (zh) | 一种牛属动物线粒体基因组捕获探针试剂盒 | |
CN113549616B (zh) | 鉴定文心兰品种的caps分子标记、筛选方法与应用 | |
Alscher et al. | Expresso: A problem solving environment for bioinformatics: Finding answers with microarray technology | |
Wu et al. | CTREP-finder: A web service for quick identification and visualization of clean transgenic and genome-edited plants | |
CN109280699A (zh) | 一种基于ddRAD方法的新品种鉴定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |