CN107447044A - 一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法 - Google Patents

一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法 Download PDF

Info

Publication number
CN107447044A
CN107447044A CN201710674663.5A CN201710674663A CN107447044A CN 107447044 A CN107447044 A CN 107447044A CN 201710674663 A CN201710674663 A CN 201710674663A CN 107447044 A CN107447044 A CN 107447044A
Authority
CN
China
Prior art keywords
base
bacteriophage lambda
escherichia coli
information
modification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710674663.5A
Other languages
English (en)
Inventor
马虎
万君兴
张明贺
马慧
周翔
张薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUA ZI'ANG
Original Assignee
HUA ZI'ANG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUA ZI'ANG filed Critical HUA ZI'ANG
Priority to CN201710674663.5A priority Critical patent/CN107447044A/zh
Publication of CN107447044A publication Critical patent/CN107447044A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N7/00Viruses; Bacteriophages; Compositions thereof; Preparation or purification thereof
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B50/00Methods of creating libraries, e.g. combinatorial synthesis
    • C40B50/06Biochemical methods, e.g. using enzymes or whole viable microorganisms

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Biochemistry (AREA)
  • Zoology (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Microbiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medicinal Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Virology (AREA)
  • Biomedical Technology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法,该方法是先利用SMRT Portal数据分析平台,将大肠杆菌λ噬菌体基因组测序数据选择相应的Protocol协议进行数据分析,然后通过获得的包含大量碱基修饰信息的文件,利用perl语言编写代码找出经化学修饰的碱基完整信息,即包括m4C、m6A和其他碱基修饰的具体位点信息。通过该方法鉴定出的大肠杆菌λ噬菌体基因组中的碱基修饰情况,能够为在构建λ噬菌体载体中研究限制性酶切割λDNA中的效果,外源DNA连接在λDNA序列中的效率,以及在λ噬菌体基因组中有部分基因的表达与大肠杆菌密切相关等方面进一步的研究,提供更多的实用信息,提高工作效率,具有很大的应用价值。

Description

一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法
技术领域:
本发明涉及遗传学和生物信息学技术领域,特别涉及一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法。
背景技术:
随着测序技术的发展和计算机技术在生物领域的广泛应用,各个物种DNA的全基因组测序也在扁平化进行,在生物医药领域和人类发展进化等方面带来了很大的帮助。Sanger测序方法能检测常见的三种细菌表观遗传学标记4-mC,5-mC和6-mA。第二代测序被广泛用于检测5-mC的丰度和动态调控。在第三代测序中,研究者发现聚合酶的动力学会受到DNA模板中修饰碱基的影响,将天然DNA与无修饰的对照模板进行比较,以聚合酶活性部位保持核苷酸结合的时间(脉冲宽度,PW)和核苷酸成功结合状态间的时间间隔(脉冲间隔时间,IPD)作为主要指标,可以检测含碱基修饰的模板是否改变了聚合酶的动力学特征。IPD可能受到两种因素的影响:新结合核苷酸的亲和力改变或者标记核苷酸编入引起的DNA移位速度改变。新结合核苷酸的亲和力改变对酶构象改变率的影响,和标记核苷酸编入引起的DNA移位速度改变对核苷酸编入循环的催化率的影响都会导致PW的改变,模板中的碱基修饰会扭曲活性位点的构象。由于SMRT测序实时监测每个核苷酸的编入情况,上述影响都能被该技术捕捉到。SMRT测序能对天然未扩增的DNA进行测序,可以直接检测DNA碱基修饰。由于SMRT测序的标准模板制备会形成一个闭合环状DNA分子,能对同一个碱基修饰进行多次研究,增加了检测的统计学效力。该技术还能在同一测序读段中对DNA分子的两条链进行测序,直接分析指定位点的正反义链修饰间可能存在的关系。因此,第三代测序可以直接检测出包括但不限于m4C、m6A、m5C、hm5C等多种碱基修饰。
表观遗传学(epigenetics)是研究基因的核苷酸序列不发生改变的情况下,基因表达的可遗传的变化的一门遗传学分支学科,通过碱基修饰的改变,导致基因表达水平的变化,这在肿瘤形成过程中越来越受到重视。在表观遗传学中,一个重要机制便是DNA甲基化,甲基化是最常见的一种DNA修饰,甲基化与转录抑制有关,甲基化基因处于转录抑制状态,非甲基化基因处于转录活跃状态。DNA甲基化为正常发育所必需,正常细胞中DNA甲基化的功能包括转座因子的沉默、病毒序列的失活、染色体完整性的维持、X染色体失活、基因组印记及大量基因的转录调节等。一些研究还发现随着个体年龄的不同,DNA甲基化水平存在差异,提示个体的发育和衰老过程与DNA甲基化相关。甲基化在胚胎发育、基因组印记、细胞分化与衰老及肿瘤形成等过程中有重要作用。甲基化DNA的分子结构、分布及CpG岛DNA甲基化通常是指胞嘧啶(C)5位碳原子的甲基化(m5C),虽然也存在m6A、m7G、m4C等,但它们的生物学意义不是很清楚,是一种DNA复制后的酶促反应过程。在DNA序列的A、T、G、C中有些核酸中含有修饰碱基(或稀有碱基),这些碱基大多是在上述嘌呤或嘧啶碱的不同部位甲基化(methylation)或进行其它的化学修饰而形成的衍生物。例如有些DNA分子中含有5-甲基胞嘧啶(m5C)、5-羟甲基胞嘧啶(hm5C)、4-甲基胞嘧啶(m4A)和6-甲基腺嘌呤(m6A)等,其中一些碱基修饰已经成为最常见的表观遗传标志。
肠道微生物菌群是机体最复杂、最庞大的微生态系统,其在药物代谢、营养及能量代谢、免疫系统、屏障保护、应激调节等方面有重要影响。大肠杆菌λ噬菌体基因组是长约49kb的线性双链DNA分子。λ噬菌体感染时,通过尾管将基因组DNA注入大肠杆菌,而将其蛋白质外壳留在菌外。鉴定出λ噬菌体基因组中的碱基修饰情况,可以在构建λ噬菌体载体中研究限制性酶切割λDNA中的效果,以及外源DNA连接在λDNA序列中的效率,在λ噬菌体基因组中有部分基因的表达与大肠杆菌密切相关,为此,研究这些基因的碱基修饰情况是十分必要的。
发明内容:
本发明的目的旨在提供一种利用SMRT测序技术检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法。
为达到上述目的,本发明采取以下技术方案:
一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法,该方法是先利用SMRT Portal数据分析平台,将大肠杆菌λ噬菌体基因组测序数据选择相应的Protocol协议进行数据分析,然后通过获得的包含大量碱基修饰信息的文件,利用perl语言编写代码找出经化学修饰的碱基完整信息,即包括m4C、m6A和其他碱基修饰的具体位点信息。
上述检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法,具体包括如下步骤:
1)准备培养大肠杆菌λ噬菌体所需的试剂,先进行λ噬菌体平板培养,然后进行λ噬菌体液体培养;
2)待λ噬菌体液体培养到一定丰度,进行λ噬菌体全基因组DNA的提取,再将提取的λ噬菌体全基因组DNA溶于TE缓冲液中,于-20℃条件下保存,备用;
3)将备用的λ噬菌体全基因组DNA进行建库后,使用1个SMRT Cell,PacBio RS II进行碱基修饰测序,得到大肠杆菌λ噬菌体基因组测序数据;
4)将上测序数据上传到SMRT Portal测序平台,并上传参考的λ噬菌体全基因组序列,选择相应的Protocol协议进行数据分析后,下载GFF和CSV文件获得每个碱基的分析数据,即GFF文件中包括所有409个被检测出来的碱基修饰信息;CSV文件中包括大肠杆菌λ噬菌体整个基因组的全部碱基48502bp的序列位置、碱基所在的链、碱基类型等信息;
5)将GFF和CSV文件中的碱基修饰信息进行整合,并利用perl语言编写代码找出文件里面的m4C、m6A和Modified_base的具体信息。
上述利用perl语言编写代码的具体过程是利用putty和ssh(Secure Shell)进行服务器登录和上传下载数据,利用Linux和vim命令管理自己在服务器中的数据,在Linux中安装perl语言执行包,完成编写perl语言代码。
上述将GFF和CSV文件中的碱基修饰信息进行整合的过程包括:
1)将GFF文件中有用的信息包括:碱基修饰的类型和未知的类型、碱基的序列位置、碱基所在的链、测序的覆盖度、所在的测序序列文本、碱基测序时的脉冲信息、碱基类型的可信度以及质量值,利用编写perl语言代码的过程将这些信息提取出来,然后把其余不需要的信息弃掉;
2)通过CSV文件中列出的碱基修饰信息,利用perl语言编写代码的过程根据GFF文件的碱基修饰在CSV文件中找出这种修饰的具体碱基类型,以及验证两个文件中描述同一位置的信息是否一致,将两个文件中描述同一碱基修饰的详细信息输出到同一个文件中,并将碱基修饰分类成m4C、m6A和Modified_base。
本发明的方法利用SMRT测序技术对大肠杆菌λ噬菌体全基因组的测序数据进行数据分析,获得含有大量碱基修饰信息的文件,通过利用perl语言编写代码的过程将含有大量碱基修饰信息的文件,利用生物信息学知识进行整合处理,最终找出m4C、m6A和其他碱基修饰的具体位点信息。因此,通过该方法鉴定出的大肠杆菌λ噬菌体基因组中的碱基修饰情况,能够为在构建λ噬菌体载体中研究限制性酶切割λDNA中的效果,外源DNA连接在λDNA序列中的效率,以及在λ噬菌体基因组中有部分基因的表达与大肠杆菌密切相关等方面进一步的研究,提供更多的实用信息,提高工作效率,具有很大的应用价值。
附图说明:
图1是本发明实施例1中在SMRT Portal数据分析平台中运行完测序数据之后的结果显示图;
图2是本发明实施例1中在SMRT Portal数据分析平台中Protocol协议运行之后碱基修饰的聚合酶动力学检测图。
具体实施方式:
下面结合附图对本发明一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法做进一步详细描述。本发明的实施例是为了更清楚的说明本发明的技术方案,以使公众对发明内容从整体上得到充分的理解,而非对本发明的保护范围的限定。
实施例1
本发明检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法,具体操作步骤如下:
1.准备培养大肠杆菌λ噬菌体所需的试剂:
1)制备细菌培养的LB液体培养基:用ddH2O将10g胰化蛋白胨、5g酵母提取物和10gNaCl完全溶解至1000ml,分装小瓶,并且15lbf/in2高压灭菌20min;
2)制备1.5%琼脂LB固体培养基:在300ml锥形瓶中放入1.5g琼脂粉,再加入100mlLB,并且进行15lbf/in2高压灭菌20min,等待稍冷却之后制备平皿;
3)制备20%麦芽糖:用ddH2O溶解20g麦芽糖至100ml,再用0.22μm滤膜进行过滤;
4)制备SM液:用ddH2O将5.8gNaCl、2gMgSO4·7H2O、50ml1M Tris·CL(PH7.5)和5ml2%明胶稀释至1000ml,再进行15lbf/in2高压灭菌20min;
5)RNase A 10mg/ml,TE配制,沸水浴15min,分装后贮存于-20℃;
6)DNase I 10mg/ml,TE配制,分装后贮存于-20℃;
7)其他的一些试剂:PEG(聚乙二醇)8000,10%SDS(十二烷基硫酸钠),0.5M EDTApH8.0,苯酚/氯仿/异戊醇(25:24:1),异丙醇,无水乙醇、70%乙醇。
2.λ噬菌体平板培养:
1)用SM液10倍梯度稀释λ噬菌体原种;
2)取0.1ml各梯度稀释离心到一消毒微量离心管中,加0.2ml新鲜培养的宿主菌,加麦芽糖(0.2%),MgSO4(10mm),37℃温育20min,使噬菌体颗粒吸附于细菌;
3)取熔化(47℃)3ml0.7%琼脂LB固体培养基与上述管混匀,立即倒入预备(2-4天)的含凝固1.5%琼脂LB固体培养基的平板内,轻轻晃动平板使均匀分布;
4)37℃培养6-8hr后,观察噬斑形成;
5)用剪去部分头部的吸头挖取单个噬斑到0.5ml的SM液中,加0.05ml氯仿,震荡。37℃温育10min;
6)重复步骤1)至4),获得单个噬斑滴度。
3.λ噬菌体液体培养:
1)取2ml新鲜培养的宿主菌,离心,0.4ml LB培养基重悬,加λ噬菌体0.1ml(新鲜获得的单个噬斑,依滴度使之与宿主菌比约1/500-1000);
2)加麦芽糖(0.2%),MgSO4(10mM),37℃温育20min,使噬菌体颗粒吸附于细菌;
3)加到100ml LB液体培养基中,加麦芽糖(0.2%),MgSO4(10mM),37℃摇震培养9-12hr后可见裂解发生;
4)加0.1ml氯仿,37℃继续摇震培养10-20min。
4.提取λ噬菌体全基因组DNA:
1)将上述裂解液转移至离心管,离心8000g×10min,去细菌碎片,取上清液;
2)加RNase A、DNaseI至1μg/ml,37℃温育30min;
3)加9.3g PEG 8000,5.8g NaCl,摇匀至溶解,冰浴1hr或4℃过夜;
4)4℃离心10000g×20min,去上清液;
5)加2ml SM液,充分洗溶管壁及沉淀,移到新微量离心管,加20μl10%SDS,20μl0.5M EDTA,68℃15min;
6)加等体积苯酚/氯仿/异戊醇(25:24:1),混匀,离心12000g×5min,取上层液到一新微量离心管,加等体积氯仿/异戊醇(24:1),混匀,离心12000g×5min;
7)取上层液到一新微量离心管,加等体积异丙醇,混匀,-20℃1hr,4℃离心12000g×10min,去上清液;
8)1ml预冷的70%乙醇洗涤沉淀1-2次,4℃离心8000g×7min,弃上清,将沉淀室温下晾干;
9)沉淀溶于20μl TE,-20℃保存备用。
5.将备用的λ噬菌体全基因组DNA(未进行加工过的)使用Pacific Biosciences公司的Procedure and Checklist-20 kb Template Preparation Using BluePippinTMSize-Selection System进行建库,使用1个SMRT Cell,PacBio RS II进行碱基修饰测序,得到大肠杆菌λ噬菌体基因组测序数据。
如图1所示,SMRT Portal测序平台运行完测序数据之后的结果显示:在BASEMODIFICATION中下载碱基修饰的GFF和CSV文件,Number of Bases是指总共测了4622389个碱基,Number of Reads是指总共测了1640条序列,Mean Read Length是指每个序列的平均碱基个数是2818个,在可以看出Average Reference Consensus是100%,λ噬菌体基因组是有48502bp组成。
6.将测序数据上传到SMRT Portal测序平台,并上传参考的λ噬菌体全基因组序列,创建新的工作Greate New,在Protocol中选择“RS_Modification_and_Motif_Analysis.1”,在Reference栏中选择“lambda_NEB3011”,在Groups栏里面选择“all”,然后选择所上传的数据,进行保存“save”和开始“start”数据分析;
在SMRT Portal测序平台中的MONITOR JOBS中查看所要进行数据分析工作的详细进程,分析时间较长,不要“Stop”等待“Complete”;
在SMRT Portal测序平台中VIEW DATA中查看数据分析之后的文件和图表,在里面可以看到Modifications图表,是碱基合成的动力学检测图;可以在BASE MODIFICATIONS中下载GFF和CSV文件查看每个碱基的详细分析数据。
如图2所示,在SMRT Portal数据分析平台中“RS_Modification_and_Motif_Analysis.1”协议运行之后碱基修饰的聚合酶动力学检测图,每个经化学修饰的碱基质量值和所在文本序列的覆盖度。
7.将GFF和CSV文件中的碱基修饰信息进行整合,具体过程为:
1)将GFF文件中有用的信息包括:碱基修饰的类型和未知的类型、碱基的序列位置、碱基所在的链、测序的覆盖度、所在的测序序列文本、碱基测序时的脉冲信息、碱基类型的可信度以及质量值,利用编写perl语言代码的过程将这些信息提取出来,然后把其余不需要的信息弃掉;
2)通过CSV文件中列出的碱基修饰信息,利用perl语言编写代码的过程根据GFF文件的碱基修饰在CSV文件中找出这种修饰的具体碱基类型,以及验证两个文件中描述同一位置的信息是否一致,将两个文件中描述同一碱基修饰的详细信息输出到同一个文件中,并将碱基修饰分类成m4C、m6A和Modified_base。
具体地,GFF和CSV文件整合的代码如下:
8.利用perl语言编写代码,即利用putty和ssh(Secure Shell)进行服务器登录和上传下载数据,利用Linux和vim命令管理自己在服务器中的数据,在Linux中安装perl语言执行包,完成编写perl语言代码,最终找出文件里面的m4C、m6A和Modified_base的具体信息,如下:
1)找出来的大肠杆菌λ噬菌体全基因组中4-甲基胞嘧啶(m4C)的具体信息:
modification position strand coverage context IPDRatio frac fracLow fracUp identificationQv
m4C 700 - 20 GATATATTCACTCAGCAACCCCGGTATCAGTTCATCCAGCG 3.29 0.938 0.533 1 5
m4C 3261 - 31 ACCGTTAAAGGCGTGCATGGCCACACCTTCCCGAATCATCA 2.09 0.755 0.315 1 3
m4C 5728 + 54 TTAACGATTTGCTGAACACACCAGTGTAAGGGATGTTTATG 2.21 0.539 0.289 0.882 8
m4C 5739 - 45 TCTTTGCTCGTCATAAACATCCCTTACACTGGTGTGTTCAG 2.42 0.351 0.084 0.574 6
m4C 11351 - 47 CGTTGCGGCCTCGTTCGCCGCCTGCAATGCCCCGGCTTCAT 2.01 0.623 0.318 1 15
m4C 14343 + 42 GGCGCTGGTCCACAGCCACCCCGGTGGTCTGCCCTGGCTGA 2.19 0.368 0.069 0.591 8
m4C 16967 - 39 CACGACCACCGGTGCTGATACCGGCATAGTCATCATCGCAG 2.52 0.743 0.395 1 10
m4C 17950 - 39 TATCTTGCCTTTGAAAAAATCCAGGTAACCTTCCGCATCAT 2.12 0.952 0.548 1 33
m4C 32873 - 34 GAGCGCATGGCAGAACACATCCGGTACATGGTTGAAACCAT 3.1 0.554 0.266 0.836 11
m4C 34297 + 44 GTCGTAGTCATACGGATAGTCCTGGTATTGTTCCATCACAT 1.81 0.945 0.859 1 7
m4C 34608 + 46 TTTTAAGCCCAGATAACTGGCCTGAATATGTTAATGAGAGA 1.9 0.977 0.505 1 12
m4C 34825 + 39 GCAATCTATGGTTTTGTGCGCAGCCCTTAATGAAGGCAGGA 2.06 0.835 0.39 1 4
m4C 38690 + 37 ATCAACAGGAGTCATTATGACAAATACAGCAAAAATACTCA 2.54 0.491 0.238 0.786 5
m4C 39408 - 38 TCCTGGCATGCCCAGCGGAACAGCACACACATGTCGCGGTG 1.84 0.673 0.271 1 7
m4C 40646 - 29 ATTTCAAAGGTTAGTTTTTTCATGACTTCCCTCTCCCCCAA 1.86 0.958 0.672 1 3
m4C 43147 + 45 CGCGGTACGGTCAGAAAATACGTTGATGATAAAGACGGGAA 2.01 0.616 0.229 0.936 6
m4C 43175 - 43 GAGAACGTCGTTGACGATGGCGTGCATTTTCCCGTCTTTAT 1.83 0.479 0.12 0.809 7
2)找出来的大肠杆菌λ噬菌体全基因组中6-甲基腺嘌呤(m6A)的具体信息:
modification position strand coverage context IPDRatio frac fracLow fracUp identificationQv
m6A 2516 - 38 GAGATCCAGCTGCCAGCGGGAAATACTGATGCGCAGCGCCG 1.95 0.905 0.517 1 4
m6A 4413 + 54 GACAATCAACAGAGGAGGAGAAGAGTGACAGCAGAGCTGCG 1.64 0.102 0 0.336 6
m6A 6942 + 22 AAAGAACTTCCTGCCGGACAACACGATGGTGCTGGGGAACA 6.69 0.98 0.818 1 9
m6A 6951 - 22 GTGCCTGAGTGTTCCCCAGCACCATCGTGTTGTCCGGCAGG 13.67 1 1 1 8
m6A 11672 + 48 GAAAGAAGGCTGAGCAGCAGACTCAACAGGACAAAAATGCG 1.73 0.654 0.247 1 3
m6A 14983 + 23 TTGCCGGGCGGGACGTCAGCACGTCCGGGTTAACGGCGCAG 5.79 0.997 0.994 1 20
m6A 14992 - 21 CTCATGTAACTGCGCCGTTAACCCGGACGTGCTGACGTCCC 3.39 0.776 0.359 1 11
m6A 16371 + 22 CCGCGCTACGGCATGGGGAAACGTCTTGGTGCGGCGGATGT 5.69 0.974 0.863 1 7
m6A 16380 - 23 CATTTATCCACATCCGCCGCACCAAGACGTTTCCCCATGCC 4.62 0.967 0.598 1 9
m6A 17948 - 37 TCTTGCCTTTGAAAAAATCCAGGTAACCTTCCGCATCATCG 1.78 0.352 0.088 0.623 5
m6A 22620 - 30 AAACCAATACTCAGCTTTACAATATACTAACTAACCGCAGA 2.51 0.547 0.184 0.792 4
m6A 34546 + 44 GTTCAGTAATGAACCTCTGGAGAGAACCATGTATATGATCG 2.94 0.585 0.35 0.878 5
m6A 34765 + 33 AAAACGCATTAAGATGCAAAACGATAAAGTGCGATCAGTAA 8.61 0.94 0.677 1 23
m6A 34774 - 46 GGTTTTGAATTACTGATCGCACTTTATCGTTTTGCATCTTA 4.99 0.916 0.696 1 44
m6A 47002 + 22 ACACGTATTGCATTATGCCAACGCCCCGGTGCTGACACGGA 3.82 0.991 0.709 1 12
m6A 47011 - 22 CCGGTTTCTTCCGTGTCAGCACCGGGGCGTTGGCATAATGC 7.95 1 0.897 1 13
3)找出来的大肠杆菌λ噬菌体全基因组中其他的一些碱基修饰的具体信息:
上述找出的具体信息中:
modification是指何种碱基修饰;
position是指这个碱基修饰在整个基因组48502bp的具体位置;
strand是指具体在DNA双链中的“-(1)”和“+(0)”中的哪条链;
coverage是指测序的覆盖度;
context是指这个碱基修饰具体所在的DNA序列文本;
IPDRatio是指在测序过程中这个碱基的脉冲间隔时间的大小;
frac是指这个位置的读长有m4C或m6A的可信度值;
fracLow是指95%置信区间的最低可信度值;
fracUp是指95%置信区间的最高可信度值;identificationQv是指检测为这个碱基修饰的可信值。

Claims (5)

1.一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法,其特征在于:该方法是先利用SMRTPortal数据分析平台,将大肠杆菌λ噬菌体基因组测序数据选择相应的Protocol协议进行数据分析,然后通过获得的包含大量碱基修饰信息的文件,利用perl语言编写代码找出经化学修饰的碱基完整信息,即包括4-甲基胞嘧啶(m4C)、6-甲基腺嘌呤(m6A)和其他碱基修饰的具体位点信息。
2.根据权利要求1所述的检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法,其特征在于:所述检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法,具体包括如下步骤:
1)准备培养大肠杆菌λ噬菌体所需的试剂,先进行λ噬菌体平板培养,然后进行λ噬菌体液体培养;
2)待λ噬菌体液体培养到一定丰度,进行λ噬菌体全基因组DNA的提取,再将提取的λ噬菌体全基因组DNA溶于TE缓冲液中,于-20℃条件下保存,备用;
3)将备用的λ噬菌体全基因组DNA进行建库后,使用1个SMRT Cell,PacBio RS II进行碱基修饰测序,得到大肠杆菌λ噬菌体基因组测序数据;
4)将上述测序数据上传到SMRTPortal测序平台,并上传参考的λ噬菌体全基因组序列,选择相应的Protocol协议进行数据分析后,下载GFF和CSV文件获得每个碱基的分析数据;
5)将GFF和CSV文件中的碱基修饰信息进行整合,并利用perl语言编写代码找出文件里面的m4C、m6A和Modified_base的具体信息。
3.根据权利要求2所述的检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法,其特征在于:步骤4)中所述下载的GFF文件中包括所有409个被检测出来的碱基修饰信息;所述下载的CSV文件中包括大肠杆菌λ噬菌体整个基因组的全部碱基48502bp的序列位置、碱基所在的链、碱基类型的信息。
4.根据权利要求2所述的检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法,其特征在于:步骤5)中所述将GFF和CSV文件中的碱基修饰信息进行整合的过程包括:
a.将GFF文件中有用的信息包括:碱基修饰的类型和未知的类型、碱基的序列位置、碱基所在的链、测序的覆盖度、所在的测序序列文本、碱基测序时的脉冲信息、碱基类型的可信度以及质量值,利用编写perl语言代码的过程将这些信息提取出来,然后把其余不需要的信息弃掉;
b.通过CSV文件中列出的碱基修饰信息,利用perl语言编写代码的过程根据GFF文件的碱基修饰在CSV文件中找出这种修饰的具体碱基类型,以及验证两个文件中描述同一位置的信息是否一致,将两个文件中描述同一碱基修饰的详细信息输出到同一个文件中,并将碱基修饰分类成m4C、m6A和Modified_base。
5.根据权利要求2所述的检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法,其特征在于:步骤5)中所述利用perl语言编写代码的具体过程是利用putty和ssh进行服务器登录和上传下载数据,利用Linux和vim命令管理自己在服务器中的数据,在Linux中安装perl语言执行包,完成编写perl语言代码。
CN201710674663.5A 2017-08-09 2017-08-09 一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法 Pending CN107447044A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710674663.5A CN107447044A (zh) 2017-08-09 2017-08-09 一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710674663.5A CN107447044A (zh) 2017-08-09 2017-08-09 一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法

Publications (1)

Publication Number Publication Date
CN107447044A true CN107447044A (zh) 2017-12-08

Family

ID=60491766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710674663.5A Pending CN107447044A (zh) 2017-08-09 2017-08-09 一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法

Country Status (1)

Country Link
CN (1) CN107447044A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105002567A (zh) * 2015-06-30 2015-10-28 北京百迈客生物科技有限公司 无参考基因组高通量简化甲基化测序文库的构建方法
WO2016205276A1 (en) * 2015-06-15 2016-12-22 North Carolina State University Methods and compositions for efficient delivery of nucleic acids and rna-based antimicrobials
WO2017075436A1 (en) * 2015-10-30 2017-05-04 New England Biolabs, Inc. Compositions and methods for determining modified cytosines by sequencing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016205276A1 (en) * 2015-06-15 2016-12-22 North Carolina State University Methods and compositions for efficient delivery of nucleic acids and rna-based antimicrobials
CN105002567A (zh) * 2015-06-30 2015-10-28 北京百迈客生物科技有限公司 无参考基因组高通量简化甲基化测序文库的构建方法
WO2017075436A1 (en) * 2015-10-30 2017-05-04 New England Biolabs, Inc. Compositions and methods for determining modified cytosines by sequencing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
POHAO YE ET AL.: "MethSMRT: an integrative database for DNA N6-methyladenine and N4-methylcytosine generated by single-molecular real-time sequencing", 《NUCLEIC ACIDS RESEARCH》 *

Similar Documents

Publication Publication Date Title
Pollock et al. The madness of microbiome: attempting to find consensus “best practice” for 16S microbiome studies
Pritchard et al. ARTIST: high-resolution genome-wide assessment of fitness using transposon-insertion sequencing
Jian et al. GetOrganelle: a simple and fast pipeline for de novo assembly of a complete circular chloroplast genome using genome skimming data
Arredondo-Alonso et al. Plasmids shaped the recent emergence of the major nosocomial pathogen Enterococcus faecium
Barquist et al. Approaches to querying bacterial genomes with transposon-insertion sequencing
Mazurkiewicz et al. Signature-tagged mutagenesis: barcoding mutants for genome-wide screens
Powell et al. Congruence of additive and non-additive effects on gene expression estimated from pedigree and SNP data
Chazalet et al. Molecular typing of environmental and patient isolates of Aspergillus fumigatus from various hospital settings
Barker et al. Phylogenetic analysis of feline coronavirus strains in an epizootic outbreak of feline infectious peritonitis
Butt et al. Rapid virulence prediction and identification of Newcastle disease virus genotypes using third-generation sequencing
Ledwaba et al. Molecular characterization of Brucella species from Zimbabwe
Chiu et al. Next‐generation sequencing
Allen et al. Locus-specific gene expression pattern suggests a unique propagation strategy for a giant algal virus
Hong et al. Viral IRES prediction system-a web server for prediction of the IRES secondary structure in silico
Krauss et al. Long-term surveillance of H7 influenza viruses in American wild aquatic birds: are the H7N3 influenza viruses in wild birds the precursors of highly pathogenic strains in domestic poultry?
Young et al. Randomly primed, strand-switching, MinION-based sequencing for the detection and characterization of cultured RNA viruses
Ozawa et al. Phylogenetic variations of highly pathogenic H5N6 avian influenza viruses isolated from wild birds in the Izumi plain, Japan, during the 2016–17 winter season
Toh et al. Use of nanopore sequencing to characterize african horse sickness virus (AHSV) from the African horse sickness outbreak in thailand in 2020
Kuchinski et al. ProbeTools: designing hybridization probes for targeted genomic sequencing of diverse and hypervariable viral taxa
CN107447044A (zh) 一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法
Webb et al. Development of a comparative genomic fingerprinting assay for rapid and high resolution genotyping of Arcobacter butzleri
Wang et al. Bioinformatics methods and biological interpretation for next-generation sequencing data
Liu et al. Complete genome sequence of the highly virulent Aeromonas schubertii strain WL1483, isolated from diseased snakehead fish (Channa argus) in China
Hannon et al. Genomics-based molecular epidemiology of Campylobacter jejuni isolates from feedlot cattle and from people in Alberta, Canada
Vuono et al. Deletion of the EP296R gene from the genome of highly virulent African swine fever virus Georgia 2010 does not affect virus replication or virulence in domestic pigs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171208

RJ01 Rejection of invention patent application after publication