CN113122642A - 一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法 - Google Patents

一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法 Download PDF

Info

Publication number
CN113122642A
CN113122642A CN202110409764.6A CN202110409764A CN113122642A CN 113122642 A CN113122642 A CN 113122642A CN 202110409764 A CN202110409764 A CN 202110409764A CN 113122642 A CN113122642 A CN 113122642A
Authority
CN
China
Prior art keywords
sheep
library
dna
genome
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110409764.6A
Other languages
English (en)
Inventor
卢曾奎
刘建斌
袁超
杨博辉
岳耀敬
郭婷婷
牛春娥
李建烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanzhou Institute of Animal Husbandry and Veterinary Medicine CAAS
Original Assignee
Lanzhou Institute of Animal Husbandry and Veterinary Medicine CAAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanzhou Institute of Animal Husbandry and Veterinary Medicine CAAS filed Critical Lanzhou Institute of Animal Husbandry and Veterinary Medicine CAAS
Priority to CN202110409764.6A priority Critical patent/CN113122642A/zh
Publication of CN113122642A publication Critical patent/CN113122642A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B50/00Methods of creating libraries, e.g. combinatorial synthesis
    • C40B50/06Biochemical methods, e.g. using enzymes or whole viable microorganisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Immunology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Medicinal Chemistry (AREA)
  • General Chemical & Material Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于生物信息技术领域,具体涉及一种基于三代PacBio和Hi‑C技术组装和注释湖羊基因组的方法,所述的方法包括如下步骤:(1)采集湖羊基因组片段;(2)构建基因组文库和转录组文库;(3)基因组大小和杂合率评估;(4)基因组组装、纠错和评估;(5)Hi‑C辅助组装、评估和纠错;(6)基因组注释和评估。本发明组装了湖羊染色体级别的高质量基因组,这不仅为湖羊种群遗传资源保护与利用研究提供了宝贵的基因组资源,而且为进一步研究湖羊特有畜禽品种的环境适应机制奠定了坚实的基础。

Description

一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的 方法
技术领域
本发明属于生物信息技术领域,具体涉及一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法。
背景技术
湖羊是世界著名的多胎绵羊品种,其肉质鲜美细嫩、膻味少、净肉率高。湖羊为稀有白色羔皮羊品种,在国外市场素有“东方软宝石”之美称,湖羊在2000年和2006年先后两次被农业部被列入了《国家畜禽遗传资源保护目录》。随着国家生态保护战略的实施,绵羊饲养方式由放牧逐渐转变为半舍饲或舍饲,这在无形中增加了绵羊养殖的生产成本。湖羊不但适合圈养还可以密养,这大大降低了养殖成本。此外,湖羊具有性成熟早、常年发情、前期生长速度快、产羔数多、泌乳量高、母性好和适应性强等独有特性,符合现代集约化养羊业的需求且显著增加农牧民的经济效益。湖羊作为我国特有的优良地方绵羊种质资源,已成为我国规模化高效经济杂交和新品种培育的最佳母本,在缓解我国羊肉需求紧张和价格居高不下的态势中发挥着独特的优势地位和作用。加快湖羊遗传选育进展,对我国绵羊种质创新及其产业化具有重大意义。
基因组序列组装能够为湖羊的遗传选育等生物研究提供参考基因序列。而染色体水平的基因组在应用层面上具备了更高的实用价值,比较基因组学及重测序、三维基因组研究工作,都需要高质量的染色体水平基因组。虽然湖羊的基因组已被组装,但由于组装技术的限制和实际情况的复杂性,目前关于湖羊的基因组学研究中,湖羊的基因组尚未完成染色体水平的组装,这使得湖羊遗传特性研究和新品种培育领域缺乏高质量的参考基因组。PacBio测序是基于光信号的三代测序技术,以单分子测序为特征,可以在在目标DNA分子复制过程中捕获序列信息,因其测序读长较长,对于基因组中复杂区域尤其是复杂结构变异的研究具较大的优势。Hi-C技术源于染色体构象捕获技术,利用高通量测序技术,结合生物信息分析方法,研究全基因组范围内整个染色质DNA在空间位置上的关系,获得高分辨率的染色质三维结构信息。Hi-C数技术用于基因组组装,能够将杂乱的基因序列组装到染色体水平。本研究结合三代PacBio和Hi-C技术,并采用二代、三代转录组文库校正拼装序列,首次构建了湖羊染色体水平的参考基因组,提高了湖羊基因组装质量,推动了湖羊基因组学的研究进展,为湖羊遗传特性研究和新品种培育奠定基础。
发明内容
针对上述技术问题,一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法,所述的方法包括如下步骤:
(1)采集湖羊基因组片段:分别从血液和组织提取湖羊的DNA和RNA;
(2)构建基因组文库和转录组文库:针对步骤(1)提取得到的DNA片段分别构建二代DNA文库、三代DNA文库和Hi-C文库,获得湖羊基因组文库;针对步骤(1)提取得到的RNA测序构建二代转录组文库和三代全长转录组文库,获得湖羊转录组文库;并对构建所得的基因组文库和转录组文库进行过滤;
(3)采用步骤(2)获得的二代DNA文库评估获得的湖羊基因组大小和杂合率;
(4)基因组组装、纠错和评估:利用步骤(3)获得湖羊的基因组大小和杂合率结果,选择mecat2软件对步骤(2)所述的三代DNA文库进行组装得到原始组装结果;使用smrtlink7.0的纠错软件arrow基于步骤(2)得到的三代全长转录组文库对原始组装结果进行纠错,使用pilon软件基于步骤(2)得到的二代转录组文库进行再纠错;
(5)Hi-C辅助组装、纠错和评估:对步骤(4)获得的纠错后的组装结果进行Hi-C辅助组装,构建互作图谱,进行可视化纠错,得到湖羊基因组;
(6)基因组注释和评估:重复序列的识别;非编码RNA的预测;编码基因结构预测和功能注释:使用De novo从头预测、homolog同源预测和转录组证据支持3种方法进行编码基因的结构预测,参数设置为默认参数;使用MAKER软件,将上述3种方法预测得到的基因集整合成一个基因集;最后借助于蛋白数据库InterPro、GO、KEGG_ALL、KEGG_KO、SwissProt、TrEMBL和NR对基因集中的蛋白进行功能注释。
优选地,步骤(4)所述的原始组装是通过mecat2软件得到,参数设置为:MIN_READ_LENGTH=10000,CNS_OPTIONS="-r 0.6 -a 1000 -c 4 -l 2000",ASM_OVLP_OPTIONS="-n 100 -z 10 -b 2000 -e 0.5 -j 1 -u 0 -a 400"。
优选地,步骤(4)所述的纠错软件arrow的版本为v2.2.2,参数设置为默认参数;pilon软件的版本为v1.22,参数设置为默认参数。
优选地,步骤(5)所述的Hi-C辅助组装是指使用ALLHi C软件将纠错后的组装结果进行组装;互作图谱利用Juicer软件构建,使用JucieBox软件进行可视化纠错。
优选地,步骤(5)所述的Hi-C辅助组装所需要的序列是将步骤(4)质控得到的clean data使用BWA软件进行比对,使用Lachesis软件将离酶切位点500bp以外的序列去除,得到的数据进行Hi-C辅助组装。
优选地,步骤(6)所述的重复序列的识别是结合基于RepBase库的同源预测方法、基于自身序列比对及重复序列特征的De novo从头预测方法检测重复序列;还利用了TRF软件寻找基因组中串联重复序列;非编码RNA的预测:非编码RNA的注释过程中,根据tRNA的结构特征,利用tRNAscan-SE软件来寻找基因组中的tRNA序列。
优选地,步骤(1)所述的DNA提取自湖羊血液和肝脏组织;RNA提取自湖羊组织,所述的湖羊组织是指心脏、肝脏、肺脏、脾脏、瘤胃和肌肉的混合。
8.如权利要求1所述的方法,其特征在于,步骤(2)所述的二代DNA文库的构建方法为:通过超声波破碎仪随机打断成长度为300-350bp的片段;DNA片段进行末端修复、加A尾、加测序接头、纯化、PCR扩增;
三代DNA文库的构建方法为:使用g-Tubes剪切提取获得的湖羊DNA;DNA片段纯化和浓缩;DNA片段进行末端修复、加测序接头;目的片段筛选;杂交测序引物和DNA聚合酶绑定;
Hi-C文库的构建方法为:使用多聚甲醛固定提取获得的湖羊DNA的构象;限制性内切酶处理交联的DNA,产生粘性末端;DNA末端补平修复,并同时引入生物素,标记寡核苷酸末端;使用DNA连接酶连接DNA片段;蛋白酶消化解除与DNA的交联状态,纯化DNA并随机打断为300~500bp片段;使用亲和素磁珠捕获标记的DNA,对DNA片段进行末端修复、加A尾、加测序接头、纯化、PCR扩增;
二代转录组文库的构建方法为:从提取获得的湖羊RNA中富集mRNA;通过超声波破碎仪将富集到的mRNA随机打断成200bp的片段;以片段化的mRNA为模板,利用随机引物反转录合成一链cDNA,合成第二链cDNA时dNTPs中的dTTP用dUTP代替;cDNA片段进行纯化、末端补平、加A尾、加测序接头;使用USER酶消化二链cDNA,使其文库中只含有一链cDNA;cDNA进行PCR富集;获得湖羊的二代转录组文库;
三代全长转录组文库的构建方法为:合成mRNA的全长cDNA;纯化扩增的全长cDNA,去除1kb以下的小片段cDNA;对全长cDNA进行末端修复,连接SMRT哑铃型接头;进行核酸外切酶消化未连接接头的片段,再次使用PB磁珠进行纯化,获得湖羊的三代转录组文库。
优选地,二代DNA文库的测序数据过滤条件为:(1)去除含有接头序列的reads;(2)去除重复reads;(3)当单端测序read中的一端含有的N的含量超过该条read长度比例的10%时,需要去除此对paired reads;(4)当单端测序read中的一端含有的Q<=5的碱基数超过该条read长度比例的50%时,需要去除此对reads;
三代DNA文库的测序数据过滤条件为:(1)去除含有接头序列的reads;(2)去除长度短于1000bp的reads;(3)去除低质量reads;
Hi-C文库的测序数据过滤条件为:(1)去除含有接头序列的reads;(2)去除测序read两端连续质量小于20的碱基;(3)当测序read最终长度小于50bp时,去除此条reads;(4)仅保留成对reads;
二代转录组文库测序数据过滤条件为:(1)去除含有接头序列的reads;(2)去除3’端;(3)去除低质量reads;
三代全长转录组文库的测序数据过滤条件为:(1)使用SMRTlink软件(参数设置为最短Subreads长度=50,最大Subreads长度=15,000,最小测序循环数=3,最低预测准确性=0.99)对原始测序数据进行预处理,对单分子测序的高质量reads进行拆分得到subreads,同一高质量reads得到的subreads经过自我纠错形成环化一致序列;(2)通过检测嵌合体序列、5’和3’端测序引物,对环化一致序列进行分类,找出全长非嵌合序列用于后续分析。
本发明的第二目的是提供所述的方法组装和注释得到的湖羊基因组序列。
本发明的有益效果是:1.本发明提供了一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法,所述的方法使得湖羊基因组达到染色体级别,取得高质量的参考基因组,并对湖羊的基因结构和基因功能进行了全面注释,对于湖羊的遗传改良和保护至关重要,为湖羊遗传特性研究和新品种培育奠定基础。2.本发明的组装方法获得了连续性更好的湖羊参考基因组,为后续进行大规模基因组进化和功能研究提供保障。3.本发明构建组装获得的湖羊基因组质量是现有文献中公开的最高水平,最终确定湖羊基因组顺序及方向确定的染色体长度2.71Gb,contigs N50=19.49Mb,scaffoldN50=106.11Mb,contig长度锚定率为98.77%,contig数量锚定率为58.25%。PacBio组装和Hi-C辅助组装,并纠错后能完整比对BUSCO的基因占93.80%;4.采用本发明方法鉴定到的重复序列更多,基因注释的完整性更高,注释到的基因数目更加接近于绵羊的平均基因数量。
附图说明
图1湖羊基因组组装路线示意图
图2 K-mer深度和K-mer种类数频率分布图
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,应当理解地是,以下实施例仅是本发明的一部分实施例而不是全部的实施例。在下述实施例的基础上,本领域技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,均属于本发明的保护范围。
名词解释:
以下实施例中所述的“reads”是高通量测序平台产生的序列标签。
以下实施例所述的“contig”是拼接软件基于reads之间的overlap区,拼接获得的序列。
以下实施例所述的“Contig N50”是reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得—个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig3,……,Contig 25。
将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的—半时,最后—个加上的Contig长度即为ContigN50。举例:Contig l Contig 2Contig 3Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。ContigN50可以作为基因组拼接的结果好坏的一个判断标准。
以下实施例所述的“Scaffold”是基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454Paired-end库或llluminaMate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定—些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。
以下实施例所述的“Scaffold N50”,Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得—些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2.Scaffold3,……,Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold l Scaffold 2Scaffold 3Scaffold 4Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50。ScaffoldN50可以作为基因组拼接的结果好坏的—个判断标准。
以下实施例所述的“smartlink软件”是深圳市华杰智控技术有限公司推出的实现PLC远程控制、远程下载、远程组网和监控的软件。同时支持PLC、触摸屏、伺服器、运动控制器、仪表仪器等设备远程控制。
实施例一、一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法
1材料与方法
1.1样品采集
在浙江省湖州市湖羊中心产区选择健康的成年公羊1只,早晨空腹通过颈静脉采血5ml加入EDTA-K2抗凝剂的采血管中,保存于-20℃冰箱。之后屠宰并立即分割心脏、肝肺、肺脏、脾脏、瘤胃和肌肉组织,迅速用预冷的生理盐水将组织表面的血液冲洗干净,切割成0.5cm2小块并置于液氮中保存。
1.2文库构建及测序
采用血液基因组提取试剂盒(天根生化科技北京有限公司,北京)和CTAB(十六烷基三甲基溴化胺)法提取湖羊血液和肝脏组织中的DNA并进行质检,分成三份用于二代、三代和Hi-C文库构建。使用TRlzol Reagent(Invitrogen,美国)提取湖羊心脏、肝脏、肺脏、脾脏、瘤胃和肌肉组织中的总RNA并进行质检,用于二代转录组和三代全长转录组文库构建。
二代DNA文库构建:通过超声波破碎仪(Covaris,美国)随机打断成长度为300-350bp的片段;DNA片段进行末端修复、加A尾、加测序接头、纯化、PCR扩增;使用Qubit 2.0(Invitrogen,美国)和Agilent 2100(Agilent,美国)对构建文库的浓度和片段大小进行质量检测;构建好的文库通过Illumina Hiseq PE150测序。二代DNA文库用于基因组大小和杂合率评估。Illumina Hiseq PE150平台测序结果显示湖羊基因组大小约为2707.70Mb,杂合率为0.30%,基因组杂合率较低,适宜于进行三代DNA文库的构建,并且该结果为后续选择组装策略提供了依据。
三代DNA文库构建:使用g-Tubes(Covaris,美国)将基因组DNA剪切至~20kb大小;DNA片段纯化和浓缩;DNA片段进行末端修复、加测序接头;目的片段筛选(20kb);杂交测序引物和DNA聚合酶绑定;使用Qubit 2.0(Invitrogen,美国)和Agilent 2100(Agilent,美国)对构建文库的浓度和片段大小进行质量检测;构建好的文库通过PacBio Sequel II平台进行测序。
Hi-C文库构建:使用多聚甲醛固定DNA构象;限制性内切酶处理交联的DNA,产生粘性末端;DNA末端补平修复,并同时引入生物素,标记寡核苷酸末端;使用DNA连接酶连接DNA片段;蛋白酶消化解除与DNA的交联状态,纯化DNA并随机打断为300~500bp片段;使用亲和素磁珠捕获标记的DNA,对DNA片段进行末端修复、加A尾、加测序接头、纯化、PCR扩增;使用Qubit 2.0(Invitrogen,美国)和Agilent 2100(Agilent,美国)对构建文库的浓度和片段大小进行质量检测;构建好的文库通过Illumina HiSeq PE150测序。
二代转录组文库构建:使用带有Oligo(dT)的磁珠进行mRNA富集;通过超声波破碎仪(Covaris,美国)将富集到的mRNA随机打断成约200bp的片段;以片段化的mRNA为模板,利用随机引物反转录合成一链cDNA,合成第二链cDNA时dNTPs中的dTTP用dUTP代替;cDNA片段进行纯化、末端补平、加A尾、加测序接头;使用USER酶消化二链cDNA,使其文库中只含有一链cDNA;cDNA进行PCR富集;使用Qubit 2.0(Invitrogen,美国)和Agilent 2100(Agilent,美国)对构建文库的浓度和片段大小进行质量检测;构建好的文库通过Illumina Hiseq2500平台进行双端测序。
三代全长转录组文库构建:使用Clonetech SMARTerTM PCR cDNA Synthesis Kit合成mRNA的全长cDNA;使用PB磁珠纯化扩增的全长cDNA,去除部分1kb以下的小片段cDNA;对全长cDNA进行末端修复,连接SMRT哑铃型接头;进行核酸外切酶消化未连接接头的片段,再次使用PB磁珠进行纯化,获得测序文库;使用Qubit 2.0(Invitrogen,美国)和Agilent2100(Agilent,美国)对构建文库的浓度和片段大小进行质量检测;构建好的文库通过PacBio测序仪进行全长转录组测序。
1.3测序数据质控
DNA和RNA测序结束后得到原始数据(Raw reads),使用Fast QC软件进行过滤获得高质量序列(Clean reads)。
二代DNA测序数据过滤条件为:1)去除含有接头序列的reads;2)去除重复reads;3)当单端测序read中的一端含有的N的含量超过该条read长度比例的10%时,需要去除此对paired reads;4)当单端测序read中的一端含有的低质量(<=5)碱基数超过该条read长度比例的50%时,需要去除此对paired reads。质控后共获得263714204027bp的cleandata。
三代DNA测序数据过滤条件为:1)去除含有接头序列的reads;2)去除长度短于1000bp的reads;3)去除低质量reads。质控后共获得2746197213bp的clean data。
Hi-C测序数据过滤条件为:1)去除含有接头序列的reads;2)去除测序read两端连续质量小于20的碱基;3)当测序read最终长度小于50bp时,去除此条reads;4)仅保留成对reads。质控后共获得2712458560bp的clean data。
二代转录组测序数据过滤条件为:1)去除含有接头序列的reads;2)去除3’端;3)去除低质量reads。质控后3个肝脏样品平均获得6348278500bp的clean data。
三代全长转录组测序数据过滤条件为:1)使用SMRTlink软件(参数设置为最短Subreads长度=50,最大Subreads长度=15,000,最小测序循环数=3,最低预测准确性=0.99)对原始测序数据进行预处理,对单分子测序的高质量reads进行拆分得到subreads,同一高质量reads得到的subreads经过自我纠错形成环化一致序列;2)通过检测嵌合体序列、5’和3’端测序引物,对环化一致序列进行分类,找出全长非嵌合序列用于后续分析。质控后具有polyA的全长非嵌合序列为225533426bp。
1.4基因组大小和杂合率评估
获得的高质量序列(Clean reads),采用基于K-mer的分析方法来估计基因组大小、杂合率和重复序列信息,其主要目的是了解该基因组的复杂程度。通过Illumina HiseqPE150平台测序后获得湖羊的二代基因文库,共包括263714204027bp的clean data,测序质量正常,测序错误率正常。选择K=17,可以产生的K-mer种类数为417,由此可保证产生足够多的K-mer种类数去覆盖整个基因组。根据公式
Figure BDA0003023684290000071
计算基因组大小,G为基因组大小,nbase和nK-mer为序列的碱基总数和K-mer数,Cbase和CK-mer为覆盖碱基的期望深度和K-mer期望覆盖深度。根据公式
Figure BDA0003023684290000072
计算基因组杂合率,
Figure BDA0003023684290000073
为杂合率,a1/2为杂合K-mer种类数的百分比,nkspecies为所有K-mer的种类数。
1.5基因组组装、纠错和评估
利用1.4获得的湖羊基因组大小和杂合率结果,选择mecat2软件得到原始组装结果,参数设置为:MIN_READ_LENGTH=10000,CNS_OPTIONS="-r 0.6 -a 1000 -c 4 -l2000",ASM_OVLP_OPTIONS="-n 100 -z 10 -b 2000 -e 0.5 -j 1 -u 0 -a 400"。
使用smrtlink 7.0的纠错软件arrow(v2.2.2,默认参数)基于三代全长转录组文库对原始组装结果进行纠错,使用pilon软件(v1.22,默认参数)基于二代转录组文库据进行再纠错。
原始组装并纠错后获得2746197213bp的基因组序列,Contig number为1983,Contigs N50为19488550bp,Scaffoldnumber为855,ScaffoldN50为106112921bp。
组装和纠错后对基因组进行评估,统计A、G、C、T和N在基因组中的占比和GC含量;选择绵羊基因组中CLR(Continuous Long Reads)subreads,使用minimap2软件(默认参数)比对到组装好的基因组,统计reads的比对率、覆盖基因组程度和深度分布情况,由此评估组装的完整性和测序覆盖的均匀性;
基于OrthoDB中的单拷贝同源基因集,使用BUSCO预测这些基因并统计其完整度、碎片化程度和可能的丢失率,由此评估整个组装结果中基因区的完整性;
用BWA将reads比对到参考基因组,用GATK进行SNP calling并过滤,统计纯合和杂合SNP个数,根据比对结果统计insersize。
1.6 Hi-C辅助组装和评估
利用纠错后的组装结果进行Hi-C辅助组装,得到最终的基因组组装结果。质控得到的clean data使用BWA软件进行比对,使用Lachesis软件将离酶切位点500bp以外的序列去除,得到的数据进行辅助组装。基于顺式互作(同一染色体内的互作)远大于反式互作(不同染色体间的互作),且顺式互作中线性距离越近则互作越强的原理,将contigs或者scaffolds进行聚类、排序、定向,得到染色体水平基因组。将辅助组装后的基因组,利用Juicer软件构建互作图谱,使用JucieBox软件对其进行可视化纠错。基于OrthoDB中的单拷贝同源基因集,使用BUSCO软件预测这些基因并统计其完整度,碎片化程度及可能的丢失率。(表1)Hi-C辅助组装后获得2712458560bp的基因组序列,Contig number为1155,Contigs N50为19488550bp,Scaffold number为27,ScaffoldN50为106112921bp,能完整比对BUSCO的基因占93.80%。
构建流程图如图1所示。
1.7基因组注释和评估
重复序列的识别:结合基于RepBase库(http://www.girinst.org/repbase)的同源预测方法(RepeatMasker和RepeatProteinMask)、基于自身序列比对(RepeatModeler)及重复序列特征(LTR-FINDER)的De novo从头预测方法检测重复序列。此外,De novo从头预测方法还利用了TRF软件寻找基因组中串联重复序列。
非编码RNA的预测:非编码RNA的注释过程中,根据tRNA的结构特征,利用tRNAscan-SE软件来寻找基因组中的tRNA序列。由于rRNA具有高度的保守性,因此可以选择近缘物种的rRNA序列作为参考序列,通过BLASTN比对来寻找基因组中的rRNA。利用Rfam家族的协方差模型,采用Rfam自带的INFERNAL软件预测基因组上的miRNA和snRNA序列信息。
基因结构预测和功能注释:使用De novo从头预测(Augustus和Genscan软件)、homolog同源预测(选择C.hircus、H.sapiens、O.aries_rambouillet_v1.0和O.aries_Oar_v4.0作为同源物种)和转录组证据支持(trans.orf/ISOseq)3种方法进行编码基因的结构预测,参数设置为默认参数。使用MAKER软件(默认参数),将上述3种方法预测得到的基因集整合成一个非冗余的、更加完整的基因集。最后借助于外源蛋白数据库(InterPro、GO、KEGG_ALL、KEGG_KO、SwissProt、TrEMBL和NR)对基因集中的蛋白进行功能注释。
使用BUSCO软件,基于直系同源数据库OrthoDB对基因组组装的完整性进行定量评估。BUSCO抽样了数百个基因组,从中选择单拷贝直系同源>90%的基因构建了六种主要的系统进化分枝的基因集。
2结果
2.1湖羊基因组大小和杂合率评估
通过IlluminaHiseq PE150平台测序后,共获得263714204027bp的clean data,测序质量正常,测序错误率正常。随机抽取10000对reads数据,通过Blast软件比对NCBI核苷酸数据库(NT库),比对结果显示文库数据中不含有明显的外源污染,建库测序成功。K-mer分析结果显示,K=17时可以产生的K-mer总数为235255399504,K-mer深度为84(图2)。因此预估湖羊基因组大小约为2707.70Mb,杂合率为0.30%,重复序列比例为61.13%,基因组GC含量约为42%。
2.2湖羊基因组Hi-C辅助组装结果评估
通过PacBio组装湖羊基因组序列长度为2.75Gb,contig N50=19.49Mb,共1983条contigs(表1)。通过Hi-C辅助组装,最终确定湖羊基因组顺序及方向确定的染色体长度2.71Gb,contigs N50=19.49Mb,scaffoldN50=106.11Mb,contig长度锚定率为98.77%,contig数量锚定率为58.25%(表1)。湖羊基因组GC含量为42.48%(1166852686bp)。PacBio组装和Hi-C辅助组装后能完整比对BUSCO的基因占93.80%。
表1湖羊基因组PacBio组装Hi-C辅助组装情况
Figure BDA0003023684290000101
2.3湖羊基因组注释
通过TRF、Repeatmasker、Proteinmask和De novo方法进行湖羊基因组重复序列注释。去掉4种方法的重叠部分结果,重复序列大小为1459204637bp,占湖羊基因组的53.12%。
非编码RNA中注释到tRNA、rRNA、miRNA和snRNA个数分别为263901(0.7038%)、237(0.0101%)、524(0.0016%)和2045(0.0084%)。
通过MAKER软件整合De novo从头预测、homolog同源预测和转录组证据支持的结果后,在湖羊基因组中共预测到20469个编码蛋白质的基因,平均基因长度为43932.86bp,平均CDS序列长度为1483.00bp,平均每个基因外显子数目为11.86个,平均外显子长度为207.70bp,平均内含长度为4551.17bp(表2)。
表2湖羊基因组预测结果统计
Figure BDA0003023684290000102
借助外源蛋白数据库InterPro、GO、KEGG_ALL、KEGG_KO、SwissProt、TrEMBL和NR对湖羊基因集中的蛋白进行功能注释,共注释到20200个编码蛋白质的基因,占上述7种蛋白数据库的98.69%(表3)。使用BUSCO软件进行湖羊基因组注释评估,能完整比对BUSCO的基因有3762个,占比为91.7%。
表3湖羊基因组注释结果统计
Figure BDA0003023684290000111
2.4与已报道的绵羊基因组比较分析
通过Illumina、PacBio和Hi-C技术组装出了高质量染色体水平的湖羊基因组。本发明所述的湖羊基因组组装中Contigs N50为19.49Mb,ScaffoldN50为106.11Mb,相较于现有技术公开的湖羊、朗布依埃羊(Rambouillet sheep)、马可波罗羊(Marco Polo sheep)、特克赛尔羊(Texel)、雪羊(Snow sheep)以及摩弗仑羊(mouflon),序列长度更长,质量明显提高,鉴定到的重复序列更多,基因注释的序列完整性更高,注释基因数目更加接近于绵羊的平均基因数量(表4)。另外本发明首次完成了湖羊基因组的注释。
表4各品种绵羊基因组组装和注释效果比较分析
Figure BDA0003023684290000112
Figure BDA0003023684290000121

Claims (10)

1.一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法,其特征在于,所述的方法包括如下步骤:
(1)采集湖羊基因组片段:分别从血液和组织提取湖羊的DNA和RNA;
(2)构建基因组文库和转录组文库:针对步骤(1)提取得到的DNA片段分别构建二代DNA文库、三代DNA文库和Hi-C文库,获得湖羊基因组文库;针对步骤(1)提取得到的RNA测序构建二代转录组文库和三代全长转录组文库,获得湖羊转录组文库;并对构建所得的基因组文库和转录组文库进行过滤;
(3)采用步骤(2)获得的二代DNA文库评估获得的湖羊基因组大小和杂合率;
(4)基因组组装、纠错和评估:利用步骤(3)获得湖羊的基因组大小和杂合率结果,选择mecat2软件对步骤(2)所述的三代DNA文库进行组装得到原始组装结果;使用smrtlink 7.0的纠错软件arrow基于步骤(2)得到的三代全长转录组文库对原始组装结果进行纠错,使用pilon软件基于步骤(2)得到的二代转录组文库进行再纠错;
(5)Hi-C辅助组装、纠错和评估:对步骤(4)获得的纠错后的组装结果进行Hi-C辅助组装,构建互作图谱,进行可视化纠错,得到湖羊基因组;
(6)基因组注释和评估:重复序列的识别;非编码RNA的预测;编码基因结构预测和功能注释:使用De novo从头预测、homolog同源预测和转录组证据支持3种方法进行编码基因的结构预测,参数设置为默认参数;使用MAKER软件,将上述3种方法预测得到的基因集整合成一个基因集;最后借助于蛋白数据库InterPro、GO、KEGG_ALL、KEGG_KO、SwissProt、TrEMBL和NR对基因集中的蛋白进行功能注释。
2.如权利要求1所述的方法,其特征在于,步骤(4)所述的原始组装是通过mecat2软件得到,参数设置为:MIN_READ_LENGTH=10000,CNS_OPTIONS="-r 0.6-a 1000-c 4-l2000",ASM_OVLP_OPTIONS="-n 100-z 10-b 2000-e 0.5-j 1-u 0-a 400"。
3.如权利要求1所述的方法,其特征在于,步骤(4)所述的纠错软件arrow的版本为v2.2.2,参数设置为默认参数;pilon软件的版本为v1.22,参数设置为默认参数。
4.如权利要求1所述的方法,其特征在于,步骤(5)所述的Hi-C辅助组装是指使用ALLHiC软件将纠错后的组装结果进行组装;互作图谱利用Juicer软件构建,使用JucieBox软件进行可视化纠错。
5.如权利要求4所述的方法,其特征在于,步骤(5)所述的Hi-C辅助组装所需要的序列是将步骤(4)质控得到的clean data使用BWA软件进行比对,使用Lachesis软件将离酶切位点500bp以外的序列去除,得到的数据进行Hi-C辅助组装。
6.如权利要求1所述的方法,其特征在于,步骤(6)所述的重复序列的识别是结合基于RepBase库的同源预测方法、基于自身序列比对及重复序列特征的De novo从头预测方法检测重复序列;还利用了TRF软件寻找基因组中串联重复序列;非编码RNA的预测:非编码RNA的注释过程中,根据tRNA的结构特征,利用tRNA scan-SE软件来寻找基因组中的tRNA序列。
7.如权利要求1所述的方法,其特征在于,步骤(1)所述的DNA提取自湖羊血液和肝脏组织;RNA提取自湖羊组织,所述的湖羊组织是指心脏、肝脏、肺脏、脾脏、瘤胃和肌肉的混合。
8.如权利要求1所述的方法,其特征在于,步骤(2)所述的二代DNA文库的构建方法为:通过超声波破碎仪随机打断成长度为300-350bp的片段;DNA片段进行末端修复、加A尾、加测序接头、纯化、PCR扩增;
三代DNA文库的构建方法为:使用g-Tubes剪切提取获得的湖羊DNA;DNA片段纯化和浓缩;DNA片段进行末端修复、加测序接头;目的片段筛选;杂交测序引物和DNA聚合酶绑定;
Hi-C文库的构建方法为:使用多聚甲醛固定提取获得的湖羊DNA的构象;限制性内切酶处理交联的DNA,产生粘性末端;DNA末端补平修复,并同时引入生物素,标记寡核苷酸末端;使用DNA连接酶连接DNA片段;蛋白酶消化解除与DNA的交联状态,纯化DNA并随机打断为300~500bp片段;使用亲和素磁珠捕获标记的DNA,对DNA片段进行末端修复、加A尾、加测序接头、纯化、PCR扩增;
二代转录组文库的构建方法为:从提取获得的湖羊RNA中富集mRNA;通过超声波破碎仪将富集到的mRNA随机打断成200bp的片段;以片段化的mRNA为模板,利用随机引物反转录合成一链cDNA,合成第二链cDNA时dNTPs中的dTTP用dUTP代替;cDNA片段进行纯化、末端补平、加A尾、加测序接头;使用USER酶消化二链cDNA,使其文库中只含有一链cDNA;cDNA进行PCR富集;获得湖羊的二代转录组文库;
三代全长转录组文库的构建方法为:合成mRNA的全长cDNA;纯化扩增的全长cDNA,去除1kb以下的小片段cDNA;对全长cDNA进行末端修复,连接SMRT哑铃型接头;进行核酸外切酶消化未连接接头的片段,再次使用PB磁珠进行纯化,获得湖羊的三代转录组文库。
9.如权利要求1所述的方法,其特征在于,二代DNA文库的测序数据过滤条件为:(1)去除含有接头序列的reads;(2)去除重复reads;(3)当单端测序read中的一端含有的N的含量超过该条read长度比例的10%时,需要去除此对paired reads;(4)当单端测序read中的一端含有的Q<=5的碱基数超过该条read长度比例的50%时,需要去除此对reads;
三代DNA文库的测序数据过滤条件为:(1)去除含有接头序列的reads;(2)去除长度短于1000bp的reads;(3)去除低质量reads;
Hi-C文库的测序数据过滤条件为:(1)去除含有接头序列的reads;(2)去除测序read两端连续质量小于20的碱基;(3)当测序read最终长度小于50bp时,去除此条reads;(4)仅保留成对reads;
二代转录组文库测序数据过滤条件为:(1)去除含有接头序列的reads;(2)去除3’端;(3)去除低质量reads;
三代全长转录组文库的测序数据过滤条件为:(1)使用SMRTlink软件(参数设置为最短Subreads长度=50,最大Subreads长度=15,000,最小测序循环数=3,最低预测准确性=0.99)对原始测序数据进行预处理,对单分子测序的高质量reads进行拆分得到subreads,同一高质量reads得到的subreads经过自我纠错形成环化一致序列;(2)通过检测嵌合体序列、5’和3’端测序引物,对环化一致序列进行分类,找出全长非嵌合序列用于后续分析。
10.根据权利要求1-9任一项所述的方法组装和注释得到的湖羊基因组序列。
CN202110409764.6A 2021-04-16 2021-04-16 一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法 Pending CN113122642A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110409764.6A CN113122642A (zh) 2021-04-16 2021-04-16 一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110409764.6A CN113122642A (zh) 2021-04-16 2021-04-16 一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法

Publications (1)

Publication Number Publication Date
CN113122642A true CN113122642A (zh) 2021-07-16

Family

ID=76776768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110409764.6A Pending CN113122642A (zh) 2021-04-16 2021-04-16 一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法

Country Status (1)

Country Link
CN (1) CN113122642A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115691673A (zh) * 2022-10-25 2023-02-03 广东省农业科学院蔬菜研究所 一种端粒到端粒的基因组组装方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190214106A1 (en) * 2017-12-27 2019-07-11 The Jackson Laboratory Methods for multiplex chromatin interaction analysis by droplet sequencing with single molecule precision
CN110189796A (zh) * 2019-05-27 2019-08-30 新疆农业大学 一种绵羊全基因组重测序分析方法
CN111445948A (zh) * 2020-03-27 2020-07-24 武汉古奥基因科技有限公司 一种利用Hi-C进行多倍体鱼类的染色体构建方法
CN111564180A (zh) * 2020-05-12 2020-08-21 西藏自治区农牧科学院水产科学研究所 一种鮡科鱼类古染色体进化比较分析的方法
WO2020208017A1 (en) * 2019-04-11 2020-10-15 Wolf Frommer Diagnostic kit and method for sweet-based rice blight resistance and resistant breeding lines
CN112133368A (zh) * 2020-10-13 2020-12-25 南开大学 一种基于三代测序技术的宏基因组测序数据的自动化分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190214106A1 (en) * 2017-12-27 2019-07-11 The Jackson Laboratory Methods for multiplex chromatin interaction analysis by droplet sequencing with single molecule precision
WO2020208017A1 (en) * 2019-04-11 2020-10-15 Wolf Frommer Diagnostic kit and method for sweet-based rice blight resistance and resistant breeding lines
CN110189796A (zh) * 2019-05-27 2019-08-30 新疆农业大学 一种绵羊全基因组重测序分析方法
CN111445948A (zh) * 2020-03-27 2020-07-24 武汉古奥基因科技有限公司 一种利用Hi-C进行多倍体鱼类的染色体构建方法
CN111564180A (zh) * 2020-05-12 2020-08-21 西藏自治区农牧科学院水产科学研究所 一种鮡科鱼类古染色体进化比较分析的方法
CN112133368A (zh) * 2020-10-13 2020-12-25 南开大学 一种基于三代测序技术的宏基因组测序数据的自动化分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIANKAI WEI等: "Genomic basis of environmental adaptation in the leathery sea squirt (Styela clava)", 《MOLECULAR ECOLOGY RESOURCES》 *
刘辰晖: "TPH基因家族的变异及其与绵羊季节性繁殖的关系", 《中国优秀博硕士学位论文全文数据库(博士)农业科技辑》 *
卢曾奎等: "湖羊热应激相关的生理生化指标筛选", 《核农学报》 *
鲍亚宁: "高温下亚麻纤维发育相关转录组及生长素信号相关基因的研究", 《中国优秀博硕士学位论文全文数据库(博士) 农业科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115691673A (zh) * 2022-10-25 2023-02-03 广东省农业科学院蔬菜研究所 一种端粒到端粒的基因组组装方法
CN115691673B (zh) * 2022-10-25 2023-08-15 广东省农业科学院蔬菜研究所 一种端粒到端粒的基因组组装方法

Similar Documents

Publication Publication Date Title
JP5389638B2 (ja) 制限断片に基づく分子マーカーのハイスループットな検出
Zimin et al. Sequencing and assembly of the 22-Gb loblolly pine genome
Ferguson et al. Characterization of a hotspot for mimicry: assembly of a butterfly wing transcriptome to genomic sequence at the HmYb/Sb locus
EP2718866B1 (en) Providing nucleotide sequence data
WO2015149719A1 (zh) 杂合基因组处理方法
Mitros et al. A chromosome-scale genome assembly and dense genetic map for Xenopus tropicalis
Coleman et al. Structural annotation of equine protein‐coding genes determined by mRNA sequencing
CN113151426A (zh) 一种基于三代PacBio和Hi-C技术组装和注释霍巴藏绵羊基因组的方法
JP2013514079A (ja) 制限酵素に基づく全ゲノムシーケンシング
CN111584004B (zh) 一种基于三维组学数据的西藏特色鱼类基因组组装方法
US20220259649A1 (en) Method for target specific rna transcription of dna sequences
US20230074210A1 (en) Methods for removal of adaptor dimers from nucleic acid sequencing preparations
CN113122642A (zh) 一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法
CN114196761A (zh) 一种主选父系品种猪饲料报酬的液相芯片的制作方法
AU2017217868B2 (en) Method for target specific RNA transcription of DNA sequence
CN113005189A (zh) 一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法
CN109988769B (zh) 基因及其应用
CN105802974B (zh) Bcs1l基因突变体及其应用
CN113981112B (zh) 鉴定三疣梭子蟹氨氮耐受性状的InDel标记C3082、引物及其应用
KR101967879B1 (ko) 핵산 서열분석에서 uid 핵산 서열의 순결도를 측정하는 방법
US20220392568A1 (en) Method for identifying transplant donors for a transplant recipient
CN109022444B (zh) Ttc21b基因突变体及其应用
Formenti THIRD-GENERATION SEQUENCING AND ASSEMBLY OF THE BARN SWALLOW GENOME AND A STUDY ON THE EVOLUTION OF THE HUNTINGTIN GENE
CN117887879A (zh) 用于分离Opie转座子插入位点基因组序列的引物组合和方法
Radke Assessment of MIPSTR for Capturing and Sequencing Human STRs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination