CN113005189A - 一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法 - Google Patents

一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法 Download PDF

Info

Publication number
CN113005189A
CN113005189A CN202110409811.7A CN202110409811A CN113005189A CN 113005189 A CN113005189 A CN 113005189A CN 202110409811 A CN202110409811 A CN 202110409811A CN 113005189 A CN113005189 A CN 113005189A
Authority
CN
China
Prior art keywords
dna
library
genome
generation
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110409811.7A
Other languages
English (en)
Inventor
卢曾奎
刘建斌
袁超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanzhou Institute of Animal Husbandry and Veterinary Medicine CAAS
Original Assignee
Lanzhou Institute of Animal Husbandry and Veterinary Medicine CAAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanzhou Institute of Animal Husbandry and Veterinary Medicine CAAS filed Critical Lanzhou Institute of Animal Husbandry and Veterinary Medicine CAAS
Priority to CN202110409811.7A priority Critical patent/CN113005189A/zh
Publication of CN113005189A publication Critical patent/CN113005189A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/46Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
    • C07K14/47Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Toxicology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Medicinal Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于生物信息技术领域,具体涉及一种基于三代PacBio和Hi‑C技术组装和注释贵德黑裘皮羊基因组的方法,所述的方法包括如下步骤:(1)采集贵德黑裘皮羊血液和组织样本;(2)构建基因组文库和转录组文库;(3)基因组大小和杂合率评估;(4)基因组组装、利用转录测序结果纠错和评估;(5)Hi‑C辅助组装、纠错和评估;(6)基因组注释和评估。本发明组装了贵德黑裘皮羊染色体级别的高质量基因组,为进一步研究贵德黑裘皮羊的羊毛色素积淀和高寒低氧适应分子机制奠定了基础,同时也为其优良遗传资源保护和利用、分子育种和遗传改良等工作提供数据支撑。

Description

一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基 因组的方法
技术领域
本发明属于生物信息技术领域,具体涉及一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法。
背景技术
黑色素是一种生物多聚体,广泛的存在于动植物及微生物中。动物的毛发、皮肤和眼睛的颜色均由黑色素的相对数量、性质和分布所决定的。黑色素可以抑制紫外辐射产生的自由基,以颗粒形式,来吸收和反射非离子辐射,还可以作为弱阳离子交换多聚体,具有结合大量金属离子或药物的能力,可以保护蛋白质不被降解。但色素沉积是一个受多基因控制的复杂性状,已在哺乳动物中影响毛色的150多个基因中的鉴定出了300多个基因位点。
贵德黑裘皮羊(Guide BlackFur sheep)又名青海黑臧羊、贵德黑紫羔,属于裘皮用型绵羊地方品种,具有体质结实、抗寒、抗病力强、适应性好、善于登山远牧、夏季抓膘肥育迅速等特点。其所产黑紫羔皮皮板坚韧,毛色黝黑发亮,花形美观、卷花坚实,羊毛纤维类型比例适中,不易擀毡,保暖性好。贵德黑裘皮羊被毛为黑红色,部分为微黑红色,个别呈灰色,是研究动物黑色素沉积性状的理想素材。关于贵德黑裘皮羊的毛色色素沉积研究不仅有助于解析其毛色性状遗传机理,还可以辅助贵德黑裘皮羊育种。此外,贵德黑裘皮羊中心产区位于青海省海南藏族自治州的贵南县,平均海拔3100m,贵德黑裘皮羊也是研究动物高原低氧适应性状的理想素材。目前,关于贵德黑裘皮羊的基因组学研究中,缺乏贵德黑裘皮羊的高质量参考基因组。这制约了贵德黑裘皮羊关于其毛色的色素积淀机制研究和高寒低氧适应的分子机制的研究,同时不利于贵德黑裘皮羊品种资源的保存、挖掘和利用。
PacBio测序是基于光信号的三代测序技术,以单分子测序为特征,可以在在目标DNA分子复制过程中捕获序列信息,因其测序读长较长,对于基因组中复杂区域尤其是复杂结构变异的研究具较大的优势。Hi-C技术源于染色体构象捕获技术,利用高通量测序技术,结合生物信息分析方法,研究全基因组范围内整个染色质DNA在空间位置上的关系,获得高分辨率的染色质三维结构信息。Hi-C技术用于基因组组装,能够将杂乱的基因序列组装到染色体水平。专利CN201811068666.5公开了一种基因组的组装方法及装置,所述方法包括:获取纠错后的基因信息,所述基因信息包括基因组和比对信息;根据所述基因组和所述比对信息进行基因组组装;若判断获知组装结果未达到预设条件,对所述组装结果进行分区域聚类处理,并将处理结果进行重新组装。但是,上述专利并没有公开其可以应用于绵羊的基因组,并可以构建染色体水平的贵德黑裘皮羊的参考基因组。
本研究结合三代PacBio和Hi-C技术,并采用二代、三代转录组文库校正拼装序列,首次构建了染色体水平的贵德黑裘皮羊参考基因组,为贵德黑裘皮羊色素沉积的分子机制研究和高寒低氧适应的分子机制研究奠定了基础。同时也为其优良遗传资源保护和利用、选择育种和遗传改良等工作提供数据支撑。
发明内容
针对上述技术问题,本发明提供了一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法,所述的方法包括如下步骤:
(1)采集贵德黑裘皮羊血液和组织样本:分别提取贵德黑裘皮羊血液和组织样本的DNA和RNA;
(2)构建基因组文库和转录组文库:针对步骤(1)提取得到的DNA片段分别构建二代DNA文库、三代DNA文库和Hi-C文库,获得贵德黑裘皮羊基因组文库;针对步骤(1)提取得到的RNA片段构建二代转录组文库和三代全长转录组文库,获得贵德黑裘皮羊转录组文库;并对构建所得的文库进行过滤;
(3)采用步骤(2)获得的二代DNA文库评估获得贵德黑裘皮羊的基因组大小和杂合率;
(4)基因组组装、纠错和评估:利用步骤(3)获得的贵德黑裘皮羊的基因组大小和杂合率结果,选择mecat2软件对步骤(2)所述的过滤后的三代DNA文库进行组装得到原始组装结果;使用smrtlink 7.0的纠错软件arrow基于步骤(2)得到的三代全长转录组文库对原始组装结果进行纠错,使用pilon软件基于步骤(2)得到的二代转录组文库进行再纠错;
(5)Hi-C辅助组装和评估:对步骤(4)进行再纠错后得到的组装结果进行Hi-C辅助组装,构建互作图谱,进行可视化纠错,得到贵德黑裘皮羊基因组;
(6)基因组注释和评估:重复序列的识别;非编码RNA的预测;编码基因结构预测和功能注释:使用De novo从头预测、homolog同源预测和转录组证据支持3种方法进行编码基因的结构预测,参数设置为默认参数;使用MAKER软件,将上述3种方法预测得到的基因集整合成一个基因集;最后借助于蛋白数据库InterPro、GO、KEGG_ALL、KEGG_KO、SwissProt、TrEMBL和NR对基因集中的蛋白进行功能注释。
优选地,步骤(4)所述的原始组装的mecat2软件参数设置为:MIN_READ_LENGTH=10000,CNS_OPTIONS="-r 0.6-a 1000-c 4-l 2000",ASM_OVLP_OPTIONS="-n 100-z 10-b 2000-e 0.5-j 1-u 0-a 400"。
优选地,步骤(4)所述的纠错软件arrow的版本为v2.2.2,参数设置为默认参数;pilon软件的版本为v1.22,参数设置为默认参数。
优选地,步骤(5)所述的Hi-C辅助组装是指使用ALLHi C软件将纠错后的组装结果进行组装;利用Juicer软件构建互作图谱,使用JucieBox软件对其进行可视化纠错。
优选地,步骤(5)所述的Hi-C辅助组装所需要的序列是将步骤(4)质控得到的clean data使用BWA软件进行比对,使用Lachesis软件将离酶切位点500bp以外的序列去除,得到的数据进行Hi-C辅助组装。
优选地,步骤(6)所述的重复序列的识别是结合基于RepBase库的同源预测方法、基于自身序列比对及重复序列特征的De novo从头预测方法检测重复序列;还利用了TRF软件寻找基因组中串联重复序列;非编码RNA的预测:非编码RNA的注释过程中,根据tRNA的结构特征,利用tRNAscan-SE软件来寻找基因组中的tRNA序列。
优选地,步骤(1)所述的DNA提取自贵德黑裘皮羊血液和肝脏组织;RNA提取自贵德黑裘皮羊组织,所述的贵德黑裘皮羊组织是指心脏、肝脏、肺脏、脾脏、瘤胃和肌肉。
优选地,步骤(2)所述的二代DNA文库的构建方法为:通过超声波破碎仪将提取获得的贵德黑裘皮羊DNA随机打断成长度为300-350bp的片段;DNA片段进行末端修复、加A尾、加测序接头、纯化、PCR扩增;
三代DNA文库的构建方法为:将基因组DNA剪切至20kb大小;DNA片段纯化和浓缩;DNA片段进行末端修复、加测序接头;目的片段筛选;杂交测序引物和DNA聚合酶绑定;Hi-C文库的构建方法为:使用多聚甲醛固定提取获得的贵德黑裘皮羊DNA的构象;限制性内切酶处理交联的DNA,产生粘性末端;DNA末端补平修复,并同时引入生物素,标记寡核苷酸末端;使用DNA连接酶连接DNA片段;蛋白酶消化解除与DNA的交联状态,纯化DNA并随机打断为300~500bp片段;使用亲和素磁珠捕获标记的DNA,对DNA片段进行末端修复、加A尾、加测序接头、纯化、PCR扩增;
二代转录组文库的构建方法为:从提取获得的贵德黑裘皮羊RNA中富集mRNA;通过超声波破碎仪将富集到的mRNA随机打断成200bp的片段;以片段化的mRNA为模板,利用随机引物反转录合成一链cDNA,合成第二链cDNA时dNTPs中的dTTP用dUTP代替;cDNA片段进行纯化、末端补平、加A尾、加测序接头;使用USER酶消化二链cDNA,使其文库中只含有一链cDNA;cDNA进行PCR富集,获得贵德黑裘皮羊的二代转录组文库;
三代全长转录组文库的构建方法为:合成mRNA的全长cDNA;纯化扩增的全长cDNA,去除1kb以下的小片段cDNA;对全长cDNA进行末端修复,连接SMRT哑铃型接头;进行核酸外切酶消化未连接接头的片段,再次使用PB磁珠进行纯化,获得贵德黑裘皮羊的三代转录组文库。
优选地,二代DNA文库的测序数据过滤条件为:(1)去除含有接头序列的reads;(2)去除重复reads;(3)当单端测序read中的一端含有的N的含量超过该条read长度比例的10%时,需要去除此对paired reads;(4)当单端测序read中的一端含有的Q≤5碱基数超过该条read长度比例的50%时,需要去除此对reads;
三代DNA文库的测序数据过滤条件为:(1)去除含有接头序列的reads;(2)去除长度短于1000bp的reads;(3)去除低质量reads;
Hi-C文库的测序数据过滤条件为:(1)去除含有接头序列的reads;(2)去除测序read两端连续质量小于20的碱基;(3)当测序read最终长度小于50bp时,去除此条reads;(4)仅保留成对reads;
二代转录组文库测序数据过滤条件为:(1)去除含有接头序列的reads;(2)去除3’端;(3)去除低质量reads;
三代全长转录组文库的测序数据过滤条件为:(1)使用SMRTlink软件对原始测序数据进行预处理,参数设置为最短Subreads长度=50,最大Subreads长度=15,000,最小测序循环数=3,最低预测准确性=0.99,对单分子测序的高质量reads进行拆分得到subreads,同一高质量reads得到的subreads经过自我纠错形成环化一致序列;(2)通过检测嵌合体序列、5’和3’端测序引物,对环化一致序列进行分类,找出全长非嵌合序列用于后续分析。
本发明的第二目的是提供所述的方法组装和注释得到的贵德黑裘皮羊基因组序列。
本发明的有益效果是:1.本发明提供了一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法,所述的方法使得贵德黑裘皮羊基因组达到染色体级别,取得高质量的参考基因组,并对贵德黑裘皮羊的基因结构和基因功能进行了全面注释,对于贵德黑裘皮羊的遗传改良和物种资源保护至关重要,进一步为贵德黑裘皮羊的羊毛色素积淀的分子机制研究和高寒低氧适应的分子机制研究奠定了基础。2.本发明的组装方法获得了连续性更好的贵德黑裘皮羊参考基因组,为后续进行大规模基因组进化和功能研究提供保障。3.本发明构建组装获得的贵德黑裘皮羊基因组质量是现有文献中公开的最高水平,最终确定贵德黑裘皮羊基因组顺序及方向确定的染色体长度2.69Gb,contigs N50=20.30Mb,scaffoldN50=107.63Mb,contig长度锚定率为98.72%,contig数量锚定率为64.55%。PacBio组装和Hi-C辅助组装,并纠错后能完整比对BUSCO的基因占93.10%;4.采用本发明方法鉴定到的重复序列更多,基因注释的完整性更高,注释到的基因数目更加接近于绵羊的平均基因数量。
附图说明
图1贵德黑裘皮羊基因组组装技术路线示意图
图2K-mer深度和K-mer种类数频率分布图
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,应当理解地是,以下实施例仅是本发明的一部分实施例而不是全部的实施例。在下述实施例的基础上,本领域技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,均属于本发明的保护范围。
名词解释:
以下实施例中所述的“reads”是高通量测序平台产生的序列标签。
以下实施例所述的“contig”是拼接软件基于reads之间的overlap区,拼接获得的序列。
以下实施例所述的“Contig N50”是reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得—个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig3,……,Contig 25。
将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为ContigN50。举例:Contig l Contig 2Contig 3Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。ContigN50可以作为基因组拼接的结果好坏的一个判断标准。
以下实施例所述的“Scaffold”是基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454Paired-end库或llluminaMate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定—些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。
以下实施例所述的“Scaffold N50”,Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得—些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2.Scaffold3,……,Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold l Scaffold 2Scaffold 3Scaffold 4Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50。ScaffoldN50可以作为基因组拼接的结果好坏的—个判断标准。
以下实施例所述的“smartlink软件”是深圳市华杰智控技术有限公司推出的实现PLC远程控制、远程下载、远程组网和监控的软件。同时支持PLC、触摸屏、伺服器、运动控制器、仪表仪器等设备远程控制。
实施例一、一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮基因组的方法
1材料与方法
1.1样品采集
在青海省海南藏族自治州的贵南县贵德黑裘皮羊中心产区选择健康的成年公羊1只(海拔>3500m),早晨空腹通过颈静脉采血5ml加入EDTA-K2抗凝剂的采血管中,保存于-20℃冰箱。之后屠宰并立即分割心脏、肝肺、肺脏、脾脏、瘤胃和肌肉组织,迅速用预冷的生理盐水将组织表面的血液冲洗干净,切割成0.5cm2小块并置于液氮中保存。
1.2文库构建及测序
采用血液基因组提取试剂盒(天根生化科技北京有限公司,北京)和CTAB(十六烷基三甲基溴化胺)法提取贵德黑裘皮羊血液和肝脏组织中的DNA并进行质检,分成三份用于二代、三代和Hi-C文库构建。使用TRlzol Reagent(Invitrogen,美国)提取贵德黑裘皮羊心脏、肝脏、肺脏、脾脏、瘤胃和肌肉组织中的总RNA并进行质检,用于二代转录组和三代全长转录组文库构建。
二代DNA文库构建:通过超声波破碎仪(Covaris,美国)随机打断成长度为300-350bp的片段;DNA片段进行末端修复、加A尾、加测序接头、纯化、PCR扩增;使用Qubit 2.0(Invitrogen,美国)和Agilent 2100(Agilent,美国)对构建文库的浓度和片段大小进行质量检测;构建好的文库通过IlluminaHiseq PE150测序。本实施例中的二代DNA文库用于预测基因组大小和杂合率,Illumina Hiseq PE150平台测序结果显示贵德黑裘皮羊基因组大小约为2669.83Mb,杂合率为0.39%,基因组杂合率较低,适宜于进行三代DNA文库的构建,并且该结果为后续选择组装策略提供了依据。
三代DNA文库构建:使用g-Tubes(Covaris,美国)将基因组DNA剪切至~20kb大小;DNA片段纯化和浓缩;DNA片段进行末端修复、加测序接头;目的片段筛选(20kb);杂交测序引物和DNA聚合酶绑定;使用Qubit 2.0(Invitrogen,美国)和Agilent 2100(Agilent,美国)对构建文库的浓度和片段大小进行质量检测;构建好的文库通过PacBio Sequel II平台进行测序。
Hi-C文库构建:使用多聚甲醛固定DNA构象;限制性内切酶处理交联的DNA,产生粘性末端;DNA末端补平修复,并同时引入生物素,标记寡核苷酸末端;使用DNA连接酶连接DNA片段;蛋白酶消化解除与DNA的交联状态,纯化DNA并随机打断为300~500bp片段;使用亲和素磁珠捕获标记的DNA,对DNA片段进行末端修复、加A尾、加测序接头、纯化、PCR扩增;使用Qubit 2.0(Invitrogen,美国)和Agilent 2100(Agilent,美国)对构建文库的浓度和片段大小进行质量检测;构建好的文库通过Illumina HiSeq PE150测序。
二代转录组文库构建:使用带有Oligo(dT)的磁珠进行mRNA富集;通过超声波破碎仪(Covaris,美国)将富集到的mRNA随机打断成约200bp的片段;以片段化的mRNA为模板,利用随机引物反转录合成一链cDNA,合成第二链cDNA时dNTPs中的dTTP用dUTP代替;cDNA片段进行纯化、末端补平、加A尾、加测序接头;使用USER酶消化二链cDNA,使其文库中只含有一链cDNA;cDNA进行PCR富集;使用Qubit 2.0(Invitrogen,美国)和Agilent 2100(Agilent,美国)对构建文库的浓度和片段大小进行质量检测;构建好的文库通过Illumina Hiseq2500平台进行双端测序。
三代全长转录组文库构建:使用Clonetech SMARTerTM PCR cDNA Synthesis Kit合成mRNA的全长cDNA;使用PB磁珠纯化扩增的全长cDNA,去除部分1kb以下的小片段cDNA;对全长cDNA进行末端修复,连接SMRT哑铃型接头;进行核酸外切酶消化未连接接头的片段,再次使用PB磁珠进行纯化,获得测序文库;使用Qubit 2.0(Invitrogen,美国)和Agilent2100(Agilent,美国)对构建文库的浓度和片段大小进行质量检测;构建好的文库通过PacBio测序仪进行全长转录组测序。
1.3测序数据质控
DNA和RNA测序结束后得到原始数据(Raw reads),使用Fast QC软件进行过滤获得高质量序列(Clean reads)。
二代DNA测序数据过滤条件为:1)去除含有接头序列的reads;2)去除重复reads;3)当单端测序read中的一端含有的N的含量超过该条read长度比例的10%时,需要去除此对paired reads;4)当单端测序read中的一端含有的低质量(<=5)碱基数超过该条read长度比例的50%时,需要去除此对paired reads。质控后共获得249998309340bp的cleandata。
三代DNA测序数据过滤条件为:1)去除含有接头序列的reads;2)去除长度短于1000bp的reads;3)去除低质量reads。质控后共获得2729705014bp的clean data。
Hi-C测序数据过滤条件为:1)去除含有接头序列的reads;2)去除测序read两端连续质量小于20的碱基;3)当测序read最终长度小于50bp时,去除此条reads。4)仅保留成对reads。质控后共获得2694746666bp的clean data。
二代转录组测序数据过滤条件为:1)去除含有接头序列的reads;2)去除3’端;3)去除低质量reads。质控后3个肝脏样品平均获得9151750600bp的clean data。
三代全长转录组测序数据过滤条件为:1)使用SMRTlink软件(参数设置为最短Subreads长度=50,最大Subreads长度=15,000,最小测序循环数=3,最低预测准确性=0.99)对原始测序数据进行预处理,对单分子测序的高质量reads进行拆分得到subreads,同一高质量reads得到的subreads经过自我纠错形成环化一致序列;2)通过检测嵌合体序列、5’和3’端测序引物,对环化一致序列进行分类,找出全长非嵌合序列用于后续分析。质控后具有polyA的全长非嵌合序列为289585775bp。
1.4基因组大小和杂合率评估
获得的高质量序列(Clean reads),采用基于K-mer的分析方法来估计基因组大小、杂合率和重复序列信息。其主要目的是了解该基因组的复杂程度。通过Illumina HiseqPE150平台测序后获得贵德黑裘皮羊二代基因文库,共包括249998309340bp的clean data,测序质量正常,测序错误率正常。选择K=17,可以产生的K-mer种类数为417,由此可保证产生足够多的K-mer种类数去覆盖整个基因组。根据公式
Figure BDA0003023701190000081
计算基因组大小,G为基因组大小,nbase和nK-mer为序列的碱基总数和K-mer数,Cbase和CK-mer为覆盖碱基的期望深度和K-mer期望覆盖深度。根据公式
Figure BDA0003023701190000082
计算基因组杂合率,
Figure BDA0003023701190000083
为杂合率,a1/2为杂合K-mer种类数的百分比,nkspecies为所有K-mer的种类数。
1.5基因组组装、纠错和评估
利用1.4获得的贵德黑裘皮羊的基因组大小和杂合率结果,使用mecat2软件得到原始组装结果,参数设置为:MIN_READ_LENGTH=10000,CNS_OPTIONS="-r 0.6-a 1000-c4-l2000",ASM_OVLP_OPTIONS="-n 100-z 10-b 2000-e 0.5-j 1-u 0-a 400"。
使用smrtlink 7.0的纠错软件arrow(v2.2.2,默认参数)基于三代全长转录组文库对原始组装结果进行纠错,使用pilon软件(v1.22,默认参数)基于二代转录组文库再进行纠错。
原始组装并纠错后获得2729705014bp的基因组序列,Contig number为1972,Contigs N50为20303496bp,Scaffoldnumber为726,ScaffoldN50为100767354bp。
组装和纠错后对基因组进行评估,统计A、G、C、T和N在基因组中的占比和GC含量;选择绵羊基因组中CLR(Continuous Long Reads)subreads,使用minimap2软件(默认参数)比对到组装好的基因组,统计reads的比对率、覆盖基因组程度和深度分布情况,由此评估组装的完整性和测序覆盖的均匀性;基于OrthoDB中的单拷贝同源基因集,使用BUSCO预测这些基因并统计其完整度、碎片化程度和可能的丢失率,由此评估整个组装结果中基因区的完整性;用BWA将reads比对到参考基因组,用GATK进行SNP calling并过滤,统计纯合和杂合SNP个数,根据比对结果统计insersize。
1.6 Hi-C辅助组装和评估
利用纠错后的组装结果进行Hi-C辅助组装,得到最终的基因组组装结果。质控得到的clean data使用BWA软件进行比对,使用Lachesis软件将离酶切位点500bp以外的序列去除,得到的数据进行辅助组装。基于顺式互作(同一染色体内的互作)远大于反式互作(不同染色体间的互作),且顺式互作中线性距离越近则互作越强的原理,将contigs或者scaffolds进行聚类、排序、定向,得到染色体水平基因组。将辅助组装后的基因组,利用Juicer软件构建互作图谱,使用JucieBox软件对其进行可视化纠错。基于OrthoDB中的单拷贝同源基因集,使用BUSCO软件预测这些基因并统计其完整度,碎片化程度及可能的丢失率。Hi-C辅助组装后获得2694746666bp的基因组序列,Contig number为1273,Contigs N50为20303496bp,Scaffoldnumber为27,ScaffoldN50为107633389bp,能完整比对BUSCO的基因占93.10%。
构建流程如图1所示。
1.7基因组注释和评估
重复序列的识别:结合基于RepBase库(http://www.girinst.org/repbase)的同源预测方法(RepeatMasker和RepeatProteinMask)、基于自身序列比对(RepeatModeler)及重复序列特征(LTR-FINDER)的De novo从头预测方法检测重复序列。此外,De novo从头预测方法还利用了TRF软件寻找基因组中串联重复序列。
非编码RNA的预测:非编码RNA的注释过程中,根据tRNA的结构特征,利用tRNAscan-SE软件来寻找基因组中的tRNA序列。由于rRNA具有高度的保守性,因此可以选择近缘物种的rRNA序列作为参考序列,通过BLASTN比对来寻找基因组中的rRNA。利用Rfam家族的协方差模型,采用Rfam自带的INFERNAL软件预测基因组上的miRNA和snRNA序列信息。
基因结构预测和功能注释:使用De novo从头预测(Augustus和Genscan软件)、homolog同源预测(选择C.hircus、H.sapiens、O.aries_rambouillet_v1.0和O.aries_Oar_v4.0作为同源物种)和转录组证据支持(trans.orf/ISOseq)3种方法进行编码基因的结构预测,参数设置为默认参数。使用MAKER软件(默认参数),将上述3种方法预测得到的基因集整合成一个非冗余的、更加完整的基因集。最后借助于外源蛋白数据库(InterPro、GO、KEGG_ALL、KEGG_KO、SwissProt、TrEMBL和NR)对基因集中的蛋白进行功能注释。
2结果
2.1贵德黑裘皮羊基因组大小和杂合率评估
通过IlluminaHiseq PE150平台测序后,共获得249998309340bp的clean data,测序质量正常,测序错误率正常。随机抽取10000对reads数据,通过Blast软件比对NCBI核苷酸数据库(NT库),比对结果显示文库数据中不含有明显的外源污染,建库测序成功。K-mer分析结果显示,K=17时可以产生的K-mer总数为223031778170,K-mer深度为81(图2)。因此预估贵德黑裘皮羊基因组大小约为2669.83Mb,杂合率为0.39%,重复序列比例为60.76%,基因组GC含量约为42%。
2.2贵德黑裘皮羊基因组组装结果评估
通过PacBio组装贵德黑裘皮羊基因组序列长度为2.73Gb,contig N50=20.30Mbp,共1972条contigs(表1)。通过Hi-C辅助组装,最终确定贵德黑裘皮羊基因组顺序及方向确定的染色体长度2.69Gb,contigs N50=20.30Mb,scaffold N50=107.63Mb,contig长度锚定率为98.72%,contig数量锚定率为64.55%(表1)。贵德黑裘皮羊基因组GC含量为42.42%(1158123872bp)。PacBio组装和Hi-C辅助组装后能完整比对BUSCO的基因占93.10%。
表1贵德黑裘皮羊基因组PacBio组装Hi-C辅助组装情况统计
Figure BDA0003023701190000101
2.3贵德黑裘皮羊基因组注释
通过TRF、Repeatmasker、Proteinmask和De novo方法进行贵德黑裘皮羊基因组重复序列注释。去掉4种方法的重叠部分结果,重复序列大小为1443323654bp,占贵德黑裘皮羊基因组的52.86%。非编码RNA中注释到tRNA、rRNA、miRNA和snRNA个数分别为254044(0.6816%)、231(0.0055%)、523(0.0016%)和2025(0.0084%)。
通过MAKER软件整合De novo从头预测、homolog同源预测和转录组证据支持的结果后,在贵德黑裘皮羊基因组中共预测到20504个编码蛋白质的基因,平均基因长度为44767.90bp,平均CDS序列长度为1464.19bp,平均每个基因外显子数目为12.81个,平均外显子长度为216.89bp,平均内含长度为4568.52bp(表2)。
表2贵德黑裘皮羊基因组预测结果统计
Figure BDA0003023701190000102
借助外源蛋白数据库InterPro、GO、KEGG_ALL、KEGG_KO、SwissProt、TrEMBL和NR对贵德黑裘皮羊基因集中的蛋白进行功能注释,共注释到20226个编码蛋白质的基因,占上述7种蛋白数据库的98.64%(表3)。使用BUSCO软件进行贵德黑裘皮羊基因组注释评估,能完整比对BUSCO的基因有3695个,占比为90.0%。
表3贵德黑裘皮羊基因组注释结果统计
Figure BDA0003023701190000111
2.4与已报道的绵羊基因组比较分析
通过Illumina、PacBio和Hi-C技术组装出了高质量染色体水平的贵德黑裘皮羊基因组。本发明所述的贵德黑裘皮羊基因组组装中Contigs N50为20.30Mb,ScaffoldN50为107.63Mb,相较于现有技术公开的湖羊、朗布依埃羊(Rambouillet sheep)、马可波罗羊(Marco Polo sheep)、特克赛尔羊(Texel)、雪羊(Snow sheep)以及摩弗仑羊(mouflon),本基因组序列长度更长,质量明显提高,鉴定到的重复序列更多,基因注释的序列完整性更高,注释基因数目更加接近于绵羊的平均基因数量,且本发明首次完成了贵德黑裘皮羊的基因组注释。具体数据见表4。
表4各品种绵羊基因组组装和注释效果比较分析
Figure BDA0003023701190000112
Figure BDA0003023701190000121

Claims (10)

1.一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法,其特征在于,所述的方法包括如下步骤:
(1)采集贵德黑裘皮羊血液和组织样本:分别提取贵德黑裘皮羊血液和组织样本的DNA和RNA;
(2)构建基因组文库和转录组文库:针对步骤(1)提取得到的DNA片段分别构建二代DNA文库、三代DNA文库和Hi-C文库,获得贵德黑裘皮羊基因组文库;针对步骤(1)提取得到的RNA片段构建二代转录组文库和三代全长转录组文库,获得贵德黑裘皮羊转录组文库;并对构建所得的文库进行过滤;
(3)采用步骤(2)获得的二代DNA文库评估获得贵德黑裘皮羊的基因组大小和杂合率;
(4)基因组组装、纠错和评估:利用步骤(3)获得的贵德黑裘皮羊的基因组大小和杂合率结果,选择mecat2软件对步骤(2)所述的过滤后的三代DNA文库进行组装得到原始组装结果;使用smrtlink 7.0的纠错软件arrow基于步骤(2)得到的三代全长转录组文库对原始组装结果进行纠错,使用pilon软件基于步骤(2)得到的二代转录组文库进行再纠错;
(5)Hi-C辅助组装和评估:对步骤(4)进行再纠错后得到的组装结果进行Hi-C辅助组装,构建互作图谱,进行可视化纠错,得到贵德黑裘皮羊基因组;
(6)基因组注释和评估:重复序列的识别;非编码RNA的预测;编码基因结构预测和功能注释:使用De novo从头预测、homolog同源预测和转录组证据支持3种方法进行编码基因的结构预测,参数设置为默认参数;使用MAKER软件,将上述3种方法预测得到的基因集整合成一个基因集;最后借助于蛋白数据库InterPro、GO、KEGG_ALL、KEGG_KO、SwissProt、TrEMBL和NR对基因集中的蛋白进行功能注释。
2.如权利要求1所述的方法,其特征在于,步骤(4)所述的原始组装的mecat2软件参数设置为:MIN_READ_LENGTH=10000,CNS_OPTIONS="-r 0.6-a 1000-c 4-l 2000",ASM_OVLP_OPTIONS="-n 100-z 10-b 2000-e 0.5-j 1-u 0-a 400"。
3.如权利要求1所述的方法,其特征在于,步骤(4)所述的纠错软件arrow的版本为v2.2.2,参数设置为默认参数;pilon软件的版本为v1.22,参数设置为默认参数。
4.如权利要求1所述的方法,其特征在于,步骤(5)所述的Hi-C辅助组装是指使用ALLHiC软件将纠错后的组装结果进行组装;利用Juicer软件构建互作图谱,使用JucieBox软件对其进行可视化纠错。
5.如权利要求1所述的方法,其特征在于,步骤(5)所述的Hi-C辅助组装所需要的序列是将步骤(4)质控得到的clean data使用BWA软件进行比对,使用Lachesis软件将离酶切位点500bp以外的序列去除,得到的数据进行Hi-C辅助组装。
6.如权利要求1所述的方法,其特征在于,步骤(6)所述的重复序列的识别是结合基于RepBase库的同源预测方法、基于自身序列比对及重复序列特征的De novo从头预测方法检测重复序列;还利用了TRF软件寻找基因组中串联重复序列;非编码RNA的预测:非编码RNA的注释过程中,根据tRNA的结构特征,利用tRNA scan-SE软件来寻找基因组中的tRNA序列。
7.如权利要求1所述的方法,其特征在于,步骤(1)所述的DNA提取自贵德黑裘皮羊血液和肝脏组织;RNA提取自贵德黑裘皮羊组织,所述的贵德黑裘皮羊组织是指心脏、肝脏、肺脏、脾脏、瘤胃和肌肉。
8.如权利要求1所述的方法,其特征在于,步骤(2)所述的二代DNA文库的构建方法为:通过超声波破碎仪将提取获得的贵德黑裘皮羊DNA随机打断成长度为300-350bp的片段;DNA片段进行末端修复、加A尾、加测序接头、纯化、PCR扩增;
三代DNA文库的构建方法为:将基因组DNA剪切至20kb大小;DNA片段纯化和浓缩;DNA片段进行末端修复、加测序接头;目的片段筛选;杂交测序引物和DNA聚合酶绑定;
Hi-C文库的构建方法为:使用多聚甲醛固定提取获得的贵德黑裘皮羊DNA的构象;限制性内切酶处理交联的DNA,产生粘性末端;DNA末端补平修复,并同时引入生物素,标记寡核苷酸末端;使用DNA连接酶连接DNA片段;蛋白酶消化解除与DNA的交联状态,纯化DNA并随机打断为300~500bp片段;使用亲和素磁珠捕获标记的DNA,对DNA片段进行末端修复、加A尾、加测序接头、纯化、PCR扩增;
二代转录组文库的构建方法为:从提取获得的贵德黑裘皮羊RNA中富集mRNA;通过超声波破碎仪将富集到的mRNA随机打断成200bp的片段;以片段化的mRNA为模板,利用随机引物反转录合成一链cDNA,合成第二链cDNA时dNTPs中的dTTP用dUTP代替;cDNA片段进行纯化、末端补平、加A尾、加测序接头;使用USER酶消化二链cDNA,使其文库中只含有一链cDNA;cDNA进行PCR富集,获得贵德黑裘皮羊的二代转录组文库;
三代全长转录组文库的构建方法为:合成mRNA的全长cDNA;纯化扩增的全长cDNA,去除1kb以下的小片段cDNA;对全长cDNA进行末端修复,连接SMRT哑铃型接头;进行核酸外切酶消化未连接接头的片段,再次使用PB磁珠进行纯化,获得贵德黑裘皮羊的三代转录组文库。
9.如权利要求8所述的方法,其特征在于,二代DNA文库的测序数据过滤条件为:(1)去除含有接头序列的reads;(2)去除重复reads;(3)当单端测序read中的一端含有的N的含量超过该条read长度比例的10%时,需要去除此对paired reads;(4)当单端测序read中的一端含有的Q≤5碱基数超过该条read长度比例的50%时,需要去除此对reads;
三代DNA文库的测序数据过滤条件为:(1)去除含有接头序列的reads;(2)去除长度短于1000bp的reads;(3)去除低质量reads;
Hi-C文库的测序数据过滤条件为:(1)去除含有接头序列的reads;(2)去除测序read两端连续质量小于20的碱基;(3)当测序read最终长度小于50bp时,去除此条reads;(4)仅保留成对reads;
二代转录组文库测序数据过滤条件为:(1)去除含有接头序列的reads;(2)去除3’端;(3)去除低质量reads;
三代全长转录组文库的测序数据过滤条件为:(1)使用SMRTlink软件对原始测序数据进行预处理,参数设置为最短Subreads长度=50,最大Subreads长度=15,000,最小测序循环数=3,最低预测准确性=0.99,对单分子测序的高质量reads进行拆分得到subreads,同一高质量reads得到的subreads经过自我纠错形成环化一致序列;(2)通过检测嵌合体序列、5’和3’端测序引物,对环化一致序列进行分类,找出全长非嵌合序列用于后续分析。
10.根据权利要求1-9任一项所述的方法组装和注释得到的贵德黑裘皮羊基因组序列。
CN202110409811.7A 2021-04-16 2021-04-16 一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法 Pending CN113005189A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110409811.7A CN113005189A (zh) 2021-04-16 2021-04-16 一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110409811.7A CN113005189A (zh) 2021-04-16 2021-04-16 一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法

Publications (1)

Publication Number Publication Date
CN113005189A true CN113005189A (zh) 2021-06-22

Family

ID=76388831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110409811.7A Pending CN113005189A (zh) 2021-04-16 2021-04-16 一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法

Country Status (1)

Country Link
CN (1) CN113005189A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190214106A1 (en) * 2017-12-27 2019-07-11 The Jackson Laboratory Methods for multiplex chromatin interaction analysis by droplet sequencing with single molecule precision
CN110093406A (zh) * 2019-05-27 2019-08-06 新疆农业大学 一种盘羊及其杂交后代遗传基因研究方法
CN110189796A (zh) * 2019-05-27 2019-08-30 新疆农业大学 一种绵羊全基因组重测序分析方法
CN112133368A (zh) * 2020-10-13 2020-12-25 南开大学 一种基于三代测序技术的宏基因组测序数据的自动化分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190214106A1 (en) * 2017-12-27 2019-07-11 The Jackson Laboratory Methods for multiplex chromatin interaction analysis by droplet sequencing with single molecule precision
CN110093406A (zh) * 2019-05-27 2019-08-06 新疆农业大学 一种盘羊及其杂交后代遗传基因研究方法
CN110189796A (zh) * 2019-05-27 2019-08-30 新疆农业大学 一种绵羊全基因组重测序分析方法
CN112133368A (zh) * 2020-10-13 2020-12-25 南开大学 一种基于三代测序技术的宏基因组测序数据的自动化分析方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
CAIHONG WEI: "Whole genome sequencing", 《NCBI》 *
CAIHONG WEI: "Whole genome sequencing", 《NCBI》, 27 March 2019 (2019-03-27), pages 1 *
JIANKAI WEI等: "Genomic basis of environmental adaptation in the leathery sea squirt (Styela clava)", 《MOLECULAR ECOLOGY RESOURCES》 *
JIANKAI WEI等: "Genomic basis of environmental adaptation in the leathery sea squirt (Styela clava)", 《MOLECULAR ECOLOGY RESOURCES》, vol. 20, no. 5, 30 September 2020 (2020-09-30), pages 2 *
吴海楠: "基于三代测序技术的小叶杨基因组研究", 《中国优秀硕士学位论文全文数据库农业科技辑》 *
吴海楠: "基于三代测序技术的小叶杨基因组研究", 《中国优秀硕士学位论文全文数据库农业科技辑》, no. 01, 15 January 2021 (2021-01-15), pages 049 - 195 *
鲍亚宁: "高温下亚麻纤维发育相关转录组及生长素信号相关基因的研究", 《中国优秀博硕士学位论文全文数据库(博士) 农业科技辑》 *
鲍亚宁: "高温下亚麻纤维发育相关转录组及生长素信号相关基因的研究", 《中国优秀博硕士学位论文全文数据库(博士) 农业科技辑》, 15 February 2021 (2021-02-15), pages 90 - 91 *
黄丽芬等: "贵德黑裘皮羊mtDNA COI基因系统进化分析", 《 现代畜牧兽医》 *
黄丽芬等: "贵德黑裘皮羊mtDNA COI基因系统进化分析", 《 现代畜牧兽医》, 12 March 2021 (2021-03-12), pages 6 - 9 *

Similar Documents

Publication Publication Date Title
Ling et al. Genome sequence of the progenitor of wheat A subgenome Triticum urartu
JP5389638B2 (ja) 制限断片に基づく分子マーカーのハイスループットな検出
Mouse Genome Sequencing Consortium Genome Sequencing Center: Chinwalla Asif T. 1 Cook Lisa L. 1 Delehaunty Kimberly D. 1 Fewell Ginger A. 1 Fulton Lucinda A. 1 Fulton Robert S. 1 Graves Tina A. 1 Hillier LaDeana W. 1 Mardis Elaine R. 1 McPherson John D. 1 Miner Tracie L. 1 Nash William E. 1 Nelson Joanne O. 1 Nhan Michael N. 1 Pepin Kymberlie H. 1 Pohl Craig S. 1 Ponce Tracy C. 1 Schultz Brian 1 Thompson Johanna 1 Trevaskis Evanne 1 Waterston Robert H. waterston@ gs. washington. edu 1 y Wendl Michael C. 1 Wilson Richard K. 1 Yang Shiaw-Pyng 1 et al. Initial sequencing and comparative analysis of the mouse genome
Neves et al. Whole‐exome targeted sequencing of the uncharacterized pine genome
EP2663655B1 (en) Paired end random sequence based genotyping
CN102770558B (zh) 由母本生物样品进行胎儿基因组的分析
Deschamps et al. Utilization of next-generation sequencing platforms in plant genomics and genetic variant discovery
Everett et al. Short reads and nonmodel species: exploring the complexities of next‐generation sequence assembly and SNP discovery in the absence of a reference genome
EP2718866B1 (en) Providing nucleotide sequence data
Kukekova et al. Sequence comparison of prefrontal cortical brain transcriptome from a tame and an aggressive silver fox (Vulpes vulpes)
Mitros et al. A chromosome-scale genome assembly and dense genetic map for Xenopus tropicalis
EP2379751B1 (en) Novel genome sequencing strategies
CN113151426A (zh) 一种基于三代PacBio和Hi-C技术组装和注释霍巴藏绵羊基因组的方法
CN107406875A (zh) 使用CRISPR/Cas系统蛋白靶向消减、富集、和分割核酸的组合物及方法
Chen et al. The sequencing and de novo assembly of the Larimichthys crocea genome using PacBio and Hi-C technologies
JP2013514079A (ja) 制限酵素に基づく全ゲノムシーケンシング
Weisrock et al. Surmounting the large-genome “problem” for genomic data generation in salamanders
Formenti et al. SMRT long reads and Direct Label and Stain optical maps allow the generation of a high-quality genome assembly for the European barn swallow (Hirundo rustica rustica)
CN113122642A (zh) 一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法
Barbazuk et al. Reduced representation sequencing: a success in maize and a promise for other plant genomes
Schnitzler et al. The genome of the colonial hydroid Hydractinia reveals that their stem cells use a toolkit of evolutionarily shared genes with all animals
CN113005189A (zh) 一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法
Higasa et al. Extremely slow rate of evolution in the HOX cluster revealed by comparison between Tanzanian and Indonesian coelacanths
CN113293218B (zh) 一种用于选择斑点叉尾鮰增重性状的snp分子标记及应用
Bellec et al. Long read sequencing technology to solve complex genomic regions assembly in plants

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination