CN111445953A - 一种利用全基因组比对拆分四倍体鱼类亚基因组的方法 - Google Patents

一种利用全基因组比对拆分四倍体鱼类亚基因组的方法 Download PDF

Info

Publication number
CN111445953A
CN111445953A CN202010226473.9A CN202010226473A CN111445953A CN 111445953 A CN111445953 A CN 111445953A CN 202010226473 A CN202010226473 A CN 202010226473A CN 111445953 A CN111445953 A CN 111445953A
Authority
CN
China
Prior art keywords
comparison
splitting
genome
results
astz
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010226473.9A
Other languages
English (en)
Other versions
CN111445953B (zh
Inventor
袁晓辉
刘海平
肖世俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanya Boruiyuan Technology Co.,Ltd.
Original Assignee
Wuhan Gooal Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Gooal Gene Technology Co ltd filed Critical Wuhan Gooal Gene Technology Co ltd
Priority to CN202010226473.9A priority Critical patent/CN111445953B/zh
Publication of CN111445953A publication Critical patent/CN111445953A/zh
Application granted granted Critical
Publication of CN111445953B publication Critical patent/CN111445953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种利用全基因组比对拆分四倍体鱼类亚基因组的方法,所属分子生物学技术领域,具体由以下步骤完成:1)Lastz全基因组比对;2)比对结果连锁,共线性化;3)重复比对序列处理;4)全局比对结果聚类,拆分多倍体为R1和R2;5)多倍体拆分结果的评估。本发明方法无需要亚基因组测序,只需要已经有初步组装的多倍体基因组,该方法可以拆分90%以上的亚基因组序列,只需要3天的数据处理时间,该方法结果准确,多倍体鱼类的亚基因组研究,继而的功能基因组研究,遗传育种,发育进化提供了一种切实可行的技术。

Description

一种利用全基因组比对拆分四倍体鱼类亚基因组的方法
技术领域
本发明属于分子生物学技术领域,具体涉及一种利用全基因组比对拆分四倍体鱼类亚基因组的方法。
背景技术
可持续水产养殖是一种高效的生产方式,通过消耗最少的谷物来获得动物蛋白,为世界粮食安全和人类营养做出了巨大贡献。自1980年以来,鱼和其它水产品的产量增加几乎全部来自水产养殖生产,值得注意的是,两种多倍体动物,包括自然进化的多倍体和人工诱导的多倍体已广泛用于全球水产养殖。许多经济上重要的水产养殖鱼类,例如鲤鱼,鲑鱼,鲤鱼和长鳍金枪鱼,都是天然的多倍体或已从多倍体祖先进化而来。
多倍体是具有3个或更多染色体组(基因组)的生物,在植物中非常常见,其中所有被子植物均为古多倍体,多倍体通常会很好地适应不稳定的环境,并具有杂种优势、基因冗余和单性繁殖优势,这可能会推动进化的成功并丰富物种的多样性,多倍体化可能导致瞬时物种形成。
多倍体化的结果和增加的基因数目为功能差异和创新提供了原材料,包括基因新功能化和亚功能化,将多倍体鱼类的祖先基因定义为R,多倍后形成了两个R,及R1和R2,以往的研究发现,复制后的基因R1和R2产生了较大区别,它们会有序列水平的分化,表达和表观遗传的差异,所以区分正确的区分R1和R2可以系统的研究其功能,获得在水产养殖中的优良基因,用于水产的遗传育种具有重要的意义。
发明内容
为准确并且消耗较低计算资源拆分高相似度R1和R2(相似度大于90%),本发明提供一种利用全基因组比对拆分四倍体鱼类亚基因组的方法,本方法根据亚基因组R1和R2的序列相似度开发了一种通过全基因组比对,比对聚类,准确全面的拆分亚基因组,并进行评估。
其具体技术方案如下:
一种利用全基因组比对拆分四倍体鱼类亚基因组的方法,包括如下步骤:
步骤1,Lastz全基因组比对:
Lastz进行全基因组比对的时候,首先使用repeatmasker的重复序列注释结果对于基因组进行屏蔽,防止产生过多的无效比对;接着使用Lastz进行比对,比对参数经过调试为:--seed=12of19--notransition--chain--gapped--gap=400,30--hspthresh=2000--gappedthresh=3000--ydrop=3400--gappedthresh=4000--inner=2000--format=axt--scores=/home/fandingding/software/lastz-distrib-1.04.00/bin/HoxD55.score;
步骤2,比对结果连锁,共线性化:
Lastz获得的比对结果是局部比对结果,通过对于局部块的聚类,链接,然后根据共线性化,获得共线性化的1:1基因组比对结果,对于局部比对的结果进行连锁,连锁的关键参数为:axtChain-linearGap=medium lastz.axt target.2bit query.2bitlastz.chain;
步骤3,重复序列处理:
将比对区域有50%的重叠以上的比对结果聚类,然后对于聚类根据比对区域长度和序列相似度进行打分,比对一个碱基为1分,选取分数最高的比对作为这个区域的比对,舍弃掉其它所有的比对结果;bedtools cluster的参数为0.5;
步骤4,全局比对结果聚类,拆分多倍体为R1和R2:
根据两两比对的结果,将这些比对结果构建一个网络,网络的头部就是拆分的起点,定义为R1;其对应的序列就为R2,一次延伸,直到网络的另一个终点;
步骤5,多倍体拆分结果的评估:
R1和R2分别代表每一份的拆分基因组,通过Busco使用大于2000个在所有动物中都保守存在的基因,对于亚基因组的完整度和准确度分别评估,可以确认拆分结果的完整度。
本发明的一种利用全基因组比对拆分四倍体鱼类亚基因组的方法,与现有技术相比,有益效果为:
一、相对于全基因组我们选用Lastz比对,该方法具有较高的敏感度。
二、Lastz属于局部比对软件我们通过聚类,可链接获得全局比对结果。
三、对于重复序列的和多个比对的处理,保证了准确拆分重复序列区域,大大提高了拆分效率。
四、对于R1和R2的拆分结果用busco进行评估,可以对于拆分的结果进行量化。
综上,本发明方法不需要对于亚基因组单独测序,并且很多时候亚基因组无法分开测序,通过全基因组的序列比较,比对聚类和链接,以及重复序列区域处理,及其定量评估,可以在3天内拆分完成基因组,准确度大于90%,完整度大于95%;为亚基因组的拆分提供一套有效,迅速,准确的方法,为多倍体基因组的亚基因组研究提供了重要的数据,是后续的功能分化和多倍体遗传育种,品种鉴定,发育进化的重要技术支撑。
附图说明
图1为本发明实施例的全基因组比对及其比对片段处理图;
图2为本发明实施例根据基因组比对的处理结果进行聚类和亚基因组拆分图。
具体实施方试
下面结合具体实施案例和附图1-2对本发明作进一步说明,但本发明并不局限于这些实施例。
一种利用全基因组比对拆分四倍体鱼类亚基因组的方法,包括如下步骤:
步骤1,Lastz全基因组比对:
如图1所示,Lastz进行全基因组比对的时候,首先使用repeatmasker的重复序列注释结果对于基因组进行屏蔽,防止产生过多的无效比对。接着使用Lastz进行比对,比对参数经过调试为:--seed=12of19--notransition--chain--gapped--gap=400,30--hspthresh=2000--gappedthresh=3000--ydrop=3400--gappedthresh=4000--inner=2000--format=axt--scores=/home/fandingding/software/lastz-distrib-1.04.00/bin/HoxD55.score.这里我们选取异齿裂腹鱼的基因组,其基因组大小2G,基因组上有50%的重复区域被屏蔽掉,见过48个cpu小时的比对,获得全基因组的比对结果,比对率为96%;
步骤2,比对结果连锁,共线性化:
对于局部比对的结果使用如下命令进行连锁,共线性处理,参数:axtChain-linearGap=medium lastz.axt target.2bit query.2bit lastz.chain;
去掉无法连锁的区域:
chainPreNet lastz.chain$fas.fai$fas.fai Prenet.chain
hainNet Prenet.chain$fas.fai$fas.fai target.net query.net
netSyntenic target.net target.out.net
netToAxt target.out.net Prenet.chain target.2bit query.2bit out.axt;
axtToMaf out.axt$fas.fai$fas.fai out.maf;~/software/last/bin/maf-convert blasttab out.maf>out.tab
多序列比对结果获得,并转化为blast的tab格式;
步骤3,重复序列处理:
对于重复比对的区域,我么这里首先根据参数,将比对区域有50%的重叠以上的比对结果聚类,然后对于聚类根据比对区域长度和序列相似度进行打分,比对一个碱基为1分,选取分数最高的比对作为这个区域的比对,舍弃掉其它所有的比对结果;bedtoolscluster的参数为0.5;
步骤4,全局比对结果聚类,拆分多倍体为R1和R2:
如图2所示,根据以上的比对结果,可以得到一个染色体(或者contig,scaffold)片段最多可以和两个片段比对上,根据两两比对的结果,可以将这些比对结果构建一个网络,而网络的头部就是拆分的起点,定义为R1其对应的序列就是R2,一次延伸,直到网络的另一个终点。异齿裂腹鱼12002条序列拆分为5000和5400条序列两个亚基因组,一个980M,另一个为990Mb;
步骤5,多倍体拆分结果的评估:
将2395个在所有动物中都保守存在的基因,通过Busco对于亚基因组分别评估,发现在每个亚基因组上丢失率都小鱼2%,说明我们完整和准确的拆分了98%的亚基因。

Claims (3)

1.一种利用全基因组比对拆分四倍体鱼类亚基因组的方法,其特征在于,包含如下步骤:
步骤1,Lastz全基因组比对:
Lastz进行全基因组比对的时候,首先使用repeatmasker的重复序列注释结果对于基因组进行屏蔽,防止产生过多的无效比对;接着使用Lastz进行比对;
步骤2,比对结果连锁,共线性化:
Lastz获得的比对结果是局部比对结果,通过对于局部块的聚类,链接,然后根据共线性化,获得共线性化的1:1基因组比对结果,对于局部比对的结果进行连锁;
步骤3,重复序列处理:
将比对区域有50%的重叠以上的比对结果聚类,然后对于聚类根据比对区域长度和序列相似度进行打分,比对一个碱基为1分,选取分数最高的比对作为这个区域的比对,舍弃掉其它所有的比对结果;bedtools cluster的参数为0.5;
步骤4,全局比对结果聚类,拆分多倍体为R1和R2:
根据两两比对的结果,将这些比对结果构建一个网络,网络的头部就是拆分的起点,定义为R1;其对应的序列就为R2,一次延伸,直到网络的另一个终点;
步骤5,多倍体拆分结果的评估:
R1和R2分别代表每一份的拆分基因组,通过Busco使用大于2000个在所有动物中都保守存在的基因,对于亚基因组的完整度和准确度分别评估,可以确认拆分结果的完整度。
2.根据权利要求1所述的一种利用全基因组比对拆分四倍体鱼类亚基因组的方法,其特征在于步骤1中,所述Lastz比对参数调试为:--seed=12of19--notransition--chain--gapped--gap=400,30--hspthresh=2000--gappedthresh=3000--ydrop=3400--gappedthresh=4000--inner=2000--format=axt--scores=/home/fandingding/software/lastz-distrib-1.04.00/bin/HoxD55.score。
3.根据权利要求1所述的一种利用全基因组比对拆分四倍体鱼类亚基因组的方法,其特征在于步骤2中,所述连锁的关键参数为:axtChain-linearGap=medium lastz.axttarget.2bit query.2bit lastz.chain。
CN202010226473.9A 2020-03-27 2020-03-27 一种利用全基因组比对拆分四倍体鱼类亚基因组的方法 Active CN111445953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010226473.9A CN111445953B (zh) 2020-03-27 2020-03-27 一种利用全基因组比对拆分四倍体鱼类亚基因组的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010226473.9A CN111445953B (zh) 2020-03-27 2020-03-27 一种利用全基因组比对拆分四倍体鱼类亚基因组的方法

Publications (2)

Publication Number Publication Date
CN111445953A true CN111445953A (zh) 2020-07-24
CN111445953B CN111445953B (zh) 2022-04-26

Family

ID=71652493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010226473.9A Active CN111445953B (zh) 2020-03-27 2020-03-27 一种利用全基因组比对拆分四倍体鱼类亚基因组的方法

Country Status (1)

Country Link
CN (1) CN111445953B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116779035A (zh) * 2023-05-26 2023-09-19 成都基因汇科技有限公司 多倍体转录组亚基因组分型方法及计算机可读存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957892A (zh) * 2010-09-17 2011-01-26 深圳华大基因科技有限公司 一种全基因组复制事件的检测方法和系统
CN103525939A (zh) * 2013-10-28 2014-01-22 广州爱健生物技术有限公司 无创检测胎儿染色体非整倍体的方法和系统
CN103843001A (zh) * 2011-04-14 2014-06-04 考利达基因组股份有限公司 复杂核酸序列数据的处理和分析
CN104164479A (zh) * 2014-04-04 2014-11-26 深圳华大基因科技服务有限公司 杂合基因组处理方法
CN106987648A (zh) * 2017-06-01 2017-07-28 中国农业大学 一种高通量的植物器官发育相关ssr分子标记方法
WO2017214461A1 (en) * 2016-06-08 2017-12-14 The Broad Institute, Inc. Linear genome assembly from three dimensional genome structure
CN108121897A (zh) * 2016-11-29 2018-06-05 华为技术有限公司 一种基因组变异检测方法及检测装置
CN108220402A (zh) * 2017-12-25 2018-06-29 山东省农业科学院蔬菜花卉研究所 一种大白菜种质和品种系谱关系的鉴定方法
CN109063417A (zh) * 2018-07-09 2018-12-21 福建国脉生物科技有限公司 一种构造隐马尔科夫链的基因型填补方法
CN109346130A (zh) * 2018-10-24 2019-02-15 中国科学院水生生物研究所 一种直接从全基因组重测序数据中得到微单体型及其分型的方法
CN110021351A (zh) * 2018-07-19 2019-07-16 深圳华大生命科学研究院 分析碱基连锁强度以及基因分型方法和系统
CN110097976A (zh) * 2019-04-24 2019-08-06 华中科技大学鄂州工业技术研究院 中药复方制剂的生物成分分析方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957892A (zh) * 2010-09-17 2011-01-26 深圳华大基因科技有限公司 一种全基因组复制事件的检测方法和系统
CN103843001A (zh) * 2011-04-14 2014-06-04 考利达基因组股份有限公司 复杂核酸序列数据的处理和分析
CN103525939A (zh) * 2013-10-28 2014-01-22 广州爱健生物技术有限公司 无创检测胎儿染色体非整倍体的方法和系统
CN104164479A (zh) * 2014-04-04 2014-11-26 深圳华大基因科技服务有限公司 杂合基因组处理方法
US20190385703A1 (en) * 2016-06-08 2019-12-19 The Broad Institute, Inc. Linear genome assembly from three dimensional genome structure
WO2017214461A1 (en) * 2016-06-08 2017-12-14 The Broad Institute, Inc. Linear genome assembly from three dimensional genome structure
CN108121897A (zh) * 2016-11-29 2018-06-05 华为技术有限公司 一种基因组变异检测方法及检测装置
CN106987648A (zh) * 2017-06-01 2017-07-28 中国农业大学 一种高通量的植物器官发育相关ssr分子标记方法
CN108220402A (zh) * 2017-12-25 2018-06-29 山东省农业科学院蔬菜花卉研究所 一种大白菜种质和品种系谱关系的鉴定方法
CN109063417A (zh) * 2018-07-09 2018-12-21 福建国脉生物科技有限公司 一种构造隐马尔科夫链的基因型填补方法
CN110021351A (zh) * 2018-07-19 2019-07-16 深圳华大生命科学研究院 分析碱基连锁强度以及基因分型方法和系统
CN109346130A (zh) * 2018-10-24 2019-02-15 中国科学院水生生物研究所 一种直接从全基因组重测序数据中得到微单体型及其分型的方法
CN110097976A (zh) * 2019-04-24 2019-08-06 华中科技大学鄂州工业技术研究院 中药复方制剂的生物成分分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAOMEI FANG 等: "Genome-wide mining, characterization, and development of microsatellite markers in Tartary buckwheat (Fagopyrum tataricum Garetn.)", 《EUPHYTICA VOLUME 215》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116779035A (zh) * 2023-05-26 2023-09-19 成都基因汇科技有限公司 多倍体转录组亚基因组分型方法及计算机可读存储介质
CN116779035B (zh) * 2023-05-26 2024-03-15 成都基因汇科技有限公司 多倍体转录组亚基因组分型方法及计算机可读存储介质

Also Published As

Publication number Publication date
CN111445953B (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
Franchini et al. Transcriptome characterization of the South African abalone Haliotis midae using sequencing-by-synthesis
Henkel et al. First draft genome sequence of the Japanese eel, Anguilla japonica
Arbizu et al. Phylogenomics of the carrot genus (Daucus, Apiaceae)
CN111445948B (zh) 一种利用Hi-C进行多倍体鱼类的染色体构建方法
Yu et al. Whole-genome duplication and molecular evolution in Cornus L.(Cornaceae)–Insights from transcriptome sequences
WO2015102226A1 (ko) 차세대 시퀀싱 방법을 이용하여 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 dna의 완전한 게놈 서열을 해독하는 방법
Diwan et al. Gene editing (CRISPR-Cas) technology and fisheries sector
Zhang et al. A full-length transcriptome of Sepia esculenta using a combination of single-molecule long-read (SMRT) and Illumina sequencing
CN111445953B (zh) 一种利用全基因组比对拆分四倍体鱼类亚基因组的方法
Nguyen et al. The complete mitochondrial genome sequence of the indigenous I pig (Sus scrofa) in Vietnam
Nath et al. A haplotype resolved chromosomal level avocado genome allows analysis of novel avocado genes
Xu et al. A chromosome-level genome assembly of the red drum, Sciaenops ocellatus
Yue et al. Genomic resources and their applications in aquaculture of Asian seabass (Lates calcarifer)
Yue et al. Improving growth, omega-3 contents, and disease resistance of Asian seabass: status of a 20-year family-based breeding program
Generalovic et al. Cryptic diversity and signatures of domestication in the Black Soldier Fly (Hermetia illucens)
Perez-Enriquez et al. Improved genome assembly of the whiteleg shrimp Penaeus (Litopenaeus) vannamei using long-and short-read sequences from public databases
Mao et al. Chromosome-level genomes of seeded and seedless date plum based on third-generation DNA sequencing and Hi-C analysis
Gutierrez et al. Quantitative trait locus mapping in aquaculture species: principles and practice
CN114617085B (zh) 一种鞍带石斑鱼抗病家系的培育方法
Zhan et al. Complete mitochondrial genomes of two pearl oyster species (Bivalvia: Pteriomorphia) reveal novel gene arrangements
Taylor et al. Evolution of ray-finned fish genomes: Status and directions with a primer on microRNA characterization
Oikonomou et al. First linkage maps and a pilot QTL analysis for early growth performance in common dentex (Dentex dentex) and sharpsnout seabream (Diplodus puntazzo)
Zhang et al. De novo assembly and SSR loci analysis in Gasterophilus nasalis (Diptera: Oestridae)
CN106636204A (zh) 一种能够稳定遗传的白化大鳞副泥鳅育种方法
Mushtaq et al. Principles of genome editing and its applications in fisheries

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230406

Address after: No. 303, 3rd Floor, Building 9, Youyou Industrial Park, Yazhou Bay Science and Technology City, Yazhou District, Sanya City, Hainan Province, 572025

Patentee after: Sanya Boruiyuan Technology Co.,Ltd.

Address before: 430070 floor 15, block B, incubation building, Wuhan University of technology, No. 122 Luoshi Road, Hongshan District, Wuhan City, Hubei Province

Patentee before: WUHAN GOOAL GENE TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right