CN112802554B - 一种基于二代数据的动物线粒体基因组组装方法 - Google Patents

一种基于二代数据的动物线粒体基因组组装方法 Download PDF

Info

Publication number
CN112802554B
CN112802554B CN202110120253.2A CN202110120253A CN112802554B CN 112802554 B CN112802554 B CN 112802554B CN 202110120253 A CN202110120253 A CN 202110120253A CN 112802554 B CN112802554 B CN 112802554B
Authority
CN
China
Prior art keywords
mitochondrial
assembly
assembling
data
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110120253.2A
Other languages
English (en)
Other versions
CN112802554A (zh
Inventor
李家堂
宋梦洹
严超超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Institute of Biology of CAS
Original Assignee
Chengdu Institute of Biology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Institute of Biology of CAS filed Critical Chengdu Institute of Biology of CAS
Priority to CN202110120253.2A priority Critical patent/CN112802554B/zh
Publication of CN112802554A publication Critical patent/CN112802554A/zh
Application granted granted Critical
Publication of CN112802554B publication Critical patent/CN112802554B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于基因组测序技术领域,具体涉及一种基于二代数据的动物线粒体基因组组装方法。本发明组装方法包括如下步骤:首先通过profile HMM对庞大的数据进行快速筛选,获得潜在的线粒体编码DNA片段,然后,利用线性迭代算法对片段进行组装获取并利用profile HMM打分获得种子序列;最后,选用线性迭代的算法,快速从测序数据中将线粒体DNA reads组装到种子序列上,直至实现线粒体全基因组的组装。本发明实现了无需人工投递种子序列并实现快速、准确、完整组装线粒体基因组的目的,且对不同物种,数据量大小和DNA reads长度的二代数据具有很好的兼容性。

Description

一种基于二代数据的动物线粒体基因组组装方法
技术领域
本发明属于基因组测序技术领域,具体涉及一种基于二代数据的动物线粒体基因组组装方法。
背景技术
对于动物来说,线粒体DNA因具有母系遗传、进化速率快,缺乏重组等特点,是生物学研究中重要的标记,被广泛应用于系统发育、进化生物学、生物多样性检测、群体遗传等不同研究领域。相比于线粒体片段,线粒体全基因组因具备完整,不易受趋同影响等特征,相比对线粒体片段,其更为客观、可靠的标记。
随着二代测序技术的不断更新,生物研究领域已经进入了一个数据爆炸式增长的时代,不论是模式动物或者是非模式动物都可以获取相当量的二代数据。线粒体基因组,作为细胞器基因组,其在单个细胞内的数目较多,因此,在进行测序的过程中,被捕捉并测序的概率更大,因此,一定倍数下二代数据中往往会包含有此物种的完整线粒体基因组。通过合适的生物信息学的方法将线粒体基因组从二代数据中提取,对于不同研究领域都深有裨益。
二代测序技术的其中一个特点是高通量,一次上机测序可以得到数据量以T为单位的二代数据。因此,对二代数据进行线粒体基因组组装需要借助软件进行。目前,已经有许多已发表研究尝试通过不同的算法及组合拼接方式来尝试获取完整的线粒体基因组,比如,NOVOPlasty,Assembly by Reduced Complexity,MITOBim,MitoZ以及Norgal等软件。这些软件基于不同的组装算法和流程,但是都存在一定的缺陷。
比如,基于线性延展算法(NOVOPlasty),需要人工提供种子序列以引导组装。基于比对manpping算法(Assembly by Reduced Complexity和MITOBim)需要提供更长的参考线粒体基因组(即近缘物种的完整的线粒体基因组序列)。人工提供的种子序列需要从数据库(例如,NCBI)中对特定物种进行检索得到,但是由于数据库中的数据都是研究者自行上传的,其包含的物种数量是有限的,因此对于很多物种,在数据库中并不一定能够检索到结果。因此,人工提供种子序列的要求限制了这类算法的应用。
无需提供种子序列的算法(MitoZ和Norgal),其是利用了线粒体数据在二代数据中预期测序深度更高的特性,将低深度数据过滤后进行组装,但是这样会导致组装结果不完全,且由于可能的二次组装导致非常耗时。
除了上述问题,前述算法还存在数据兼容性的问题。在发明人之前的工作中,尝试使用采用上述算法的软件处理动物线粒体基因的二代数据,但是由于数据无法兼容,总是无法完整提取线粒体全基因组。此外,前述各算法的组装速度及完整性很难同时得到满足。
发明内容
针对现有技术中基因测序二代数据的组装算法的缺陷,本发明提供一种基于二代数据的动物线粒体基因组组装方法,其目的在于:提供一种适用于线粒体基因组,不依赖于人工提供种子序列的,高效、多类型数据兼容、准确的二代数据组装方法。
一种基于二代数据的动物线粒体基因组组装方法,包括如下步骤:
(1)利用线粒体DNA保守域数据库,对二代数据进行筛选得到潜在的线粒体编码DNA片段;所述筛选过程为将二代数据中的DNA reads与线粒体DNA保守域数据库进行对比,筛选出对比成功的DNA reads即为潜在的线粒体编码DNA片段;
(2)将步骤(1)得到的潜在的线粒体编码DNA片段进行预组装,将预组装结果与线粒体DNA保守域数据库进行对比,获取比对率最高的预组装结果;
(3)将步骤(2)得到的比对率最高的预组装结果设置为线粒体全基因组组装的种子序列,实现线粒体全基因组的组装。
优选的,步骤(1)中,所述二代数据是通过seqtk进行数据质控及类型转换后的二代测序数据。
优选的,步骤(1)和步骤(2)中,所述线粒体DNA保守域数据库为基于隐马可夫链预测构建的线粒体DNA保守域数据库。
优选的,步骤(1)中,所述对比成功的标准为E≤10.0,E值的计算方法为:
E=K*m*n*(e-lambda*S)
其中,E为S值的可靠性评价,S为两个序列的同源性,K和lambda为常量,m为目标序列的长度,n为数据库的大小。
优选的,步骤(2)中,所述预组装通过线性迭代算法进行,优选的采用SSAKE组装算法。
优选的,所述线性迭代算法使用C++语言编写。
优选的,步骤(3)具体过程如下:将步骤(2)得到的比对率最高的预组装结果设置为线粒体全基因组组装的种子序列,将二代数据中的线粒体DNA reads组装到种子序列上,直至实现线粒体全基因组的组装。
优选的,步骤(3)中,所述组装通过线性迭代算法进行,优选的采用SSAKE组装算法。
优选的,所述线性迭代算法使用C++语言编写。
优选的,步骤(3)组装得到的线粒体全基因组后,将线粒体全基因组与线粒体DNA保守域数据库进行对比,对编码基因进行注释。
优选的,用于注释编码基因的所述保守域数据库为基于隐马可夫链预测构建的线粒体DNA保守域数据库。
采用本发明提供的组装方法,能够在算法中实现对种子序列的组装,不需要人工提供种子序列,从而简化研究人员的工作。此外,本发明方法对线粒体基因组的组装高效、准确,能够提高研究人员的工作效率。且对于不同质量(例如DNA reads读长不同、测序总量不同、模式物种或非模式物种的不同等)的二代数据,本发明方法兼容性强,保证了发明的普适性和多用性。
显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
图1本发明实施例的流程示意图;
图2为现有技术中常用的几种动物线粒体基因组组装方法及本申请的方法(MEANGS)各项性能的对比;
图3为现有技术中常用的几种动物线粒体基因组组装方法及本申请的方法(MEANGS)对各种类型数据的兼容情况。
具体实施方式
实施例
本实施例包括一种无需提供种子序列的使用二代数据提取动物线粒体基因组的软件,包括以下模块:
1、隐马可夫链预测构建的线粒体DNA保守域数据库(profile HMM),该数据库由MitoZ等(A toolkit for animal mitochondrial genome assembly,annotation andvisualization.Nucleic acids research,2019,47(11),e63.)所搭建;
2、SSAKE线性组装模块,基于线性算法使用C++语言编写的组装代码,用于组装线粒体种子序列及线粒体基因组,线性组装技术本身属于现有技术,该模块代码可由本领域技术人员基于现有技术实现。
本实施例基于二代数据的动物线粒体基因组组装方法的算法流程如下:
步骤1,取测序获得的二代数据,首先通过seqtk进行数据质控及类型转换,得到二代数据中的线粒体DNA reads。数据类型转换指的是从fastq转换为fasta。Fasta数据相对于fastq数据去除了不必要的质量信息行,只保留了可操作数据的内容,方便后续对数据进行筛选、组装。
步骤2,基于隐马可夫链预测构建的线粒体DNA保守域数据库(profile HMM)对数据进行一次筛选,从数据中获取潜在的线粒体编码DNA片段;
具体的筛选过程为:将二代数据中的线粒体DNA reads与profile HMM进行对比,符合标准E≤10.0,则对比成功,对比成功的线粒体DNA reads即为潜在的线粒体编码DNA片段。
E值的计算方法为:
E=K*m*n*(e-lambda*S)
其中,E为S值的可靠性评价,E越小证明同源性越好。S为两序列的同源性,S值越高表明它们之间相似程度越高。K和lambda为与算法及profile HMM相关的常量,其取值为现有技术已知。m为目标序列的长度,目标序列的长度,是指测序得到的序列的长度,不同测序方法得到的序列的长度是固定的,比如illumina测序平台得到的序列的长度为150bp。n为数据库的大小,数据库的大小是指数据库中所含序列的数量,比如,本实施例是指基于隐马可夫链预测构建的线粒体DNA保守域数据库中序列的数量。
步骤3,取步骤2所得潜在的线粒体编码DNA片段,通过线性组装模块,将片段进行预组装,组装结果同时利用profile HMM进行比对,获取比对率最高的预组装结果,设置为下一步线粒体全基因组组装的种子序列。对比是指将两个核酸序列的碱基按照顺序一一对应比较,对比率是指匹配程度,比如,80%的位置的碱基相同,则对比率为80%。
步骤4,以步骤3获得的种子序列作为种子序列,再次使用线性组装模块,将步骤1数据质控后的二代数据中线粒体DNA reads通过线性组装模块组装到种子序列上,最终实现线粒体全基因组的组装。本步骤中筛选过程为:尝试将所有线粒体DNA reads与待组装的序列(种子序列或已组装了部分线粒体DNA reads的种子序列)进行组装(双向延展),无法组装的情况下则选择下一个DNA reads再次尝试,能够组装的情况下则将组装后的结果作为待组装的序列重新尝试组装所有的DNA reads,直到组装完成或无法组装为止,即得待测动物线粒体基因组。
步骤5,组装完成后,针对线粒体基因组中存在的编码基因,再次通过profile HMM进行比对,对编码基因进行注释。
利用本实施例的方法(MEANGS)和现有技术中的几种方法(Norgal、NOVOPlasty和MitoZ)对动物线粒体基因组进行组装并对其结果进行对比。所测试的物种都具有二代数据和线粒体参考基因组。
其中,“完成度”代表给出的8组数据中,软件流程运行完成的情况,例如,MEANGS 8次运行都成功了,那么完成度为8/8=100%
“组装时间”代表从软件开始运行到输出结果的时间。
“覆盖度”代表组装出来的序列与参考序列进行对比,在确定同为线粒体的情况下的比值,例如,一条序列参考为10000,MEANGS组装长度为9998,在比对过保证序列正确的前提下,覆盖度为9998/10000=99.98%
“准确性”表示如下参数:由于二代数据与参考基因组虽然是同一物种,但非同一个体,序列上可能存在差异,通过预先对二代数据与参考基因组进行比对,了解相关变异情况,进行汇总,随后对于组装的结果进行准确性评估。例如,预比对表明,二代数据与参考基因组在120个位点存在差异,MEANGS组装为10000其中没有变异完全一致的为9880计算准确率为,9880+120/10000=100%
图2给出了现有技术中常用的几种动物线粒体基因组组装方法及本申请的方法(MEANGS)各项性能的对比,其中,本发明方法的覆盖度(coverage)、组装的准确性(accurracy)、组装时间(runtime)和组装完成度(completeness)等性能均显著优于现有技术的方法。
图3给出了现有技术中常用的几种动物线粒体基因组组装方法及本申请的方法(MEANGS)对各种类型数据(不同的二代数据量和DNA reads长度)的兼容情况。其中,本方法对考察的所有类型的数据均能够进行处理,而现有技术中的其他方法则存在部分类型数据无法处理的情况。证明本实施例的方法对多类型数据的兼容性好。
通过以上实施例可以看出,本发明提供的方法能够在无需人工投递种子序列的前提下实现快速、准确、完整组装基因组的目的。此外,本发明的方法对多类型数据兼容,适用范围广。

Claims (9)

1.一种基于二代数据的动物线粒体基因组组装方法,其特征在于,包括如下步骤:
(1)利用线粒体DNA保守域数据库,对二代数据进行筛选得到潜在的线粒体编码DNA片段;所述筛选过程为将二代数据中的所有DNA reads与线粒体DNA保守域数据库进行对比,筛选出对比成功的DNA reads即为潜在的线粒体编码DNA片段;
(2)将步骤(1)得到的潜在的线粒体编码DNA片段进行预组装,将预组装结果与线粒体DNA保守域数据库进行对比,获取比对率最高的预组装结果;
(3)将步骤(2)得到的比对率最高的预组装结果设置为线粒体全基因组组装的种子序列,实现线粒体全基因组的组装;
步骤(1)中,所述对比成功的标准为E≤ 10.0, E值的计算方法为:
E=K*m*n*(e-lambda*S)
其中,E为S值的可靠性评价,S为两个序列的同源性,K和lambda为常量,m为目标序列的长度,n为数据库的大小。
2.按照权利要求1所述的组装方法,其特征在于:步骤(1)中,所述二代数据是通过seqtk进行数据质控及类型转换后的二代测序数据。
3.按照权利要求1或2所述的组装方法,其特征在于:步骤(1)和步骤(2)中,所述线粒体DNA保守域数据库为基于隐马可夫链预测构建的线粒体DNA保守域数据库。
4.按照权利要求1所述的组装方法,其特征在于:步骤(2)中,所述预组装通过SSAKE组装算法进行。
5.按照权利要求4所述的组装方法,其特征在于:所述SSAKE组装算法使用C++语言编写。
6.按照权利要求1所述的组装方法,其特征在于:步骤(3)具体过程如下:将步骤(2)得到的比对率最高的预组装结果设置为线粒体全基因组组装的种子序列,将二代数据中的线粒体DNA reads组装到种子序列上,直至实现线粒体全基因组的组装。
7.按照权利要求1或6所述的组装方法,其特征在于:步骤(3)中,所述组装通过SSAKE组装算法进行。
8.按照权利要求7所述的组装方法,其特征在于:所述SSAKE组装算法使用C++语言编写。
9.按照权利要求1所述的组装方法,其特征在于:步骤(3)组装得到的线粒体全基因组后,将线粒体全基因组与线粒体DNA保守域数据库进行对比,对编码基因进行注释。
CN202110120253.2A 2021-01-28 2021-01-28 一种基于二代数据的动物线粒体基因组组装方法 Active CN112802554B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110120253.2A CN112802554B (zh) 2021-01-28 2021-01-28 一种基于二代数据的动物线粒体基因组组装方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110120253.2A CN112802554B (zh) 2021-01-28 2021-01-28 一种基于二代数据的动物线粒体基因组组装方法

Publications (2)

Publication Number Publication Date
CN112802554A CN112802554A (zh) 2021-05-14
CN112802554B true CN112802554B (zh) 2023-09-22

Family

ID=75812553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110120253.2A Active CN112802554B (zh) 2021-01-28 2021-01-28 一种基于二代数据的动物线粒体基因组组装方法

Country Status (1)

Country Link
CN (1) CN112802554B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102618555A (zh) * 2012-03-30 2012-08-01 中国科学院成都生物研究所 一种γ-醇溶蛋白基因的核酸序列及其用途
CN103060332A (zh) * 2012-12-19 2013-04-24 中国水产科学研究院东海水产研究所 一种拟穴青蟹线粒体全基因组dna及检测方法
WO2015102226A1 (ko) * 2013-12-31 2015-07-09 서울대학교산학협력단 차세대 시퀀싱 방법을 이용하여 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 dna의 완전한 게놈 서열을 해독하는 방법
CN104951672A (zh) * 2015-06-19 2015-09-30 中国科学院计算技术研究所 一种第二代、三代基因组测序数据联用的拼接方法及系统
CN105653899A (zh) * 2014-09-30 2016-06-08 深圳华大基因研究院 同时确定多种样本的线粒体基因组序列信息的方法和系统
CN107615283A (zh) * 2015-05-26 2018-01-19 加利福尼亚太平洋生物科学股份有限公司 从头二倍体基因组组装和单倍型序列重建
CN108350495A (zh) * 2016-02-26 2018-07-31 深圳华大生命科学研究院 对分隔长片段序列进行组装的方法和装置
CN109280700A (zh) * 2018-09-17 2019-01-29 上海海洋大学 精确测定中华绒螯蟹线粒体全基因组序列的方法
CN109385417A (zh) * 2017-08-03 2019-02-26 华东理工大学 体内dna无缝组装方法
CN109411014A (zh) * 2018-10-09 2019-03-01 中国科学院昆明植物研究所 一种基于二代测序的植物叶绿体全基因组组装成环方法
CN110714063A (zh) * 2019-10-14 2020-01-21 浙江海洋大学 一种基于线粒体全基因组对台湾东风螺系统发育分析方法
CN110923336A (zh) * 2019-12-27 2020-03-27 四川省农业科学院水产研究所(四川省水产研究所) 一种鉴定达氏鲟和中华鲟种质的引物、分子标记及方法
CN110982888A (zh) * 2019-12-31 2020-04-10 中国医学科学院药用植物研究所 一种基于全基因组测序技术的多种动物源性掺假鉴别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6935070B2 (ja) * 2017-02-14 2021-09-15 国立大学法人 東京大学 植物ミトコンドリアゲノムの編集方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102618555A (zh) * 2012-03-30 2012-08-01 中国科学院成都生物研究所 一种γ-醇溶蛋白基因的核酸序列及其用途
CN103060332A (zh) * 2012-12-19 2013-04-24 中国水产科学研究院东海水产研究所 一种拟穴青蟹线粒体全基因组dna及检测方法
WO2015102226A1 (ko) * 2013-12-31 2015-07-09 서울대학교산학협력단 차세대 시퀀싱 방법을 이용하여 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 dna의 완전한 게놈 서열을 해독하는 방법
CN105653899A (zh) * 2014-09-30 2016-06-08 深圳华大基因研究院 同时确定多种样本的线粒体基因组序列信息的方法和系统
CN107615283A (zh) * 2015-05-26 2018-01-19 加利福尼亚太平洋生物科学股份有限公司 从头二倍体基因组组装和单倍型序列重建
CN104951672A (zh) * 2015-06-19 2015-09-30 中国科学院计算技术研究所 一种第二代、三代基因组测序数据联用的拼接方法及系统
CN108350495A (zh) * 2016-02-26 2018-07-31 深圳华大生命科学研究院 对分隔长片段序列进行组装的方法和装置
CN109385417A (zh) * 2017-08-03 2019-02-26 华东理工大学 体内dna无缝组装方法
CN109280700A (zh) * 2018-09-17 2019-01-29 上海海洋大学 精确测定中华绒螯蟹线粒体全基因组序列的方法
CN109411014A (zh) * 2018-10-09 2019-03-01 中国科学院昆明植物研究所 一种基于二代测序的植物叶绿体全基因组组装成环方法
CN110714063A (zh) * 2019-10-14 2020-01-21 浙江海洋大学 一种基于线粒体全基因组对台湾东风螺系统发育分析方法
CN110923336A (zh) * 2019-12-27 2020-03-27 四川省农业科学院水产研究所(四川省水产研究所) 一种鉴定达氏鲟和中华鲟种质的引物、分子标记及方法
CN110982888A (zh) * 2019-12-31 2020-04-10 中国医学科学院药用植物研究所 一种基于全基因组测序技术的多种动物源性掺假鉴别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Guanliang Meng等.MitoZ: a toolkit for animal mitochondrial genome assembly, annotation and visualization.《Nucleic Acids Research》.2019,第1-8页. *
MEANGS:an efficient seed-free tool for denovo assembling animal mitochondrial genome using whole genome NGS data;Meng-HuanSong等;《Briefings in Bioinformatics》;第1-8页 *
MitoZ: a toolkit for animal mitochondrial genome assembly, annotation and visualization;Guanliang Meng等;《Nucleic Acids Research》;第1-8页 *
丹参的叶绿体和线粒体基因组研究;钱俊;《中国博士学位论文全文数据库 农业科技辑》(第(2015)01期);D047-98 *
叶楠.银杏线粒体基因组研究.《中国优秀硕士学位论文全文数据库 农业科技辑》.2019,D049-174. *
秦世尚等.不同遗传群系大熊猫线粒体基因组的进化分析.《基因组学与应用生物学》.2017,第36卷(第9期),第3696-3703页. *

Also Published As

Publication number Publication date
CN112802554A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
Yaari et al. Practical guidelines for B-cell receptor repertoire sequencing analysis
US20200051663A1 (en) Systems and methods for analyzing nucleic acid sequences
US20170199959A1 (en) Genetic analysis systems and methods
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
US20050079504A1 (en) Method and apparatus for mRNA assembly
CN111081315B (zh) 一种同源假基因变异检测的方法
CN112908415B (zh) 一种获得染色体水平基因组的方法
CN114999573A (zh) 一种基因组变异检测方法及检测系统
AU2022298428B2 (en) Gene sequencing analysis method and apparatus, and storage medium and computer device
CN108920898B (zh) 一种快速分析真核生物蛋白质基因组学数据的方法
CN115052994A (zh) 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用
CN110021355B (zh) 二倍体基因组测序片段的单倍体分型和变异检测方法和装置
CN111180013B (zh) 检测血液病融合基因的装置
CN116864007B (zh) 基因检测高通量测序数据的分析方法及系统
CN112802554B (zh) 一种基于二代数据的动物线粒体基因组组装方法
CN112750501A (zh) 一种宏病毒组流程的优化分析方法
CN112786109A (zh) 一种基因组完成图的基因组组装方法
US20190172553A1 (en) Using k-mers for rapid quality control of sequencing data without alignment
Roy et al. NGS-μsat: bioinformatics framework supporting high throughput microsatellite genotyping from next generation sequencing platforms
CN104951673B (zh) 一种基因组酶切图谱拼接方法及系统
CN114822697A (zh) 一种利用宏基因组分析溯源土壤耐药基因污染的方法
CN114566215A (zh) 一种双端成对的剪接位点预测方法
CN114395630A (zh) 基于高通量测序寄生虱线粒体基因组组装的方法和应用
US20240120027A1 (en) Machine-learning model for refining structural variant calls
CN114171121B (zh) 一种mRNA 5’3’末端差异的快速检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant