CN117672354B - 比较哺乳动物近源物种完整基因组组装质量的方法和装置 - Google Patents
比较哺乳动物近源物种完整基因组组装质量的方法和装置 Download PDFInfo
- Publication number
- CN117672354B CN117672354B CN202311768823.4A CN202311768823A CN117672354B CN 117672354 B CN117672354 B CN 117672354B CN 202311768823 A CN202311768823 A CN 202311768823A CN 117672354 B CN117672354 B CN 117672354B
- Authority
- CN
- China
- Prior art keywords
- genomeb
- genomea
- sequence
- value
- genome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 241000894007 species Species 0.000 title claims abstract description 34
- 241000124008 Mammalia Species 0.000 title claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000000546 chi-square test Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 210000000349 chromosome Anatomy 0.000 abstract description 13
- 238000011156 evaluation Methods 0.000 abstract description 13
- 230000035945 sensitivity Effects 0.000 abstract description 7
- 108090000623 proteins and genes Proteins 0.000 description 14
- 241000283707 Capra Species 0.000 description 13
- 238000013441 quality evaluation Methods 0.000 description 7
- 210000000085 cashmere Anatomy 0.000 description 4
- 235000013365 dairy product Nutrition 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 108091035539 telomere Proteins 0.000 description 3
- 210000003411 telomere Anatomy 0.000 description 3
- 102000055501 telomere Human genes 0.000 description 3
- 239000012634 fragment Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007622 bioinformatic analysis Methods 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种比较哺乳动物近源物种完整基因组组装质量的方法和装置,涉及生物技术领域。本发明提供的比较哺乳动物近源物种完整基因组组装质量的方法,基于哺乳动物近源种完整基因组,全基因组比对获得近源种完整基因组(仅染色体)一对一的共线性区块和非共线性区块;分别获得每个完整基因组的片段重复(segment duplication,SD)序列;基于完整基因组SD序列占比、非共线性区块占比及非共线性区块中SD序列占比比较评估哺乳动物近源种完整基因组组装质量。该方法基于哺乳动物完整基因组的整体结构和SD序列对完整基因组组装质量进行评估,提升了完整基因组组装评估的灵敏度和可靠性。
Description
技术领域
本发明涉及生物技术领域,尤其是涉及一种比较哺乳动物近源物种完整基因组组装质量的方法和装置。
背景技术
随着高通量测序技术不断地发展和深入,生物样本DNA处理、提取技术及生物信息分析对于基因组组装技术的深入和迭代,特别是越来越多地连续、准确、接近完整基因组被组装出来。完整基因组的组装定义主要经过以下几个阶段和水平,第一为较少gap染色体水平基因组的组装,第二为没有gap染色体水平基因组的组装,第三为较少gap或者无gap且个别染色体5’端或者3’端组装出比较完整端粒序列的染色体水平基因组,第四个则为无gap且所有染色体两端均组装出完整端粒的染色体水平基因组。综上,对于完整基因组的定义主要在染色体水平基因组gap个数及端粒组装的完整性上。
目前对于染色体组装质量的评估主要包括以下几种方法和策略,第一为基于组装二代数据重新比对组装基因组,根据比对率及纯合单核苷酸多态性评估基因组组装质量;第二为基于基准化的普遍单拷贝直系同源基因(Benchmarking Universal Single-CopyOrthologs,BUSCO)占比评估组装基因组的完整性;第三为基于核心真核生物基因(CoreEukaryotic Genes Mapping Approach,CEGMA)占比评估组装基因组的完整性;第四为基于无参、k-mer算法进行组装二代数据比对组装基因组方式对组装基因组进行质量评估(quality value,QV);第五为基于转录组数据的组装基因组的比对,评估组装基因组的质量;第六为计算重叠群(contig)N50长度,衡量组装基因组的连续性;第七为基于组装基因组完整长末端重复序列(LTR),基因组占比,衡量基因组的组装质量。
基于以上论述,目前基因组组装质量评估方法,主要聚焦在基于保守基因注释效果、基于数据比对的效果及基因组自身组装contig N50长度指标上。基于基准化的普遍单拷贝直系同源基因和基于核心真核生物基因基因组组装质量评估方法主要基于保守(单拷贝或者核心)基因评估基因组组装保守基因百分比,评估基因组装的完整性和多拷贝基因的误差,但是忽略了基因组真实存在的多拷贝和基因变异情况,并且仅检测保守基因,对于非保守基因和非基因区域没有进行评估,而研究以确认,基因组编码基因区域仅占基因组很少的部分;基于有参转录组数据基因组比对,同样仅检测了基因组中编码区域,对于非编码基因区域没有检测;基于二代组装数据从单碱基准确性评估基因组组装质量,但是这种方法过度依赖于短序列的比对,对于基因组重复区域、杂合区域及低保守区域评估可能引入偏差。以上基因组评估方法,是对于基因组组装质量的评估的普适性评估方式,进而对于组装质量越来越多高的完整基因组组装的评估缺乏了灵敏性,BUSCO和CEGMA的方式仅考虑保守基因,完整基因组和contig版本的基因组存在保守基因组区域组装效果一致的情况;基于二代数据的单碱基评估则更加忽略了contig版本基因组和完整基因组整体组装质量上的评估。基于组装基因组完整长末端重复序列(LTR)基因组占比的评估,同样是考虑了基因组的部分序列,另外其主要用于植物基因组的质量的评估,物种上也存在一定的局限性。QV的评估方法则具有很大的提升,其依据非参考和k-mers原理可以揭示基因组组组装中的拷贝数误差,比较准确评估基因组组装的完整性和一致性质量,存在遗憾的是,没有有效的基于基因组的整体结构正确性的评估,比如说倒位、易位或者大片段复制,对于完整基因组来说也是至关重要。较大的、高同一性的重复序列---被称为片段重复(segmentalduplication,SD)序列,通常是基因组中最后被测序和组装的区域,那么基于SD序列从基因组整体结构层面对基因组组装质量的评估具有重要意义。
有鉴于此,提出本发明。
发明内容
本发明的第一目的在于提供一种比较哺乳动物近源物种完整基因组组装质量的方法,以解决上述问题中的至少一种。
本发明的第二目的在于提供一种比较哺乳动物近源物种完整基因组组装质量的装置。
本发明的第三目的在于提供一种处理器。
为了实现上述目的,提出以下技术方案:
第一方面,本发明提供了一种比较哺乳动物近源物种完整基因组组装质量的方法,包括以下步骤:
a.获取两个近源哺乳动物的基因组,分别为GenomeA和GenomeB;
b.将GenomeA和GenomeB进行比对,分别筛选获得GenomeA和GenomeB的一对一比对的共线性区块和非共线性区块;
c.分别获得GenomeA和GenomeB的SD序列;
d.分别计算GenomeA和GenomeB中SD序列占比,基于GenomeA和GenomeB中SD序列占比或者基于GenomeA和GenomeB中SD序列总长做GenomeA和GenomeB间SD序列差异性卡方检验分析,结果记为P_value_SD;分别计算GenomeA和GenomeB中非共线性区块序列占比,基于GenomeA和GenomeB中非共线性区块序列占比做GenomeA和GenomeB间非共线性区块序列差异性卡方检验分析,结果记为P_value_NS;分别计算GenomeA和GenomeB中SD序列在非共线性区块占比,分别标记为PercentA和PercentB;
若P_value_SD≤0.05且P_value_NS≤0.05且PercentA>PercentB,则GenomeA的组装质量优于GenomeB;若P_value_SD≤0.05且P_value_NS≤0.05且PercentA<PercentB,则GenomeB的组装质量优于GenomeA。
作为进一步技术方案,b步骤中,采用比对软件进行比对;
所述比对软件包括lastz或minimap2。
作为进一步技术方案,所述GenomeA的非共线性区块为GenomeA中除所述共线性区块之外的序列;
所述GenomeB的非共线性区块为GenomeB中除所述共线性区块之外的序列。
作为进一步技术方案,所述非共线性区块的序列长度≥1kb。
作为进一步技术方案,c步骤中,采用SD序列分析软件获得SD序列;
所述SD序列分析软件包括biser软件。
作为进一步技术方案,所述SD序列的长度≥1kb,比对一致性≥75%。
第二方面,本发明提供了一种比较哺乳动物近源物种完整基因组组装质量的装置,包括比对模块、SD序列获取模块、计算模块和判定模块;
所述比对模块用于将两个近源哺乳动物的基因组GenomeA和GenomeB进行比对,分别获得GenomeA和GenomeB的一对一共线性区块和非共线性区块;
所述SD序列获取模块用于获得GenomeA和GenomeB的SD序列;
所述计算模块用于:计算GenomeA和GenomeB中SD序列占比,基于GenomeA和GenomeB中SD序列占比或者基于GenomeA和GenomeB中SD序列总长做GenomeA和GenomeB间SD序列差异性卡方检验分析,结果记为P_value_SD;计算GenomeA和GenomeB中非共线性区块序列占比,基于GenomeA和GenomeB中非共线性区块序列占比做GenomeA和
GenomeB间非共线性区块序列差异性卡方检验分析,结果记为P_value_NS;计算GenomeA和GenomeB中SD序列在非共线性区块占比,分别标记为PercentA和PercentB;
所述判定模块用于基于阈值P_value_SD≤0.05且P_value_NS≤0.05且PercentA>PercentB,判定GenomeA的组装质量优于GenomeB;或者,基于阈值P_value_SD≤0.05且P_value_NS≤0.05且PercentA<PercentB,判定GenomeB的组装质量优于GenomeA。
作为进一步技术方案,所述比对模块采用比对软件进行比对;
所述比对软件包括lastz或minimap2。
作为进一步技术方案,所述SD序列获取模块采用SD序列分析软件获得SD序列;
所述SD序列分析软件包括biser软件。
第三方面,本发明提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述的比较哺乳动物近源物种完整基因组组装质量的方法。
与现有技术相比,本发明具有以下有益效果:
本发明提供的比较哺乳动物近源物种完整基因组组装质量的方法,基于哺乳动物近源种完整基因组,全基因组比对获得近源种完整基因组(仅染色体)一对一的共线性区块和非共线性区块;分别获得每个完整基因组的SD序列;基于完整基因组SD序列占比、非共线性区块占比及非共线性区块中SD序列占比比较评估哺乳动物近源种完整基因组组装质量。该方法基于哺乳动物完整基因组和完整基因组间的全基因组比对,对完整基因组组装质量进行评估,区别于基于单个基因组自身及自身数据对基因组组装评估,不基于基因组自身及自身数据依据;基于哺乳动物完整基因组的整体结构和SD序列对完整基因组组装质量进行评估,提升了完整基因组组装评估的灵敏度和可靠性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的技术流程图。
具体实施方式
下面将结合实施方式和实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施方式和实施例仅用于说明本发明,而不应视为限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
第一方面,本发明提供了一种比较哺乳动物近源物种完整基因组组装质量的方法,包括以下步骤:
a.获取两个近源哺乳动物的基因组,分别为GenomeA和GenomeB;
b.将GenomeA和GenomeB进行比对,分别筛选获得GenomeA和GenomeB的一对一比对的共线性区块和非共线性区块;
c.分别获得GenomeA和GenomeB的SD序列;
d.分别计算GenomeA和GenomeB中SD序列占比,基于GenomeA和GenomeB中SD序列占比或者基于GenomeA和GenomeB中SD序列总长做GenomeA和GenomeB间SD序列差异性卡方检验分析,结果记为P_value_SD;分别计算GenomeA和GenomeB中非共线性区块序列占比,基于GenomeA和GenomeB中非共线性区块序列占比做GenomeA和GenomeB间非共线性区块序列差异性卡方检验分析,结果记为P_value_NS;分别计算GenomeA和GenomeB中SD序列在非共线性区块占比,分别标记为PercentA和PercentB;
若P_value_SD≤0.05且P_value_NS≤0.05且PercentA>PercentB,则GenomeA的组装质量优于GenomeB;若P_value_SD≤0.05且P_value_NS≤0.05且PercentA<PercentB,则GenomeB的组装质量优于GenomeA。
本发明提供的比较哺乳动物近源物种完整基因组组装质量的方法,基于哺乳动物近源种完整基因组,全基因组比对获得近源种完整基因组(仅染色体)一对一的共线性区块和非共线性区块;分别获得每个完整基因组的SD序列;基于完整基因组SD序列占比、非共线性区块占比及非共线性区块中SD序列占比比较评估哺乳动物近源种完整基因组组装质量。该方法基于哺乳动物完整基因组和完整基因组间的全基因组比对,对完整基因组组装质量进行评估,区别于基于单个基因组自身及自身数据对基因组组装评估,不基于基因组自身及自身数据依据;基于哺乳动物完整基因组的整体结构和SD序列对完整基因组组装质量进行评估,提升了完整基因组组装评估的灵敏度和可靠性。
需要说明的是,GenomeA和GenomeB比对过程中,同一段序列可能存在一比多的情况,而本发明中“一对一比对的共线性区块”则仅取一对一比对结果。
在一些优选的实施方式中,b步骤中,采用比对软件进行比对;
所述比对软件包括lastz或minimap2,优选为lastz。
Lastz相比于其他全基因比对软件而言,它能够允许基因组中少量gap的存在,比对长度较长,灵敏度更高,可以更全面地获得物种基因组间的共线性区域。
在一些优选的实施方式中,lastz比对之后,还包括基于lastz比对结果,利用UCSC数据库chainNet软件工具构建基因组间保守的比对区块,然后筛选获得GenomeA和GenomeB的一对一比对区段为共线性区块和非共线性区块。
其中,UCSC数据库chainNet软件工具包括axtChain、chainMergeSort、chainPreNet、chainNet、netSyntenic、netToAxt、axtSort和axtToMaf。
在一些优选的实施方式中,所述GenomeA的非共线性区块为GenomeA中除所述共线性区块之外的序列;
所述GenomeB的非共线性区块为GenomeB中除所述共线性区块之外的序列。
在一些优选的实施方式中,所述非共线性区块的序列长度≥1kb。
需要说明的是,本发明通过比对能够获得多个共线性区块和非共线性区块,本发明筛选序列长度≥1kb的非共线性区块进行后续分析,能够降低获得非共线性区块假阳性。
在一些优选的实施方式中,c步骤中,采用SD序列分析软件获得SD序列;
所述SD序列分析软件包括biser软件。
本发明中,所述SD序列的长度≥1kb,比对一致性≥75%。SD序列为存在于基因组不同区域的两条相识序列,此两条序列长度≥1kb,序列比对一致性≥75%,基于此筛选条件提升SD序列鉴定的准确率。
第二方面,本发明提供了一种比较哺乳动物近源物种完整基因组组装质量的装置,包括比对模块、SD序列获取模块、计算模块和判定模块;
所述比对模块用于将两个近源哺乳动物的基因组GenomeA和GenomeB进行比对,分别获得GenomeA和GenomeB的一对一共线性区块和非共线性区块;
所述SD序列获取模块用于获得GenomeA和GenomeB的SD序列;
所述计算模块用于:计算GenomeA和GenomeB中SD序列占比,基于GenomeA和GenomeB中SD序列占比或者基于GenomeA和GenomeB中SD序列总长做GenomeA和GenomeB间SD序列差异性卡方检验分析,结果记为P_value_SD;计算GenomeA和GenomeB中非共线性区块序列占比,基于GenomeA和GenomeB中非共线性区块序列占比做GenomeA和GenomeB间非共线性区块序列差异性卡方检验分析,结果记为P_value_NS;计算GenomeA和GenomeB中SD序列在非共线性区块占比,分别标记为PercentA和PercentB;
所述判定模块用于基于阈值P_value_SD≤0.05且P_value_NS≤0.05且PercentA>PercentB,判定GenomeA的组装质量优于GenomeB;或者,基于阈值P_value_SD≤0.05且P_value_NS≤0.05且PercentA<PercentB,判定GenomeB的组装质量优于GenomeA。
本发明提供的装置能够实现近源物种完整基因组组装质量的比较,且灵敏度高,可靠性好。
在一些优选的实施方式中,所述比对模块采用比对软件进行比对;
所述比对软件包括lastz或minimap2,优选为lastz。
Lastz相比于其他全基因比对软件而言,它能够允许基因组中少量gap的存在,比对长度较长,灵敏度更高,可以更全面地获得物种基因组间的共线性区域。
在一些优选的实施方式中,所述SD序列获取模块采用SD序列分析软件获得SD序列;
所述SD序列分析软件包括biser软件。
第三方面,本发明提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述的比较哺乳动物近源物种完整基因组组装质量的方法。
本发明提供的处理器能够实现哺乳动物近源物种完整基因组组装质量的比较分析。
下面通过具体的实施例和对比例进一步说明本发明,但是,应当理解为,这些实施例仅仅是用于更详细地说明之用,而不应理解为用于以任何形式限制本发明。
实施例1
一种比较哺乳动物近源物种完整基因组组装质量的方法,如图1所示,包括以下步骤:
1)基于GenomeA和GenomeB,利用全局比对软件lastz进行GenomeA和GenomeB比对,基于比对结果,利用UCSC数据库chainNet软件工具构建基因组间保守的比对区块,UCSC数据库chainNet软件工具包括axtChain、chainMergeSort、chainPreNet、chainNet、netSyntenic、netToAxt、axtSort和axtToMaf;
2)基于1)比对结果,处理获得GenomeA和GenomeB一对一的共线性区块文件;
3)基于2)及GenomeA和GenomeB记录染色体长度的bed文件,分别获得GenomeA和GenomeB非共线性区块文件;
4)基于GenomeA和GenomeB,利用biser软件分别获得GenomeA和GenomeB的SD序列初步分析结果;
5)基于4)的结果,基于阈值SD序列比对一致性大于等于75%及长度大于等于1kb,分别筛选获得GenomeA和GenomeB的SD序列;
6)基于5)的结果,分别计算GenomeA和GenomeB的SD序列基因组占比,分别标记为PercentASD和PercentBSD,并且做GenomeA和GenomeB间SD序列卡方检验,标记为P_value_SD;
7)基于3)的结果,分别计算GenomeA和GenomeB的非共线性区块序列(大于等于1Kb)基因组占比,并且做GenomeA和GenomeB间非共线性区块序列卡方检验,标记为P_value_NS;
8)基于3)和4)的结果,分别统计GenomeA和GenomeB中SD序列在非共线性区块占比,分别标记为PercentA,PercentB;
9)基于6)、7)和8)的结果,基于阈值P_value_SD≤0.05且P_value_NS≤0.05且PercentA>PercentB,则GenomeA的组装质量优于GenomeB;P_value_SD≤0.05且P_value_NS≤0.05且PercentA<PercentB,则GenomeB的组装质量优于GenomeA。
试验例1
以绒山羊完整基因组作为GenomeA,此基因组为本研究组装的完整基因组,未发表,以奶山羊完整基因组作为GenomeB,此基因组为已有研究组装的完整基因组,数据获取于NCBI数据库。采用实施例1提供的方法比较两个近源物种完整基因组组装质量,结果显示:绒山羊基因组SD序列长度237.34Mb,占基因组8.59%;非共线性区域序列长度142.26Mb,占基因组5.15%。奶山羊基因组SD序列长度123.40Mb,占基因组4.68%;非共线性区域序列长度19.19Mb,占基因组0.73%。通过卡方检验显示,绒山羊和奶山羊基因组之间SD序列长度及非共线性区域序列长度存在显著差异(P_value_SD<2.2e-16P_value_NS<2.2e-16)。绒山羊基因组SD序列占非共线性区域为87.21%,奶山羊基因组SD序列占非共线性区域为55.50%,存在显著差异,且由此显示基因组中没有组装完整的序列很大程度上是SD序列。绒山羊基因组相比于奶山羊具有更多的非共线性区域序列且这些序列主要为SD序列,反应出绒山羊完整基因组组装在结构上更加完整和准确。结合其他指标,绒山羊完整基因组组装指标(contig N50:95.2Mb;BUSCO:95.9%;QV:43.7)也优于奶山羊完整基因组组装指标(contig N50:46.2Mb;BUSCO:95.6%;QV:30.0),证明本发明基于完整基因组全基因组比对下非共线性区域SD序列比较评估基因组组装可靠性。
此外,发明人还采用实施例1的方法对两版本智人基因组(版本GRCh38.p14和版本T2T-CHM13v2.0)的基因组组装质量进行了比较,并通过其他指标(contig N50、BUSCO、QV)进行了验证,发现验证结果与本发明方法分析结果一致,证明本发明方法可靠。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种比较哺乳动物近源物种完整基因组组装质量的方法,其特征在于,包括以下步骤:
a.获取两个近源哺乳动物的基因组,分别为GenomeA和GenomeB;
b.将GenomeA和GenomeB进行比对,分别筛选获得GenomeA和GenomeB的一对一比对的共线性区块和非共线性区块;
c.分别获得GenomeA和GenomeB的SD序列;
d.分别计算GenomeA和GenomeB中SD序列占比,基于GenomeA和GenomeB中SD序列占比或者基于GenomeA和GenomeB中SD序列总长做GenomeA和GenomeB间SD序列差异性卡方检验分析,结果记为P_value_SD;分别计算GenomeA和GenomeB中非共线性区块序列占比,基于GenomeA和GenomeB中非共线性区块序列占比做GenomeA和GenomeB间非共线性区块序列差异性卡方检验分析,结果记为P_value_NS;分别计算GenomeA和GenomeB中SD序列在非共线性区块占比,分别标记为PercentA和PercentB;
若P_value_SD≤0.05且P_value_NS≤0.05且PercentA>PercentB,则GenomeA的组装质量优于GenomeB;若P_value_SD≤0.05且P_value_NS≤0.05且PercentA<PercentB,则GenomeB的组装质量优于GenomeA。
2.根据权利要求1所述的方法,其特征在于,b步骤中,采用比对软件进行比对;
所述比对软件包括lastz或minimap2。
3.根据权利要求1所述的方法,其特征在于,所述GenomeA的非共线性区块为GenomeA中除所述共线性区块之外的序列;
所述GenomeB的非共线性区块为GenomeB中除所述共线性区块之外的序列。
4.根据权利要求1所述的方法,其特征在于,所述非共线性区块的序列长度≥1kb。
5.根据权利要求4所述的方法,其特征在于,c步骤中,采用SD序列分析软件获得SD序列;
所述SD序列分析软件包括biser软件。
6.根据权利要求2所述的方法,其特征在于,所述SD序列的长度≥1kb,比对一致性≥75%。
7.一种比较哺乳动物近源物种完整基因组组装质量的装置,其特征在于,包括比对模块、SD序列获取模块、计算模块和判定模块;
所述比对模块用于将两个近源哺乳动物的基因组GenomeA和GenomeB进行比对,分别获得GenomeA和GenomeB的一对一共线性区块和非共线性区块;
所述SD序列获取模块用于获得GenomeA和GenomeB的SD序列;
所述计算模块用于:计算GenomeA和GenomeB中SD序列占比,基于GenomeA和GenomeB中SD序列占比或者基于GenomeA和GenomeB中SD序列总长做GenomeA和GenomeB间SD序列差异性卡方检验分析,结果记为P_value_SD;计算GenomeA和GenomeB中非共线性区块序列占比,基于GenomeA和GenomeB中非共线性区块序列占比做GenomeA和GenomeB间非共线性区块序列差异性卡方检验分析,结果记为P_value_NS;计算GenomeA和GenomeB中SD序列在非共线性区块占比,分别标记为PercentA和PercentB;
所述判定模块用于基于阈值P_value_SD≤0.05且P_value_NS≤0.05且PercentA>PercentB,判定GenomeA的组装质量优于GenomeB;或者,基于阈值P_value_SD≤0.05且P_value_NS≤0.05且PercentA<PercentB,判定GenomeB的组装质量优于GenomeA。
8.根据权利要求7所述的装置,其特征在于,所述比对模块采用比对软件进行比对;
所述比对软件包括lastz或minimap2。
9.根据权利要求7所述的装置,其特征在于,所述SD序列获取模块采用SD序列分析软件获得SD序列;
所述SD序列分析软件包括biser软件。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-6任一项所述的比较哺乳动物近源物种完整基因组组装质量的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311768823.4A CN117672354B (zh) | 2023-12-21 | 2023-12-21 | 比较哺乳动物近源物种完整基因组组装质量的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311768823.4A CN117672354B (zh) | 2023-12-21 | 2023-12-21 | 比较哺乳动物近源物种完整基因组组装质量的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117672354A CN117672354A (zh) | 2024-03-08 |
CN117672354B true CN117672354B (zh) | 2024-05-28 |
Family
ID=90069712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311768823.4A Active CN117672354B (zh) | 2023-12-21 | 2023-12-21 | 比较哺乳动物近源物种完整基因组组装质量的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117672354B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115101124A (zh) * | 2022-08-24 | 2022-09-23 | 天津诺禾致源生物信息科技有限公司 | 全基因组等位基因鉴定方法及装置 |
CN115810395A (zh) * | 2022-12-05 | 2023-03-17 | 武汉贝纳科技有限公司 | 一种基于高通量测序动植物基因组t2t组装方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10395757B2 (en) * | 2011-12-02 | 2019-08-27 | Bgi Tech Solutions Co., Ltd. | Parental genome assembly method |
-
2023
- 2023-12-21 CN CN202311768823.4A patent/CN117672354B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115101124A (zh) * | 2022-08-24 | 2022-09-23 | 天津诺禾致源生物信息科技有限公司 | 全基因组等位基因鉴定方法及装置 |
CN115810395A (zh) * | 2022-12-05 | 2023-03-17 | 武汉贝纳科技有限公司 | 一种基于高通量测序动植物基因组t2t组装方法 |
Non-Patent Citations (1)
Title |
---|
基于全基因组重测序信息开发玉米H99自交系特异分子标记;吕远大;李坦;石丽;张晓林;赵涵;;作物学报;20131114(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117672354A (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11031100B2 (en) | Size-based sequencing analysis of cell-free tumor DNA for classifying level of cancer | |
Guo et al. | Multi-perspective quality control of Illumina exome sequencing data using QC3 | |
CN106886688B (zh) | 用于分析癌症相关的遗传变异的系统 | |
CN114999573B (zh) | 一种基因组变异检测方法及检测系统 | |
EP2977466B1 (en) | Detecting chromosomal aneuploidy | |
CN108728515A (zh) | 一种使用duplex方法检测ctDNA低频突变的文库构建和测序数据的分析方法 | |
CN117672354B (zh) | 比较哺乳动物近源物种完整基因组组装质量的方法和装置 | |
CN112639129A (zh) | 确定新发突变在胚胎中的遗传状态的方法和装置 | |
CN110942806A (zh) | 一种血型基因分型方法和装置及存储介质 | |
US20220364080A1 (en) | Methods for dna library generation to facilitate the detection and reporting of low frequency variants | |
CN111028885B (zh) | 一种检测牦牛rna编辑位点的方法及装置 | |
CN114420214A (zh) | 核酸测序数据的质量评估方法和筛选方法 | |
CN109390039B (zh) | 一种统计dna拷贝数信息的方法、装置及存储介质 | |
CN111926091A (zh) | 利用微卫星标记鉴定东北黑熊亲缘关系的方法 | |
US20220356513A1 (en) | Synthetic polynucleotides and method of use thereof in genetic analysis | |
Borodinov et al. | Quality Control Metrics at Different Stages of Genomic Assembly in the Parallel Sequencing Using the Nanofor SPS | |
CN114708905A (zh) | 基于ngs的染色体非整倍体检测方法、装置、介质和设备 | |
Ergüner | Computational methods for analyzing ngs data to discover clinically relevant mutations | |
BEng et al. | Evaluating the genetic diagnostic power of exome sequencing: Identifying missing data. | |
CN115725720A (zh) | 引物组合、试剂盒和检测slc25a13 ivs16区域变异的系统 | |
Krantz | Likelihood Modelling of DNA SequencingDataCalibration and accuracy assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |