CN115101124B - 全基因组等位基因鉴定方法及装置 - Google Patents

全基因组等位基因鉴定方法及装置 Download PDF

Info

Publication number
CN115101124B
CN115101124B CN202211016061.8A CN202211016061A CN115101124B CN 115101124 B CN115101124 B CN 115101124B CN 202211016061 A CN202211016061 A CN 202211016061A CN 115101124 B CN115101124 B CN 115101124B
Authority
CN
China
Prior art keywords
allele
pair
genome
alleles
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211016061.8A
Other languages
English (en)
Other versions
CN115101124A (zh
Inventor
彭珍
赵勇
周勋
刘志静
王龙
陶琳娜
康玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Novogene Biological Information Technology Co ltd
Original Assignee
Tianjin Novogene Biological Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Novogene Biological Information Technology Co ltd filed Critical Tianjin Novogene Biological Information Technology Co ltd
Priority to CN202211016061.8A priority Critical patent/CN115101124B/zh
Publication of CN115101124A publication Critical patent/CN115101124A/zh
Application granted granted Critical
Publication of CN115101124B publication Critical patent/CN115101124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种全基因组等位基因鉴定方法及装置。其中,鉴定方法包括:获取二倍体或多倍体的全基因组的原始蛋白注释文件;根据原始蛋白注释文件获取候选等位基因对及候选等位基因对中每个等位基因在基因组上的位置;根据各等位基因对中每个等位基因在基因组上的位置相同的原理对候选等位基因对进行筛选,获得最终的等位基因。通过基因组上的基因对和在基因组上的位置排序来鉴定等位基因,弥补了现有技术中等位基因鉴定不全或者等位基因鉴定错误的问题。

Description

全基因组等位基因鉴定方法及装置
技术领域
本发明涉及等位基因鉴定领域,具体而言,涉及一种全基因组等位基因鉴定方法及装置。
背景技术
基因组组装一般分为二代测序数据组装和三代测序数据组装,二代测序数据常用的组装软件为soapdenovo,通过小片段及大片段数据结合,组装结果为支架(scaffold)水平基因组;三代测序数据(clr数据或ont数据)常用的组装软件为canu或者falcon,组装的结果为重叠群(contig)水平基因组。
Pacbio公司近期推出的ccs测序模式,下机数据N50在20k左右,准确度可以到99%,称为hifi数据。Hifi数据使用hifiasm进行组装,结果为重叠群(contig)水平基因组,组装的连续性和准确性相比clr数据和ont数据更好,并且在单体型组装和多倍体组装上具有明显的优势。
Hi-C(High-through chromosome conformation capture)技术为高通量染色体构象捕获技术,利用染色体内部互作强度远大于染色体间互作强度的原理,对组织进行甲醛交联固定,特异性的限制酶对基因组进行酶切,然后经过加生物素标记和末端修复,再次进行酶连,打断,使用磁珠捕获带生物素标记的片段进行高通量测序,测序的数据结合重叠群(contig)或者支架(scaffold)水平的基因组,最终得到染色体水平基因组。
等位基因(allele),是指位于一对同源染色体相同位置上控制同一性状不同形态的基因。随着组装技术的发展和进步,应用三代hifi测序数据结合Hi-C测序数据,使得多倍体或者二倍体基因组组装获得亚基因组或单体型基因组成为可能,目前已发表的相关文章中基本都涉及等位基因的研究和解析。
发明内容
本发明的主要目的在于提供一种全基因组等位基因鉴定方法及装置,以解决现有技术中的等位基因鉴定方法可能会出现鉴定不全或不准确的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种全基因组等位基因鉴定的方法,该方法包括:获取二倍体或多倍体的全基因组的原始蛋白注释文件;根据原始蛋白注释文件获取候选等位基因对及候选等位基因对中每个等位基因在基因组上的位置;根据各等位基因对中每个等位基因在基因组上的位置相同的原理对候选等位基因对进行筛选,获得最终的等位基因。
进一步地,根据各等位基因对中每个等位基因在基因组上的位置相同的原理对候选等位基因对进行筛选,获得最终的等位基因包括:根据各等位基因对中每个等位基因在基因组上的位置,对每对染色体分别绘制散点图,并进行一元一次线性方程拟合,过滤掉异常点,得到每对染色体上的等位基因;对每对染色体上的等位基因进行统计,将满足每个等位基因的基因数量≥2的等位基因进行汇总,得到每个等位基因的真实基因对,进而获得最终的等位基因;优选地,异常点指理论值减去实际值的绝对值除以实际值大于0.3的等位基因对。
进一步地,根据原始蛋白注释文件获取候选等位基因对及候选等位基因对中每个等位基因在基因组上的位置包括:对二倍体的单体型间或多倍体的任意两个亚基因组之间的原始蛋白注释文件进行双向blast比对,取两者互为最佳比对且相似度和比对覆盖度均大于60%的基因对作为候选等位基因对,同时获取候选等位基因对中各等位基因在基因组上的位置。
进一步地,方法还包括:利用更新的蛋白注释文件替代原始蛋白注释文件重新进行等位基因的鉴定过程。
进一步地,更新的蛋白注释文件按如下方法获取:将每对染色体上的等位基因的基因数量为1的基因及基因组重新进行蛋白注释,得到再注释文件;对再注释文件和原始蛋白注释文件取并集,获得更新的蛋白注释文件。
为了实现上述目的,根据本发明的一个方面,提供了一种全基因组等位基因鉴定的装置,装置包括:原始注释文件获取模块,被设置为获取二倍体或多倍体的全基因组的原始蛋白注释文件;候选基因对及位置获取模块,被设置为根据原始蛋白注释文件获取候选等位基因对及候选等位基因对中每个等位基因在基因组上的位置;等位基因对筛选模块,被设置为根据各等位基因对中每个等位基因在基因组上的位置相同的原理对候选等位基因对进行筛选,获得最终的等位基因。
进一步地,等位基因对筛选模块包括:作图拟合模块,被设置为根据各等位基因对中每个等位基因在基因组上的位置,对每对染色体分别绘制散点图,并进行一元一次线性方程拟合,过滤掉异常点,得到每对染色体上的等位基因;统计汇总模块,被设置为对每对染色体上的等位基因进行统计,将满足每个等位基因的基因数量≥2的等位基因进行汇总,得到每个等位基因的真实基因对,进而获得最终的等位基因;异常点指理论值减去实际值的绝对值除以实际值大于0.3的等位基因对。
进一步地,候选基因对及位置获取模块包括:比对模块,被设置为对二倍体的单体型间或多倍体的任意两个亚基因组之间的原始蛋白注释文件进行双向blast比对;选取模块,被设置为取两者互为最佳比对且相似度和比对覆盖度均大于60%的基因对作为候选等位基因对,位置获取模块,被设置为获取候选等位基因对中各等位基因在基因组上的位置。
进一步地,装置还包括:迭代模块,被设置为利用更新的蛋白注释文件替代原始蛋白注释文件重新进行等位基因的鉴定过程。
进一步地,迭代模块包括文件替代子模块,文件替代子模块包括:再注释单元,被设置为将每对染色体上的等位基因的基因数量为1的基因及基因组重新进行蛋白注释,得到再注释文件;并集单元,被设置为对再注释文件和原始蛋白注释文件取并集,获得更新的蛋白注释文件。
根据本申请的第三个方面,提供了一种计算机可读存储介质,该计算机可读存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种全基因组等位基因鉴定的方法。
根据本申请的第四个方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种全基因组等位基因鉴定的方法。
应用本发明的技术方案,通过基因组上的基因对和在基因组上的位置排序来鉴定等位基因,弥补了现有技术中等位基因鉴定不全或者等位基因鉴定错误的问题,如共线性鉴定的一对多(若物种有WGD(全基因组复制)或大片段重复,共线性区段可能为1对多)情况会导致等位基因鉴定错误等。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明的实施例2中的一种全基因组等位基因鉴定的方法示意图;以及
图2示出了据本发明的实施例3中的某同源四倍体植物6号染色体上两个亚基因组上基因对在各自染色体上排序的散点图(左)和过滤异常点后的散点图(右)。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
术语解释:
等位基因(allele):是指位于一对同源染色体相同位置上控制同一性状的不同形态的基因。
实施例1
本实施例提供了一种全基因组等位基因鉴定的方法,该方法包括:
S101,获取二倍体或多倍体的全基因组的原始蛋白注释文件;
S102,根据原始蛋白注释文件获取候选等位基因对及候选等位基因对中每个等位基因在基因组上的位置;
S103,根据各等位基因对中每个等位基因在基因组上的位置相同的原理对候选等位基因对进行筛选,获得最终的等位基因。
本申请的全基因组等位基因鉴定的方法,通过基因组上的基因对和在基因组上的位置排序来鉴定等位基因,弥补了现有技术中等位基因鉴定的局限和共线性鉴定的一对多(若物种有WGD(全基因组复制)或大片段重复,共线性区段可能为1对多)导致的等位基因鉴定不全或者等位基因鉴定错误的问题。
上述根据原始蛋白注释文件获取候选等位基因对及候选等位基因对中每个等位基因在基因组上的位置的步骤中,除了根据每一套基因组中的基因与其余套基因组的蛋白序列的同源性高低而获得的最佳基因对之外,本申请的方案中还同时获得基因对中每个基因在基因组上的位置信息。便于根据不同等位基因位于同源染色体的同一位置上将每个等位基因在染色体的同一位置上进行定位。
对于二倍体物种而言,有两套基因组信息,每一套基因组称作单体型。对于多倍体物种而言,有多套基因组信息,每一套基因组称为亚基因组。
在上述获取等位基因对的时候,两两亚基因组之间或单体型间的蛋白文件进行双向blast比对,取两者互为最佳比对,且相似度(即序列同源性)和比对覆盖度(即比对上的长度与序列总长的比值)均大于60%的基因对。
上述S103中的理论基础在于:等位基因是指在一对同源染色体的同一位置上控制同一性状不同形态的基因,也就是说,等位基因通常位于同源染色体的同一位置上,因而位于染色体不同位置上的基因对并非真实的等位基因对。比如,仅根据共线性鉴定的一对多的现象中就可能包括了非真实的等位基因。
在一种优选的实施例中,上述S103包括:根据各等位基因对中每个等位基因在基因组上的位置,对每对染色体分别绘制散点图,并进行一元一次线性方程拟合,过滤掉异常点,得到每对染色体上的等位基因;对每对染色体上的等位基因进行统计,将满足每个等位基因的基因数量≥2的等位基因进行汇总,得到每个等位基因的真实基因对,进而获得最终的等位基因。
通过全基因组注释的方法,采用基因对位置绘制散点图,根据线性方程拟合去掉异常位点。并在最后统计汇总真实的等位基因对时,将仅有1个等位基因也去除,从而使获得的等位基因对均为真实的等位基因对。
上述异常点指理论值减去实际值的绝对值除以实际值大于0.3的等位基因对。以下举例说明,某位点为二倍体,其坐标为(X1,Y1),其中,X1代表等位基因中第一个等位基因在基因组上的位置,Y1代表等位基因中第二个等位基因在对应染色体上的位置,理论值是X1固定,根据拟合方程算出来y就是理论值,实际值就是Y1。若|y-Y1|/Y1>0.3,则认为该等位基因对为异常配对的等位基因对,需要去除。
为了进一步确保所鉴定的等位基因对的准确性,在一种优选的实施例中,该方法还包括:利用更新的蛋白注释文件替代原始蛋白注释文件重新进行等位基因的鉴定过程。即为了避免所利用的原始蛋白注释文件有注释错误或遗漏而造成的假阴性现象,可以利用各种方式更新后的蛋白注释文件替换原始蛋白注释文件,重复上述等位基因鉴定的过程,可使鉴定结果更准确。
在一种优选的实施例中,更新的蛋白注释文件按如下方法获取:将上述每对染色体上的等位基因的基因数量为1的基因及基因组重新进行蛋白注释,得到再注释文件;对再注释文件和原始蛋白注释文件取并集,获得更新的蛋白注释文件。该操作能够弥补基因组注释遗漏或错误可能带来的假阴性问题。
需要说明的是,本发明采用了基因对及其在基因组上的位置排序来鉴定等位基因,不仅可用于近缘物种间或异源多倍体亚基因组间ortholog(直系同源)基因对的鉴定,也可以分析不同物种间基因的PAV(结构变异中的存在和缺失变异)。
实施例2
如图1所示,本实施例的具体步骤如下:
1)HIC挂载并排序对应好染色体的基因组,进行全基因组基因注释,得到基因组的蛋白文件(即gff文件)。
2)两两亚基因组或单体型间的蛋白文件进行双向blast比对,取两者互为最佳比对,且相似度和比对覆盖度均大于60%的基因对。
3)对步骤2)基因对,添加每个基因在基因组上的位置排序。
4)对步骤3)基因对的位置,每对染色体分别绘制散点图,并进行一元一次线性方程拟合(y=ax+b),过滤掉异常点(理论值减去实际值的绝对值除以实际值大于0.3),得到每对染色体上的等位基因。
5)对每对染色体上的等位基因进行统计,每个等位基因位点基因数量>=2,仅有1个的为未找到,得到汇总成每个等位基因的原始基因对。
6)为了弥补基因组注释的假阴性,用gmap软件对未找到的基因和基因组进行重新注释(如图1所示,左侧基因对和基因排序对应本实施例的改进方法,右侧的JCVI共线性(基因区块的共线性)是传统等位基因鉴定方法,这个只是为了找出单个的非等位基因,即左右两侧方法第一轮找出的非等位基因,再进行此步骤的重新注释,以避免原始注释结果的假阴性使得等位基因鉴定更加全面,最终结果是第二轮鉴定左下角的等位基因),注释出来的基因和原始注释文件取并集,重复步骤2)到步骤5)的操作,得到最终的等位基因。
本实施例的等位基因鉴定的方法具有如下优点:
1)通过全基因组注释的方法,采用基因对位置绘制散点图,根据线性方程拟合去掉异常位点。
2)对未找到的基因和基因组进行第二轮注释,和第一轮结果合并,通过迭代的方法提高等位基因鉴定的全面性和准确性。
实施例3
对某同源四倍体植物进行了实验,图2及表1是6号染色体上两个亚基因组上基因对在各自染色体上排序的散点图和过滤异常点后的散点图及最终等位基因鉴定结果统计(表1)。从图2中可以看出,共线性比较符合线性方程,效果较好。
表1:
Figure 921459DEST_PATH_IMAGE001
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
对应于上述方式,本申请还分别提供了一种全基因组等位基因鉴定的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
下面结合可选的实施例进一步说明。
实施例4
本实施例提供了一种全基因组等位基因鉴定的装置,该装置包括:原始注释文件获取模块、候选基因对及位置获取模块以及等位基因对筛选模块,其中,
原始注释文件获取模块,被设置为获取二倍体或多倍体的全基因组的原始蛋白注释文件;
候选基因对及位置获取模块,被设置为根据原始蛋白注释文件获取候选等位基因对及候选等位基因对中每个等位基因在基因组上的位置;
等位基因对筛选模块,被设置为根据各等位基因对中每个等位基因在基因组上的位置相同的原理对候选等位基因对进行筛选,获得每个等位基因的真实基因对。
可选地,等位基因对筛选模块包括:作图拟合模块,被设置为根据各等位基因对中每个等位基因在基因组上的位置,对每对染色体分别绘制散点图,并进行一元一次线性方程拟合,过滤掉异常点,得到每对染色体上的等位基因;统计汇总模块,被设置为对每对染色体上的等位基因进行统计,将满足每个等位基因的基因数量≥2的等位基因进行汇总,得到每个等位基因的真实基因对。
可选地,异常点指理论值减去实际值的绝对值除以实际值大于0.3的等位基因对。
可选地,装置还包括:迭代模块,被设置为利用更新的蛋白注释文件替代原始蛋白注释文件重新进行等位基因的鉴定过程。
可选地,迭代模块包括文件替代子模块,文件替代子模块包括:再注释单元,被设置为将每对染色体上的等位基因的基因数量为1的基因及基因组重新进行蛋白注释,得到再注释文件;并集单元,被设置为对再注释文件和原始蛋白注释文件取并集,获得更新的蛋白注释文件。
实施例5
本实施例提供了一种计算机可读存储介质,该计算机可读存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一种全基因组等位基因鉴定的方法。
还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行任意一种全基因组等位基因鉴定的方法。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:与传统实验鉴定和共线性区块鉴定结果相比,本发明提供一种较全面和准确的等位基因鉴定方法。根据本发明,可以将同源多倍体或单体型二倍体的等位基因鉴定出来,为后续亚基因组的进化、差异表达和结构变异等分析提供重要的支撑。
相比现有的等位基因鉴定方法和装置,本发明的方法具有如下优点:
(1)本发明能够实现对全基因组进行等位基因鉴定。
(2)本发明通过筛选基因对互为最佳比对,且是根据基因组位置进行鉴定,因此不会出现一个基因在另一条染色体上有多个等位基因的情况。
(3)本发明弥补了注释结果的假阴性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种全基因组等位基因鉴定的方法,其特征在于,所述方法包括:
获取二倍体或多倍体的全基因组的原始蛋白注释文件;
根据所述原始蛋白注释文件获取候选等位基因对及所述候选等位基因对中每个等位基因在基因组上的位置;
根据各所述等位基因对中每个所述等位基因在基因组上的位置相同的原理对所述候选等位基因对进行筛选,获得最终的所述等位基因;
其中,根据各所述等位基因对中每个所述等位基因在基因组上的位置相同的原理对所述候选等位基因对进行筛选,获得最终的所述等位基因包括:
根据各所述等位基因对中每个所述等位基因在基因组上的位置,对每对染色体分别绘制散点图,并进行一元一次线性方程拟合,过滤掉异常点,得到每对染色体上的等位基因;
对每对染色体上的所述等位基因进行统计,将满足每个所述等位基因的基因数量≥2的等位基因进行汇总,得到每个所述等位基因的真实基因对,进而获得最终的所述等位基因;
所述异常点指理论值减去实际值的绝对值除以实际值大于0.3的等位基因对。
2.根据权利要求1所述的方法,其特征在于,根据所述原始蛋白注释文件获取候选等位基因对及所述候选等位基因对中每个等位基因在基因组上的位置包括:
对所述二倍体的单体型间或所述多倍体的任意两个亚基因组之间的所述原始蛋白注释文件进行双向blast比对,取两者互为最佳比对且相似度和比对覆盖度均大于60%的基因对作为候选等位基因对,同时获取所述候选等位基因对中各等位基因在基因组上的位置。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用更新的蛋白注释文件替代所述原始蛋白注释文件重新进行所述等位基因的鉴定过程。
4.根据权利要求3所述的方法,其特征在于,所述更新的蛋白注释文件按如下方法获取:
将每对染色体上的等位基因的基因数量为1的基因及基因组重新进行蛋白注释,得到再注释文件;
对所述再注释文件和原始蛋白注释文件取并集,获得所述更新的蛋白注释文件。
5.一种全基因组等位基因鉴定的装置,其特征在于,所述装置包括:
原始注释文件获取模块,被设置为获取二倍体或多倍体的全基因组的原始蛋白注释文件;
候选基因对及位置获取模块,被设置为根据所述原始蛋白注释文件获取候选等位基因对及所述候选等位基因对中每个等位基因在基因组上的位置;
等位基因对筛选模块,被设置为根据各所述等位基因对中每个所述等位基因在基因组上的位置相同的原理对所述候选等位基因对进行筛选,获得最终的所述等位基因;
其中,所述等位基因对筛选模块包括:
作图拟合模块,被设置为根据各所述等位基因对中每个所述等位基因在基因组上的位置,对每对染色体分别绘制散点图,并进行一元一次线性方程拟合,过滤掉异常点,得到每对染色体上的等位基因;
统计汇总模块,被设置为对每对染色体上的所述等位基因进行统计,将满足每个所述等位基因的基因数量≥2的等位基因进行汇总,得到每个所述等位基因的真实基因对,进而获得最终的所述等位基因;
所述异常点指理论值减去实际值的绝对值除以实际值大于0.3的等位基因对。
6.根据权利要求5所述的装置,其特征在于,所述候选基因对及位置获取模块包括:
比对模块,被设置为对所述二倍体的单体型间或所述多倍体的任意两个亚基因组之间的所述原始蛋白注释文件进行双向blast比对;
选取模块,被设置为取两者互为最佳比对且相似度和比对覆盖度均大于60%的基因对作为候选等位基因对,
位置获取模块,被设置为获取所述候选等位基因对中各等位基因在基因组上的位置。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:迭代模块,被设置为利用更新的蛋白注释文件替代所述原始蛋白注释文件重新进行所述等位基因的鉴定过程。
8.根据权利要求7所述的装置,其特征在于,所述迭代模块包括文件替代子模块,所述文件替代子模块包括:
再注释单元,被设置为将每对染色体上的等位基因的基因数量为1的基因及基因组重新进行蛋白注释,得到再注释文件;
并集单元,被设置为对所述再注释文件和原始蛋白注释文件取并集,获得所述更新的蛋白注释文件。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至4中任意一项所述的全基因组等位基因鉴定的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至4中任意一项所述的全基因组等位基因鉴定的方法。
CN202211016061.8A 2022-08-24 2022-08-24 全基因组等位基因鉴定方法及装置 Active CN115101124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211016061.8A CN115101124B (zh) 2022-08-24 2022-08-24 全基因组等位基因鉴定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211016061.8A CN115101124B (zh) 2022-08-24 2022-08-24 全基因组等位基因鉴定方法及装置

Publications (2)

Publication Number Publication Date
CN115101124A CN115101124A (zh) 2022-09-23
CN115101124B true CN115101124B (zh) 2022-11-22

Family

ID=83300467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211016061.8A Active CN115101124B (zh) 2022-08-24 2022-08-24 全基因组等位基因鉴定方法及装置

Country Status (1)

Country Link
CN (1) CN115101124B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117577199A (zh) * 2023-11-22 2024-02-20 允思拓(天津)生物科技有限公司 一种染色体级的基因注释方法及装置
CN117672354B (zh) * 2023-12-21 2024-05-28 北京诺禾致源科技股份有限公司 比较哺乳动物近源物种完整基因组组装质量的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105593683A (zh) * 2013-10-01 2016-05-18 考利达基因组股份有限公司 鉴定基因组中的变异的定相和连接方法
CN106886689A (zh) * 2015-12-15 2017-06-23 浙江大学 一种病原微生物基因组快速分析方法及系统
CN112289382A (zh) * 2020-10-28 2021-01-29 天津诺禾致源生物信息科技有限公司 多倍体基因组同源染色体的拆分方法、装置及其应用
CN113113081A (zh) * 2020-08-31 2021-07-13 东莞博奥木华基因科技有限公司 基于CNV-seq测序数据检测多倍体和基因组纯合区域ROH的系统
CN113496760A (zh) * 2020-04-01 2021-10-12 深圳华大基因科技服务有限公司 基于第三代测序的多倍体基因组组装方法和装置
CN113628685A (zh) * 2021-07-27 2021-11-09 广东省农业科学院水稻研究所 一种基于多个基因组比较和二代测序数据的全基因组关联分析方法
CN114457143A (zh) * 2022-03-16 2022-05-10 苏州贝康医疗器械有限公司 一种构建cnv检测文库的方法及cnv检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210155929A1 (en) * 2019-11-06 2021-05-27 Emendobio Inc. Differential knockout of an allele of a heterozygous elane gene - ii

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105593683A (zh) * 2013-10-01 2016-05-18 考利达基因组股份有限公司 鉴定基因组中的变异的定相和连接方法
CN106886689A (zh) * 2015-12-15 2017-06-23 浙江大学 一种病原微生物基因组快速分析方法及系统
CN113496760A (zh) * 2020-04-01 2021-10-12 深圳华大基因科技服务有限公司 基于第三代测序的多倍体基因组组装方法和装置
CN113113081A (zh) * 2020-08-31 2021-07-13 东莞博奥木华基因科技有限公司 基于CNV-seq测序数据检测多倍体和基因组纯合区域ROH的系统
CN112289382A (zh) * 2020-10-28 2021-01-29 天津诺禾致源生物信息科技有限公司 多倍体基因组同源染色体的拆分方法、装置及其应用
CN113628685A (zh) * 2021-07-27 2021-11-09 广东省农业科学院水稻研究所 一种基于多个基因组比较和二代测序数据的全基因组关联分析方法
CN114457143A (zh) * 2022-03-16 2022-05-10 苏州贝康医疗器械有限公司 一种构建cnv检测文库的方法及cnv检测方法

Also Published As

Publication number Publication date
CN115101124A (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN115101124B (zh) 全基因组等位基因鉴定方法及装置
Gong et al. Detection of somatic structural variants from short-read next-generation sequencing data
CN103993069B (zh) 病毒整合位点捕获测序分析方法
Mikheenko et al. TandemTools: mapping long reads and assessing/improving assembly quality in extra-long tandem repeats
CN107944228B (zh) 一种基因测序变异位点的可视化方法
CN107784201B (zh) 一种二代序列和三代单分子实时测序序列联合补洞方法和系统
CN112375829B (zh) 使用家系wes数据识别upd的方法、装置及电子设备
CN111081315A (zh) 一种同源假基因变异检测的方法
CN112599198A (zh) 一种用于宏基因组测序数据的微生物物种与功能组成分析方法
CA2823061A1 (en) Data analysis of dna sequences
Seixas et al. Synteny-based genome assembly for 16 species of Heliconius butterflies, and an assessment of structural variation across the genus
CN113205857B (zh) 基因组性染色体非同源区域的鉴定方法和装置
CN111676276A (zh) 一种快速精准确定基因编辑突变情况的方法及其应用
CN112489727B (zh) 一种快速获取罕见病致病位点的方法和系统
CN113782101A (zh) 高杂合二倍体序列组装结果去冗余的方法、装置及其应用
CN111292803A (zh) 基因组断裂点识别方法及应用
CN114822700B (zh) 用于呈现重排或融合结构亚型的方法、设备和介质
Wang et al. Defind: Detecting genomic deletions by integrating read depth, gc content, mapping quality and paired-end mapping signatures of next generation sequencing data
CN110942807A (zh) 检测基因重排的方法与装置
Wong et al. LaneRuler: automated lane tracking for DNA electrophoresis gel images
CN113782099B (zh) 修补基因组序列组装缺口的方法和装置
CN111429967A (zh) Pacbio三代测序数据的处理方法
CN117153248B (zh) 一种基于泛基因组的基因区变异检测及可视化方法、系统
CN115198036B (zh) 一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法
WO2024140880A1 (zh) 一种拷贝数变异分析的方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant