CN115101124B

CN115101124B - 全基因组等位基因鉴定方法及装置

Info

Publication number: CN115101124B
Application number: CN202211016061.8A
Authority: CN
Inventors: 彭珍; 赵勇; 周勋; 刘志静; 王龙; 陶琳娜; 康玲
Original assignee: Tianjin Novogene Biological Information Technology Co ltd
Current assignee: Tianjin Novogene Biological Information Technology Co ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-11-22
Anticipated expiration: 2042-08-24
Also published as: CN115101124A

Abstract

本发明提供了一种全基因组等位基因鉴定方法及装置。其中，鉴定方法包括：获取二倍体或多倍体的全基因组的原始蛋白注释文件；根据原始蛋白注释文件获取候选等位基因对及候选等位基因对中每个等位基因在基因组上的位置；根据各等位基因对中每个等位基因在基因组上的位置相同的原理对候选等位基因对进行筛选，获得最终的等位基因。通过基因组上的基因对和在基因组上的位置排序来鉴定等位基因，弥补了现有技术中等位基因鉴定不全或者等位基因鉴定错误的问题。

Description

全基因组等位基因鉴定方法及装置

技术领域

本发明涉及等位基因鉴定领域，具体而言，涉及一种全基因组等位基因鉴定方法及装置。

背景技术

基因组组装一般分为二代测序数据组装和三代测序数据组装，二代测序数据常用的组装软件为soapdenovo，通过小片段及大片段数据结合，组装结果为支架（scaffold）水平基因组；三代测序数据（clr数据或ont数据）常用的组装软件为canu或者falcon，组装的结果为重叠群（contig）水平基因组。

Pacbio公司近期推出的ccs测序模式，下机数据N50在20k左右，准确度可以到99%，称为hifi数据。Hifi数据使用hifiasm进行组装，结果为重叠群（contig）水平基因组，组装的连续性和准确性相比clr数据和ont数据更好，并且在单体型组装和多倍体组装上具有明显的优势。

Hi-C(High-through chromosome conformation capture)技术为高通量染色体构象捕获技术，利用染色体内部互作强度远大于染色体间互作强度的原理，对组织进行甲醛交联固定，特异性的限制酶对基因组进行酶切，然后经过加生物素标记和末端修复，再次进行酶连，打断，使用磁珠捕获带生物素标记的片段进行高通量测序，测序的数据结合重叠群（contig）或者支架(scaffold)水平的基因组，最终得到染色体水平基因组。

等位基因（allele），是指位于一对同源染色体相同位置上控制同一性状不同形态的基因。随着组装技术的发展和进步，应用三代hifi测序数据结合Hi-C测序数据，使得多倍体或者二倍体基因组组装获得亚基因组或单体型基因组成为可能，目前已发表的相关文章中基本都涉及等位基因的研究和解析。

发明内容

本发明的主要目的在于提供一种全基因组等位基因鉴定方法及装置，以解决现有技术中的等位基因鉴定方法可能会出现鉴定不全或不准确的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种全基因组等位基因鉴定的方法，该方法包括：获取二倍体或多倍体的全基因组的原始蛋白注释文件；根据原始蛋白注释文件获取候选等位基因对及候选等位基因对中每个等位基因在基因组上的位置；根据各等位基因对中每个等位基因在基因组上的位置相同的原理对候选等位基因对进行筛选，获得最终的等位基因。

进一步地，根据各等位基因对中每个等位基因在基因组上的位置相同的原理对候选等位基因对进行筛选，获得最终的等位基因包括：根据各等位基因对中每个等位基因在基因组上的位置，对每对染色体分别绘制散点图，并进行一元一次线性方程拟合，过滤掉异常点，得到每对染色体上的等位基因；对每对染色体上的等位基因进行统计，将满足每个等位基因的基因数量≥2的等位基因进行汇总，得到每个等位基因的真实基因对，进而获得最终的等位基因；优选地，异常点指理论值减去实际值的绝对值除以实际值大于0.3的等位基因对。

进一步地，根据原始蛋白注释文件获取候选等位基因对及候选等位基因对中每个等位基因在基因组上的位置包括：对二倍体的单体型间或多倍体的任意两个亚基因组之间的原始蛋白注释文件进行双向blast比对，取两者互为最佳比对且相似度和比对覆盖度均大于60%的基因对作为候选等位基因对，同时获取候选等位基因对中各等位基因在基因组上的位置。

进一步地，方法还包括：利用更新的蛋白注释文件替代原始蛋白注释文件重新进行等位基因的鉴定过程。

进一步地，更新的蛋白注释文件按如下方法获取：将每对染色体上的等位基因的基因数量为1的基因及基因组重新进行蛋白注释，得到再注释文件；对再注释文件和原始蛋白注释文件取并集，获得更新的蛋白注释文件。

为了实现上述目的，根据本发明的一个方面，提供了一种全基因组等位基因鉴定的装置，装置包括：原始注释文件获取模块，被设置为获取二倍体或多倍体的全基因组的原始蛋白注释文件；候选基因对及位置获取模块，被设置为根据原始蛋白注释文件获取候选等位基因对及候选等位基因对中每个等位基因在基因组上的位置；等位基因对筛选模块，被设置为根据各等位基因对中每个等位基因在基因组上的位置相同的原理对候选等位基因对进行筛选，获得最终的等位基因。

进一步地，等位基因对筛选模块包括：作图拟合模块，被设置为根据各等位基因对中每个等位基因在基因组上的位置，对每对染色体分别绘制散点图，并进行一元一次线性方程拟合，过滤掉异常点，得到每对染色体上的等位基因；统计汇总模块，被设置为对每对染色体上的等位基因进行统计，将满足每个等位基因的基因数量≥2的等位基因进行汇总，得到每个等位基因的真实基因对，进而获得最终的等位基因；异常点指理论值减去实际值的绝对值除以实际值大于0.3的等位基因对。

进一步地，候选基因对及位置获取模块包括：比对模块，被设置为对二倍体的单体型间或多倍体的任意两个亚基因组之间的原始蛋白注释文件进行双向blast比对；选取模块，被设置为取两者互为最佳比对且相似度和比对覆盖度均大于60%的基因对作为候选等位基因对，位置获取模块，被设置为获取候选等位基因对中各等位基因在基因组上的位置。

进一步地，装置还包括：迭代模块，被设置为利用更新的蛋白注释文件替代原始蛋白注释文件重新进行等位基因的鉴定过程。

进一步地，迭代模块包括文件替代子模块，文件替代子模块包括：再注释单元，被设置为将每对染色体上的等位基因的基因数量为1的基因及基因组重新进行蛋白注释，得到再注释文件；并集单元，被设置为对再注释文件和原始蛋白注释文件取并集，获得更新的蛋白注释文件。

根据本申请的第三个方面，提供了一种计算机可读存储介质，该计算机可读存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述任一种全基因组等位基因鉴定的方法。

根据本申请的第四个方面，提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述任一种全基因组等位基因鉴定的方法。

应用本发明的技术方案，通过基因组上的基因对和在基因组上的位置排序来鉴定等位基因，弥补了现有技术中等位基因鉴定不全或者等位基因鉴定错误的问题，如共线性鉴定的一对多（若物种有WGD（全基因组复制）或大片段重复，共线性区段可能为1对多）情况会导致等位基因鉴定错误等。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明的实施例2中的一种全基因组等位基因鉴定的方法示意图；以及

图2示出了据本发明的实施例3中的某同源四倍体植物6号染色体上两个亚基因组上基因对在各自染色体上排序的散点图（左）和过滤异常点后的散点图（右）。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

术语解释：

等位基因（allele）：是指位于一对同源染色体相同位置上控制同一性状的不同形态的基因。

实施例1

本实施例提供了一种全基因组等位基因鉴定的方法，该方法包括：

S101，获取二倍体或多倍体的全基因组的原始蛋白注释文件；

S102，根据原始蛋白注释文件获取候选等位基因对及候选等位基因对中每个等位基因在基因组上的位置；

S103，根据各等位基因对中每个等位基因在基因组上的位置相同的原理对候选等位基因对进行筛选，获得最终的等位基因。

本申请的全基因组等位基因鉴定的方法，通过基因组上的基因对和在基因组上的位置排序来鉴定等位基因，弥补了现有技术中等位基因鉴定的局限和共线性鉴定的一对多（若物种有WGD（全基因组复制）或大片段重复，共线性区段可能为1对多）导致的等位基因鉴定不全或者等位基因鉴定错误的问题。

上述根据原始蛋白注释文件获取候选等位基因对及候选等位基因对中每个等位基因在基因组上的位置的步骤中，除了根据每一套基因组中的基因与其余套基因组的蛋白序列的同源性高低而获得的最佳基因对之外，本申请的方案中还同时获得基因对中每个基因在基因组上的位置信息。便于根据不同等位基因位于同源染色体的同一位置上将每个等位基因在染色体的同一位置上进行定位。

对于二倍体物种而言，有两套基因组信息，每一套基因组称作单体型。对于多倍体物种而言，有多套基因组信息，每一套基因组称为亚基因组。

在上述获取等位基因对的时候，两两亚基因组之间或单体型间的蛋白文件进行双向blast比对，取两者互为最佳比对，且相似度（即序列同源性）和比对覆盖度（即比对上的长度与序列总长的比值）均大于60%的基因对。

上述S103中的理论基础在于：等位基因是指在一对同源染色体的同一位置上控制同一性状不同形态的基因，也就是说，等位基因通常位于同源染色体的同一位置上，因而位于染色体不同位置上的基因对并非真实的等位基因对。比如，仅根据共线性鉴定的一对多的现象中就可能包括了非真实的等位基因。

在一种优选的实施例中，上述S103包括：根据各等位基因对中每个等位基因在基因组上的位置，对每对染色体分别绘制散点图，并进行一元一次线性方程拟合，过滤掉异常点，得到每对染色体上的等位基因；对每对染色体上的等位基因进行统计，将满足每个等位基因的基因数量≥2的等位基因进行汇总，得到每个等位基因的真实基因对，进而获得最终的等位基因。

通过全基因组注释的方法，采用基因对位置绘制散点图，根据线性方程拟合去掉异常位点。并在最后统计汇总真实的等位基因对时，将仅有1个等位基因也去除，从而使获得的等位基因对均为真实的等位基因对。

上述异常点指理论值减去实际值的绝对值除以实际值大于0.3的等位基因对。以下举例说明，某位点为二倍体，其坐标为（X1，Y1），其中，X1代表等位基因中第一个等位基因在基因组上的位置，Y1代表等位基因中第二个等位基因在对应染色体上的位置，理论值是X1固定，根据拟合方程算出来y就是理论值，实际值就是Y1。若｜y-Y1｜/Y1＞0.3，则认为该等位基因对为异常配对的等位基因对，需要去除。

为了进一步确保所鉴定的等位基因对的准确性，在一种优选的实施例中，该方法还包括：利用更新的蛋白注释文件替代原始蛋白注释文件重新进行等位基因的鉴定过程。即为了避免所利用的原始蛋白注释文件有注释错误或遗漏而造成的假阴性现象，可以利用各种方式更新后的蛋白注释文件替换原始蛋白注释文件，重复上述等位基因鉴定的过程，可使鉴定结果更准确。

在一种优选的实施例中，更新的蛋白注释文件按如下方法获取：将上述每对染色体上的等位基因的基因数量为1的基因及基因组重新进行蛋白注释，得到再注释文件；对再注释文件和原始蛋白注释文件取并集，获得更新的蛋白注释文件。该操作能够弥补基因组注释遗漏或错误可能带来的假阴性问题。

需要说明的是，本发明采用了基因对及其在基因组上的位置排序来鉴定等位基因，不仅可用于近缘物种间或异源多倍体亚基因组间ortholog（直系同源）基因对的鉴定，也可以分析不同物种间基因的PAV(结构变异中的存在和缺失变异)。

实施例2

如图1所示，本实施例的具体步骤如下：

1）HIC挂载并排序对应好染色体的基因组，进行全基因组基因注释，得到基因组的蛋白文件（即gff文件）。

2）两两亚基因组或单体型间的蛋白文件进行双向blast比对，取两者互为最佳比对，且相似度和比对覆盖度均大于60%的基因对。

3）对步骤2）基因对，添加每个基因在基因组上的位置排序。

4）对步骤3）基因对的位置，每对染色体分别绘制散点图，并进行一元一次线性方程拟合（y=ax+b），过滤掉异常点（理论值减去实际值的绝对值除以实际值大于0.3），得到每对染色体上的等位基因。

5）对每对染色体上的等位基因进行统计，每个等位基因位点基因数量>=2，仅有1个的为未找到，得到汇总成每个等位基因的原始基因对。

6）为了弥补基因组注释的假阴性，用gmap软件对未找到的基因和基因组进行重新注释（如图1所示，左侧基因对和基因排序对应本实施例的改进方法，右侧的JCVI共线性（基因区块的共线性）是传统等位基因鉴定方法，这个只是为了找出单个的非等位基因，即左右两侧方法第一轮找出的非等位基因，再进行此步骤的重新注释，以避免原始注释结果的假阴性使得等位基因鉴定更加全面，最终结果是第二轮鉴定左下角的等位基因），注释出来的基因和原始注释文件取并集，重复步骤2）到步骤5）的操作，得到最终的等位基因。

本实施例的等位基因鉴定的方法具有如下优点：

1）通过全基因组注释的方法，采用基因对位置绘制散点图，根据线性方程拟合去掉异常位点。

2）对未找到的基因和基因组进行第二轮注释，和第一轮结果合并，通过迭代的方法提高等位基因鉴定的全面性和准确性。

实施例3

对某同源四倍体植物进行了实验，图2及表1是6号染色体上两个亚基因组上基因对在各自染色体上排序的散点图和过滤异常点后的散点图及最终等位基因鉴定结果统计（表1）。从图2中可以看出，共线性比较符合线性方程，效果较好。

表1：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

对应于上述方式，本申请还分别提供了一种全基因组等位基因鉴定的装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

下面结合可选的实施例进一步说明。

实施例4

本实施例提供了一种全基因组等位基因鉴定的装置，该装置包括：原始注释文件获取模块、候选基因对及位置获取模块以及等位基因对筛选模块，其中，

原始注释文件获取模块，被设置为获取二倍体或多倍体的全基因组的原始蛋白注释文件；

候选基因对及位置获取模块，被设置为根据原始蛋白注释文件获取候选等位基因对及候选等位基因对中每个等位基因在基因组上的位置；

等位基因对筛选模块，被设置为根据各等位基因对中每个等位基因在基因组上的位置相同的原理对候选等位基因对进行筛选，获得每个等位基因的真实基因对。

可选地，等位基因对筛选模块包括：作图拟合模块，被设置为根据各等位基因对中每个等位基因在基因组上的位置，对每对染色体分别绘制散点图，并进行一元一次线性方程拟合，过滤掉异常点，得到每对染色体上的等位基因；统计汇总模块，被设置为对每对染色体上的等位基因进行统计，将满足每个等位基因的基因数量≥2的等位基因进行汇总，得到每个等位基因的真实基因对。

可选地，异常点指理论值减去实际值的绝对值除以实际值大于0.3的等位基因对。

可选地，装置还包括：迭代模块，被设置为利用更新的蛋白注释文件替代原始蛋白注释文件重新进行等位基因的鉴定过程。

可选地，迭代模块包括文件替代子模块，文件替代子模块包括：再注释单元，被设置为将每对染色体上的等位基因的基因数量为1的基因及基因组重新进行蛋白注释，得到再注释文件；并集单元，被设置为对再注释文件和原始蛋白注释文件取并集，获得更新的蛋白注释文件。

实施例5

本实施例提供了一种计算机可读存储介质，该计算机可读存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述任意一种全基因组等位基因鉴定的方法。

还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行任意一种全基因组等位基因鉴定的方法。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：与传统实验鉴定和共线性区块鉴定结果相比，本发明提供一种较全面和准确的等位基因鉴定方法。根据本发明，可以将同源多倍体或单体型二倍体的等位基因鉴定出来，为后续亚基因组的进化、差异表达和结构变异等分析提供重要的支撑。

相比现有的等位基因鉴定方法和装置，本发明的方法具有如下优点：

(1)本发明能够实现对全基因组进行等位基因鉴定。

(2)本发明通过筛选基因对互为最佳比对，且是根据基因组位置进行鉴定，因此不会出现一个基因在另一条染色体上有多个等位基因的情况。

(3)本发明弥补了注释结果的假阴性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种全基因组等位基因鉴定的方法，其特征在于，所述方法包括：

获取二倍体或多倍体的全基因组的原始蛋白注释文件；

根据所述原始蛋白注释文件获取候选等位基因对及所述候选等位基因对中每个等位基因在基因组上的位置；

根据各所述等位基因对中每个所述等位基因在基因组上的位置相同的原理对所述候选等位基因对进行筛选，获得最终的所述等位基因；

其中，根据各所述等位基因对中每个所述等位基因在基因组上的位置相同的原理对所述候选等位基因对进行筛选，获得最终的所述等位基因包括：

根据各所述等位基因对中每个所述等位基因在基因组上的位置，对每对染色体分别绘制散点图，并进行一元一次线性方程拟合，过滤掉异常点，得到每对染色体上的等位基因；

对每对染色体上的所述等位基因进行统计，将满足每个所述等位基因的基因数量≥2的等位基因进行汇总，得到每个所述等位基因的真实基因对，进而获得最终的所述等位基因；

所述异常点指理论值减去实际值的绝对值除以实际值大于0.3的等位基因对。

2.根据权利要求1所述的方法，其特征在于，根据所述原始蛋白注释文件获取候选等位基因对及所述候选等位基因对中每个等位基因在基因组上的位置包括：

对所述二倍体的单体型间或所述多倍体的任意两个亚基因组之间的所述原始蛋白注释文件进行双向blast比对，取两者互为最佳比对且相似度和比对覆盖度均大于60%的基因对作为候选等位基因对，同时获取所述候选等位基因对中各等位基因在基因组上的位置。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：利用更新的蛋白注释文件替代所述原始蛋白注释文件重新进行所述等位基因的鉴定过程。

4.根据权利要求3所述的方法，其特征在于，所述更新的蛋白注释文件按如下方法获取：

将每对染色体上的等位基因的基因数量为1的基因及基因组重新进行蛋白注释，得到再注释文件；

对所述再注释文件和原始蛋白注释文件取并集，获得所述更新的蛋白注释文件。

5.一种全基因组等位基因鉴定的装置，其特征在于，所述装置包括：

候选基因对及位置获取模块，被设置为根据所述原始蛋白注释文件获取候选等位基因对及所述候选等位基因对中每个等位基因在基因组上的位置；

等位基因对筛选模块，被设置为根据各所述等位基因对中每个所述等位基因在基因组上的位置相同的原理对所述候选等位基因对进行筛选，获得最终的所述等位基因；

其中，所述等位基因对筛选模块包括：

作图拟合模块，被设置为根据各所述等位基因对中每个所述等位基因在基因组上的位置，对每对染色体分别绘制散点图，并进行一元一次线性方程拟合，过滤掉异常点，得到每对染色体上的等位基因；

统计汇总模块，被设置为对每对染色体上的所述等位基因进行统计，将满足每个所述等位基因的基因数量≥2的等位基因进行汇总，得到每个所述等位基因的真实基因对，进而获得最终的所述等位基因；

6.根据权利要求5所述的装置，其特征在于，所述候选基因对及位置获取模块包括：

比对模块，被设置为对所述二倍体的单体型间或所述多倍体的任意两个亚基因组之间的所述原始蛋白注释文件进行双向blast比对；

选取模块，被设置为取两者互为最佳比对且相似度和比对覆盖度均大于60%的基因对作为候选等位基因对，

位置获取模块，被设置为获取所述候选等位基因对中各等位基因在基因组上的位置。

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：迭代模块，被设置为利用更新的蛋白注释文件替代所述原始蛋白注释文件重新进行所述等位基因的鉴定过程。

8.根据权利要求7所述的装置，其特征在于，所述迭代模块包括文件替代子模块，所述文件替代子模块包括：

再注释单元，被设置为将每对染色体上的等位基因的基因数量为1的基因及基因组重新进行蛋白注释，得到再注释文件；

并集单元，被设置为对所述再注释文件和原始蛋白注释文件取并集，获得所述更新的蛋白注释文件。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至4中任意一项所述的全基因组等位基因鉴定的方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至4中任意一项所述的全基因组等位基因鉴定的方法。