CN114582427A

CN114582427A - 一种渐渗区段鉴定方法及计算机可读存储介质

Info

Publication number: CN114582427A
Application number: CN202210286306.2A
Authority: CN
Inventors: 邱俊辉; 邓操; 郝兆楠
Original assignee: Chengdu Genhui Technology Co ltd
Current assignee: Chengdu Genhui Technology Co ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-06-03
Anticipated expiration: 2042-03-22
Also published as: CN114582427B

Abstract

本发明涉及基因组学领域，提供一种基因组渐渗区段鉴定方法，包括利用参考基因组和待检测样本的测序数据，计算基因组各个位点对应的测序深度值；对于同一样本的多个测序数据集，合并相同位点的测序深度值，得到实际深度值，并基于位于同一窗口内的所有位点实际深度值，获得样本全基因组的测序深度的可视化分布，或利用两个样本的可视化深度差值分布，最终通过识别分布中的显著差异区段确定样本基因组中的基因组渐渗区段。本发明通过将整个基因组划分为多个窗口，以窗口的深度值的可视化分布，较为快速且直观地反应哪些区段具有显著差异，从而能够快速对基因组中渐渗区段进行鉴定，并便于后续的基础研究和应用研究。

Description

一种渐渗区段鉴定方法及计算机可读存储介质

技术领域

本发明涉及基因组学领域，具体而言，涉及一种渐渗区段鉴定方法及计算机可读存储介质。

背景技术

杂交个体是指不同物种间或同一物种不同群体(或称品系)间杂交所产生的后代。遗传渐渗正是杂交的结果。狭义的遗传渐渗是指基因或遗传物质通过群体中的杂种个体与亲本个体之间的不断回交而导致基因在群体或个体间转移和传递的过程，是物种形成和适应性进化的一个非常重要的遗传机制。广义的遗传渐渗是指基因或遗传物质在有一定遗传差异的个体或群体之间进行转移和传递的过程。通过杂交和遗传渐渗，杂种与亲本将在个体的遗传基础和群体的遗传多样性水平上发生变化。

杂交渐渗对于生物进化具有重要的意义：辅助生物适应性进化，打破物种和群体间原有的遗传隔离，促进新物种的形成，提高物种和群体的遗传多样等。杂交渐渗所带来了丰富的遗传变异，随着高通量测序技术(NGS)的飞速发展，使无数生物学研究者们得以利用丰富的遗传变异来研究物种的进化历程、基因渐渗、有益形状相关基因等等，这些研究的成果不仅可以促进动植物遗传资源的维护，还可用于动植物育种等，因此对于杂交渐渗的研究具有十分重要的意义。

目前对于杂交渐渗的研究非常多，研究方法也多种多样。应用最多的是依赖已知的分子标记进行的渐渗研究，分子标记主要包括微卫星序列、线粒体基因、核基因，还有目标表型相关基因；其次是利用实验技术FISH(荧光原位杂交)；近几年出现了利用全基因组水平的遗传变异进行基因渐渗的研究。这些研究均属于群体层面多样本的研究，研究对象也是经过许多研究发现有渐渗现象的物种。随着高通量测序技术和生物信息学分析技术的不断发展，那些未知物种也可以以更低的成本来完成渐渗区段的鉴定和研究，但目前遇到的困难是某些分子标记的效果不好、长度不够、精度不够等等。因此，亟待提供一种渐渗区段鉴定方法及计算机可读存储介质。

发明内容

本发明的目的是提供一种渐渗区段鉴定方法及计算机可读存储介质，以至少部分地解决上述的技术问题。

根据本发明的一个方面，本发明提供一种渐渗区段鉴定方法，包括下列步骤：

获取参考基因组，并对待测样本进行测序得到待测样本基因组；

基于所述参考基因组，计算所述待测样本基因组中各个位点对应的深度值；

基于所述待测样本的多个所述待测样本基因组比对数据，合并相同的所述位点的所述深度值，得到与所述位点对应的实际深度值；

选取窗口大小，基于所述窗口大小将所述待测基因组划分为多个窗口；

基于位于同一窗口内的所述位点的所述实际深度值，获得所述窗口的窗口深度值；

基于所述窗口深度值将所述待测样本基因组各个所述窗口的深度分布可视化，通过基于所述可视化的结果获得所述待测样本基因组上的渐渗区段。

优选地，所述参考基因组为所述待测样本的近缘物种的全基因组基因组。

优选地，所述基于位于同一窗口内的所述位点的所述实际深度值，获得所述窗口的窗口深度值包括：

以所述窗口内所有位点的所述实际深度值的平均值作为所述窗口的所述窗口深度值。

以所述窗口内所有位点的所述实际深度值的中位数作为所述窗口的所述窗口深度值。

优选地，排除所述窗口内的所述实际深度值为0的所述位点后，计算所述窗口深度值。

优选地，还包括下列处理：

获得所述待测基因组的所有所述位点的所述实际深度值；

基于所有所述位点的所述实际深度值的平均值，对所述窗口深度值进行均一化。

优选地，还包括下列处理：

获得所述待测样本全基因组的平均深度值或所述待测样本基因组的亚基因组的平均深度值；

基于所述平均深度值，对所述窗口深度值进行均一化。

优选地，所述基于所述窗口深度值和所述待测基因组，获得所述待测基因组上的渐渗区段包括：

选取对照样本，基于所述对照样本，获得对照样本的基因组测序数据；

基于所述对照样本和所述参考基因组，获得所述对照样本的对照样本深度值；

基于所述对照样本深度值对所述窗口深度值进行均一化，基于所述均一化以及与所述待测样本两者的深度差值，并计算置信区间的结果通过可视化处理获得所述待测基因组上的渐渗区段。

优选地，所述基于所述均一化的结果获得所述待测基因组上的渐渗区段包括：

计算均一化后的所述窗口深度值与所述对照深度值的差值；

对所述差值进行计算得出置信区间；

基于所述置信区间获得所述渐渗区段。

根据本发明的另一方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的渐渗区段鉴定方法。

本发明涉及测序技术领域，提供一种渐渗区段鉴定方法及计算机可读存储介质，包括获取参考基因组和待测基因组，计算各个位点对应的深度值；合并相同的位点的深度值，得到实际深度值，并基于位于同一窗口内的位点的实际深度值，经可视化后获得待测基因组上的渐渗区段。本发明通过将整个基因组划分为多个窗口，以窗口的深度值较为快速且直观地反应哪些区段出现了异常的深度值，从而能够快速对基因组中的渐渗区段进行鉴定，并便于后续的可视化处理。

附图说明

通过阅读参照以下附图所作的对非限制性实施例的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是根据本发明的渐渗区段鉴定方法的示意图；

图2是根据本发明的渐渗区段鉴定方法的获得渐渗区段的实现方式的示意图；

图3是根据本发明的渐渗区段鉴定方法具体实施结果的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本申请中的杂交个体，是指不同物种间或同一物种不同群体间杂交所产生的后代。这些杂交个体往往会表现出一些意料之外的优异性能，很多性能与本申请所关注的渐渗区段有关。

本申请中的易位，是指染色体片段位置的改变，其伴有基因位置的改变。易位发生在一条染色体内时称为移位(shift)或染色体内易位(intrachromosomaltranslocation)；易位发生在两条同源或非同源染色体之间时称为染色体间易位(interchromosomal translocation)。

本申请中的深度，是指测序得到的总碱基数与待测基因组大小的比值，可以理解为基因组中每个碱基被测序到的次数。在高通量测序中，每个碱基会被测量到多次，被测到的次数越多，则该碱基对出现的频率越高。

本申请中的亚基因组，是指组成多倍体生物体的基因组中的来自不同祖先的染色体系统，例如多倍体作物的单倍体基因组，如六倍体小麦(AABBDD)，其亚基因组就有三个，亚基因组A，亚基因组B，亚基因组D。

本申请中的渐渗，是指基因或遗传物质通过群体中的杂种个体与其亲本个体之间的不断回交而导致基因在群体或个体之间转移和传递的过程。发生转移和传递的基因区段称为渐渗区段。而渐渗与易位是因果关系，渐渗就是易位的结果。

本发明提供一种渐渗区段鉴定方法，如图1所示，包括下列步骤：

S101：获取参考基因组，并对待测样本进行测序得到待测样本基因组；

S102：基于所述参考基因组，计算所述待测样本基因组中各个位点对应的深度值；

S103：基于所述待测样本的多个所述待测样本基因组比对数据，合并相同的所述位点的所述深度值，得到与所述位点对应的实际深度值；

S104：选取窗口大小，基于所述窗口大小将所述待测基因组划分为多个窗口；

S105：基于位于同一窗口内的所述位点的所述实际深度值，获得所述窗口的窗口深度值；

S106：基于所述窗口深度值将所述待测样本基因组各个所述窗口的深度分布可视化，通过基于所述可视化的结果获得所述待测样本基因组上的渐渗区段。

在处理S101中，可以对待测样本进行全基因组测序，将测序的数据比对到参考基因组上得到对应的bam文件，利用bam文件可以较为方便快捷的对基因组信息进行处理。这里的参考基因组，优选的为所属待测样本的近缘物种全基因组，因为这样还可以发现其他亚基因组上是否也有渐渗的情况。本申请中的参考基因组的获取方式，优选地可以是从网络数据库或预先构建的数据库中下载，也可以是基于某个物种的样本进行实际测试得到，本申请并不对参考基因组的获取方式做过多限制，当然，从公开且可信的网络数据库中下载参考基因组为优选方式，这样所获得的参考基因组更能准确地反映渐渗程度。

处理S101中待测样本，并不限定于传统的某个物种的个体，也可以是某个物种或者某个物种的亚种等，而对该待测样本进行测序，可以是挑选某个特定的个体进行测序，也可以是在某个物种或亚种中随机选择个体进行测序，从而可以获得待测样本基因组。这样所获得的待测样本基因组，可以有效反应在该物种或该亚种内出现渐渗现象的程度。

在处理S102中，可以使用现有的mosdepth软件计算各个bam文件中的基因组各个位点的深度值。mosdepth软件设置的参数可以如下：ParaFly并行线程数为8个，mosdepth处理单个文件线程数为1个，碱基质量过滤的阈值设为20，这样能够同时并行处理多个bam文件，实现并行处理，提高效率的技术效果。也可以使用samtools等软件执行该步骤，均为本领域技术人员所熟知，此处不过多赘述。

在处理S103中，位点的选择方式可以是根据预先设置或固定经验，也可以是按照一定的规律，如每20个碱基判定为一个位点等。本领域常用的是根据具体基因座位判定位点分布和位置。合并相同的位点的深度值，得到与位点对应的实际深度值，可以有效提高对于位点的深度值的判定准确度，从而为提高结果准确性奠定基础。这一步的用意是如果待测样本比对后有多个bam文件，例如可能同一个位点的测序数据包含多个bam文件，就将属于同一位点的测序数据进行合并。

在处理S104中：选取窗口尺寸可以优选地为100000bp，也可以根据需要设置为200000bp或其他数值，窗口化是为了在一定程度上规避掉测序本身带来的一些错误，比如某种碱基的偏好，因此可能某些位点的深度值会异常高；另外一点关于窗口的选择，因为采用的这种渐渗区段的挖掘方法是针对长度大于100kbp的渐渗区段；窗口长度的设置也可以缩小最终结果文件的大小，减小可视化过程中的服务器内存资源的消耗。

渐渗区段往往分布于整个基因组，并且其分布是无序的，若设置窗口较大，则无法较为准确地判定渐渗区段的位置，若设置的窗口较小，则运算量会过大，因此采用100000bp或200000bp的窗口数值，在实践中发现是具备较好的效果的。在选取了窗口大小后，则基于窗口大小将待测基因组划分为多个窗口。

在处理S105中：基于位于同一窗口内的位点的实际深度值，获得窗口的窗口深度值的实现方式可以是以同一窗口内的位点的实际深度值的平均值作为窗口深度值，也可以是以实际深度值的中位数作为窗口深度值，这两者均能较为准确地描述整个窗口的深度的平均水平，根据具体需要进行设置即可。

在处理S106中：基于待测基因组的测序深度分布，获得待测基因组上的渐渗区段的实现方式可以是如图2所示的步骤：

S1061：选取对照样本，基于对照样本，获得对照样本的基因组测序数据；

S1062：基于对照样本和参考基因组，获得对照样本的对照样本深度值；

S1063：基于对照样本深度值对窗口深度值进行均一化，基于均一化以及与待测样本两者的深度差值，并计算置信区间的结果通过可视化处理获得待测基因组上的渐渗区段。

处理S1061中，由于在不同样本之间发生渐渗的程度不同，通过待测样本和对照样本之间的对照，可以判断出不同样本之间发生相对渐渗的不同，对照样本的选取方式可以与待测样本的选取方式类似，如随机选取或按照某些特征选取等，也可以是另行构建选取方式，如待测样本按照某正向特征选取，对照样本则选取不具备该正向特征的个体，此处不一一赘述。

不难看出，上述步骤主要是根据参考基因组，按照上述方法获得对照待测样本的基因组的深度值，并与之前获得参考基因组的深度值进行对照，若发生偏离，则能够较为清晰地判断何处发生了渐渗。在本申请中通过可视化的方式将待测样本基因组的各个窗口的深度直观地显现出来，如图3所示即为某种六倍体燕麦比对到参考基因组(同时含A/C/D亚基因组)的各窗口覆盖深度图。图例1-7为1-7号染色体，图中纵轴为窗口位置，横轴为覆盖深度。图中A/D亚基因组框出来的部分明显高于各亚基因组的平均深度，因此这些位置即为渐渗区段，表明六倍体燕麦(包含ACD三个亚基因组)在形成的过程中，C亚基因组的部分区段易位到了A、D亚基因组上。本申请实施例中采用R语言写的脚本来实现的RDtestPlot.R实现该可视化过程，也可以是MATLAB、EXCEL等其他现有软件，这样可以非常直观地观察到渐渗现象所发生的区域。

本申请提供一种渐渗区段鉴定方法及计算机可读存储介质，包括获取参考基因组和待测基因组，计算各个位点对应的深度值；合并相同的位点的深度值，得到实际深度值，并基于位于同一窗口内的位点的实际深度值，获得待测基因组上的渐渗区段。本发明通过将整个基因组划分为多个窗口，以可视化处理将窗口的深度值较为快速且直观地反应哪些片段出现了异常的深度值，从而能够快速对基因组中的渐渗区段进行鉴定。

优选地，如图3所示的实施例中，参考基因组为待测样本的亚基因组。这种处理优选地适用于多倍体物种的渐渗鉴定过程，由于亚基因组为组成该物种多个母本中的之一的基因组，以其作为参考，则可以清晰地判定在其他亚基因组中是否存在渐渗。如选取一待测样本S，其参考基因组为六倍体AACCDD。样本S比对到六倍体基因组上(基因组为其单倍型ACD)，样本S的测序深度分布结果中，C亚基因组各区段没有明显的差异，而在A、D亚基因组上发现了明显差异的区段，而样本S物种为仅含C亚基因组的近缘物种，所以A、D明显差异的区段即为渐渗区段。

图3中，C亚基因组的深度分布基本上都≥1，即深度基本上为1x以上，而A、D亚基因组基本上都＜1，＞1的部分就是样本S(C亚基因组)基因组“错误”地比对上了AD，表明六倍体燕麦在形成过程中，C亚基因组地部分区段渐渗到了A、D亚基因组。

优选地，基于位于同一窗口内的位点的实际深度值，获得窗口的窗口深度值的实现方式可以是以窗口内所有位点的实际深度值的平均值作为窗口的深度值。或以窗口内所有位点的实际深度值的中位数作为窗口的深度值。两种方式均能够较好地反应窗口内的深度值的平均水平。但平均值可能会受到部分位点覆盖深度极端值的影响导致整体窗口的覆盖深度值偏低或者偏高，而中位数不会受到极端值的影响，根据具体情况进行合理的选择即可。

作为一种优选的实现方式，在计算窗口深度值时，排除窗口内的实际深度值为0的位点后，计算窗口深度值，这是由于测序技术可能会导致部分位点覆盖深度为0，计算过程中保留深度为0的位点可能导致某些窗口的深度值偏低从而对结果造成影响。

作为一种优选的实现方式，在初步获取了窗口深度值后，可以进行均一化，以便于后续的处理和计算，其具体实现方式可以是获得待测基因组的所有位点的实际深度值，并基于所有位点的实际深度值的平均值，对窗口深度值进行均一化。也可以是所述待测样本基因组的亚基因组的平均深度值；基于所述平均深度值，对所述窗口深度值进行均一化。这里的位点指的就是待测样本基因组的所有位点。均一化后的窗口深度值以1为分界线清晰地表达是否存在渐渗即可。

作为一种优选的实现方式，基于均一化的结果获得待测基因组上的渐渗区段可以通过如下方式实现：

计算均一化后的窗口深度值与对照深度值的差值；

对所述差值进行计算得出置信区间；

基于置信区间获得渐渗区段。

这里可以使用软件计算窗口深度值与参考样本基因组上对应窗口深度的差值，通过对所有亚基因组的所有染色体的差值进行随机抽样计算差值指定置信水平α＝0.99的置信区间，若超过该置信区间，则大概率发生了渐渗，之后还可以根据置信区间和差值将窗口深度值与对照样本显著的渐渗区段进行可视化，例如通过使用上述R语言写的脚本来实现的RDtestPlot.R进行作图等，本领域技术人员应当知晓，此处不过多赘述。

本申请提供一种渐渗区段鉴定方法及计算机可读存储介质，包括获取参考基因组和待测基因组，计算各个位点对应的深度值；合并相同的位点的深度值，得到实际深度值，并基于位于同一窗口内的位点的实际深度值，获得待测基因组上的渐渗区段。本发明通过将整个基因组划分为多个窗口，以窗口的深度值较为快速且直观地反应哪些片段出现了异常的深度值，从而能够快速对基因组中的渐渗区段进行鉴定，并便于后续的可视化处理。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上所描述的渐渗区段鉴定方法。该计算机可读介质包括永久性和非永久性、可移动和非可移动，媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种渐渗区段鉴定方法，其特征在于，包括下列步骤：

2.如权利要求1所述的渐渗区段鉴定方法，其特征在于，所述参考基因组为所述待测样本的近缘物种的全基因组。

3.如权利要求1所述的渐渗区段鉴定方法，其特征在于，所述基于位于同一窗口内的所述位点的所述实际深度值，获得所述窗口的窗口深度值包括：

4.如权利要求1所述的渐渗区段鉴定方法，其特征在于，所述基于位于同一窗口内的所述位点的所述实际深度值，获得所述窗口的窗口深度值包括：

5.如权利要求3或4所述的渐渗区段鉴定方法，其特征在于，排除所述窗口内的所述实际深度值为0的所述位点后，计算所述窗口深度值。

6.如权利要求3或4所述的渐渗区段鉴定方法，其特征在于，还包括下列处理：

获得所述待测基因组的所有所述位点的所述实际深度值；

7.如权利要求3或4所述的渐渗区段鉴定方法，其特征在于，还包括下列处理：

获得所述参考全基因组的平均深度值或所述参考基因组的亚基因组的平均深度值；

基于所述平均深度值，对所述窗口深度值进行均一化。

8.如权利要求1所述的渐渗区段鉴定方法，其特征在于，所述基于所述窗口深度值和所述待测基因组，获得所述待测基因组上的渐渗区段包括：

9.如权利要求8所述的渐渗区段鉴定方法，其特征在于，所述基于所述均一化的结果获得所述待测基因组上的渐渗区段包括：

计算均一化后的所述窗口深度值与所述对照深度值的差值；

对所述差值进行计算得出置信区间；

基于所述置信区间获得所述渐渗区段。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的渐渗区段鉴定方法。