CN117174178A

CN117174178A - 一种基于二代短读长序列的单倍型距离评估方法及装置

Info

Publication number: CN117174178A
Application number: CN202310955789.5A
Authority: CN
Inventors: 汤雨晴; 邬庆江; 王雨亭; 胡钟东
Original assignee: Horticultural Research Institute Jiangxi Academy Of Agricultural Sciences
Current assignee: Horticultural Research Institute Jiangxi Academy Of Agricultural Sciences
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-12-05

Abstract

本发明提供一种基于二代短读长序列的单倍型距离评估方法及装置，方法主要包括：将全基因组重测序数据进行变异位点检测后转换成全基因组变异图谱的形式，并进行文件分割得到多个子图谱文件，统计变异数量来剔除数据偏差较大的子图谱文件，剩余的子图谱文件作为较为准确性较高的评估数据进行分析，从而得到局部区间和全基因水平的个体单倍型距离、局部区间和全基因水平的群体单倍型距离，能够得到多维度的单倍型距离数据，准确性高。

Description

一种基于二代短读长序列的单倍型距离评估方法及装置

技术领域

本发明主要涉及基因数据处理技术领域，具体涉及一种基于二代短读长序列的单倍型距离评估方法及装置。

背景技术

通常，在二倍体生物拥有一对同源染色体(表示为2n)，包含两套单倍型序列。二倍体基因组局部单倍型距离(即局部区段单倍型差异)，则是计算指定局部区段(例如一段50kb长度的区间)内两个单倍型的分化程度；二倍体全基因组单倍型距离(即全基因组单倍型差异)，则是计算全基因组中两个单倍型的分化程度。评估二倍体全基因组单倍型距离是在评估二倍体基因组局部单倍型距离的基础上进行的，其原理是将基因组切分成多个固定长度的区间，计算所有区间的平均单倍型分化程度。现有方法根据单倍型的差异碱基的数量来推断不同单倍型序列的相关关系，从而构建单倍型网络图，并用连线表示两个单体型彼此相关，连线上的短线表示从一个单体型变为另一个单体型需要经历的碱基替换个数，没有使用量化的标准去理解单倍型分化，因此该方法得到的结果并不准确。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种基于二代短读长序列的单倍型距离评估方法及装置。

本发明解决上述技术问题的技术方案如下：一种基于二代短读长序列的单倍型距离评估方法，包括如下步骤：

导入具有二代短读长序列特性的全基因组重测序数据，所述全基因组重测序数据为M×N个，其中，M为群体个数，N为每个所述群体的样本个数；

将M×N个全基因组重测序数据进行变异位点的检测处理，根据检测到的M×N个变异位点分别得到对应的全基因组变异图谱；

将M×N个全基因组变异图谱作为待分割图谱文件，按照设定的局部单倍型距离的区间长度将所述待分割图谱文件分割为区间长度相同的多个子图谱文件；

分别统计每个子图谱文件中的变异数量，并将变异数量小于或等于变异阈值的子图谱文件剔除，将变异数量大于变异阈值的子图谱文件作为待处理子图谱文件；

在局部区间上，分别对待处理子图谱文件进行距离标准化处理，得到个体水平基因组局部单倍型距离(个体水平基因组局部单倍型距离即为同一个样本两个单倍型标准化处理后的距离值)；在局部区间上，分别对属于同一群体的所有待处理子图谱文件对应的个体水平基因组局部单倍型距离进行距离标准化处理，得到群体水平基因组局部单倍型距离；

在全基因水平上，对所有待处理子图谱文件对应的个体水平基因组局部单倍型距离进行平均值计算，得到个体水平单倍型距离；在全基因水平上，对M个群体对应的群体水平基因组局部单倍型距离进行平均值计算，得到群体水平单倍型距离。

本发明的有益效果是：将全基因组重测序数据进行变异位点检测后转换成全基因组变异图谱的形式，并进行文件分割得到多个子图谱文件，统计变异数量来剔除数据偏差较大的子图谱文件，剩余的子图谱文件作为较为准确性较高的评估数据进行分析，从而得到局部区间和全基因水平的个体单倍型距离、局部区间和全基因水平的群体单倍型距离，能够得到多维度的单倍型距离数据，准确性高。

本发明解决上述技术问题的另一技术方案如下：一种基于二代短读长序列的单倍型距离评估装置，包括：

导入模块，用于导入具有二代短读长序列特性的全基因组重测序数据，所述全基因组重测序数据为M×N个，其中，M为群体个数，N为每个所述群体的样本个数；

变异位点检测模块，用于将M×N个全基因组重测序数据进行变异位点的检测处理，根据检测到的M×N个变异位点分别得到对应的全基因组变异图谱；

分割模块，用于将M×N个全基因组变异图谱作为待分割图谱文件，按照设定的局部单倍型距离的区间长度将所述待分割图谱文件分割为区间长度相同的多个子图谱文件；

剔除模块，用于分别统计每个子图谱文件中的变异数量，并将变异数量小于或等于变异阈值的子图谱文件剔除，将变异数量大于变异阈值的子图谱文件作为待处理子图谱文件；

距离评估处理模块，用于在局部区间上，分别对待处理子图谱文件进行距离标准化处理，得到个体水平基因组局部单倍型距离；在局部区间上，分别对属于同一群体的所有待处理子图谱文件对应的个体水平基因组局部单倍型距离进行距离标准化处理，得到群体水平基因组局部单倍型距离；

还用于在全基因水平上，对所有待处理子图谱文件对应的个体水平基因组局部单倍型距离进行平均值计算，得到个体水平单倍型距离；在全基因水平上，对M个群体对应的群体水平基因组局部单倍型距离进行平均值计算，得到群体水平单倍型距离。

本发明解决上述技术问题的另一技术方案如下：一种基于二代短读长序列的单倍型距离评估装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的基于二代短读长序列的单倍型距离评估装置。

本发明解决上述技术问题的另一技术方案如下：一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的一种基于二代短读长序列的单倍型距离评估装置。

附图说明

图1为本发明实施例提供的单倍型距离评估方法的流程示意图；

图2为本发明实施例提供的单倍型距离评估装置的功能模块示意图；

图3为本发明实验中的5个群体全基因组水平的单倍型距离的示意图；

图4为本发明实验中的24个个体内的全基因组单倍型距离的示意图；

图5为本发明实验中的24个个体相对于群体4的单倍型距离的示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的单倍型距离评估方法的流程示意图。

实施例1：

如图1所示，一种基于二代短读长序列的单倍型距离评估方法，包括如下步骤：

导入具有二代短读长序列特性的高深度全基因组重测序数据，所述全基因组重测序数据为M×N个，其中，M为群体个数，N为每个所述群体的样本个数；

在局部区间上，分别对待处理子图谱文件进行距离标准化处理，得到个体水平基因组局部单倍型距离；在局部区间上，分别对属于同一群体的所有待处理子图谱文件对应的个体水平基因组局部单倍型距离进行距离标准化处理，得到群体水平基因组局部单倍型距离；

上述实施例中，将全基因组重测序数据进行变异位点检测后转换成全基因组变异图谱的形式，并进行文件分割得到多个子图谱文件，统计变异数量来剔除数据偏差较大的子图谱文件，剩余的子图谱文件作为较为准确性较高的评估数据进行分析，从而得到局部区间和全基因水平的个体单倍型距离、局部区间和全基因水平的群体单倍型距离，能够得到多维度的单倍型距离数据，准确性高。

所述将M×N个全基因组重测序数据进行变异位点的检测处理，根据检测到的M×N个变异位点分别得到对应的全基因组变异图谱，具体为：

按照设定的过滤标准分别对每个所述全基因组重测序数据中进行过滤处理，并将过滤后的M×N个全基因组重测序数据分别比对到参考基因组上，并根据基因组序列将对比后的M×N个全基因组重测序数据进行排序，通过GATK工具对排序后的M×N个全基因组重测序数据分别进行变异位点的检测，根据检测到的M×N个变异位点得到M×N个全基因组重测序数据对应的全基因组变异图谱。

具体操作为，导入M×N个样本的高深度全基因组重测序数据，为FASTQ格式的文件，将此FASTQ文件利用fastp工具进行过滤(fastp是一种用于NGS数据预处理的快速工具)旨在提高序列质量，去除低质量序列和接头序列，同时保留高质量序列，目的是过滤测序质量较低的片段，获得干净版本的FASTQ数据，随后将FASTQ格式的序列利用BWA工具(BWA是一种快速、精确地比对短序列到参考基因组的工具)能够高效地将大规模的测序数据比对到参考基因组上，生成SAM格式的数据，获得比对后的SAM格式文件，并利用Samtools工具(Samtools是一个功能丰富、高效、灵活的SAM/BAM文件处理工具)能够实现SAM/BAM格式文件的转换、排序、索引、统计、筛选、编辑以及SNP和Indel的检测等功能，对SAM格式文件转化为BAM后，根据基因组序列进行排序，获得排序后的BAM格式文件，只有排序之后才能检测变异位点，从而构建全基因组变异图谱。根据排序后的BAM文件和FASTA格式的基因组输入到编译检测GATK工具(GATK，即Genome Analysis Toolkit是一款广泛应用于基因组数据分析的软件工具集，其主要功能包括：1、变异检测，如SNP、Indel等；2、变异注释，如功能影响、频率等；3、基因型质量控制和过滤，如深度、质量、杂合性等)中，获得单个样本的全基因组变异图谱VCF格式文件，将M×N个全基因组重测序数据(样本)的全基因组变异图谱整合为一个VCF格式文件，包含M×N个样本的所有变异位点信息的VCF格式文件。

上述实施例中，能够将初始的全基因组重测序数据转换成较为准确的且利于后续分析处理的全基因组变异图谱，加快了数据分析的速度。

当得到M×N个全基因组变异图谱后，将M×N个全基因组变异图谱作为待分割图谱文件，按照设定的局部单倍型距离的区间长度将所述待分割图谱文件分割为区间长度相同的多个子图谱文件，具体操作为：

将上述VCF格式文件输入到单倍型定向工具BEAGLE中，获得定向完成的phasedVCF文件，根据局部单倍型距离计算的区间大小(例如一段50kb长度的区间)对phased VCF文件进行分割，获得多个相同区间长度的phased GFF文件，对其中一个phased VCF(即为子图谱文件)进行操作，可以后续计算个体水平基因组局部单倍型距离和群体水平基因组局部单倍型距离。其中，phased可理解为基因定相或基因分型或单倍体分型的意思。

下面进行具体的介绍如何计算：

所述分别对待处理子图谱文件进行距离标准化处理，得到个体水平基因组局部单倍型距离，具体为：

分别将每个待处理子图谱文件中的两个单倍型均拆分成两个假定的纯合子样本，将属于同一子图谱文件的两个纯合子样本分别以phased VCF格式输入VCF2Dis工具中，通过所述VCF2Dis工具计算同一待处理子图谱文件对应的每个单倍型距离值和平均单倍型距离值，再将每个单倍型距离值除以所述平均单倍型距离值，得到同一子图谱文件对应的个体水平基因组局部单倍型距离。其中，phased可理解为基因定相或基因分型或单倍体分型的意思。

应理解地，一个样本对应一个子图谱文件。

所述分别对属于同一群体的所有待处理子图谱文件对应的个体水平基因组局部单倍型距离进行距离标准化处理，得到群体水平基因组局部单倍型距离，具体为：

对于M×N个全基因组重测序数据，将每个待处理子图谱文件中的两个单倍型均拆分成两个假定的纯合子样本，将属于同一子图谱文件的两个纯合子样本分别以定相VCF格式输入VCF2Dis工具中，通过所述VCF2Dis工具计算同一待处理子图谱文件M×N个个体(即对应于M×N个全基因组重测序数据)的平均单倍型距离值，再将每个单倍型距离值除以所述平均单倍型距离值，得到每个个体的局部单倍型距离，再分别求M个群体中的局部单倍型距离的平均值，得到M个群体的群体水平基因组局部单倍型距离。

应理解地，群体水平基因组局部单倍型距离中的平均单倍型距离值是通过计算M×N个个体的平均值得到，而个体水平基因组局部单倍型距离中的平均单倍型距离值是通过计算1个群体的N个个体的平均值得到的。

具体操作为，首先将phased VCF格式中一个样本的两个单倍型拆分两个假定的纯合子样本(例如样本24，基因型为0|1，则拆分为样本24_hap1，基因型0|0，样本24_hap2，基因型1|1)，修饰后的生成新的phased VCF格式文件。将此文件输入到VCF2Dis工具中计算两两单倍型的距离值(既有两个样本之间的比值，也有不同样本之间的比较)。将每个单倍型距离值除以平均单倍型距离值进行标准化。那么个体水平基因组局部单倍型距离即为同一个样本两个单倍型标准化后的距离值(例如，样本24基因组局部单倍型距离即24_hap1和24_hap2单倍型标准化后的距离值)。那么群体水平基因组局部单倍型距离即为比较两个群体的单倍型标准化后的距离值(例如群体M1，则是将M1中所有个体的单倍型互相比较，得到标准化后的距离值V1，为不同群体的局部单倍型距离)。

在全基因组水平层面上分别计算个体水平单倍型距离和群体水平单倍型距离，主要逻辑是考虑所有分割的phased VCF文件计算出的标准化后的单倍型距离值。全基因组水平上计算个体水平单倍型距离具体是：分别计算前述每个phased VCF的标准化的个体单倍型距离值(例如样本24，则计算每个phased VCF的标准化后的单倍型距离值)，然后再取平均值。其中，phased可理解为基因定相或基因分型或单倍体分型的意思。

全基因组水平层面上计算群体水平单倍型距离具体是：分别计算前述每个phasedVCF的标准化的群体单倍型距离值(例如群体M1，则计算M1群体中每个phased VCF的标准化后的单倍型距离值)，然后再取平均值。

还包括计算个体(例如样本24)相对于群体(例如群体M1)的单倍型距离的步骤，具体为：

将待计算样本对应的个体水平基因组局部单倍型距离除以待计算群体对应的群体水平基因组局部单倍型距离，计算结果为个体相对于群体的单倍型距离。

上述实施例中，能够得到多维度的单倍型距离数据。

下面依照本发明中方法流程进行实验：

对5个群体共72个柑橘样本进行高深度基因组重测序，获得5个群体全基因组水平的单倍型距离，如图3所示；通过本发明的方法对5个群体的单倍型距离在全基因组水平上进行评估。并且发现群体4和群体5相对于群体1，2，3均有显著性下降。说明群体4和5的单倍型距离短，本方法能够很好的估计群体间的单倍型距离。

24个个体内的全基因组单倍型距离，如图4所示。通过本发明的方法对群体3中的24个样本的单倍型距离在全基因组水平上进行评估。能够对每一个个体在全基因组水平上的单倍型距离进行了成功估计。

24个个体相对于群体的单倍型距离，如图5所示。通过本发明的方法对群体4中的24个样本的单倍型距离在全基因组水平上进行评估。能够对每一个个体在全基因组水平上的单倍型距离进行了成功估计。而图4和图5对应图3，从图中的结果得知：图5的24个个体的平均值接近图3中群体4反应；图4的24个个体的平均值接近图3中群体3反应。

通过本发明的方法能够得到多维度的单倍型距离数据，且准确性高。

实施例2：

如图2所示，一种基于二代短读长序列的单倍型距离评估装置，包括：

上述实施例中，将全基因组重测序数据进行变异位点检测后转换成全基因组变异图谱的形式，并进行文件分割得到多个子图谱文件，统计变异数量来剔除数据偏差较大的子图谱文件，剩余的子图谱文件作为较为准确性较高的评估数据进行分析，从而得到局部区间和全基因水平层面的个体水平基因组局部单倍型距离、群体水平基因组局部单倍型距离、个体水平单倍型距离和群体水平单倍型距离，能够得到多维度的单倍型距离数据，准确性高。

所述变异位点检测模块中，将M×N个全基因组重测序数据进行变异位点的检测处理，根据检测到的M×N个变异位点分别得到对应的全基因组变异图谱，具体为：

所述距离评估处理模块中，分别对待处理子图谱文件进行距离标准化处理，得到个体水平基因组局部单倍型距离，具体为：

分别将每个待处理子图谱文件中的两个单倍型均拆分成两个假定的纯合子样本，将属于同一子图谱文件的两个纯合子样本分别以phased VCF格式输入VCF2Dis工具中，通过所述VCF2Dis工具计算同一待处理子图谱文件对应的每个单倍型距离值和平均单倍型距离值，再将每个单倍型距离值除以所述平均单倍型距离值，得到同一子图谱文件对应的个体水平基因组局部单倍型距离。

所述距离评估处理模块还用于计算个体相对于群体的单倍型距离，具体为：

所述距离评估处理模块中，分别对属于同一群体的所有待处理子图谱文件对应的个体水平基因组局部单倍型距离进行距离标准化处理，得到群体水平基因组局部单倍型距离，具体为：

实施例3：

一种基于二代短读长序列的单倍型距离评估装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的基于二代短读长序列的单倍型距离评估装置。

实施例4：

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的一种基于二代短读长序列的单倍型距离评估装置。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于二代短读长序列的单倍型距离评估方法，其特征在于，包括如下步骤：

分别统计每个子图谱文件中的变异数量，并将变异数量小于或等于变异阈值的子图谱文件剔除，将变异数量大于所述变异阈值的子图谱文件作为待处理子图谱文件；

2.根据权利要求1所述的单倍型距离评估方法，其特征在于，所述将M×N个全基因组重测序数据进行变异位点的检测处理，根据检测到的M×N个变异位点分别得到对应的全基因组变异图谱，具体为：

3.根据权利要求1所述的单倍型距离评估方法，其特征在于，所述分别对待处理子图谱文件进行距离标准化处理，得到个体水平基因组局部单倍型距离，具体为：

4.根据权利要求1所述的单倍型距离评估方法，其特征在于，所述分别对属于同一群体的所有待处理子图谱文件对应的个体水平基因组局部单倍型距离进行距离标准化处理，得到群体水平基因组局部单倍型距离，具体为：

对于M×N个全基因组重测序数据，将每个待处理子图谱文件中的两个单倍型均拆分成两个假定的纯合子样本，将属于同一子图谱文件的两个纯合子样本分别以phased VCF格式输入VCF2Dis工具中，通过所述VCF2Dis工具计算同一待处理子图谱文件M×N个个体的平均单倍型距离值，再将每个单倍型距离值除以所述平均单倍型距离值，得到每个个体的局部单倍型距离，再分别求M个群体中的局部单倍型距离的平均值，得到M个群体的群体水平基因组局部单倍型距离。

5.根据权利要求1至4任一项所述的单倍型距离评估方法，其特征在于，还包括计算个体相对于群体的单倍型距离的步骤，具体为：

6.一种基于二代短读长序列的单倍型距离评估装置，其特征在于，包括：

7.根据权利要求6所述的单倍型距离评估装置，其特征在于，所述变异位点检测模块中，将M×N个全基因组重测序数据进行变异位点的检测处理，根据检测到的M×N个变异位点分别得到对应的全基因组变异图谱，具体为：

8.根据权利要求6所述的单倍型距离评估装置，其特征在于，所述距离评估处理模块中，分别对待处理子图谱文件进行距离标准化处理，得到个体水平基因组局部单倍型距离，具体为：

9.根据权利要求6至8任一项所述的单倍型距离评估装置，其特征在于，所述距离评估处理模块中，分别对属于同一群体的所有待处理子图谱文件对应的个体水平基因组局部单倍型距离进行距离标准化处理，得到群体水平基因组局部单倍型距离，具体为：

对于M×N个个体，每个待处理子图谱文件中的两个单倍型均拆分成两个假定的纯合子样本，将属于同一子图谱文件的两个纯合子样本分别以定相VCF格式输入VCF2Dis工具中，通过所述VCF2Dis工具计算同一待处理子图谱文件M×N个个体的平均单倍型距离值，再将每个单倍型距离值除以所述平均单倍型距离值，得到每个个体的局部单倍型距离，再分别求M个群体中的局部单倍型距离的平均值，得到M个群体的群体水平基因组局部单倍型距离。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时，实现如权利要求1至5任一项所述的一种基于二代短读长序列的单倍型距离评估方法。