CN114530200B

CN114530200B - 基于计算snp熵值的混合样本鉴定方法

Info

Publication number: CN114530200B
Application number: CN202210274555.XA
Authority: CN
Inventors: 李梦; 黄舒; 郭茂平; 申君毅; 郭晋荣; 胡欢; 郑立; 张奇; 陈初光
Original assignee: Beijing Yuewei Gene Technology Co ltd
Current assignee: Beijing Yuewei Gene Technology Co ltd
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-09-23
Anticipated expiration: 2042-03-18
Also published as: CN114530200A

Abstract

本申请涉及生物信息学分析领域，具体提供一种基于样本SNP熵值的混合样本鉴定方法和系统，该方法和系统不需分析SNP分型，直接根据SNP位点各碱基深度情况计算熵值；本申请具有不局限于样本混合比例以及不局限于位点MAF值等优势。

Description

基于计算SNP熵值的混合样本鉴定方法

技术领域

本申请属于生信分析领域，具体涉及基于样本SNP熵值的混合样本鉴定方法和系统。

背景技术

单核苷酸多态性(single nucleotide polymorphism，snp)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。SNP是最常见的遗传变异类型，一般表现为单个碱基的转换或颠换，也可能是碱基的插入或缺失，SNP占人类基因组已知多态性的90％以上。SNP多为双等位型标记,具有分布密度高,突变率低,位置不均匀等特点，具有较好的法医学和临床科学应用前景。

在法医和临床的DNA检测过程中，经常会遇到多个体的混合样本，那么如何鉴定样本是否为混合样本？传统的鉴定混合样本的方法是通过某些位点包含3个等位基因来判断是混合样本，但该方法却至少存在以下缺点：

1)当样本的混合比率低于20％时，通常需要降低深度的判断标准来找到SNP，判断标准不稳定，这样就要求检验人员有比较丰富经验；

2)为了最大化个体识别，通常选取的位点的次等位基因频率(MAF)近似0.5，这样大多数个体都可能只有两个等位基因型。

有鉴于此，提出本申请，本申请提出一种直接从read出发，不需要判别SNP分型即可判断混合样本的方法。

发明内容

为解决上述技术问题，本申请提出如下具体技术方案：

本申请首先提供一种基于计算SNP位点熵值的混合样本鉴定方法：包括如下步骤：

1)样本测序：测序样本文库构建，测序获得测序数据；

2)数据过滤：对测序数据进行序列过滤；

3)序列比对：对过滤后数据进行序列比对；

4)SNP位点深度统计：对比对后序列进行SNP位点碱基深度统计；

优选的，所述统计包括：SNP染色体编号、在染色体上的位置、该位置总的覆盖度、在该位置测序到的A/C/G/T四种碱基的深度；

5)计算各SNP位点熵值：利用SNP位点碱基深度信息，计算SNP位点各碱基的 N_A(normalized read count)、概率P_A(probability of A)和熵值(Entropy of one SNP)；

优选的，所述熵值越大，样本为混合样本可能性越高。

在一些方式中，所述步骤1)中，

所述文库构建过程中对每个样本加index；

所述测序数据根据index进行数据拆分。

在一些方式中，所述步骤2)中，

所述序列过滤为过滤低质量序列、短序列以及含N较多序列。

在一些方式中，所述步骤3)中，

所述序列比对采用BWA软件进行，得到比对的sam格式文件，具体的：第一步使用BWA索引命令bwa index构建参考基因组索引；第二步，使用命令BWA-MEM将序列比对到参考基因组，得到比对的sam格式文件；

在一些方式中，所述比对后进一步包括排序步骤：

将sam格式文件转换成bam格式文件，对bam文件进行排序，对排序后的bam文件建立索引。

在一些方式中，所述步骤4)中，

所述SNP位点深度统计具体为：

准备SNP位点的bed文件，所述bed文件内容为SNP位点所在的染色体编号、在该染色体上的位置以及SNP位点的rs编号，将排序后bam文件和SNP位点bed文件作为输入，对各SNP位点的碱基深度进行统计，统计文件内容包括SNP染色体编号、在染色体上的位置、该位置总的覆盖度、在该位置测序到的A/C/G/T四种碱基的深度。

在一些方式中，所述步骤5)中，

所述N_A、P_A和熵值的计算公式分别如下：

Entropy of one SNP＝P_A×log(P_A)+P_C×log(P_c)+P_G×log(P_c)+P_T×log(P_T)。

在一些方式中，所述步骤5)中，

所述计算还可包括：计算各样本SNP位点的熵的平均值和熵的中位数，并标记样本的分组信息，得到关于样本、平均熵/中位数熵、样本分组的数据表格，对该数据进行可视化作图。

另外，本申请还提供一种基于计算SNP位点熵值的混合样本鉴定系统，所述模块用于执行上述任一所述方法的步骤。

或者具体包括如下模块：

1)样本测序模块：用于测序样本文库构建，测序获得测序数据；

2)数据过滤模块：用于对测序数据进行序列过滤；

3)序列比对模块：用于对过滤后数据进行序列比对；

4)SNP位点深度统计模块：用于对比对后序列进行SNP位点碱基深度统计；

5)计算各SNP位点熵值模块：用于利用SNP位点碱基深度信息，计算SNP位点各碱基的N_A(normalized read count)、概率P_A(probability of A)和熵值(Entropy of oneSNP)；优选的，所述熵值越大，样本为混合样本可能性越高。

在一些方式中，所述模块1)中，

所述文库构建过程中对每个样本加index；

所述测序数据根据index进行数据拆分。

在一些方式中，所述模块2)中，

所述序列过滤为过滤低质量序列、短序列以及含N较多序列。

在一些方式中，所述模块3)中，

在一些方式中，所述比对后进一步包括排序步骤：

在一些方式中，所述模块4)中，

所述SNP位点深度统计具体为：

在一些方式中，所述模块5)中，

所述N_A、P_A和熵值的计算公式分别如下：

Entropy of one SNP＝P_A×log(P_A)+P_c×log(P_c)+P_G×log(P_G)+P_T×log(P_T)。

在一些方式中，所述步骤5)中，

另外，本申请还提供一种计算机可读介质，其存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一所述方法。

另外，本申请还提供一种电子设备，包括处理器以及存储器，所述存储器上存储一条或多条可读指令，所述一条或多条可读指令被所述处理器执行时，实现上述任一所述方法。

与现有技术相比，本申请至少具有如下优势：

1)本申请直接根据SNP位点的各碱基深度情况，即可计算其熵值，不需要分析 SNP的分型。

2)本申请不局限于样本的混合比例问题，当混合比例低于20％时，不需要用降低深度的判断标准来找SNP。多次测试表明本申请的方法能够在1:19(5％)区分混合样本。

3)本申请不局限于位点的MAF值，MAF接近于0.5也不受影响。本申请选用了 230个MAF接近0.5的SNP位点进行了多次测试，测试结果表明本申请的方法能够很好的区分混合样本。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1、本申请流程图；

图2、针对9947和9948不同比例混合，使用本申请的方法计算熵值，其中的横坐标代表不同比例混合的样本，前两个样本为纯合样本，后面是不同混合比例的样本，由于有生物学重复，每一种混合比例都有超过一个样本，纵坐标为计算的熵值的中位数。

图3、针对样本A和样本A不同比例混合、样本B和样本B不同比例混合以及样本 A和样本B不同比例混合，使用本申请的方法计算熵值，其中的横坐标代表不同比例混合的样本，前两个样本为纯合样本，后面是不同混合比例的样本，由于有生物学重复，每一种混合比例都有超过一个样本，纵坐标为计算的熵值的中位数。

具体实施方式

下面将结合附图对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下术语或定义仅仅是为了帮助理解本申请而提供。这些定义不应被理解为具有小于本领域技术人员所理解的范围。

除非在下文中另有定义，本申请具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解，但仍然阐述以下定义以更好地解释本申请。

如本申请中所使用，术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的，且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案，这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。

在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”，“所述”，包括该名词的复数形式。

本申请中的术语“大约”、“大体”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10％，优选±5％。

此外，说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类，是用于区分相似的元素，不是描述顺序或时间次序必须的。应理解，如此应用的术语在适当的环境下可互换，并且本申请描述的实施方案能以不同于本申请描述或举例说明的其它顺序实施。

本申请所述的基于计算SNP位点熵值的区分或混合样本鉴定方法的流程如图1所示，大体包括了样本测序，数据过滤和比对，SNP位点深度统计和计算各SNP位点熵值等步骤。

示例性的，所述方法包括如下步骤：

1)样本测序：测序样本文库构建，测序获得测序数据；2)数据过滤：对测序数据进行序列过滤；3)序列比对：对过滤后数据进行序列比对；4)SNP位点深度统计：对比对后序列进行SNP位点碱基深度统计；优选的，所述统计包括：SNP染色体编号、在染色体上的位置、该位置总的覆盖度、在该位置测序到的A/C/G/T四种碱基的深度；5) 计算各SNP位点熵值：利用SNP位点碱基深度信息，计算SNP位点各碱基的N_A(normali zed read count)、概率P_A(probability of A)和熵值(Entropy of one SNP)；实践中，所述熵值越大，样本为混合样本可能性越高。

在一些实施方式中，所述步骤1)中，所述文库构建过程中对每个样本加index；所述测序数据根据index进行数据拆分。

在另一些实施方式中，所述步骤2)中，所述序列过滤为过滤低质量序列、短序列以及含N较多序列。

在另一些实施方式中，所述步骤3)中，所述序列比对采用BWA软件进行，得到比对的sam格式文件，具体的：第一步使用BWA索引命令bwa index构建参考基因组索引；第二步，使用命令BWA-MEM将序列比对到参考基因组，得到比对的sam格式文件；

在另一些实施方式中，所述比对后进一步包括排序步骤：将sam格式文件转换成bam格式文件，对bam文件进行排序，对排序后的bam文件建立索引。

在另一些实施方式中，所述步骤4)中，所述SNP位点深度统计具体为：准备SNP 位点的bed文件，所述bed文件内容为SNP位点所在的染色体编号、在该染色体上的位置以及SNP位点的rs编号，将排序后bam文件和SNP位点bed文件作为输入，对各SN P位点的碱基深度进行统计，统计文件内容包括SNP染色体编号、在染色体上的位置、该位置总的覆盖度、在该位置测序到的A/C/G/T四种碱基的深度。

在一些另实施方式中，所述步骤5)中，所述N_A、P_A和熵值的计算公式分别如下：

Entropy of one SNP＝P_A×log(P_A)+P_c×log(P_c)+P_G×log(P_G)+P_T×log(P_T)。

在另一些实施方式中，所述步骤5)中，所述计算还可包括：计算各样本SNP位点的熵的平均值和熵的中位数，并标记样本的分组信息，得到关于样本、平均熵/中位数熵、样本分组的数据表格，对该数据进行可视化作图。

本申请方法对于测序数据不作过多要求，可适用于各种测序手段或测序仪器获得的测序数据，比如第二代测序或第三代测序，优选的为第二代测序。

下面为具体的实施方法。

实施例1本申请方法体系的构建和优化过程

本申请整体分析的流程如图1所示。流程上，首先样本提取建库，测序获取测序数据，对测序数据进行拆分、过滤和比对，随后统计snp位点深度，最后计算各SNP位点的熵值，具体如下：

1、测序：样本提取，文库建库(文库构建过程中会给每个样本加上唯一的index，通过index来区分识别每一个样品)，上机进行高通量测序，测序数据下机最初为BCL 格式文件，准备samplesheet列表，列表中记录了样本与index间的对应关系，采用b cl2fastq软件根据样本的index进行数据拆分，得到各样本的fastq格式文件，即分析用原始数据。

2、数据过滤：采用fastp软件对原始fastq数据做过滤，fastp软件能自动识别接头序列并进行裁剪，过滤低质量序列、太短的序列以及含N较多的序列，最终得到过滤后数据即clean data。

3、序列比对及其优化：

考虑到BWA软件是一种能够将差异度较小的序列比对到一个较大的参考基因组上的软件包，本实施例选用软件BWA做序列比对。BWA比对过程主要分为两步：第一步使用索引命令bwa index构建参考基因组的索引；第二步比对，但BWA有三种比对算法， BWA-backtrack是用来比对Illumina的序列的，reads长度最长能到100bp；BWA-SW和 BWA-MEM主要是用于比对长reads，支持的长度为70bp-1Mbp，同时支持剪接性比对，但是BWA-MEM比对运行更快，结果更加准确。因此本实施例使用bwa mem命令将序列比对到参考基因组上，得到比对的sam格式文件，其效果最优。

而为了减少文件的存储，使用samtools view命令将sam格式转换成bam格式文件，bam文件是sam格式的二进制格式。接着用sambamba sort对bam文件进行排序。最后对排序后的bam文件用sambamba index命令建立索引，因为整个bam文件可能非常大，如果我们只关注很小的一段区域而将整个序列都读进内存是非常低效的，建立索引则方便针对性的提取特定区域。

4、SNP位点深度统计：首先准备关于SNP位点的bed文件，文件内容为SNP位点所在的染色体编号、在该染色体上的位置以及SNP位点的rs编号，然后将排序后的bam 文件和SNP位点的bed文件作为输入，用sambamba depth base命令对各SNP位点的碱基深度进行统计，统计文件的主要内容为SNP染色体编号、在染色体上的位置、该位置总的覆盖度、在该位置测序到的A/C/G/T四种碱基的深度。

5、计算各SNP位点的熵值：利用SNP位点碱基深度信息，先计算该SNP位点各碱基的normalized read count，再计算各碱基的概率，最后计算得到该SNP位点的熵值，公式如下：

Entropy of one SNP＝P_A×log(P_A)+P_c×log(P_C)+P_G×log(P_G)+P_T×log(P_T)

一个分组有多个生物学重复，计算各样本的SNP位点的熵的平均值和熵的中位数，并标记样本的分组信息，得到关于样本、平均熵/中位数熵、样本分组的数据表格，使用 R语言的ggplot2包对该数据进行可视化作图，若熵值越大，样本为混合样本的可能性越高。

实施例2本申请方法体系评估——使用标准品进行不同样本混合比例的测试

一、测试样本准备：

1、纯合样本：样本9947和样本9948，(样本9947和9948是法医学的标准品，其中样本9947为女性样本，样本9948为男性样本)。

2、混合样本：将两个纯合样本按不同比例混合得到不同比例的混合样本，分别为1:19mix，1:14mix，1:9mix、1:5mix、1:2mix、1:1mix、2:1mix、5:1mix、 9:1mix、14:1mix，19:1mix，(例如1:9mix表示9947与9948样本按照1:9混合)。以上每个样品均需要至少做2-3个生物学重复。

二、采用实施例1方法进行混合样本分析

数据分析：样本经测序，得到原始下机bcl文件，用bcl2fastq软件做数据拆分，得到各样品的原始fastq数据文件；将原始数据用fastp过滤；过滤后数据与人类参考基因组进行比对，得到sam比对结果文件，将sam文件转换成二进制格式的bam文件，对bam文件进行排序并对排序后的bam文件建立索引；根据bam文件和对应的SNP的b ed文件(共230个SNP)，统计各SNP位点的碱基深度，为了最大化个体识别的能力，选取的这230个SNP的MAF都接近0.5；根据碱基深度文件，先计算各样本的各SNP位点的熵值，再计算每个样本的SNP位点的平均熵值或者中位数熵值，纯样本和混合样本均有多个生物学重复，相同类型的样本标记为同一分组即index，例如：编号9-11样品均标记为1:9mix，得到一个关于熵值的矩阵，其内容为：样本编号、平均熵值/熵的中位数、分组index编号，分别作图(见图2)，如下所示：

图2中横坐标为样本分组index，同一比例混合的样本在一个组中，图中的每一个点代表一个样本，纵坐标为样本的熵的中位数。熵值为0.07-0.25左右的时候可以都清晰的区分纯和和混合样本。

由图2可知，纯合样本的熵值(中位数)明显低于不同比例混合样本的熵值，且样品混合比例越均衡，其熵值越高。熵值为0.47左右的时候仍可以区分分纯和和绝大部分混合样本。

实施例3本申请方法体系评估——使用不同样本测试方法的可靠性

一、测试样本准备：

1、纯合样本：样本B1、样本B2；样本A1、样本A2。

2、混合样本：将两个纯合样本按不同比例混合得到不同比例的混合样本，分别为1: 19mix，1:14mix，1:9mix、1:5mix、1:2mix、1:1mix、2:1mix、5:1mix、9:1 mix、14:1mix，19:1mix，(例如1:9mix表示样本1与样本2样本按照1:9混合)。

二、一共进行了三组混合，包括样本A和样本A混合、样本B和样本B混合以及样本A和样本B混合。采用实施例1方法进行混合样本分析，结果如图3所示，纯合样本具有较小的熵值(小于0.1)，而混合样本从19:1(5％)到1:19(5％)都具有更大的熵值 (基本都大于0.3)，可见，混合比例远低于20％的时候本申请提出的方法也能够很好的区分混合样本。

前述对本申请的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本申请限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本申请的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本申请的各种不同的示例性实施方案以及各种不同的选择和改变。本申请的范围意在由权利要求书及其等同形式所限定。

Claims

1.基于计算SNP熵值的混合样本鉴定方法，其特征在于，包括如下步骤：

1)样本测序：测序样本文库构建，测序获得测序数据；

2)数据过滤：对测序数据进行序列过滤；

3)序列比对：对过滤后数据进行序列比对；

所述统计包括：SNP染色体编号、在染色体上的位置、该位置总的覆盖度、在该位置测序到的A/C/G/T四种碱基的深度；

5)计算各SNP位点熵值Entropy of one SNP，计算公式如下：

Entropy of one SNP＝P_A×log(P_A)+P_C×log(P_C)+P_G×log(P_G)+P_T×log(P_T)；

其中，所述N_A为SNP位点A碱基的normalized read count；所述P_A为A碱基的概率probability；

所述熵值越大，样本为混合样本可能性越高。

2.根据权利要求1所述的鉴定方法，其特征在于，步骤1)中，

所述文库构建过程中对每个样本加index；

所述测序数据根据index进行数据拆分。

3.根据权利要求1所述的鉴定方法，其特征在于，步骤2)中，

所述序列过滤为过滤低质量序列、短序列以及含N较多序列。

4.根据权利要求1所述的鉴定方法，其特征在于，步骤3)中，

所述比对后进一步包括排序步骤：

5.根据权利要求1所述的鉴定方法，其特征在于，步骤4)中，

所述SNP位点深度统计具体为：

6.根据权利要求1所述的鉴定方法，其特征在于，步骤5)中，

所述计算各SNP位点熵值还可包括：计算各样本SNP位点的熵的平均值和熵的中位数，并标记样本的分组信息，得到关于样本、平均熵/中位数熵、样本分组的数据表格，对该数据进行可视化作图。

7.一种基于计算SNP位点熵值的混合样本鉴定系统，其特征在于，包括如下模块，所述模块用于执行权利要求1-6任一所述方法的步骤。

8.一种计算机可读介质，其存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1-6任一所述方法。

9.一种电子设备，包括处理器以及存储器，所述存储器上存储一条或多条可读指令，所述一条或多条可读指令被所述处理器执行时，实现权利要求1-6任一所述方法。