CN114530200B - 基于计算snp熵值的混合样本鉴定方法 - Google Patents

基于计算snp熵值的混合样本鉴定方法 Download PDF

Info

Publication number
CN114530200B
CN114530200B CN202210274555.XA CN202210274555A CN114530200B CN 114530200 B CN114530200 B CN 114530200B CN 202210274555 A CN202210274555 A CN 202210274555A CN 114530200 B CN114530200 B CN 114530200B
Authority
CN
China
Prior art keywords
snp
sample
entropy
file
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210274555.XA
Other languages
English (en)
Other versions
CN114530200A (zh
Inventor
李梦
黄舒
郭茂平
申君毅
郭晋荣
胡欢
郑立
张奇
陈初光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuewei Gene Technology Co ltd
Original Assignee
Beijing Yuewei Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuewei Gene Technology Co ltd filed Critical Beijing Yuewei Gene Technology Co ltd
Priority to CN202210274555.XA priority Critical patent/CN114530200B/zh
Publication of CN114530200A publication Critical patent/CN114530200A/zh
Application granted granted Critical
Publication of CN114530200B publication Critical patent/CN114530200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请涉及生物信息学分析领域,具体提供一种基于样本SNP熵值的混合样本鉴定方法和系统,该方法和系统不需分析SNP分型,直接根据SNP位点各碱基深度情况计算熵值;本申请具有不局限于样本混合比例以及不局限于位点MAF值等优势。

Description

基于计算SNP熵值的混合样本鉴定方法
技术领域
本申请属于生信分析领域,具体涉及基于样本SNP熵值的混合样本鉴定方法和系统。
背景技术
单核苷酸多态性(single nucleotide polymorphism,snp)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。SNP是最常见的遗传变异类型,一般表现为单个碱基的转换或颠换,也可能是碱基的插入或缺失,SNP占人类基因组已知多态性的90%以上。SNP多为双等位型标记,具有分布密度高,突变率低,位置不均匀等特点,具有较好的法医学和临床科学应用前景。
在法医和临床的DNA检测过程中,经常会遇到多个体的混合样本,那么如何鉴定样本是否为混合样本?传统的鉴定混合样本的方法是通过某些位点包含3个等位基因来判断是混合样本,但该方法却至少存在以下缺点:
1)当样本的混合比率低于20%时,通常需要降低深度的判断标准来找到SNP,判断标准不稳定,这样就要求检验人员有比较丰富经验;
2)为了最大化个体识别,通常选取的位点的次等位基因频率(MAF)近似0.5,这样大多数个体都可能只有两个等位基因型。
有鉴于此,提出本申请,本申请提出一种直接从read出发,不需要判别SNP分型即可判断混合样本的方法。
发明内容
为解决上述技术问题,本申请提出如下具体技术方案:
本申请首先提供一种基于计算SNP位点熵值的混合样本鉴定方法:包括如下步骤:
1)样本测序:测序样本文库构建,测序获得测序数据;
2)数据过滤:对测序数据进行序列过滤;
3)序列比对:对过滤后数据进行序列比对;
4)SNP位点深度统计:对比对后序列进行SNP位点碱基深度统计;
优选的,所述统计包括:SNP染色体编号、在染色体上的位置、该位置总的覆盖度、在该位置测序到的A/C/G/T四种碱基的深度;
5)计算各SNP位点熵值:利用SNP位点碱基深度信息,计算SNP位点各碱基的 NA(normalized read count)、概率PA(probability of A)和熵值(Entropy of one SNP);
优选的,所述熵值越大,样本为混合样本可能性越高。
在一些方式中,所述步骤1)中,
所述文库构建过程中对每个样本加index;
所述测序数据根据index进行数据拆分。
在一些方式中,所述步骤2)中,
所述序列过滤为过滤低质量序列、短序列以及含N较多序列。
在一些方式中,所述步骤3)中,
所述序列比对采用BWA软件进行,得到比对的sam格式文件,具体的:第一步使用BWA索引命令bwa index构建参考基因组索引;第二步,使用命令BWA-MEM将序列比对到参考基因组,得到比对的sam格式文件;
在一些方式中,所述比对后进一步包括排序步骤:
将sam格式文件转换成bam格式文件,对bam文件进行排序,对排序后的bam文件建立索引。
在一些方式中,所述步骤4)中,
所述SNP位点深度统计具体为:
准备SNP位点的bed文件,所述bed文件内容为SNP位点所在的染色体编号、在该染色体上的位置以及SNP位点的rs编号,将排序后bam文件和SNP位点bed文件作为输入,对各SNP位点的碱基深度进行统计,统计文件内容包括SNP染色体编号、在染色体上的位置、该位置总的覆盖度、在该位置测序到的A/C/G/T四种碱基的深度。
在一些方式中,所述步骤5)中,
所述NA、PA和熵值的计算公式分别如下:
Figure RE-GDA0003602380110000021
Figure RE-GDA0003602380110000031
Entropy of one SNP=PA×log(PA)+PC×log(Pc)+PG×log(Pc)+PT×log(PT)。
在一些方式中,所述步骤5)中,
所述计算还可包括:计算各样本SNP位点的熵的平均值和熵的中位数,并标记样本的分组信息,得到关于样本、平均熵/中位数熵、样本分组的数据表格,对该数据进行可视化作图。
另外,本申请还提供一种基于计算SNP位点熵值的混合样本鉴定系统,所述模块用于执行上述任一所述方法的步骤。
或者具体包括如下模块:
1)样本测序模块:用于测序样本文库构建,测序获得测序数据;
2)数据过滤模块:用于对测序数据进行序列过滤;
3)序列比对模块:用于对过滤后数据进行序列比对;
4)SNP位点深度统计模块:用于对比对后序列进行SNP位点碱基深度统计;
优选的,所述统计包括:SNP染色体编号、在染色体上的位置、该位置总的覆盖度、在该位置测序到的A/C/G/T四种碱基的深度;
5)计算各SNP位点熵值模块:用于利用SNP位点碱基深度信息,计算SNP位点各碱基的NA(normalized read count)、概率PA(probability of A)和熵值(Entropy of oneSNP);优选的,所述熵值越大,样本为混合样本可能性越高。
在一些方式中,所述模块1)中,
所述文库构建过程中对每个样本加index;
所述测序数据根据index进行数据拆分。
在一些方式中,所述模块2)中,
所述序列过滤为过滤低质量序列、短序列以及含N较多序列。
在一些方式中,所述模块3)中,
所述序列比对采用BWA软件进行,得到比对的sam格式文件,具体的:第一步使用BWA索引命令bwa index构建参考基因组索引;第二步,使用命令BWA-MEM将序列比对到参考基因组,得到比对的sam格式文件;
在一些方式中,所述比对后进一步包括排序步骤:
将sam格式文件转换成bam格式文件,对bam文件进行排序,对排序后的bam文件建立索引。
在一些方式中,所述模块4)中,
所述SNP位点深度统计具体为:
准备SNP位点的bed文件,所述bed文件内容为SNP位点所在的染色体编号、在该染色体上的位置以及SNP位点的rs编号,将排序后bam文件和SNP位点bed文件作为输入,对各SNP位点的碱基深度进行统计,统计文件内容包括SNP染色体编号、在染色体上的位置、该位置总的覆盖度、在该位置测序到的A/C/G/T四种碱基的深度。
在一些方式中,所述模块5)中,
所述NA、PA和熵值的计算公式分别如下:
Figure RE-GDA0003602380110000041
Figure RE-GDA0003602380110000042
Entropy of one SNP=PA×log(PA)+Pc×log(Pc)+PG×log(PG)+PT×log(PT)。
在一些方式中,所述步骤5)中,
所述计算还可包括:计算各样本SNP位点的熵的平均值和熵的中位数,并标记样本的分组信息,得到关于样本、平均熵/中位数熵、样本分组的数据表格,对该数据进行可视化作图。
另外,本申请还提供一种计算机可读介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一所述方法。
另外,本申请还提供一种电子设备,包括处理器以及存储器,所述存储器上存储一条或多条可读指令,所述一条或多条可读指令被所述处理器执行时,实现上述任一所述方法。
与现有技术相比,本申请至少具有如下优势:
1)本申请直接根据SNP位点的各碱基深度情况,即可计算其熵值,不需要分析 SNP的分型。
2)本申请不局限于样本的混合比例问题,当混合比例低于20%时,不需要用降低深度的判断标准来找SNP。多次测试表明本申请的方法能够在1:19(5%)区分混合样本。
3)本申请不局限于位点的MAF值,MAF接近于0.5也不受影响。本申请选用了 230个MAF接近0.5的SNP位点进行了多次测试,测试结果表明本申请的方法能够很好的区分混合样本。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1、本申请流程图;
图2、针对9947和9948不同比例混合,使用本申请的方法计算熵值,其中的横坐标代表不同比例混合的样本,前两个样本为纯合样本,后面是不同混合比例的样本,由于有生物学重复,每一种混合比例都有超过一个样本,纵坐标为计算的熵值的中位数。
图3、针对样本A和样本A不同比例混合、样本B和样本B不同比例混合以及样本 A和样本B不同比例混合,使用本申请的方法计算熵值,其中的横坐标代表不同比例混合的样本,前两个样本为纯合样本,后面是不同混合比例的样本,由于有生物学重复,每一种混合比例都有超过一个样本,纵坐标为计算的熵值的中位数。
具体实施方式
下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下术语或定义仅仅是为了帮助理解本申请而提供。这些定义不应被理解为具有小于本领域技术人员所理解的范围。
除非在下文中另有定义,本申请具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解,但仍然阐述以下定义以更好地解释本申请。
如本申请中所使用,术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的,且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案,这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。
在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”,“所述”,包括该名词的复数形式。
本申请中的术语“大约”、“大体”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10%,优选±5%。
此外,说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类,是用于区分相似的元素,不是描述顺序或时间次序必须的。应理解,如此应用的术语在适当的环境下可互换,并且本申请描述的实施方案能以不同于本申请描述或举例说明的其它顺序实施。
本申请所述的基于计算SNP位点熵值的区分或混合样本鉴定方法的流程如图1所示,大体包括了样本测序,数据过滤和比对,SNP位点深度统计和计算各SNP位点熵值等步骤。
示例性的,所述方法包括如下步骤:
1)样本测序:测序样本文库构建,测序获得测序数据;2)数据过滤:对测序数据进行序列过滤;3)序列比对:对过滤后数据进行序列比对;4)SNP位点深度统计:对比对后序列进行SNP位点碱基深度统计;优选的,所述统计包括:SNP染色体编号、在染色体上的位置、该位置总的覆盖度、在该位置测序到的A/C/G/T四种碱基的深度;5) 计算各SNP位点熵值:利用SNP位点碱基深度信息,计算SNP位点各碱基的NA(normali zed read count)、概率PA(probability of A)和熵值(Entropy of one SNP);实践中,所述熵值越大,样本为混合样本可能性越高。
在一些实施方式中,所述步骤1)中,所述文库构建过程中对每个样本加index;所述测序数据根据index进行数据拆分。
在另一些实施方式中,所述步骤2)中,所述序列过滤为过滤低质量序列、短序列以及含N较多序列。
在另一些实施方式中,所述步骤3)中,所述序列比对采用BWA软件进行,得到比对的sam格式文件,具体的:第一步使用BWA索引命令bwa index构建参考基因组索引;第二步,使用命令BWA-MEM将序列比对到参考基因组,得到比对的sam格式文件;
在另一些实施方式中,所述比对后进一步包括排序步骤:将sam格式文件转换成bam格式文件,对bam文件进行排序,对排序后的bam文件建立索引。
在另一些实施方式中,所述步骤4)中,所述SNP位点深度统计具体为:准备SNP 位点的bed文件,所述bed文件内容为SNP位点所在的染色体编号、在该染色体上的位置以及SNP位点的rs编号,将排序后bam文件和SNP位点bed文件作为输入,对各SN P位点的碱基深度进行统计,统计文件内容包括SNP染色体编号、在染色体上的位置、该位置总的覆盖度、在该位置测序到的A/C/G/T四种碱基的深度。
在一些另实施方式中,所述步骤5)中,所述NA、PA和熵值的计算公式分别如下:
Figure RE-GDA0003602380110000071
Figure RE-GDA0003602380110000072
Entropy of one SNP=PA×log(PA)+Pc×log(Pc)+PG×log(PG)+PT×log(PT)。
在另一些实施方式中,所述步骤5)中,所述计算还可包括:计算各样本SNP位点的熵的平均值和熵的中位数,并标记样本的分组信息,得到关于样本、平均熵/中位数熵、样本分组的数据表格,对该数据进行可视化作图。
本申请方法对于测序数据不作过多要求,可适用于各种测序手段或测序仪器获得的测序数据,比如第二代测序或第三代测序,优选的为第二代测序。
下面为具体的实施方法。
实施例1本申请方法体系的构建和优化过程
本申请整体分析的流程如图1所示。流程上,首先样本提取建库,测序获取测序数据,对测序数据进行拆分、过滤和比对,随后统计snp位点深度,最后计算各SNP位点的熵值,具体如下:
1、测序:样本提取,文库建库(文库构建过程中会给每个样本加上唯一的index,通过index来区分识别每一个样品),上机进行高通量测序,测序数据下机最初为BCL 格式文件,准备samplesheet列表,列表中记录了样本与index间的对应关系,采用b cl2fastq软件根据样本的index进行数据拆分,得到各样本的fastq格式文件,即分析用原始数据。
2、数据过滤:采用fastp软件对原始fastq数据做过滤,fastp软件能自动识别接头序列并进行裁剪,过滤低质量序列、太短的序列以及含N较多的序列,最终得到过滤后数据即clean data。
3、序列比对及其优化:
考虑到BWA软件是一种能够将差异度较小的序列比对到一个较大的参考基因组上的软件包,本实施例选用软件BWA做序列比对。BWA比对过程主要分为两步:第一步使用索引命令bwa index构建参考基因组的索引;第二步比对,但BWA有三种比对算法, BWA-backtrack是用来比对Illumina的序列的,reads长度最长能到100bp;BWA-SW和 BWA-MEM主要是用于比对长reads,支持的长度为70bp-1Mbp,同时支持剪接性比对,但是BWA-MEM比对运行更快,结果更加准确。因此本实施例使用bwa mem命令将序列比对到参考基因组上,得到比对的sam格式文件,其效果最优。
而为了减少文件的存储,使用samtools view命令将sam格式转换成bam格式文件,bam文件是sam格式的二进制格式。接着用sambamba sort对bam文件进行排序。最后对排序后的bam文件用sambamba index命令建立索引,因为整个bam文件可能非常大,如果我们只关注很小的一段区域而将整个序列都读进内存是非常低效的,建立索引则方便针对性的提取特定区域。
4、SNP位点深度统计:首先准备关于SNP位点的bed文件,文件内容为SNP位点所在的染色体编号、在该染色体上的位置以及SNP位点的rs编号,然后将排序后的bam 文件和SNP位点的bed文件作为输入,用sambamba depth base命令对各SNP位点的碱基深度进行统计,统计文件的主要内容为SNP染色体编号、在染色体上的位置、该位置总的覆盖度、在该位置测序到的A/C/G/T四种碱基的深度。
5、计算各SNP位点的熵值:利用SNP位点碱基深度信息,先计算该SNP位点各碱基的normalized read count,再计算各碱基的概率,最后计算得到该SNP位点的熵值,公式如下:
Figure RE-GDA0003602380110000081
Figure RE-GDA0003602380110000082
Entropy of one SNP=PA×log(PA)+Pc×log(PC)+PG×log(PG)+PT×log(PT)
一个分组有多个生物学重复,计算各样本的SNP位点的熵的平均值和熵的中位数,并标记样本的分组信息,得到关于样本、平均熵/中位数熵、样本分组的数据表格,使用 R语言的ggplot2包对该数据进行可视化作图,若熵值越大,样本为混合样本的可能性越高。
实施例2本申请方法体系评估——使用标准品进行不同样本混合比例的测试
一、测试样本准备:
1、纯合样本:样本9947和样本9948,(样本9947和9948是法医学的标准品,其中样本9947为女性样本,样本9948为男性样本)。
2、混合样本:将两个纯合样本按不同比例混合得到不同比例的混合样本,分别为1:19mix,1:14mix,1:9mix、1:5mix、1:2mix、1:1mix、2:1mix、5:1mix、 9:1mix、14:1mix,19:1mix,(例如1:9mix表示9947与9948样本按照1:9混合)。以上每个样品均需要至少做2-3个生物学重复。
二、采用实施例1方法进行混合样本分析
数据分析:样本经测序,得到原始下机bcl文件,用bcl2fastq软件做数据拆分,得到各样品的原始fastq数据文件;将原始数据用fastp过滤;过滤后数据与人类参考基因组进行比对,得到sam比对结果文件,将sam文件转换成二进制格式的bam文件,对bam文件进行排序并对排序后的bam文件建立索引;根据bam文件和对应的SNP的b ed文件(共230个SNP),统计各SNP位点的碱基深度,为了最大化个体识别的能力,选取的这230个SNP的MAF都接近0.5;根据碱基深度文件,先计算各样本的各SNP位点的熵值,再计算每个样本的SNP位点的平均熵值或者中位数熵值,纯样本和混合样本均有多个生物学重复,相同类型的样本标记为同一分组即index,例如:编号9-11样品均标记为1:9mix,得到一个关于熵值的矩阵,其内容为:样本编号、平均熵值/熵的中位数、分组index编号,分别作图(见图2),如下所示:
图2中横坐标为样本分组index,同一比例混合的样本在一个组中,图中的每一个点代表一个样本,纵坐标为样本的熵的中位数。熵值为0.07-0.25左右的时候可以都清晰的区分纯和和混合样本。
由图2可知,纯合样本的熵值(中位数)明显低于不同比例混合样本的熵值,且样品混合比例越均衡,其熵值越高。熵值为0.47左右的时候仍可以区分分纯和和绝大部分混合样本。
实施例3本申请方法体系评估——使用不同样本测试方法的可靠性
一、测试样本准备:
1、纯合样本:样本B1、样本B2;样本A1、样本A2。
2、混合样本:将两个纯合样本按不同比例混合得到不同比例的混合样本,分别为1: 19mix,1:14mix,1:9mix、1:5mix、1:2mix、1:1mix、2:1mix、5:1mix、9:1 mix、14:1mix,19:1mix,(例如1:9mix表示样本1与样本2样本按照1:9混合)。
二、一共进行了三组混合,包括样本A和样本A混合、样本B和样本B混合以及样本A和样本B混合。采用实施例1方法进行混合样本分析,结果如图3所示,纯合样本具有较小的熵值(小于0.1),而混合样本从19:1(5%)到1:19(5%)都具有更大的熵值 (基本都大于0.3),可见,混合比例远低于20%的时候本申请提出的方法也能够很好的区分混合样本。
前述对本申请的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本申请限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本申请的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本申请的各种不同的示例性实施方案以及各种不同的选择和改变。本申请的范围意在由权利要求书及其等同形式所限定。

Claims (9)

1.基于计算SNP熵值的混合样本鉴定方法,其特征在于,包括如下步骤:
1)样本测序:测序样本文库构建,测序获得测序数据;
2)数据过滤:对测序数据进行序列过滤;
3)序列比对:对过滤后数据进行序列比对;
4)SNP位点深度统计:对比对后序列进行SNP位点碱基深度统计;
所述统计包括:SNP染色体编号、在染色体上的位置、该位置总的覆盖度、在该位置测序到的A/C/G/T四种碱基的深度;
5)计算各SNP位点熵值Entropy of one SNP,计算公式如下:
Figure FDA0003803988330000011
Figure FDA0003803988330000012
Entropy of one SNP=PA×log(PA)+PC×log(PC)+PG×log(PG)+PT×log(PT);
其中,所述NA为SNP位点A碱基的normalized read count;所述PA为A碱基的概率probability;
所述熵值越大,样本为混合样本可能性越高。
2.根据权利要求1所述的鉴定方法,其特征在于,步骤1)中,
所述文库构建过程中对每个样本加index;
所述测序数据根据index进行数据拆分。
3.根据权利要求1所述的鉴定方法,其特征在于,步骤2)中,
所述序列过滤为过滤低质量序列、短序列以及含N较多序列。
4.根据权利要求1所述的鉴定方法,其特征在于,步骤3)中,
所述序列比对采用BWA软件进行,得到比对的sam格式文件,具体的:第一步使用BWA索引命令bwa index构建参考基因组索引;第二步,使用命令BWA-MEM将序列比对到参考基因组,得到比对的sam格式文件;
所述比对后进一步包括排序步骤:
将sam格式文件转换成bam格式文件,对bam文件进行排序,对排序后的bam文件建立索引。
5.根据权利要求1所述的鉴定方法,其特征在于,步骤4)中,
所述SNP位点深度统计具体为:
准备SNP位点的bed文件,所述bed文件内容为SNP位点所在的染色体编号、在该染色体上的位置以及SNP位点的rs编号,将排序后bam文件和SNP位点bed文件作为输入,对各SNP位点的碱基深度进行统计,统计文件内容包括SNP染色体编号、在染色体上的位置、该位置总的覆盖度、在该位置测序到的A/C/G/T四种碱基的深度。
6.根据权利要求1所述的鉴定方法,其特征在于,步骤5)中,
所述计算各SNP位点熵值还可包括:计算各样本SNP位点的熵的平均值和熵的中位数,并标记样本的分组信息,得到关于样本、平均熵/中位数熵、样本分组的数据表格,对该数据进行可视化作图。
7.一种基于计算SNP位点熵值的混合样本鉴定系统,其特征在于,包括如下模块,所述模块用于执行权利要求1-6任一所述方法的步骤。
8.一种计算机可读介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1-6任一所述方法。
9.一种电子设备,包括处理器以及存储器,所述存储器上存储一条或多条可读指令,所述一条或多条可读指令被所述处理器执行时,实现权利要求1-6任一所述方法。
CN202210274555.XA 2022-03-18 2022-03-18 基于计算snp熵值的混合样本鉴定方法 Active CN114530200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210274555.XA CN114530200B (zh) 2022-03-18 2022-03-18 基于计算snp熵值的混合样本鉴定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210274555.XA CN114530200B (zh) 2022-03-18 2022-03-18 基于计算snp熵值的混合样本鉴定方法

Publications (2)

Publication Number Publication Date
CN114530200A CN114530200A (zh) 2022-05-24
CN114530200B true CN114530200B (zh) 2022-09-23

Family

ID=81626758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210274555.XA Active CN114530200B (zh) 2022-03-18 2022-03-18 基于计算snp熵值的混合样本鉴定方法

Country Status (1)

Country Link
CN (1) CN114530200B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115064208B (zh) * 2022-07-08 2023-01-03 北京阅微基因技术股份有限公司 一种基于最大带边权重团的二代str/snp引物设计方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033502A (zh) * 2015-03-20 2016-10-19 深圳华大基因股份有限公司 鉴定病毒的方法和装置
CN109346130A (zh) * 2018-10-24 2019-02-15 中国科学院水生生物研究所 一种直接从全基因组重测序数据中得到微单体型及其分型的方法
CN113450871A (zh) * 2021-06-28 2021-09-28 广东博奥医学检验所有限公司 基于低深度测序的鉴定样本同一性的方法
CN113724785A (zh) * 2021-11-01 2021-11-30 臻和(北京)生物科技有限公司 基于二代测序的肿瘤分型方法、装置、存储介质及设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050009046A1 (en) * 2003-06-24 2005-01-13 De La Vega Francisco M. Identification of haplotype diversity
SG141218A1 (en) * 2003-10-07 2008-04-28 Nanyang Polytechnic Method for prediction of single nucleotide polymorphisms
CN104946765A (zh) * 2015-06-25 2015-09-30 华中农业大学 基于基因组测序的体细胞突变位点挖掘方法
CA3140066A1 (en) * 2019-05-20 2020-11-26 Foundation Medicine, Inc. Systems and methods for evaluating tumor fraction
CN113724783B (zh) * 2021-06-16 2022-04-12 北京阅微基因技术股份有限公司 一种短串联重复序列重复数的检测和分型方法
CN113593644B (zh) * 2021-06-29 2024-03-26 广东博奥医学检验所有限公司 基于家系的低深度测序检测染色体单亲二体的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033502A (zh) * 2015-03-20 2016-10-19 深圳华大基因股份有限公司 鉴定病毒的方法和装置
CN109346130A (zh) * 2018-10-24 2019-02-15 中国科学院水生生物研究所 一种直接从全基因组重测序数据中得到微单体型及其分型的方法
CN113450871A (zh) * 2021-06-28 2021-09-28 广东博奥医学检验所有限公司 基于低深度测序的鉴定样本同一性的方法
CN113724785A (zh) * 2021-11-01 2021-11-30 臻和(北京)生物科技有限公司 基于二代测序的肿瘤分型方法、装置、存储介质及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
miRge-A multiplexed method of processing small RNA-seq data to determine microRNA entropy;Alexander S. Baras等;《PLOS ONE》;20151116;1-16 *
面向信息SNP选择的聚类算法;邢斌等;《计算机与数字工程》;20211020;第49卷(第10期);1983-1987 *

Also Published As

Publication number Publication date
CN114530200A (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN109033749B (zh) 一种肿瘤突变负荷检测方法、装置和存储介质
CN107423578B (zh) 检测体细胞突变的装置
CN110211633B (zh) Mgmt基因启动子甲基化的检测方法、测序数据的处理方法及处理装置
CN111341383B (zh) 一种检测拷贝数变异的方法、装置和存储介质
CN104794371B (zh) 检测逆转座子插入多态性的方法和装置
CN111718982A (zh) 一种肿瘤组织单样本体细胞突变检测方法及装置
CN108229103A (zh) 循环肿瘤dna重复序列的处理方法及装置
CN107944228A (zh) 一种基因测序变异位点的可视化方法
CN108304694B (zh) 基于二代测序数据分析基因突变的方法
CN108595918A (zh) 循环肿瘤dna重复序列的处理方法及装置
CN113362889A (zh) 基因组结构变异注释方法
CN111091869A (zh) 以snp为遗传标记物的亲缘关系鉴定方法
CN106845152A (zh) 一种基因组胞嘧啶位点表观基因型分型方法
CN114530200B (zh) 基于计算snp熵值的混合样本鉴定方法
CN115631789A (zh) 一种基于泛基因组的群体联合变异检测方法
CN116189763A (zh) 一种基于二代测序的单样本拷贝数变异检测方法
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
CN112233722B (zh) 品种鉴定的方法、其预测模型的构建方法和装置
CN107862177B (zh) 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法
JP7362789B2 (ja) 精子提供者、卵母細胞提供者、及びそれぞれの受胎産物の間の遺伝的関係を決定するためのシステム、コンピュータプログラム及び方法
Forsberg et al. CLC Bio Integrated Platform for Handling and Analysis of Tag Sequencing Data
CN117037905A (zh) 基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质
Roy et al. NGS-μsat: bioinformatics framework supporting high throughput microsatellite genotyping from next generation sequencing platforms
Eché et al. A Bos taurus sequencing methods benchmark for assembly, haplotyping, and variant calling
CN116312779A (zh) 检测样本污染和识别样本错配的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant