CN115662507B - 一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统 - Google Patents
一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统 Download PDFInfo
- Publication number
- CN115662507B CN115662507B CN202211654485.7A CN202211654485A CN115662507B CN 115662507 B CN115662507 B CN 115662507B CN 202211654485 A CN202211654485 A CN 202211654485A CN 115662507 B CN115662507 B CN 115662507B
- Authority
- CN
- China
- Prior art keywords
- linear fitting
- snps
- samples
- sample
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统,属于测序样本检测技术领域。方法包括:获取多个基因文件;根据预定过滤筛选条件分别对多个基因文件中的SNPs进行过滤筛选,获得过滤筛选后SNPs;计算每个过滤筛选后SNPs的突变等位基因频率;基于任意两个样本的突变等位基因频率进行线性拟合并计算第一、第二以及第三线性拟合参数;基于第一、第二及第三线性拟合参数确定测序样本是否同源。还公开了对应的系统,只需两个样本使用相同的测序方法或两样本之间存在大量重叠SNPs,可直接使用NGS标准分析流程产生的VCF文件,根据不同文件自动获取动态SNPs,结合参数评估解决样本同源性分析。
Description
技术领域
本发明涉及测序样本检测技术领域,尤其涉及一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统。
背景技术
常见的高通量测序又称下一代测序技术NGS(Next-generation sequencingtechnology)数据样本同源性检测方法有以下两种:
第一种检测方法是通过比较不同样本特定STR(short tandem repeat,短片段重复序列)的重复数判定样本同源性;根据特定STR的重复数判定两个样本的同源关系具体方法是:计算两个样本数据中多个STR串联重复的次数,重复次数相同表明两个样本来源于同一个个体。该方法存在以下几个缺点:成本高昂,效率欠佳。常见的商业试剂盒捕获区间不包含所有已知的稳定STR区域,计算STR重复数时不仅需要单独设计方案,而且增加设计成本;NGS测序数据的批次和质量问题,导致STR区域未检测到,导致结果出现偏差,影响判断;STR重复数计算分析独立于NGS分析标准流程,每次都需要单独分析,增加分析周期;NGS数据在连续重复区域和高GC含量(鸟嘌呤和胞嘧啶所占的比率)区域容易出现误差,存在于这些区域的STR,会导致结果不准。
第二种检测方法是通过计算不同样本特定单核苷酸多态性(single nucleotidepolymorphisms,SNPs)突变频率的相关性判定样本同源性。根据特定SNPs突变频率相关性判定两个样本的同源关系具体方法是:分别计算两个样本中特定SNPs的突变频率,再计算SNPs突变频率之间的相关性,相关性越强,表明样本之间的同源性越高。该方法存在以下几个缺点:使用的SNPs指定,测序的panel不一定全部覆盖这些SNPs,计算结果不准确;使用范围局限,仅在固定的panel上准确。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案,一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统,该方法只需要两个样本使用相同的测序方法或两个样本之间存在大量重叠SNPs,就可直接使用NGS标准分析流程产生的VCF(Variant Call Format)文件,根据不同文件自动获取动态SNPs,结合参数评估解决样本同源性分析。
本发明一方面提供了一种基于小样本SNPs线性拟合的测序样本同源性检测方法,包括:
S1,获取多个基因文件,所述多个基因文件为VCF格式,所述多个基因文件对应多个样本;
S2,根据预定过滤筛选条件分别对多个基因文件中的SNPs进行过滤筛选,获得过滤筛选后SNPs;
S3,计算每个过滤筛选后SNPs的突变等位基因频率(Variant allele frequency,VAF);
S4,基于任意两个样本的突变等位基因频率进行线性拟合并计算第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数;
S5,基于所述第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数确定所述测序样本是否同源。
优选的,所述S2中所述预定过滤筛选条件包括:第一条件、第二条件、第三条件和第四条件中的一个或多个,其中所述第一条件为删除测序总深度小于10X的SNPs;所述第二条件为删除性染色体突变的SNPs;所述第三条件为保留杂合突变的SNPs;所述第四条件为保留支持reads数大于5条的SNPs。
优选的,所述S4中所述第一线性拟合参数为样本的C-index(concordance index,一致性指数);所述第二线性拟合参数为拟合方程的斜率;第三线性拟合参数为逐次拟合的次数。
优选的,所述S5包括:基于所述样本的C-index值大于或等于0.7,拟合方程的斜率在[0.9,1.1]之间;若逐次拟合停止时总的拟合次数小于4次认为两个样本同源;若进行完第四次拟合后停止拟合,两个样本不是样本同源。
优选的,还包括计算第四线性拟合参数,所述第四线性拟合参数为拟合方程的线性拟合度R2,所述S5包括:基于所述样本的C-index值大于或等于0.7,拟合方程的斜率在[0.9,1.1]之间;若逐次拟合停止时总的拟合次数小于4次以及所述拟合方程的线性拟合度R2>0.9,认为两个样本同源。
优选的,还包括基于任意两个样本的突变等位基因频率进行线性拟合前,计算第一判断参数和第二判断参数,所述第一判断参数为未拟合样本的C-index,所述第二判断参数为任意两个样本转换与颠换比的差;若满足所述未拟合样本的C-index≥0.7就进行线性拟合,不满足所述未拟合样本的C-index ≥0.7就不进行线性拟合;以及任意两个样本转换与颠换比的差在小于0.1就进行线性拟合,否则就不进行线性拟合。
优选的,所述第一判断参数的计算步骤包括:
确定有用对子数,包括:若有n个观察个体,则所有的对子数应为Cn 2(组合数),基于排除准则排除两类对子,其中所述排除准则排除所有的对子中观察时间不足导致的没有达到观察终点的对子以及所有的对子中两个个体都没达到观察终点的对子;从而获得剩余的为有用对子;计算所述有用对子的数量为有用对子数;
确定有用对子中,预测结果和实际观察到的结果相一致的对子数;其中所述预测结果和实际观察到的结果相一致表示对应个体的实际观察时间大于第一阈值,所述预测结果和实际观察到的结果不一致表示对应的观察个体的实际观察时间小于第一阈值;
计算样本的C-index,其中样本的C-index等于预测结果和实际观察到的结果相一致的对子数与有用对子数的商;
所述多个基因文件作为多个样本,所述第二判断参数的计算步骤包括:
分别计算多个样本的多个转换与颠换比;
计算任意两个转换与颠换比之间的差值作为第二判断参数。
本发明的第二方面,提供一种基于小样本SNPs线性拟合的测序样本同源性检测系统,包括:
样本获取模块,用于获取多个基因文件,所述多个基因文件为VCF格式,所述多个基因文件对应多个样本;
过滤筛选模块,用于根据预定过滤筛选条件分别对多个基因文件中的SNPs进行过滤筛选,获得过滤筛选后SNPs;
计算模块,用于计算每个过滤筛选后SNPs的突变等位基因频率VAF;
线性拟合模块,用于基于任意两个样本的突变等位基因频率进行线性拟合并计算第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数;
同源判定模块,用于基于所述第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数确定所述测序样本是否同源。
本发明的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。
本发明提供的基于小样本SNPs线性拟合的测序样本同源性检测方法和系统,具有如下有益效果:
只需要两个样本使用相同的测序方法或两个样本之间存在大量重叠SNPs,就可直接使用NGS标准分析流程产生的VCF文件,根据不同文件自动获取动态SNPs,结合参数评估解决样本同源性分析。检测成本降低,缩短了分析周期,效率大大提高,降低了NGS数据的统计误差,判断结果精准,适用范围广,不局限在特定panel,更容易应用于商业试剂盒。
附图说明
图1为本发明所述的基于小样本SNPs线性拟合的测序样本同源性检测方法流程示意图。
图2为本发明提供的第一实施例的基于两个样本SNPs线性拟合的测序样本同源性检测方法的数据流图。
图3为本发明提供的第二实施例的基于两个样本SNPs线性拟合的测序样本同源性检测方法的数据流图。
图4为本发明提供的基于小样本SNPs线性拟合的测序样本同源性检测系统架构图。
图5为本发明提供的电子设备一种实施例的结构示意图。
图6a为本发明提供的样本同源拟合图,图6b为本发明提供的样本非同源拟合图。
具体实施方式
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
实施例一
参照图1,本实施例提供了一种基于小样本SNPs线性拟合的测序样本同源性检测方法,包括:
S1,获取多个基因文件,所述多个基因文件为VCF格式,所述多个基因文件对应多个样本;VCF是用于描述SNP(单个碱基上的变异)、INDEL(插入缺失标记)和SV(结构变异位点)结果的文本文件。在GATK软件(The Genome Analysis Toolkit,由Broad Institute开发,用于二代重测序数据分析)中得到最好的支持,通过SAMtools(用于操作sam和bam文件的工具合集)也可以得到VCF格式的文件;VCF文件分为两部分内容,以“#”开头的注释部分和没有“#”开头的主体部分;主体部分中每一行代表一个Variant(变异体)的信息;其中Variant的信息包括CHROM(表示变异位点在哪个contig里被call获得,如果是人类全基因组则对应chr1,…chr22)、POS(变异位点相对于参考基因组所在的位置,如果是indel,就是第一个碱基所在的位置)、ID[variant的ID,如果call出来的SNP存在于dbSNP数据库(NCBI中专门用于存储物种SNP位点信息的数据库)中,就会显示相应的dbSNP里的rs编号;如果没有,则用“,”表示其为一个novel variant]、REF和ALT[在这个变异位点处,参考基因组中所对应的碱基和研究对象基因组(Variant)中所对应的碱基]、QUAL[Phred格式(Phred_scaled)的质量值,可以理解为所call出来的变异位点的质量值,表示在该位点存在variant的可能性,该值越高,则variant的可能性越大]、FILTER(使用上一个QUAL值来进行过滤的话不足够,理想情况下,QUAL值应该是用所有的错误模型计算,采用该值可以代表正确的变异位点,实际情况是需要对原始变异位点进一步的过滤,在FILTER一栏留下过滤记录,如果通过过滤标准,那么通过标准的好的变异位点的FILTER一栏会注释一个PASS,如果没有通过过滤,就会在FILTER一栏显示除了PASS之外的其他信息,如果概览是一个“.”,则表明没有进行过任何过滤)、INFO(表示variant的详细信息)。
本实施例中以两个基因文件为例,分别为如图2所示的基因文件1和基因文件2,本领域技术人员应当理解,基因文件的数量可以更多,但是需要同时遵循本发明的小样本要求的情况下,以同时检验不多于四个基因文件同源性为最适宜的选择。
S2,根据预定过滤筛选条件分别对多个基因文件中的SNPs进行过滤筛选,获得过滤筛选后SNPs。
本实施例中,每个筛选结果最初均以向量表示,并且将向量表示的最初筛选结果经过筛除低频假点的预处理后获得最终的多个筛选结果;
本实施例中,单核苷酸多态性SNPs是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多样性,作为遗传标记,具有已知性、可遗传性、可检测性,由于基因多态与疾病的相关性,可以用于疾病基因的定位、克隆和鉴定以及SNPs本身对机体的影响,这里我们着重用于样本同源性检测。
作为优选的实施方式,所述预定过滤筛选条件包括:第一条件、第二条件、第三条件和第四条件中的一个或多个,其中所述第一条件为删除测序总深度小于10X的SNPs;所述第二条件为删除性染色体突变的SNPs;所述第三条件为保留杂合突变的SNPs;所述第四条件为保留支持reads数大于5条的SNPs。
S3,计算每个过滤筛选后SNPs的突变等位基因频率VAF。
S4,基于任意两个样本的突变等位基因频率进行线性拟合并计算第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数。
S5,基于所述第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数确定所述测序样本是否同源。
作为优选的实施方式,所述第一线性拟合参数为样本的C-index;所述第二线性拟合参数为拟合方程的斜率;第三线性拟合参数为逐次拟合的次数。
第一线性拟合参数C-index本质上是估计了预测结果与实际观察到的结果相一致的概率。其中第一线性拟合参数C-index在0.5-1之间(任意配对随机情况下一致与不一致的概率正好是0.5)。0.5表示预测结果与实际观察到的结果完全不一致,从而说明模型对于同源性没有预测作用,1表示预测结果与实际观察到的结果完全一致,从而说明模型对于同源性的预测结果与实际完全一致。
本实施例中,参考一般情况下,C-index在0.50-0.70为准确度较低:在0.71-0.90之间为准确度中等;而高于0.90则为高准确度。
所述第一线性拟合参数以及后续的第一判断参数的计算步骤包括:
确定有用对子数,包括:若有n个观察个体,则所有的对子数应为Cn 2(组合数),基于排除准则排除两类对子,其中所述排除准则排除所有的对子中观察时间不足导致的没有达到观察终点的对子;以及所有的对子中两个个体都没达到观察终点的对子;从而获得剩余的为有用对子;计算所述有用对子的数量为有用对子数;
确定有用对子中,预测结果和实际观察到的结果相一致的对子数;其中所述预测结果和实际观察到的结果相一致表示对应个体的实际观察时间大于第一阈值,所述预测结果和实际观察到的结果不一致对应的观察个体的实际观察时间小于第一阈值;
计算样本的C-index等于预测结果和实际观察到的结果相一致的对子数与有用对子数的商。
根据第一到第三线性拟合参数的判断中,所述S5包括:基于所述样本的C-index值大于或等于0.7,拟合方程的斜率在[0.9,1.1]之间;若逐次拟合停止时总的拟合次数小于4次认为两个样本同源;若进行完第四次拟合后停止拟合,两个样本不是样本同源。
作为优选的实施方式,还包括计算第四线性拟合参数,所述第四线性拟合参数为拟合方程的线性拟合度R2,根据第一到第四线性拟合参数的判断中,所述S5包括:基于所述样本的C-index值大于或等于0.7,拟合方程的斜率在[0.9,1.1]之间;若逐次拟合停止时总的拟合次数小于4次以及所述拟合方程的线性拟合度R2>0.9,认为两个样本同源。
参见图3,作为另一优选的实施方式,还包括基于任意两个样本的突变等位基因频率进行线性拟合前,计算第一判断参数和第二判断参数,所述第一判断参数为未拟合样本的C-index,所述第二判断参数为每个样本转换与颠换比的差;基于满足所述未拟合样本的C-index ≥0.7就进行线性拟合,不满足所述未拟合样本的C-index ≥0.7就不进行线性拟合;以及每个样本转换与颠换比的差小于0.1就进行线性拟合,否则就不进行线性拟合。
优选的,所述第一判断参数的计算步骤包括:
确定有用对子数,包括:若有n个观察个体,则所有的对子数应为Cn 2(组合数),基于排除准则排除两类对子,其中所述排除准则排除所有的对子中观察时间不足导致的没有达到观察终点的对子以及所有的对子中两个个体都没达到观察终点的对子;从而获得剩余的为有用对子;计算所述有用对子的数量为有用对子数;
确定有用对子中,预测结果和实际观察到的结果相一致的对子数;其中所述预测结果和实际观察到的结果相一致表示对应个体的实际观察时间大于第一阈值,所述预测结果和实际观察到的结果不一致表示对应的观察个体的实际观察时间小于第一阈值;
计算样本C-index,其中样本的C-index等于预测结果和实际观察到的结果相一致的对子数与有用对子数的商;
所述多个基因文件作为多个样本,所述第二判断参数的计算步骤包括:
分别计算多个样本的多个转换与颠换比;
计算任意两个转换与颠换比之间的差值作为第二判断参数。
核苷酸的碱基按照环结构特征被划分为两类,一类是嘌呤,包括腺嘌呤A和鸟嘌呤G(两个环);另一类是嘧啶,包括胞嘧啶C和胸腺嘧啶T(一个环)。如果DNA 碱基的替换保持环数不变,则称为转换,比如腺嘌呤A替换为鸟嘌呤G、或者胞嘧啶C替换为胸腺嘧啶T,即嘌呤替换嘌呤,嘧啶替换嘧啶;如果环数发生变化,则称为颠换,比如腺嘌呤A替换为胞嘧啶C、或者胸腺嘧啶T替换为鸟嘌呤G,即嘌呤替换嘧啶,或者嘧啶替换嘌呤。转换不改变碱基的种类,颠换会改变。在进化过程中,转换发生的频率远比颠换高。同源样本中转换与颠换频率的比值相近;因此本发明采用转换与颠换频率的比值进行样本同源测定。
本实施例中,在基因文件VCF中,统计所有突变类型,分别计算碱基转换和替换,其中ti表示转换,tv表示颠换。
本实施例中,计算过滤筛选后SNPs的突变等位基因频率VAF,即等位基因中突变基因所占比例;并对多个过滤筛选后的SNPs的突变等位基因频率进行线性拟合。本实施例中,两个样本过滤后,得到成对SNPs的突变等位基因频率VAF;根据这两组对应的VAF值逐次线性拟合。
作为优选的实施方式,所述S4包括:
S41,对于两个基因文件作为第一样本和第二样本,提取两个样本的数据,统计SNP的突变等位基因频率VAF,如果一样本存在某一SNP另一样本不存在,该样本中这一个SNP的VAF记为0;
S42,选定某一SNP,在两个样本中分别记录该SNP的VAF值为x、y,利用最小二乘法进行线性拟合,拟合后获得直线的斜率s和拟合方程的线性拟合度R2,当斜率s在[0.9,1.1]之间和R2>0.9,且同一个SNPs的VAF值在两个样本中的皮尔逊相关系数>0.9时,拟合成功,否则拟合失败;
本实施例中,采用最小二乘法作为线性回归解法,它通过最小化误差的平方和来寻找数据的最佳函数匹配。最小二乘法的目的是找到因变量x与自变量y之间的函数关系y= f(x);其中x,y表示同一个SNPs在两个样本中的VAF值;由这个函数关系可以确定一条直线,这就是拟合出来的直线;最小二乘法的目标函数是使误差的平方和最小。
S43,基于确定拟合失败后,定义某一样本中某一SNP的VAF为Fan,则另一样本中同一SNP对应的VAF为Fbn,两个样本对应SNPs的VAF的差值I = |Fan-Fbn|;同时给定初始阈值k;当I>k时,删除该SNP后,返回步骤S42;
S44,如果继续确定拟合失败,按照第一递减规律降低初始阈值k,继续步骤S43,直到第一次数阈值,则确定整体拟合失败后将统计量记录为0,并基于计算第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数确定所述测序样本不同源。
作为优选的实施方式,所述初始阈值k=0.5。
作为优选的实施方式,所述第一递减规律为按k=k-0.01的方法递减。
作为优选的实施方式,所述第一次数阈值的范围为3-5,优选为4次。
实施例二
参见图4,提供一种基于小样本SNPs线性拟合的测序样本同源性检测系统,包括:
样本获取模块101,用于获取多个基因文件,所述多个基因文件为VCF格式,所述多个基因文件对应多个样本;
过滤筛选模块102,用于根据预定过滤筛选条件分别对多个基因文件中的SNPs进行过滤筛选,获得过滤筛选后SNPs;
计算模块103,用于计算每个过滤筛选后SNPs的突变等位基因频率VAF;
线性拟合模块104,用于基于任意两个样本的突变等位基因频率进行线性拟合并计算第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数;
同源判定模块105,用于基于所述第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数确定所述测序样本是否同源。
该系统可实现上述实施例一提供的检测方法,具体的检测方法可参见实施例一中的描述,在此不再赘述。
本发明还提供了一种存储器,存储有多条指令,指令用于实现如实施例一的方法。
如图5所示,本发明还提供了一种电子设备,包括处理器301和与处理器301连接的存储器302,存储器302存储有多条指令,指令可被处理器加载并执行,以使处理器能够执行如实施例一的方法。
具体应用场景下的实施例和验证例:
利用168份样本(同源样本数据44对,非同源样本数据124对)进行测试。计算过滤步骤后,两个基因文件的C-index、SNPs比值、转换与颠换比的差值以及拟合步骤后的拟合方程的线性拟合度R2、拟合次数的倒数等参数值。
如图6a、6b所示,通过本发明的方法,可以准确判定数据样本来源于同一个人,或者从杂乱数据中筛选出来源于同一个人的不同样本数据。
其中图6a为样本同源拟合图,图6b为样本非同源拟合图。横坐标均表示样本一中突变的突变频率,纵坐标均表示样本二中突变的突变频率。P表示皮尔森系数。本实施例中,Pearson相关系数(Pearson Correlation Coefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性相关关系的系数。其定义为若(x,y)是一个随机二维变量,则Pearson相关系数为两个变量协方差除以两个变量标准差乘积。若Pearson相关系数=0,表明x与y之间无线性相关关系,不能说无相关关系。Pearson相关系数的绝对值越大,相关性越强:Pearson相关系数越接近于1或-1,相关度越强,Pearson相关系数越接近于0,相关度越弱。Pearson相关系数为0.8(不含)-1.0,表明极强相关,Pearson相关系数为0.6(不含)-0.8(含),表明强相关,Pearson相关系数为0.4(不含)-0.6(含),表明中等程度相关,Pearson相关系数为0.2(不含)-0.4(含),表明弱相关,Pearson相关系数为0.0-0.2(含),表明极弱相关或无相关。
x、y表示选定某一SNP在两个样本中的VAF值,对于样本同源拟合和样本非同源拟合,(x,y)是一个随机二维变量。R2表示拟合方程的线性拟合度。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.一种基于小样本SNPs线性拟合的测序样本同源性检测方法,其特征在于,包括:
S1,获取多个基因文件,所述多个基因文件为VCF格式,所述多个基因文件对应多个样本;
S2,根据预定过滤筛选条件分别对多个基因文件中的SNPs进行过滤筛选,获得过滤筛选后SNPs;
S3,计算每个过滤筛选后SNPs的突变等位基因频率;
S4,基于任意两个样本的突变等位基因频率进行线性拟合并计算第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数;
S5,基于所述第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数确定所述测序样本是否同源;
所述S2中所述预定过滤筛选条件包括:第一条件、第二条件、第三条件和第四条件中的一个或多个,其中所述第一条件为删除测序总深度小于10X的SNPs;所述第二条件为删除性染色体突变的SNPs;所述第三条件为保留杂合突变的SNPs;所述第四条件为保留支持reads数大于5条的SNPs;
所述S4中所述第一线性拟合参数为样本的C-index;所述第二线性拟合参数为拟合方程的斜率;第三线性拟合参数为逐次拟合的次数;
所述S5包括:基于所述样本的C-index值大于或等于0.7,拟合方程的斜率在[0.9,1.1]之间;若逐次拟合停止时总的拟合次数小于4次认为两个样本同源;若进行完第四次拟合后停止拟合,两个样本不是样本同源。
2.根据权利要求1所述的一种基于小样本SNPs线性拟合的测序样本同源性检测方法,其特征在于,还包括计算第四线性拟合参数,所述第四线性拟合参数为拟合方程的线性拟合度R2,所述S5包括:基于所述样本的C-index值大于或等于0.7,拟合方程的斜率在[0.9,1.1]之间;若逐次拟合停止时总的拟合次数小于4次以及所述拟合方程的线性拟合度R2>0.9,认为两个样本同源。
3.根据权利要求2所述的一种基于小样本SNPs线性拟合的测序样本同源性检测方法,其特征在于,还包括基于任意两个样本的突变等位基因频率进行线性拟合前,计算第一判断参数和第二判断参数,所述第一判断参数为未拟合样本的C-index,所述第二判断参数为任意两个样本转换与颠换比的差;若满足所述未拟合样本的C-index≥0.7就进行线性拟合,不满足所述未拟合样本的C-index≥0.7就不进行线性拟合;以及任意两个样本转换与颠换比的差在小于0.1就进行线性拟合,否则就不进行线性拟合。
4.根据权利要求3所述的一种基于小样本SNPs线性拟合的测序样本同源性检测方法,其特征在于,所述第一判断参数的计算步骤包括:
确定有用对子数,包括:若有n个观察个体,则所有的对子数应为组合数Cn 2,基于排除准则排除两类对子,其中所述排除准则排除所有的对子中观察时间不足导致的没有达到观察终点的对子以及所有的对子中两个个体都没达到观察终点的对子;从而获得剩余的为有用对子;计算所述有用对子的数量为有用对子数;
确定有用对子中,预测结果和实际观察到的结果相一致的对子数;其中所述预测结果和实际观察到的结果相一致表示对应个体的实际观察时间大于第一阈值,所述预测结果和实际观察到的结果不一致表示对应的观察个体的实际观察时间小于第一阈值;
计算样本的C-index,其中样本的C-index等于预测结果和实际观察到的结果相一致的对子数与有用对子数的商;
所述多个基因文件作为多个样本,所述第二判断参数的计算步骤包括:
分别计算多个样本的多个转换与颠换比;
计算任意两个转换与颠换比之间的差值作为第二判断参数。
5.一种基于小样本SNPs线性拟合的测序样本同源性检测系统,用于实施如权利要求1-4任一所述的检测方法,其特征在于,包括:
样本获取模块,用于获取多个基因文件,所述多个基因文件为VCF格式,所述多个基因文件对应多个样本;
过滤筛选模块,用于根据预定过滤筛选条件分别对多个基因文件中的SNPs进行过滤筛选,获得过滤筛选后SNPs;
计算模块,用于计算每个过滤筛选后SNPs的突变等位基因频率;
线性拟合模块,用于基于任意两个样本的突变等位基因频率进行线性拟合并计算第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数;
同源判定模块,用于基于所述第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数确定所述测序样本是否同源。
6.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如权利要求1-4任一所述的检测方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1-4任一所述的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211654485.7A CN115662507B (zh) | 2022-12-22 | 2022-12-22 | 一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211654485.7A CN115662507B (zh) | 2022-12-22 | 2022-12-22 | 一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115662507A CN115662507A (zh) | 2023-01-31 |
CN115662507B true CN115662507B (zh) | 2023-03-17 |
Family
ID=85022667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211654485.7A Active CN115662507B (zh) | 2022-12-22 | 2022-12-22 | 一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115662507B (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1316604A1 (en) * | 2001-12-03 | 2003-06-04 | Werner Prof. Dr. Geurtsen | Novel thymidylate synthase mutants |
CN110115248A (zh) * | 2018-02-07 | 2019-08-13 | 南京普恩瑞生物科技有限公司 | 一种生长抑素基因缺陷的免疫缺陷小鼠、其制备方法及其用途 |
US20220180975A1 (en) * | 2019-01-28 | 2022-06-09 | The Broad Institute, Inc. | Methods and systems for determining gene expression profiles and cell identities from multi-omic imaging data |
WO2020243368A1 (en) * | 2019-05-29 | 2020-12-03 | Monsanto Technology Llc | Methods and compositions for generating dominant alleles using genome editing |
CN211057117U (zh) * | 2019-06-18 | 2020-07-21 | 广州市汉威信息科技有限公司 | 一种用于癌症细胞基因突变研究的高通量基因测序装置 |
CN111161797B (zh) * | 2019-12-31 | 2023-06-06 | 北京百迈客生物科技有限公司 | 一种基于三代测序检测多样本量比较转录组分析方法 |
CN111154793B (zh) * | 2020-01-14 | 2024-04-09 | 北京林业大学 | 基于crispr技术对大肠杆菌基因进行定点突变的方法 |
CN112980834B (zh) * | 2021-04-22 | 2021-08-17 | 菁良基因科技(深圳)有限公司 | 一种同源重组修复缺陷参考品及其制备方法和试剂盒 |
CN113539362B (zh) * | 2021-08-11 | 2022-10-21 | 哈尔滨因极科技有限公司 | 一种突变候选基因的筛选方法 |
-
2022
- 2022-12-22 CN CN202211654485.7A patent/CN115662507B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115662507A (zh) | 2023-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111304303B (zh) | 微卫星不稳定的预测方法及其应用 | |
CN107229841B (zh) | 一种基因变异评估方法及系统 | |
CN113724791B (zh) | Cyp21a2基因ngs数据分析的方法、装置及应用 | |
CN108664766B (zh) | 拷贝数变异的分析方法、分析装置、设备及存储介质 | |
KR101828052B1 (ko) | 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치 | |
CN108913776B (zh) | 放化疗损伤相关的dna分子标记的筛选方法和试剂盒 | |
CN112634987B (zh) | 一种单样本肿瘤dna拷贝数变异检测的方法和装置 | |
CN110189796A (zh) | 一种绵羊全基因组重测序分析方法 | |
KR101936933B1 (ko) | 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스 | |
US20220093211A1 (en) | Detecting cross-contamination in sequencing data | |
AU2019269742A1 (en) | Inferring selection in white blood cell matched cell-free DNA variants and/or in RNA variants | |
CN107075565B (zh) | 个体单核苷酸多态性位点分型方法及装置 | |
CN115394357A (zh) | 用于判断样本配对或污染的位点组合及其筛选方法和应用 | |
CN117334249A (zh) | 基于扩增子测序数据检测拷贝数变异的方法、设备和介质 | |
WO2019046804A1 (en) | IDENTIFICATION OF FALSE POSITIVE VARIANTS USING A MODEL OF IMPORTANCE | |
CN112614129B (zh) | 一种基于时序稀疏回归及加性模型影像相关性检测方法 | |
CN115662507B (zh) | 一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统 | |
Yu et al. | Detecting natural selection by empirical comparison to random regions of the genome | |
CN113257353B (zh) | 基于reads深度进行目的基因外显子水平缺失检测的方法及装置 | |
CN114420214A (zh) | 核酸测序数据的质量评估方法和筛选方法 | |
CN115966259B (zh) | 一种基于逻辑回归建模的样本同源性检测校验方法及系统 | |
CN116209777A (zh) | 基于无创产前基因检测数据的亲缘关系判定方法和装置 | |
CN117711487B (zh) | 胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质 | |
WO2023181370A1 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
CN117198399B (zh) | 预测msi状态的微卫星位点、系统及试剂盒 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |