CN115966259A

CN115966259A - 一种基于逻辑回归建模的样本同源性检测校验方法及系统

Info

Publication number: CN115966259A
Application number: CN202211678658.9A
Authority: CN
Inventors: 朱燕萍; 谢剑邦; 郑晖; 林健; 曹野
Original assignee: Nanjing Puenrui Biotechnology Co ltd
Current assignee: Nanjing Puenrui Biotechnology Co ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-04-14
Anticipated expiration: 2042-12-26
Also published as: CN115966259B

Abstract

本发明公开了一种基于逻辑回归建模的样本同源性检测校验方法及系统，方法包括：获取两个VCF格式的基因文件；根据预定过滤筛选条件分别对两个基因文件中的SNPs进行过滤筛选，获得过滤筛选后的SNPs；计算两个样本的第一关联参数；计算两个基因文件的转换与颠换比和拟合前一致性指数；计算过滤筛选后的SNPs的突变频率；并基于满足第一条件确定对多个过滤筛选后的SNPs的突变频率进行线性拟合后确定多个计算参数，包括样本间突变稳定系数、拟合后一致性指数、拟合斜率、拟合方程的决定系数R²、拟合后皮尔森系数、拟合迭代数、组内相关系数及人群snp库占比；基于多个计算参数进行逻辑回归建模；基于逻辑回归建模预测样本是否同源。

Description

一种基于逻辑回归建模的样本同源性检测校验方法及系统

技术领域

本发明涉及测序样本检测技术领域，尤其涉及一种基于逻辑回归建模的样本同源性检测校验方法及系统。

背景技术

常见的下一代测序技术NGS(Next-generation sequencing technology)数据样本同源性检测方法有以下两种：

第一种检测方法是通过比较不同样本特定STR(short tandem repeat)的重复数判定样本同源性；根据特定STR的重复数判定两个样本的同源关系具体方法是：计算两个样本数据中多个STR串联重复的次数，重复次数相同表明两个样本来源于同一个个体。该方法存在以下几个缺点：成本高昂，效率欠佳。常见的商业试剂盒捕获区间不包含所有已知的稳定STR区域，计算STR重复数时不仅需要单独设计方案，增加设计成本；NGS测序数据的批次和质量问题，导致STR区域未检测到，导致结果出现偏差，影响判断；STR重复数计算分析独立于NGS分析标准流程，每次都需要单独分析，增加分析周期；NGS数据在连续重复区域和高GC(鸟嘌呤和胞嘧啶所占的比率)含量区域容易出现误差，存在于这些区域的STR，会导致结果不准。

第二种检测方法是通过计算不同样本特定SNPs(single nucleotidepolymorphisms，单核苷酸多态性)突变频率的相关性判定样本同源性。根据特定SNPs突变频率相关性判定两个样本的同源关系具体方法是：分别计算两个样本中特定SNPs的突变频率，再计算SNPs突变频率之间的相关性，相关性越强，表明样本之间的同源性越高。该方法存在以下几个缺点：使用的SNPs指定，测序的panel不一定全部覆盖这些SNPs，计算结果不准确；使用范围局限，仅在固定的panel上准确。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下技术方案，一种基于逻辑回归建模的样本同源性检测校验方法及系统，该方法只需要两个样本使用相同的测序方法或两个样本之间存在大量重叠SNPs，就可直接使用NGS标准分析流程产生的VCF(VariantCall Format)文件，根据不同文件自动获取动态SNPs信息，结合参数评估和逻辑回归建模就可以确定样本同源性分析结果。

本发明一方面提供了一种基于逻辑回归建模的样本同源性检测校验方法，其特征在于，包括：

S1，获取两个基因文件，所述两个基因文件为VCF格式；

S2，根据预定过滤筛选条件分别对两个基因文件中的SNPs进行过滤筛选，获得过滤筛选后的SNPs；

S3，基于过滤筛选后的SNPs计算两个基因文件对应样本的第一参数和第二参数，所述第一参数为转换与颠换比，所述第二参数为拟合前一致性指数primary c-index；

S4，计算过滤筛选后的SNPs的突变频率；并基于转换与颠换比和拟合前一致性指数primary c-index满足第一条件确定对多个过滤筛选后的SNPs的突变频率进行线性拟合，所述线性拟合后确定多个计算参数；所述多个计算参数包括第三参数、第四参数、第五参数、第六参数、第七参数、第八参数、第九参数以及第十参数；所述第三参数为样本间突变稳定系数Mut_c、所述第四参数为拟合后一致性指数fitting c-index，所述第五参数为拟合斜率fitting_slope，所述第六参数为拟合方程的决定系数R²，所述第七参数为拟合后皮尔森系数fitting_pearson，所述第八参数为拟合迭代数iterations，所述第九参数为组内相关系数fitting_ICC，所述第十参数为人群snp库占比common_snps_percentage；

S5，基于所述多个计算参数进行逻辑回归建模；

S6，基于逻辑回归建模预测所述样本是否同源。

优选的，所述S2中所述预定过滤筛选条件包括：第一条件、第二条件、第三条件和第四条件中的一个或多个，其中所述第一条件为删除测序总深度小于10X的SNPs；所述第二条件为删除性染色体突变的SNPs；所述第三条件为保留杂合突变的SNPs；所述第四条件为保留支持reads数大于4条的SNPs。

优选的，所述S3中所述转换与颠换比的计算步骤包括：

分别计算两个样本的两个转换与颠换比；

所述S3中所述拟合前一致性指数(primary c-index)的计算步骤包括：

确定有用对子数，包括：若有n个观察个体，则所有的对子数应为组合数C_n ²，基于排除准则排除两类对子，其中所述排除准则排除所有的对子中观察时间不足导致的没有达到观察终点的对子、以及所有的对子中两个个体都没达到观察终点的对子；从而获得剩余的有用对子；计算所述有用对子的数量为有用对子数；

确定有用对子中，预测结果和实际观察到的结果相一致的对子数；其中所述预测结果和实际观察到的结果相一致表示对应个体的实际观察时间大于第一阈值，所述预测结果和实际观察到的结果不一致表示对应的观察个体的实际观察时间小于第一阈值；

计算所述拟合前一致性指数等于预测结果和实际观察到的结果相一致的对子数与有用对子数的商。

优选的，所述基于转换与颠换比和拟合前一致性指数(primary c-index)满足第一条件确定对多个过滤筛选后的SNPs的突变频率进行线性拟合包括：若满足所述转换与颠换比值差的绝对值小于0.1则进行线性拟合，否则不进行线性拟合；以及满足所述拟合前一致性指数primary c-index≥0.7则进行线性拟合，否则不进行线性拟合。

所述对多个过滤筛选后的SNPs的突变频率进行线性拟合包括：

S41，对于两个基因文件作为第一样本和第二样本，提取两个样本的数据并统计SNPs的突变频率，如果一样本存在某一SNP，而在另一样本不存在某一SNP，则所述某一SNP的突变频率记为0；

S42，选定某一SNP，在两个样本中分别记录该SNP的突变频率为x、y，利用最小二乘法进行线性拟合，拟合后获得所述拟合斜率fitting_slope、拟合方程的决定系数R²以及拟合后皮尔森系数fitting_pearson；当拟合斜率fitting_slope在[0.9,1.1]之间、拟合方程的决定系数R²>0.9，且同一个SNPs的突变频率在两个样本中的拟合后皮尔森系数fitting_pearson>0.9时，拟合成功，否则拟合失败；

S43，若确定拟合成功后，输出此时的SNPs，计算样本间突变稳定系数Mut_c、拟合后一致性指数fitting c-index、组内相关系数fitting_ICC、拟合迭代数iterations以及人群snp库占比common_snps_percentage；

S44，若确定拟合失败后，定义某一样本中某一SNP的突变频率为Fa_n，则另一样本中同一SNP对应的突变频率为Fb_n，两个样本对应SNPs的突变频率的差值I＝|Fa_n-Fb_n|；同时给定初始阈值k；当I＞k时，删除该SNP后，返回步骤S42和S43；

S45，如果继续确定拟合失败，按照第一递减规律降低阈值k，继续步骤S44，直到第一次数阈值，则确定整体拟合失败后将统计量记录为0，并确定所述测序样本不同源。

优选的，所述初始阈值k＝0.5；所述第一递减规律为按k＝k-0.01的方法递减；所述第一次数阈值的范围为30-50。

优选的，所述S43中计算所述人群snp库占比common_snps_percentage包括：计算拟合SNPs中拟合SNPs在人群SNPs库中的占比common_snps_percentage；其中所述人群SNPs库的构建的具体步骤包括：

获取gnomAD数据，包括分别下载基因组库和外显子组库中的数据；

基于gnomAD数据形成基因文件；

基于第一数据过滤标准和第二数据过滤标准过滤基因组库对应的基因文件中的SNPs位点获得第一结果文件；

基于第一数据过滤标准和第二数据过滤标准过滤外显子组库对应的基因文件中的SNPs位点获得第二结果文件；

获取第一结果文件和第二结果文件的交集作为所述人群SNPs库；

其中，所述第一数据过滤标准为所有人群频率ref≥0.01；所述第二数据过滤标准为东亚人群频率AF_eas≥0.01。

优选的，所述S5，基于所述多个计算参数进行逻辑回归建模包括：基于样本间突变稳定系数Mut_c、拟合后一致性指数fitting c-index，拟合斜率fitting_slope、拟合方程的决定系数R²、拟合后皮尔森系数fitting_pearson、拟合迭代数iterations、组内相关系数fitting_ICC以及人群snp库占比common_snps_percentage进行逻辑回归建模，增加差异参数的权重，包括：

S51，基于样本间突变稳定系数Mut_c、拟合斜率fitting_slope、拟合方程的决定系数R²、拟合后皮尔森系数fitting_pearson、拟合迭代数iterations、组内相关系数fitting_ICC以及人群snp库占比common_snps_percentage将两个样本按第一比例分成建模数据集和独立样本集；将建模数据集随机取样N次，并按第二比例分成训练样本和测试样本；所述测试样本构成测试集；

S52，基于逻辑回归建模M次后获得逻辑回归模型，利用逻辑回归模型预测对应的所述测试集和独立样本集获得所述测试集和独立样本集的预测值；

S53，第一轮模型筛选，包括将测试集和独立样本集的预测值与真实值比较后，基于比较结果计算拟合后一致性指数fitting c-index和准确率；基于拟合后一致性指数fitting c-index和准确率进行第一轮模型筛选；

S54，第二轮模型筛选，包括将第一轮筛选后的模型的预测值进行聚类分析，筛选样本同源组预测值聚类在0.9附近，并且样本非同源组预测值聚类在0.1附近的模型；

S55，第三轮模型筛选，包括统计第二轮模型筛选后每一个模型的非零系数，并基于模型非零系数覆盖所有系数以及模型的训练集覆盖所有训练样本筛选出多组模型；

S56，将第三轮模型筛选获得的多组模型合并作为最终模型，所述最终模型用于样本同源性检测。

本发明的第二方面，提供一种基于逻辑回归建模的样本同源性检测系统，包括：

基因获取模块，用于获取两个基因文件；

过滤筛选模，用于根据预定过滤筛选条件分别对两个基因文件中的SNPs进行过滤筛选，获得过滤筛选后的SNPs；

关联参数模块，用于基于过滤筛选后的SNPs计算两个基因文件对应样本的第一参数和第二参数，所述第一参数为转换与颠换比，所述第二参数为拟合前一致性指数primaryc-index；

线性拟合模块，用于计算过滤筛选后的SNPs的突变频率；并基于转换与颠换比和拟合前一致性指数primary c-index满足第一条件确定对多个过滤筛选后的SNPs的突变频率进行线性拟合，所述线性拟合后确定多个计算参数；所述多个计算参数包括第三参数、第四参数、第五参数、第六参数、第七参数、第八参数、第九参数以及第十参数；所述第三参数为样本间突变稳定系数Mut_c、所述第四参数为拟合后一致性指数fitting c-index，所述第五参数为拟合斜率fitting_slope，所述第六参数为拟合方程的决定系数R²，所述第七参数为拟合后皮尔森系数fitting_pearson，所述第八参数为拟合迭代数iterations，所述第九参数为组内相关系数fitting_ICC，所述第十参数为人群snp库占比common_snps_percentage；

逻辑回归建模模块，用于基于所述多个计算参数进行逻辑回归建模；

同源判定模块，用于基于逻辑回归建模预测所述样本是否同源。

本发明的第三方面提供一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如第一方面所述的方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述多条指令可被处理器读取并执行如第一方面所述的方法。

本发明提供的基于逻辑回归建模的样本同源性检测方法及系统，具有如下有益效果：

只需要两个样本使用相同的测序方法或两个样本之间存在大量重叠SNPs，就可直接使用NGS标准分析流程产生的VCF文件，根据不同文件自动获取动态SNPs，结合参数评估和逻辑回归建模进行样本同源性分析。其中逻辑回归建模增加差异参数的权重，减少模型偏袒，检测成本降低，缩短了分析周期，效率大大提高，降低了NGS数据的统计误差，判断结果精准，适用范围广，不局限在特定panel，可以更容易的应用于商业试剂盒。

附图说明

图1为本发明所述的基于逻辑回归建模的样本同源性检测方法流程示意图。

图2为本发明提供的两个样本基于逻辑回归建模的样本同源性检测方法的数据流图。

图3为本发明提供的基于逻辑回归建模的样本同源性检测系统架构图。

图4为本发明提供的电子设备一种实施例的结构示意图。

具体实施方式

为了更好地理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

实施例一

参照图1，本发明一方面提供了一种基于逻辑回归建模的样本同源性检测方法，包括：

S1，获取两个基因文件，所述两个基因文件为VCF格式；VCF是用于描述SNP(单个碱基上的变异)、INDEL(插入缺失标记)和SV(结构变异位点)结果的文本文件。在GATK软件中得到最好的支持，通过SAMtools也可以得到VCF格式的文件；VCF文件分为两部分内容，以“#”开头的注释部分和没有“#”开头的主体部分；主体部分中每一行代表一个Variant的信息；其中Variant的信息包括CHROM(表示变异位点在哪个contig里被call获得，如果是人类全基因组则对应chr1，…chr22)、POS(变异位点相对于参考基因组所在的位置，如果是indel，就是第一个碱基所在的位置)、ID(variant的ID，如果call出来的SNP存在于dbSNP数据库中，就会显示相应的dbSNP里的rs编号；如果没有，则用“，”表示其为一个novelvariant)、REF和ALT[在这个变异位点处，参考基因组中所对应的碱基和研究对象基因组(Variant)中所对应的碱基]、QUAL[Phred格式(Phred_scaled)的质量值，可以理解为所call出来的变异位点的质量值，表示在该位点存在variant的可能性，该值越高，则variant的可能性越大]、FILTER(使用上一个QUAL值来进行过滤的话不足够，理想情况下，QUAL值应该是用所有的错误模型计算，采用该值可以代表正确的变异位点，实际情况是需要对原始变异位点进一步的过滤，在FILTER一栏留下过滤记录，如果通过过滤标准，那么通过标准的好的变异位点的FILTER一栏会注释一个PASS，如果没有通过过滤，就会在FILTER一栏显示除了PASS之外的其他信息，如果概览是一个“.”，则表明没有进行过任何过滤)、INFO(表示variant的详细信息)。

本实施例中以两个基因文件为例，分别为如图2所示的基因文件1和基因文件2，本领域技术人员应当理解，基因文件的数量可以更多，但是需要同时遵循本发明的需要进行逻辑回归建模要求的情况下，以同时检验不多于四个基因文件同源性为最适宜的选择。

S2，根据预定过滤筛选条件分别对多个基因文件中的SNPs进行过滤筛选，获得过滤筛选后的SNPs。

本实施例中，每个筛选结果最初均以向量表示，并且将向量表示的最初筛选结果经过筛除低频假点的预处理后获得最终的多个筛选结果。

本实施例中，单核苷酸多态性(SNPs)是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多样性，作为遗传标记，具有已知性、可遗传性、可检测性，由于基因多态与疾病的相关性，可以用于疾病基因的定位、克隆和鉴定以及SNPs本身对机体的影响，这里着重用于样本同源性检测。

作为优选的实施方式，所述预定过滤筛选条件包括：第一条件、第二条件、第三条件和第四条件中的一个或多个，其中所述第一条件为删除测序总深度小于10X的SNPs；所述第二条件为删除性染色体上的SNPs；所述第三条件为保留杂合突变的SNPs；所述第四条件为保留支持reads数大于4条的SNPs。

S3，基于过滤筛选后的SNPs计算两个基因文件对应样本的第一参数和第二参数，所述第一参数为转换与颠换比，所述第二参数为拟合前一致性指数primary c-index。

第一参数为转换与颠换比的计算步骤包括：

分别计算两个样本的两个转换与颠换比；

核苷酸的碱基按照环结构特征被划分为两类，一类是嘌呤，包括腺嘌呤A和鸟嘌呤G(两个环)；另一类是嘧啶，包括胞嘧啶C和胸腺嘧啶T(一个环)。如果DNA碱基的替换保持环数不变，则称为转换，比如腺嘌呤A替换为鸟嘌呤G、或者胞嘧啶C替换为胸腺嘧啶T，即嘌呤替换嘌呤，嘧啶替换嘧啶；如果环数发生变化，则称为颠换，比如腺嘌呤A替换为胞嘧啶C、或者胸腺嘧啶T替换为鸟嘌呤G，即嘌呤替换嘧啶，或者嘧啶替换嘌呤。转换不改变碱基的种类，颠换会改变。在进化过程中，转换发生的频率远比颠换高。在基因组中，转换与颠换频率的比值约为2。在蛋白编码区，这个比值可以超过3，因为相对于颠换，转换不容易改变密码子编码的氨基酸；因此本发明采用转换与颠换频率的比值鉴定蛋白编码区后进行同源测定。

本实施例中，在基因文件vcf中，统计所有突变类型，分别计算碱基转换和替换，其中ti表示转换，tv表示颠换。

第二参数为样本的拟合前一致性指数primary c-index。

第二参数C-index(concordance index，一致性指数)本质上是估计了预测结果与实际观察到的结果相一致的概率。其中第二参数拟合前一致性指数primary c-index在0.5-1之间(任意配对随机情况下一致与不一致的概率正好是0.5)。0.5表示预测结果与实际观察到的结果完全不一致，从而说明模型对于同源性没有预测作用，1表示预测结果与实际观察到的结果完全一致，从而说明模型对于同源性的预测结果与实际完全一致。

本实施例中，参考一般情况下，拟合前一致性指数primary c-index在0.50-0.70为准确度较低：在0.71-0.90之间为准确度中等；而高于0.90则为高准确度。

所述第二参数拟合前一致性指数primary c-index的计算步骤包括：

确定有用对子数，包括：若有n个观察个体，则所有的对子数应为C_n ²(组合数)，基于排除准则排除两类对子，其中所述排除准则排除所有的对子中观察时间不足导致的没有达到观察终点的对子以及所有的对子中两个个体都没达到观察终点的对子；从而获得剩余的为有用对子；计算所述有用对子的数量为有用对子数；

拟合前一致性指数primary c-index＝预测结果和实际观察到的结果相一致的对子数/有用对子数。

S4，计算过滤筛选后的SNPs的突变频率；并基于转换与颠换比和拟合前一致性指数primary c-index满足第一条件确定对多个过滤筛选后的SNPs的突变频率进行线性拟合，所述线性拟合后确定多个计算参数；所述多个计算参数包括第三参数、第四参数、第五参数、第六参数、第七参数、第八参数、第九参数以及第十参数；所述第三参数为样本间突变稳定系数Mut_c、所述第四参数为拟合后一致性指数fitting c-index，所述第五参数为拟合斜率fitting_slope，所述第六参数为拟合方程的决定系数R²，所述第七参数为拟合后皮尔森系数fitting_pearson，所述第八参数为拟合迭代数iterations，所述第九参数为组内相关系数fitting_ICC，所述第十参数为人群snp库占比common_snps_percentage。

计算过滤筛选后的SNPs的突变频率(Variant allele frequency，VAF)，即等位基因中突变基因所占比例；并对多个过滤筛选后的SNPs的突变频率进行线性拟合。本实施例中，两个样本过滤后，得到成对SNPs的VAF(Varient Allele Frequency，突变频率)；根据这两组对应的VAF值逐次线性拟合。

作为优选的实施方式，所述S4基于转换与颠换比和拟合前一致性指数primary c-index满足第一条件确定对多个过滤筛选后的SNPs的突变频率进行线性拟合包括：若满足所述转换与颠换比小于0.1则进行线性拟合，否则不进行线性拟合；以及满足所述拟合前一致性指数primary c-index≥0.7则进行线性拟合，否则不进行线性拟合。

所述对多个过滤筛选后的SNPs的突变频率进行线性拟合包括：

S41，对于两个基因文件作为第一样本和第二样本，提取两个样本的数据，统计SNP的突变频率VAF，如果一样本存在某一SNP，另一样本不存在某一SNP，则某一SNP的突变频率VAF记为0；

S42，选定某一SNP，在两个样本中分别记录该SNP的突变频率为x、y，利用最小二乘法进行线性拟合，拟合后获得所述拟合斜率fitting_slope、拟合方程的决定系数R²以及拟合后皮尔森系数fitting_pearson；当拟合斜率fitting_slope在[0.9,1.1]之间、拟合方程的决定系数R²>0.9，且同一个SNPs的突变频率在两个样本中的拟合后皮尔森系数fitting_pearson>0.9时，拟合成功，否则拟合失败。

本实施例中，采用最小二乘法作为线性回归解法，它通过最小化误差的平方和来寻找数据的最佳函数匹配。最小二乘法的目的是找到因变量x与自变量y之间的函数关系y＝f(x)；其中x，y表示同一个SNPs在两个样本中的突变频率VAF值；由这个函数关系可以确定一条直线，这就是拟合出来的直线；最小二乘法的目标函数是使误差的平方和最小。

本实施例中，Pearson相关系数(Pearson Correlation Coefficient)是用来衡量两个数据集合是否在一条线上面，它用来衡量定距变量间的线性相关关系的系数。其定义为若(x,y)是一个随机二维变量，则Pearson相关系数为两个变量协方差除以两个变量标准差乘积。

若Pearson相关系数＝0，表明x与y之间无线性相关关系，不能说无相关关系。Pearson相关系数的绝对值越大，相关性越强：Pearson相关系数越接近于1或-1，相关度越强，Pearson相关系数越接近于0，相关度越弱。Pearson相关系数为0.8(不含)-1.0，表明极强相关，Pearson相关系数为0.6(不含)-0.8(含)，表明强相关，Pearson相关系数为0.4(不含)-0.6(含)，表明中等程度相关，Pearson相关系数为0.2(不含)-0.4(含)，表明弱相关，Pearson相关系数为0.0-0.2(含)，表明极弱相关或无相关。

S43，若确定拟合成功后，输出此时的SNPs，计算样本间突变稳定系数Mut_c、拟合后一致性指数fitting c-index、组内相关系数fitting_ICC、拟合迭代数iterations以及人群snp库占比common_snps_percentage。

样本间突变稳定系数Mut_c，计算该参数的目的适用于衡量样本间突变差异情况，样本间突变稳定系数Mut_c使用(0,1)之间的系数表述。样本间突变稳定系数Mut_c计算方式如下：

Mut_c＝-1/lg|Diff_iv|；

其中，Diff_iv为两个样本的转换与颠换比之差。

ICC值全称为intraclass correlation coefficient，即组内相关系数。它是衡量和评价观察者间信度(inter-observer reliability)和复测信度(test-retestreliability)的信度系数(reliability coefficient)指标之一。ICC值等于个体的变异度除以总的变异度，故其值介于0～1之间。0表示不可信，1表示完全可信。一般认为信度系数低于0.4表示信度较差，大于0.75表示信度良好，对于定量资料常常需要更高的ICC值。

S44，若确定拟合失败后，定义某一样本中某一SNP的突变频率VAF为Fa_n，则另一样本中同一SNP对应的突变频率VAF为Fb_n，两个样本对应SNPs的突变频率VAF的差值I＝|Fa_n-Fb_n|；同时给定初始阈值k；当I＞k时，删除该SNP后，返回步骤S42和S43。

S45，如果继续确定拟合失败，按照第一递减规律降低初始阈值k，继续步骤S44，直到第一次数阈值，则确定整体拟合失败后将统计量记录为0，并确定所述测序样本不同源。

作为优选的实施方式，所述初始阈值k＝0.5。

作为优选的实施方式，所述第一递减规律为按k＝k-0.01的方法递减。

作为优选的实施方式，所述第一次数阈值的范围为30-50，优选为40次。

作为优选的实施方式，所述S43中计算所述人群snp库占比common_snps_percentage包括：计算拟合SNPs中拟合SNPs在人群SNPs库中的占比common_snps_percentage。

本实施例中，所述人群SNPs库的构建参考基因组聚合数据库(GenomeAggregation Database,gnomAD)的数据；其中gnomAD是一个从各种大规模测序项目中收集和协调外显子组和基因组测序数据的数据库。

所述人群SNPs库的构建的具体步骤包括：

获取gnomAD数据。从gnomAD官网http://www.gnomad-sg.org/分别下载基因组库和外显子组库中的数据(v2.1.1，基于GRCh37)；

基于gnomAD数据形成基因文件；

基于第一数据过滤标准和第二数据过滤标准分别过滤基因组库对应的基因文件中的SNPs位点获得第一结果文件；

获取第一结果文件和第二结果文件的交集作为所述人群SNPs库，其中，所述第一数据过滤标准为ref(所有人群频率)≥0.01；所述第二数据过滤标准为AF_eas(东亚人群频率)≥0.01。

S5，基于所述多个计算参数进行逻辑回归建模。

本实施例中，S5包括：基于所述多个计算参数进行逻辑回归建模包括：基于样本间突变稳定系数Mut_c、拟合后一致性指数fitting c-index、拟合斜率fitting_slope、拟合方程的决定系数R²、拟合后皮尔森系数fitting_pearson、拟合迭代数iterations、组内相关系数fitting_ICC以及人群snp库占比common_snps_percentage进行逻辑回归建模，增加差异参数的权重，包括：

S51，基于样本间突变稳定系数Mut_c、拟合斜率fitting_slope、拟合方程的决定系数R²、拟合后皮尔森系数fitting_pearson、拟合迭代数iterations、组内相关系数fitting_ICC以及人群snp库占比common_snps_percentage将两个样本按第一比例分成建模数据集和独立样本集；将建模数据集随机取样N次，并按第二比例分成训练样本和测试样本，测试样本构成测试集。本实施例中，所述第一比例为8：2；所述N次为随机取样10万次；所述第二比例为7:3；

S52，基于逻辑回归建模M次后获得逻辑回归模型，利用逻辑回归模型预测对应的所述测试集和独立样本集获得所述测试集和独立样本集的预测值。本实施例中，M次为10万次；

S53，第一轮模型筛选，包括将测试集和独立样本集的预测值与真实值比较后，基于比较结果计算拟合后一致性指数fitting c-index和准确率；基于拟合后一致性指数fitting c-index和准确率进行第一轮模型筛选。模型和曲线下方面积AUC(Area UnderCurve)，本实施例中AUC被定义为ROC曲线下方与坐标轴围成的面积，显然该面积不大于1，而且由于ROC曲线一直都处于y＝x这条直线上方，因此取值范围在0.5和1之间，AUC越接近1，检测方法真实性越高，AUC等于0.5时，真实性最低，无应用价值；ROC曲线全称为受试者工作特征曲线(receiver operating characteristic curve)，是根据一系列不同的二分类方式(分界值或决定阈)，以真阳性率(敏感性)为纵坐标，假阳性率(1-特异性)为横坐标绘制的曲线。AUC通过对ROC曲线下各部分的面积求和而得。

S55，第三轮模型筛选，包括统计第二轮模型筛选后每一个模型的非零系数，并基于模型非零系数可以覆盖所有系数以及模型的训练集可以覆盖所有训练样本筛选出多组模型；将第二轮模型筛选后每一个模型按非零系数进行分类，从中筛选可以覆盖超过50％样本点且同时覆盖所有训练样本集的模型作为第三轮模型筛选结果，减少模型的偏袒；

S56，将第三轮模型筛选获得的多组模型合并作为最终模型，所述最终模型用于S6中样本同源性检测。

逻辑回归(LogisticRegression)是一种为了解决二分类问题提出的算法，该算法在假设数据服从伯努利分布的基础上，给定条件概率分布，并用极大似然估计求解最优参数。

假设存在反应变量y_k和自变量x_k之间存在一种线性关系，即：

y_k*＝α+βx_k+ε_k；α和β分别为两个常数系数；

不妨设存在一个临界点；

当y_k*>0,则y_k＝1；

当y_k*<0,则y_k＝0；

即：

其中，F(·)为误差项ε_k的累积分布函数，假设误差项ε_k服从Logistic分布或标准正态分布。当ε_k服从Logistic分布，就得到Logistic回归模型，当ε_k服从标准正态分布，就得到Probit模型。在Logistic回归模型中，选择这样一个方差能使累积分布函数得到一个较为简单的公式。

从而Logistic回归模型为：

经过对数变换，上述模型可变为：

其中，p_k为第k个案例发生事件的概率，它是由一个解释变量x_k构成的非线性函数。当存在M个自变量的二分类因变量Logi st ic回归模型为：

经过对数变换，上述模型可变为：

其中，k＝1,2,···,K；m＝1,2,···,M；

模型估计完成后，需要评价模型是否有效地描述反应变量及模型匹配观测数据的程度。当模型的预测值能够与对应的观测值有较高的一致性，就认为这一模型拟合数据，否则将不能接受这一模型，需要对模型重新设置。

为设定模型所估计的最大似然值，它概括了样本数据由这一模型所拟合的程度。

是饱和模型的最大似然值，在同一套数据中必须有一个基准模型作为比较所设模型拟合优度的标准就是饱和模型。

称为似然比，记为L..R。用-2乘以似然比的自然对数形成一个统计量，当样本足够大时，它服从χ²分布，其自由度等于所设模型中协变类型个数减去系数个数所得之差。称作偏差，通常用D来表示：

当

值相对于

值较小时，就会有较大的D值，此时所设模型很差，相反当

值近似于

值时，D值就会很小，此时所设模型拟合很好。

实施例二

参见图3，提供一种基于逻辑回归建模的样本同源性检测系统，包括：基因获取模块101，用于获取两个基因文件，所述两个基因文件为VCF格式；过滤筛选模块102，用于根据预定过滤筛选条件分别对两个基因文件中的SNPs进行过滤筛选，获得过滤筛选后的SNPs；关联参数模块103，用于基于过滤筛选后的SNPs计算两个基因文件对应样本的第一参数和第二参数，所述第一参数为转换与颠换比，所述第二参数为拟合前一致性指数primary c-index；线性拟合模块104，用于计算过滤筛选后的SNPs的突变频率；并基于转换与颠换比和拟合前一致性指数primary c-index满足第一条件确定对多个过滤筛选后的SNPs的突变频率进行线性拟合，所述线性拟合后确定多个计算参数；所述多个计算参数包括第三参数、第四参数、第五参数、第六参数、第七参数、第八参数、第九参数以及第十参数；所述第三参数为样本间突变稳定系数Mut_c、所述第四参数为拟合后一致性指数fitting c-index，所述第五参数为拟合斜率fitting_slope，所述第六参数为拟合方程的决定系数R²，所述第七参数为拟合后皮尔森系数fitting_pearson，所述第八参数为拟合迭代数iterations，所述第九参数为组内相关系数fitting_ICC，所述第十参数为人群snp库占比common_snps_percentage；逻辑回归建模模块105，用于基于所述多个计算参数进行逻辑回归建模；同源判定模块106，用于基于逻辑回归建模预测所述测序样本是否同源。

该系统可实现上述实施例一提供的检测方法，具体的检测方法可参见实施例一中的描述，在此不再赘述。

本发明还提供了一种存储器，存储有多条指令，指令用于实现如实施例一的方法。

如图4所示，本发明还提供了一种电子设备，包括处理器301和与处理器301连接的存储器302，存储器302存储有多条指令，指令可被处理器加载并执行，以使处理器能够执行如实施例一的方法。

具体应用场景下的实施例和验证例：

如表1和表2所示，利用291份样本(同源样本数据88对，如表1所示，非同源样本数据203对，如表2所示)进行测试。包括：计算两个基因文件的转换与颠换比和拟合前一致性指数primary c-index；进行线性拟合后确定多个计算参数，包括样本间突变稳定系数Mut_c、拟合后一致性指数fitting c-index、拟合斜率fitting_slope、拟合方程的决定系数R²、拟合后皮尔森系数fitting_pearson、拟合迭代数iterations、组内相关系数fitting_ICC及人群snp库占比common_snps_percentage等参数值。

表1样本同源组

表2样本非同源组

使用本发明所述方法分别对同源样本和不同源样本分别进行统计获得表3和表4。

表3同源样本统计表

同源组总数	预测同源组数	预测不确定组数	预测非同源组数
				88	88	0	0

表4不同源样本统计表

非同源组总数	预测同源组数	预测不确定组数	预测非同源组数
				203	0	0	203

通过表3和表4的计算，该方法在本次同源组检测中准确率达到100％，在本次非同同源组中准确率达到100％。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于逻辑回归建模的样本同源性检测校验方法，其特征在于，包括：

S1，获取两个基因文件，所述两个基因文件为VCF格式；

S5，基于所述多个计算参数进行逻辑回归建模；

S6，基于逻辑回归建模预测样本是否同源。

2.根据权利要求1所述的一种基于逻辑回归建模的样本同源性检测校验方法，其特征在于，所述S2中所述预定过滤筛选条件包括：第一条件、第二条件、第三条件和第四条件中的一个或多个，其中所述第一条件为删除测序总深度小于10X的SNPs；所述第二条件为删除性染色体突变的SNPs；所述第三条件为保留杂合突变的SNPs；所述第四条件为保留支持reads数大于4条的SNPs。

3.根据权利要求1所述的一种基于逻辑回归建模的样本同源性检测校验方法，其特征在于，所述S3中所述第一参数为转换与颠换比的计算步骤包括：

分别计算两个样本的两个转换与颠换比；

所述S3中所述拟合前一致性指数primary c-index的计算步骤包括：

4.根据权利要求1所述的一种基于逻辑回归建模的样本同源性检测校验方法，其特征在于，所述基于转换与颠换比和拟合前一致性指数primary c-index满足第一条件确定对多个过滤筛选后的SNPs的突变频率进行线性拟合包括：若满足所述的绝对值小于0.1则进行线性拟合，否则不进行线性拟合；以及满足所述拟合前一致性指数primary c-index≥0.7则进行线性拟合，否则不进行线性拟合；

所述对多个过滤筛选后的SNPs的突变频率进行线性拟合包括：

5.根据权利要求4所述的一种基于逻辑回归建模的样本同源性检测校验方法，其特征在于，所述初始阈值k＝0.5；所述第一递减规律为按k＝k-0.01的方法递减；所述第一次数阈值的范围为30-50。

6.根据权利要求5所述的一种基于逻辑回归建模的样本同源性检测校验方法，其特征在于，所述S43中计算所述人群snp库占比common_snps_percentage包括：计算拟合SNPs中拟合SNPs在人群SNPs库中的占比common_snps_percentage；其中所述人群SNPs库的构建的具体步骤包括：

基于gnomAD数据形成基因文件；

7.根据权利要求6所述的一种基于逻辑回归建模的样本同源性检测校验方法，其特征在于，所述S5，基于所述多个计算参数进行逻辑回归建模包括：基于样本间突变稳定系数Mut_c、拟合后一致性指数fitting c-index、拟合斜率fitting_slope、拟合方程的决定系数R²、拟合后皮尔森系数fitting_pearson、拟合迭代数iterations、组内相关系数fitting_ICC以及人群snp库占比common_snps_percentage进行逻辑回归建模，增加差异参数的权重，包括：

S53，第一轮模型筛选，包括将测试集和独立样本集的预测值与真实值比较后，基于比较结果计算拟合后一致性指数fitting c-index和准确率；基于拟合后一致性指数fittingc-index和准确率进行第一轮模型筛选；

8.一种基于逻辑回归建模的样本同源性检测校验系统，用于实施如权利要求1-7任一所述的检测校验方法，其特征在于，包括：

基因获取模块(101)，用于获取两个基因文件，所述两个基因文件为VCF格式；

过滤筛选模块(102)，用于根据预定过滤筛选条件分别对两个基因文件中的SNPs进行过滤筛选，获得过滤筛选后的SNPs；

关联参数模块(103)，用于基于过滤筛选后的SNPs计算两个基因文件对应样本的第一参数和第二参数，所述第一参数为转换与颠换比，所述第二参数为拟合前一致性指数primary c-index；

线性拟合模块(104)，用于计算过滤筛选后的SNPs的突变频率；并基于转换与颠换比和拟合前一致性指数primary c-index满足第一条件确定对多个过滤筛选后的SNPs的突变频率进行线性拟合，所述线性拟合后确定多个计算参数；所述多个计算参数包括第三参数、第四参数、第五参数、第六参数、第七参数、第八参数、第九参数以及第十参数；所述第三参数为样本间突变稳定系数Mut_c、所述第四参数为拟合后一致性指数fitting c-index，所述第五参数为拟合斜率fitting_slope，所述第六参数为拟合方程的决定系数R²，所述第七参数为拟合后皮尔森系数fitting_pearson，所述第八参数为拟合迭代数iterations，所述第九参数为组内相关系数fitting_ICC，所述第十参数为人群snp库占比common_snps_percentage；

逻辑回归建模模块(105)，用于基于所述多个计算参数进行逻辑回归建模；

同源判定模块(106)，用于基于逻辑回归建模预测所述样本是否同源。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如权利要求1-7任一所述的检测校验方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述多条指令可被处理器读取并执行如权利要求1-7任一所述的检测校验方法。