CN111863135A - 一种假阳性结构变异过滤方法、存储介质及计算设备 - Google Patents

一种假阳性结构变异过滤方法、存储介质及计算设备 Download PDF

Info

Publication number
CN111863135A
CN111863135A CN202010681632.4A CN202010681632A CN111863135A CN 111863135 A CN111863135 A CN 111863135A CN 202010681632 A CN202010681632 A CN 202010681632A CN 111863135 A CN111863135 A CN 111863135A
Authority
CN
China
Prior art keywords
purity
data
feature
structural variation
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010681632.4A
Other languages
English (en)
Other versions
CN111863135B (zh
Inventor
王嘉寅
郑田
张选平
崔佳
刘涛
朱晓燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010681632.4A priority Critical patent/CN111863135B/zh
Priority to PCT/CN2020/120315 priority patent/WO2022011855A1/zh
Publication of CN111863135A publication Critical patent/CN111863135A/zh
Application granted granted Critical
Publication of CN111863135B publication Critical patent/CN111863135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种假阳性结构变异过滤方法、存储介质及计算设备,首先获取结构变异候选集,然后特征提取,将不同纯度特征数据迁移,进行极端决策树模型分类,对分类结果预测,实现假阳性结构变异过滤。本发明从结构变异检测结果文件中提取初始特征,结合迁移成分分析方法和极端决策树模型能够使用相同的模型很好的适应不同程度被稀释测序信号的结构变异检测样本,并且过滤的准确度更高且稳定。

Description

一种假阳性结构变异过滤方法、存储介质及计算设备
技术领域
本发明属于数据科学技术领域,具体涉及一种考虑被稀释测序信号的假阳性结构变异过滤方法、存储介质及计算设备。
背景技术
基因组结构变异(英文名称:Structural Variations,英文缩写:SV)指基因结构发生的改变,是一类复杂的直接致癌的染色体变异,是外界自然环境和内在生物体内代谢共同影响下的结果,正常组织细胞中出现肿瘤正是由于其组织特性在基因组中变异的累加造成的。近年来,下一代测序技术(英文名称:Next GenerationSequencing,英文缩写:NGS)的发展使得人们可以更快速地去分析基因,从碱基水平上识别基因中不同类型的结构变异进而追溯疾病产生的原因成为可能。基因结构变异的识别通过将个体基因测序结果与参考序列进行比较、分析得到,目前已有的结构变异检测方法和软件可以准确地检测不同类型的结构变异以及确定变异大小、位置等信息。精确地鉴定结构变异不仅可以加速人类对遗传机制的研究,同时对揭示复杂疾病机理也具有非常重要的作用。
成熟的变异检测方法有很多,基本上都是基于变量的特征进行检测和假阳性过滤。然而,我们发现两个原因可能导致测序信号的稀释和特征的耦合效应,即:1)肿瘤纯度,2)克隆结构和克隆比例。稀释测序信号会导致低频变异检测失败,检测方法因此降低了滤波阈值;然而,它引入了大量的误报。使用样本纯度,即待测目标物体在总样本中的比例,来测量信号被稀释的程度。当样本纯度低于50%时,变异的精确度将迅速下降(甚至低于25%)。据报道,样品纯度每降低2%,每兆碱基可引入166个假阳性。随着样本纯度由30%下降到5%,结构变异检测的假阳性率由19.375%上升到38.125%。假阳性将严重影响结构变异检测的准确性,干扰人类疾病相关机制的后续研究。为了解决这个问题,已经开发了许多计算技术来过滤这些误报,并且可以分为两种类型。一类以GATK[13]为代表,通过手动设置一个或多个生物指标阈值,过滤所有不合格的变异位点,包括测序深度信息、支持读段数目以及碱基质量等;另一类通过预先训练的深度学习模型对真阳性和假阳性进行分类。
然而,现有方法存在以下问题:
1)第一类方法使用特征作为基准来过滤误报,将未通过设置特征阈值的结构变异均过滤为假阳性结构变异,因此如果特征阈值设置不合适时易引起误判,这些一刀切的基准会在过滤假阳性的同时删除想要检出的低频变异,很难找到完美区分假阳性并不会误删低频变异的阈值设置,在处理低纯度样品时,准确率非常低;
2)现有方法都没有考虑到肿瘤纯度或克隆结构引起的测序信号被稀释的问题,更没有考虑到不同样本稀释程度不同时,分类基准不再适用的问题。机器学习过滤方法使用固定纯度的样本作为训练集,这些方法将假阳性过滤问题作为一个分类问题,并使用不同的特征作为分类准则。虽然滤波效果很好,但训练得到的分类特征基线只适用于该固定特征,当它们处理不同于训练样本的低纯度样本时,分类特征的基线不再准确,分类精度显著降低,呈现出非常高的假阳性。
另外,纯度是一个连续变量,不能简单地通过增加几个训练集就把它当作一个离散变量。而若针对不同肿瘤纯度或不同克隆结构的样本训练不同的分类模型成本过高,计算量过大,无法达到预期效果,为每个样本都训练模型不切实际且成本巨大。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种考虑被稀释测序信号假阳性结构变异过滤方法、存储介质及设备,主要面向第二代基因测序数据中,当基因组结构变异检测受到肿瘤纯度和克隆结构影响,测序信号被稀释产生大量假阳性的情况下,使用迁移学习策略实现假阳性过滤的问题。
本发明采用以下技术方案:
一种考虑被稀释测序信号的假阳性结构变异过滤方法,包括以下步骤:
S1、从不同样本纯度数据运行已有的结构变异检测工具检测结构变异,将检测工具中的过滤条件阈值调整到最低,获取结构变异候选集;
S2、以体现结构变异属性作为分类有效特征,从结果文件中特征提取;
S3、将每个特征向量存为一行,作为一个实例用以表示其对应的候选结构变异,将纯度为p的结构变异样本特征数据集记为Xp,纯度为p的结构变异样本标签数据集表示为Yp,结合以上特征和标签,将纯度空间里的所有结构变异候选集记为Η,使用基于迁移学习方法迁移成分分析的迁移模型来对不同纯度的结构变异特征数据集进行数据迁移,拉近不同纯度数据分布的距离,实现不同纯度的特征数据迁移;
S4、不同纯度的结构变异特征数据集迁移后得到两个特征降维后的转换矩阵,含有23个列向量,将每个列向量作为一个特征,得到新的结构变异所有特征集合Θ',将转换矩阵W作为特征数据集,对应的标签集为原标签集Yp,每个候选结构变异用一行23个特征的向量x′表示,标签为原标签y,基于极端随机树模型训练分类模型,对真假阳性结构变异进行预测;
S5、使用多数投票法对m-1个纯度的预测标签进行投票,投票得到的结果为所有预测标签集中票数最多的标签,将该结果作为真假阳性结构变异分类的最终预测标签集合Y'p
S6、预测标签集合Y'p中真阳性结构变异分类为1,假阳结构变异分类为0,过滤标签为0的结构变异,被归类为真阳性的结构变异作为最终输出结果,完成假阳性结构变异过滤。
具体的,步骤S2具体为:
S201、将所有纯度的集合纯度空间记为P,从不同纯度的结构变异检测结果文件中提取出全部的读数据相关信息;
S202、对于每个候选结构变异,从全部信息中提取出26个特征,将所有特征集合记为Θ。
具体的,步骤S3具体为:
S301、将纯度空间中的固定纯度为p的结构变异特征集作为目标域数据集Dt,纯度空间中的其他纯度为pj的结构变异特征集作为源域数据集Ds
S302、迁移成分分析利用最大均值差异衡量两个域的分布的距离;
S303、借用支持向量机核函数的思想求解最大均值差异距离;
S304、根据(KLK+μI)-1KLK计算特征分解矩阵,并取前M个特征向量构造纯度pj到纯度p的特征数据转换矩阵W。
进一步的,步骤S301中,目标域数据集Dt,具体为:
Figure BDA0002586063260000041
其中,n2表示目标域的样本数目,
Figure BDA0002586063260000042
为目标域的特征空间和标签,p为目标域样本纯度,P为不同纯度样本集合;
源域数据集Ds,具体为:
Figure BDA0002586063260000043
其中,n1表示源域的样本数目,
Figure BDA0002586063260000044
为源域数据的特征空间和标签,pj为源域样本纯度。
进一步的,步骤S302中,最大均值差异距离DISTANCE(Ds,Dt)计算如下:
Figure BDA0002586063260000051
其中,xi是源域的数据,xj是目标域的数据,
Figure BDA0002586063260000052
是源域的数据分布映射,
Figure BDA0002586063260000053
是目标域的数据分布映射,n1表示源域的样本数目,n2表示目标域的样本数目。
进一步的,步骤S303具体为:
首先计算最大均值差异距离矩阵L,每个元素lij的计算方式为:
Figure BDA0002586063260000054
中心矩阵H为:
Figure BDA0002586063260000055
其中,xi是源域的数据,xj是目标域的数据,
Figure BDA0002586063260000056
Figure BDA0002586063260000057
的单位矩阵,n1表示源域的样本数目,n2表示目标域的样本数目;
然后使用线性核函数k(x,y)=xty映射数据集
Figure BDA0002586063260000058
Figure BDA0002586063260000059
构造核矩阵K为:
Figure BDA00025860632600000510
其中,Ks,s,Kt,t分别为嵌入空间中源域和目标域数据上定义的Gram矩阵,Ks,t为跨域数据上定义的Gram矩阵,Kt,s=Ks,t T
具体的,步骤S4具体为:
S401、选择纯度p的目标域转换矩阵作为测试集
Figure BDA00025860632600000511
S402、设置迭代次数为K,根据CART决策树算法使用全部的训练集样本
Figure BDA0002586063260000061
训练每个基分类器,迭代K次,生成K颗决策树以及极端随机树;
S403、对生成的极端随机树模型使用测试集样本
Figure BDA0002586063260000062
生成预测结果,对所有基分类器的预测结果进行统计,利用投票决策的方法产生纯度pj的训练集的分类结果,得到标签集
Figure BDA0002586063260000063
S404、每个纯度的测试集
Figure BDA0002586063260000064
对应除自身外的多个纯度的训练集
Figure BDA0002586063260000065
将每个训练集训练出的模型均使用测试集对真假结构变异进行分类,获得所有纯度样本的标签集合Υ',包含m-1个标签集。
具体的,步骤S5中,最终预测标签集合Y'p为:
Figure BDA0002586063260000066
其中,
Figure BDA0002586063260000067
为样本i的预测标签,p为样本纯度,P为样本纯度集合,n为不同纯度样本数量。
本发明的另一个技术方案是,一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述的方法中的任一方法。
本发明的另一个技术方案是,一种过滤设备,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。
与现有技术相比,本发明至少具有以下有益效果:
本发明是一种考虑被稀释测序信号的基于迁移学习策略的结构变异检测假阳性过滤方法,基于迁移学习策略进行数据迁移再使用机器学习模型分类,解决现有方法特征选择以及肿瘤纯度和克隆结构引起的被稀释测序信号样本假阳性问题,不需要样本纯度的准确值,能够适用于不同纯度的样本,且表现出了良好的性能。
进一步的,使用已有结构变异检测工具检测信号被稀释程度不同的样本(以样本纯度来定义测序信号被稀释程度),得到结构变异候选集结果文件,并从结果文件中的读数据信息中提取相关特征;
进一步的,将不同样本纯度的特征数据分别作为源域和目标域,使用迁移成分分析(英文名称:Transfer Component Analysis,英文缩写:TCA)进行数据迁移,通过多次试验得到方法的最优参数,最终得到两个领域的特征转换矩阵;
进一步的,将不同样本纯度的源域特征转换矩阵分别输入到极端决策树(英文名称:Extra Tree,英文缩写:ET)进行训练,通过网格搜索得到模型的最佳参数,最终得到多个训练好的极端决策树模型。
进一步的,将固定样本纯度目标域特征转换矩阵作为测试集输入到各个极端决策树模型中,对所有模型预测的结果使用多数投票法决策出最终预测标签;
进一步的,根据分类得到的标签集,过滤标签为假阳的结构变异,输出为真阳结果。
综上所述,本发明从结构变异检测结果文件中提取初始特征,结合迁移成分分析方法和极端决策树模型能够使用相同的模型很好的适应不同程度被稀释测序信号的结构变异检测样本,并且过滤的准确度更高且稳定。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明流程图;
图2为仿真数据集中数目较少样本对比结果图,其中,(a)为准确度,(b)为召回率,(c)为F1值,(d)为精确度;
图3为仿真数据集中标签有错样本对比结果图,其中,(a)为准确度,(b)为召回率,(c)为F1值,(d)为精确度;
图4为真实数据集中的实验结果对比图。
具体实施方式
迁移学习策略能够无论模型训练样本的纯度如何,都能无差别地判断样本的全部纯度,去除假阳性,提高低频突变检测的准确性。转移学习包括从预先训练的模型中提取有意义的潜在表征,以用于一个新的、类似的目标。它能够将一个域(称为源)的知识“转移”到另一个域(称为目标)。这样,就可以利用一定样本纯度的假阳性过滤机器学习模型的知识来重建其他样本纯度模型。所要解决的技术问题有:
一、解决特征选择繁琐复杂的问题;
二、解决肿瘤纯度和克隆结构引起的被稀释测序信号问题;
三、本发明不会受到测序软件和检测工具的影响。
本发明提供了一种考虑被稀释测序信号的假阳性结构变异过滤方法FPTLfilter(Filtering False Positive structural variants based on Transfer Learning),输入数据为从现有结构变异检测工具结果文件中提取出的结构变异候选集特征数据,输出数据为过滤假阳性结构变异后的结构变异集合。
本发明基于以下学术界的普遍共识:
1.目前常用检测算法通过二代测序技术产生的读对与参考序列进行比对得到的读数据信息,确定结构变异的不同类型以及变异大小、位置等信息;
2.肿瘤纯度和克隆结构会导致待检测结构变异信号被稀释,数据信息发生改变,在固定样本上训练得到的分类基线不再适用,较低的样本纯度可产生假阳性的变异识别。
请参阅图1,本发明一种考虑被稀释测序信号的假阳性结构变异过滤方法,包括以下步骤:
S1、获取结构变异候选集
从不同样本纯度数据运行已有的结构变异检测工具检测结构变异,为了保证检测出的候选结构变异集合范围足够大,能够引进大量的假阳性样本,为分类模型提供样本标签均衡的训练集和测试集,将检测工具中的过滤条件阈值调整到最低,得到不同纯度的结构变异候选集。
S2、特征提取
第二代测序技术产生的双末端测序数据比对到参考基因组序列后生成的结果文件包含了每个读数据的比对信息,如比对位置、比对质量、序列片段等信息。结构变异检测结果VCF(Variant Call Format)文件中同样包含这些信息,如果某个信息能够从某些方面体现结构变异的某个属性,则这个信息可被提取出作为分类的有效特征。从结果文件中提取特征,具体包含以下步骤:
S201、将所有纯度的集合纯度空间记为P={pi,i=1,2,…,m},其中,pi是样本的纯度,m是所有纯度的数目,也是不同纯度肿瘤样本的数目。从不同纯度的结构变异检测结果文件中提取出全部的读数据相关信息。
S202、根据读数据比对映射出的一致性和完整性以及其他比对属性对不同的结构变异会呈现出不同的特点,对于每个候选结构变异,从全部信息中共提取出了26个特征,将所有特征集合记为Θ={Zi,i=1,2,…,26},其中,Zi是每个特征的所有纯度向量集合。对于不同的结构变异检测软件,结果文件中的特征不同,提取出的特征也不尽相同,即特征提取这一步骤提取的特征并非固定的且可扩展。
S3、不同纯度特征数据迁移
将每个特征向量存为一行,作为一个实例用以表示其对应的候选结构变异,将纯度为p的结构变异样本特征数据集记为Xp,具体为:
Figure BDA0002586063260000101
其中,
Figure BDA0002586063260000102
是26维的行向量,n是实例的数目。
特征数据集对应一个相应的标签集表示类别,其中,1表示真阳性结构变异类,0表示假阳性结构变异类,纯度为p的结构变异样本标签数据集表示为Yp,具体为:
Figure BDA0002586063260000103
其中,
Figure BDA0002586063260000104
是每个特征向量对应的标签。
结合以上特征和标签,将纯度空间里的所有结构变异候选集记为Η={(Xp,Yp),p∈P}。
本发明使用基于迁移学习方法迁移成分分析的迁移模型来对不同纯度的结构变异特征数据集进行数据迁移,来拉近不同纯度数据分布的距离。具体包括以下步骤:
S301、选择源域和目标域数据集;
将纯度空间中的固定纯度为p的结构变异特征集作为目标域数据集Dt,具体为:
Figure BDA0002586063260000105
其中,n2表示目标域的样本数目,
Figure BDA0002586063260000106
为目标域的特征空间和标签,p为目标域样本纯度,P为不同纯度样本集合。
纯度空间中的其他纯度为pj的结构变异特征集作为源域数据集Ds,具体为:
Figure BDA0002586063260000111
其中,n1表示源域的样本数目,
Figure BDA0002586063260000112
为源域数据的特征空间和标签,pj为源域样本纯度。
S302、迁移成分分析利用最大均值差异(英文名称:maximum mean discrepancy,英文缩写:MMD)来衡量两个域的分布的距离;
最大均值差异距离DISTANCE(Ds,Dt)计算如下:
Figure BDA0002586063260000113
其中,xi是源域的数据,xj是目标域的数据,
Figure BDA0002586063260000114
是源域的数据分布映射,
Figure BDA0002586063260000115
是目标域的数据分布映射。
S303、借用支持向量机核函数的思想求解最大均值差异距离;
首先计算最大均值差异距离矩阵L,它的每个元素lij的计算方式为:
Figure BDA0002586063260000116
以及中心矩阵H:
Figure BDA0002586063260000117
其中,xi是源域的数据,xj是目标域的数据,
Figure BDA0002586063260000118
Figure BDA0002586063260000119
的单位矩阵,n1表示源域的样本数目,n2表示目标域的样本数目;
然后使用线性核函数k(x,y)=xty映射数据集
Figure BDA00025860632600001110
Figure BDA00025860632600001111
构造核矩阵K:
Figure BDA0002586063260000121
其中,Ks,s,Kt,t分别为嵌入空间中源域和目标域数据上定义的Gram矩阵,Ks,t为跨域数据上定义的Gram矩阵,Kt,s=Ks,t T
S304、根据(KLK+μI)-1KLK计算特征分解矩阵,并取前M个特征向量构造纯度pj到纯度p的特征数据转换矩阵W如下:
Figure BDA0002586063260000122
其中,
Figure BDA0002586063260000123
是降维后的源域转换矩阵,
Figure BDA0002586063260000124
是降维后的目标域转换矩阵,经过多次试验查找得到最优特征维度,设置M为23。
S4、极端决策树模型分类
不同纯度的结构变异特征数据集迁移后得到两个特征降维后的转换矩阵,含有23个列向量,将每个列向量作为一个特征,可得到新的结构变异所有特征集合Θ'如下:
Θ'={Z′i,i=1,2,…,23}
其中,Z′i是每个新的特征的所有纯度向量集合;
将转换矩阵W作为特征数据集,对应的标签集为原标签集Yp,每个候选结构变异用一行23个特征的向量x′来表示,标签为原标签y,本发明基于极端随机树模型来训练分类模型,对真假阳性结构变异进行预测,具体包括以下步骤:
S401、选择纯度p的目标域转换矩阵作为测试集
Figure BDA0002586063260000125
其他纯度pj的源域转换矩阵均作为训练集
Figure BDA0002586063260000126
S402、设置迭代次数为K,根据CART决策树算法使用全部的训练集样本
Figure BDA0002586063260000127
训练每个基分类器,迭代K次,生成K颗决策树以及极端随机树。
S403、对生成的极端随机树模型使用测试集样本
Figure BDA0002586063260000131
生成预测结果,对所有基分类器的预测结果进行统计,利用投票决策的方法产生纯度pj的训练集的分类结果,得到标签集如下:
Figure BDA0002586063260000132
其中,
Figure BDA0002586063260000133
是预测的标签。
S404、每个纯度的测试集
Figure BDA0002586063260000134
对应除自身外的多个纯度的训练集
Figure BDA0002586063260000135
将每个训练集训练出的模型均使用测试集对真假结构变异进行分类,获得所有纯度样本的标签集合
Figure BDA0002586063260000136
包含m-1个标签集。
S5、分类结果预测
集合Υ'中的每个纯度预测标签集合均为有效数据,不能用单独的标签作为最终的分类结果,使用多数投票法对m-1个纯度的预测标签进行投票,投票得到的结果为所有预测标签集中票数最多的标签,将该结果作为真假阳性结构变异分类的最终预测标签集合如下:
Figure BDA0002586063260000137
其中,
Figure BDA0002586063260000138
为样本i的预测标签,p为样本纯度,P为样本纯度集合,n为不同纯度样本数量。
S6、假阳性结构变异过滤
预测标签集合Y'p中真阳性结构变异分类为1,假阳结构变异分类为0,过滤标签为0的结构变异,被归类为真阳性的结构变异作为最终输出结果。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了验证本发明的有效性,首先测试迁移学习的必要性,将数据迁移前后的特征数据集分别应用于极端决策树分类模型,然后为了验证本发明的可行性,测试了结构变异候选集样本数较少和标签集包含错误标签的情况。使用准确度、精确度、召回率和F1值这四个指标来衡量模型的性能表现。
指标名称:真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)。
定义准确度Accuracy=(TP+TN)/(TP+TN+FN+FP);
定义精确度Precision=TP/(FP+TP);
定义召回率Recall=TP/(TP+FN);
定义F1值F1-score=(2·Precision·Recall)/(Precision+Recall)。
在仿真数据集上进行了测试,使用已有结构变异检测软件Speedseq获得了六种不同样本纯度P={5,10,15,20,25,30}(样本纯度分别为5%,10%,15%,20%,25%,30%)的结构变异候选集样本。由于目前已有算法均未考虑样本纯度导致的假阳性问题,本发明创新性的将迁移学习用于不同纯度样本的数据迁移,我们首先进行迁移学习必要性测试。每个纯度结构变异候选集均为包含4000个样本的平衡数据集,真阳和假阳类别样本比例为1:1。“TCA”表示使用迁移成分分析得到的转换矩阵用于分类的结果,“BASE”表示提取出的特征数据用于分类的结果,真假阳性分类结果如表1所示。
表1:迁移成分分析前后特征数据分类结果
Figure BDA0002586063260000151
可见,对特征数据通过迁移成分分析后再用于分类模型明显提高了每个纯度的准确度,精确度,召回率和F1值,可以验证迁移学习对不同纯度结构变异特征数据进行数据迁移大大提升了分类模型的综合性能,且对于低纯度样本更为有效。
为了验证本发明的可行性,在结构变异候选集样本数较少和标签集包含错误标签情况下进行了实验。对于数目较少样本,分别选择200、400和600个样本来测试,其中真阳和假阳类别样本数目相同;对于标签有错样本,使用4000个样本的特征数据集,标签的错误率分别设置为10%、20%和30%,错误率针对所有标签集样本,会导致样本类别不平衡。数目较少样本和标签有错样本的实验结果如表2和表3所示,结果对比图如图2和图3所示,图2中datasize100(200,300)分别表示三个样本的单个类别数目,x轴表示样本的纯度,y轴表示取值;图3中proportion10%(20%,30%)分别表示三个样本的标签错误率,x轴表示样本的纯度,y轴表示取值。
表2:数目较少样本实验结果
Figure BDA0002586063260000161
表3:标签有错样本实验结果
Figure BDA0002586063260000162
Figure BDA0002586063260000171
为了进一步验证本发明过滤真假阳性结构变异的能力,从Gene+公共数据库中获得了4组肺癌和4组乳腺癌数据,以测试在真实数据上的性能,这两类癌症的肿瘤纯度可能非常低,并且会严重影响它们的结构变异检测准确性。随后通过BWA-0.7.5a和GATK MUTect映射读取的原始序列的管道,使用CNVkit检测真实的结构变异信息。对每组数据随机选择50个真阳性样本和50个假阳性样本,组成100个均衡样本的结构变异候选集,并将我们的模型应用在8组数据集上进行真假阳性结构变异识别,并通过与公共数据库中的标准结果进行比较来对标签进行标注,分类结果如表4所示,绘制的对比结果图如图4所示,其中,x轴表示真实数据集的标号,y轴表示取值,图中四个指标分别表示准确度,召回率,F1值和精确度。
表4:真实数据集实验结果
Figure BDA0002586063260000172
Figure BDA0002586063260000181
与仿真数据集结果相同,FPTLfilter能够准确识别假阳性结构变异,在不同的纯度下都能很好地适应,可以显著减少假阳性,并且在低纯度样本下效率非常高且稳定。
综上所述,本发明一种考虑被稀释测序信号的假阳性结构变异过滤方法,解决了现有算法不能良好适用于不同程度被稀释测序信号的样本的问题。由于采用了迁移成分分析对不同纯度肿瘤样本进行数据迁移,本发明克服了样本测序信号被稀释导致的样本特征数据分布间隔,从而使得本发明在不同的样本纯度下都能表现出良好的性能。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (10)

1.一种假阳性结构变异过滤方法,其特征在于,包括以下步骤:
S1、从不同样本纯度数据运行已有的结构变异检测工具检测结构变异,将检测工具中的过滤条件阈值调整到最低,获取结构变异候选集;
S2、以体现结构变异属性作为分类有效特征,从结果文件中特征提取;
S3、将每个特征向量存为一行,作为一个实例用以表示其对应的候选结构变异,将纯度为p的结构变异样本特征数据集记为Xp,纯度为p的结构变异样本标签数据集表示为Yp,结合以上特征和标签,将纯度空间里的所有结构变异候选集记为Η,使用基于迁移学习方法迁移成分分析的迁移模型来对不同纯度的结构变异特征数据集进行数据迁移,拉近不同纯度数据分布的距离,实现不同纯度的特征数据迁移;
S4、不同纯度的结构变异特征数据集迁移后得到两个特征降维后的转换矩阵,含有23个列向量,将每个列向量作为一个特征,得到新的结构变异所有特征集合Θ',将转换矩阵W作为特征数据集,对应的标签集为原标签集Yp,每个候选结构变异用一行23个特征的向量x′表示,标签为原标签y,基于极端随机树模型训练分类模型,对真假阳性结构变异进行预测;
S5、使用多数投票法对m-1个纯度的预测标签进行投票,投票得到的结果为所有预测标签集中票数最多的标签,将该结果作为真假阳性结构变异分类的最终预测标签集合Y'p
S6、预测标签集合Y'p中真阳性结构变异分类为1,假阳结构变异分类为0,过滤标签为0的结构变异,被归类为真阳性的结构变异作为最终输出结果,完成假阳性结构变异过滤。
2.根据权利要求1所述的方法,其特征在于,步骤S2具体为:
S201、将所有纯度的集合纯度空间记为P,从不同纯度的结构变异检测结果文件中提取出全部的读数据相关信息;
S202、对于每个候选结构变异,从全部信息中提取出26个特征,将所有特征集合记为Θ。
3.根据权利要求1所述的方法,其特征在于,步骤S3具体为:
S301、将纯度空间中的固定纯度为p的结构变异特征集作为目标域数据集Dt,纯度空间中的其他纯度为pj的结构变异特征集作为源域数据集Ds
S302、迁移成分分析利用最大均值差异衡量两个域的分布的距离;
S303、借用支持向量机核函数的思想求解最大均值差异距离;
S304、根据(KLK+μI)-1KLK计算特征分解矩阵,并取前M个特征向量构造纯度pj到纯度p的特征数据转换矩阵W。
4.根据权利要求3所述的方法,其特征在于,步骤S301中,目标域数据集Dt,具体为:
Figure FDA0002586063250000021
其中,n2表示目标域的样本数目,
Figure FDA0002586063250000022
为目标域的特征空间和标签,p为目标域样本纯度,P为不同纯度样本集合;
源域数据集Ds,具体为:
Figure FDA0002586063250000023
其中,n1表示源域的样本数目,
Figure FDA0002586063250000024
为源域数据的特征空间和标签,pj为源域样本纯度。
5.根据权利要求3所述的方法,其特征在于,步骤S302中,最大均值差异距离DISTANCE(Ds,Dt)计算如下:
Figure FDA0002586063250000031
其中,xi是源域的数据,xj是目标域的数据,
Figure FDA0002586063250000032
是源域的数据分布映射,
Figure FDA0002586063250000033
是目标域的数据分布映射,n1表示源域的样本数目,n2表示目标域的样本数目。
6.根据权利要求3所述的方法,其特征在于,步骤S303具体为:
首先计算最大均值差异距离矩阵L,每个元素lij的计算方式为:
Figure FDA0002586063250000034
中心矩阵H为:
Figure FDA0002586063250000035
其中,xi是源域的数据,xj是目标域的数据,
Figure FDA0002586063250000036
Figure FDA0002586063250000037
的单位矩阵,n1表示源域的样本数目,n2表示目标域的样本数目;
然后使用线性核函数k(x,y)=xty映射数据集
Figure FDA0002586063250000038
Figure FDA0002586063250000039
构造核矩阵K为:
Figure FDA00025860632500000310
其中,Ks,s,Kt,t分别为嵌入空间中源域和目标域数据上定义的Gram矩阵,Ks,t为跨域数据上定义的Gram矩阵,Kt,s=Ks,t T
7.根据权利要求1所述的方法,其特征在于,步骤S4具体为:
S401、选择纯度p的目标域转换矩阵作为测试集
Figure FDA00025860632500000311
S402、设置迭代次数为K,根据CART决策树算法使用全部的训练集样本
Figure FDA0002586063250000041
训练每个基分类器,迭代K次,生成K颗决策树以及极端随机树;
S403、对生成的极端随机树模型使用测试集样本
Figure FDA0002586063250000042
生成预测结果,对所有基分类器的预测结果进行统计,利用投票决策的方法产生纯度pj的训练集的分类结果,得到标签集
Figure FDA0002586063250000043
S404、每个纯度的测试集
Figure FDA0002586063250000044
对应除自身外的多个纯度的训练集
Figure FDA0002586063250000045
将每个训练集训练出的模型均使用测试集对真假结构变异进行分类,获得所有纯度样本的标签集合Υ',包含m-1个标签集。
8.根据权利要求1所述的方法,其特征在于,步骤S5中,最终预测标签集合Y'p为:
Figure FDA0002586063250000046
其中,
Figure FDA0002586063250000047
为样本i的预测标签,p为样本纯度,P为样本纯度集合,n为不同纯度样本数量。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至8所述的方法中的任一方法。
10.一种计算设备,其特征在于,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至8所述的方法中的任一方法的指令。
CN202010681632.4A 2020-07-15 2020-07-15 一种假阳性结构变异过滤方法、存储介质及计算设备 Active CN111863135B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010681632.4A CN111863135B (zh) 2020-07-15 2020-07-15 一种假阳性结构变异过滤方法、存储介质及计算设备
PCT/CN2020/120315 WO2022011855A1 (zh) 2020-07-15 2020-10-12 一种假阳性结构变异过滤方法、存储介质及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010681632.4A CN111863135B (zh) 2020-07-15 2020-07-15 一种假阳性结构变异过滤方法、存储介质及计算设备

Publications (2)

Publication Number Publication Date
CN111863135A true CN111863135A (zh) 2020-10-30
CN111863135B CN111863135B (zh) 2022-06-07

Family

ID=72984289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010681632.4A Active CN111863135B (zh) 2020-07-15 2020-07-15 一种假阳性结构变异过滤方法、存储介质及计算设备

Country Status (2)

Country Link
CN (1) CN111863135B (zh)
WO (1) WO2022011855A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927753A (zh) * 2021-02-22 2021-06-08 中南大学 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117096070B (zh) * 2023-10-19 2024-01-05 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于领域自适应的半导体加工工艺异常检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103080333A (zh) * 2010-09-14 2013-05-01 深圳华大基因科技有限公司 一种基因组结构性变异检测方法和系统
AU2017100960A4 (en) * 2017-07-13 2017-08-10 Macau University Of Science And Technology Method of identifying a gene associated with a disease or pathological condition of the disease
CN109280702A (zh) * 2017-07-21 2019-01-29 深圳华大基因研究院 确定个体染色体结构异常的方法和系统
CN109658983A (zh) * 2018-12-20 2019-04-19 深圳市海普洛斯生物科技有限公司 一种识别和消除核酸变异检测中假阳性的方法和装置
CN110084314A (zh) * 2019-05-06 2019-08-02 西安交通大学 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法
CN111326212A (zh) * 2020-02-18 2020-06-23 福建和瑞基因科技有限公司 一种结构变异的检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200105373A1 (en) * 2018-09-28 2020-04-02 10X Genomics, Inc. Systems and methods for cellular analysis using nucleic acid sequencing
CN109903815A (zh) * 2019-02-28 2019-06-18 北京化工大学 基于特征挖掘的基因翻转变异检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103080333A (zh) * 2010-09-14 2013-05-01 深圳华大基因科技有限公司 一种基因组结构性变异检测方法和系统
AU2017100960A4 (en) * 2017-07-13 2017-08-10 Macau University Of Science And Technology Method of identifying a gene associated with a disease or pathological condition of the disease
CN109280702A (zh) * 2017-07-21 2019-01-29 深圳华大基因研究院 确定个体染色体结构异常的方法和系统
CN109658983A (zh) * 2018-12-20 2019-04-19 深圳市海普洛斯生物科技有限公司 一种识别和消除核酸变异检测中假阳性的方法和装置
CN110084314A (zh) * 2019-05-06 2019-08-02 西安交通大学 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法
CN111326212A (zh) * 2020-02-18 2020-06-23 福建和瑞基因科技有限公司 一种结构变异的检测方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
PARITHI BALACHANDRAN 等: "Structural variant identification and characterization", 《CHROMOSOME RESEARCH》 *
PARITHI BALACHANDRAN 等: "Structural variant identification and characterization", 《CHROMOSOME RESEARCH》, 6 January 2020 (2020-01-06) *
SALVATORE ESPOSITO 等: "Applications and Trends of Machine Learning in Genomics and Phenomics for Next-Generation Breeding", 《PLANTS》 *
SALVATORE ESPOSITO 等: "Applications and Trends of Machine Learning in Genomics and Phenomics for Next-Generation Breeding", 《PLANTS》, 25 December 2019 (2019-12-25) *
XUWEN WANG 等: "FilterLAP: Filtering False-positive Mutation Calls via a Label Propagation Framework", 《2019 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 *
XUWEN WANG 等: "FilterLAP: Filtering False-positive Mutation Calls via a Label Propagation Framework", 《2019 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》, 6 February 2020 (2020-02-06) *
施俊 等: "运用耳聋基因隐性突变携带者重测序策略纠正假阳性变异的致病性误判", 《上海交通大学学报(医学版)》 *
施俊 等: "运用耳聋基因隐性突变携带者重测序策略纠正假阳性变异的致病性误判", 《上海交通大学学报(医学版)》, vol. 37, no. 11, 30 November 2017 (2017-11-30) *
林勇: "面向下一代测序技术的结构变异检测算法综述", 《计算机应用研究》 *
林勇: "面向下一代测序技术的结构变异检测算法综述", 《计算机应用研究》, vol. 31, no. 2, 28 February 2014 (2014-02-28) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927753A (zh) * 2021-02-22 2021-06-08 中南大学 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法

Also Published As

Publication number Publication date
CN111863135B (zh) 2022-06-07
WO2022011855A1 (zh) 2022-01-20

Similar Documents

Publication Publication Date Title
Yang et al. A unified semi-supervised community detection framework using latent space graph regularization
CN111612039B (zh) 异常用户识别的方法及装置、存储介质、电子设备
CN108038352B (zh) 结合差异化分析和关联规则挖掘全基因组关键基因的方法
CN111553127A (zh) 一种多标记的文本类数据特征选择方法及装置
CN110890137A (zh) 一种化合物毒性预测模型建模方法、装置及其应用
CN111863135B (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN111343147A (zh) 一种基于深度学习的网络攻击检测装置及方法
CN113392894A (zh) 一种多组学数据的聚类分析方法和系统
CN108520249A (zh) 一种细胞分类器的构建方法、装置及系统
CN113111063A (zh) 一种应用于多数据源的医疗患者主索引发现方法
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
CN110020638B (zh) 人脸表情识别方法、装置、设备和介质
CN111582315A (zh) 样本数据处理方法、装置及电子设备
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN110010204A (zh) 基于融合网络和多打分策略的预后生物标志物识别方法
CN112287036A (zh) 一种基于谱聚类的离群点检测方法
CN113762151A (zh) 一种故障数据处理方法、系统及故障预测方法
CN112836754A (zh) 一种面向图像描述模型泛化能力评估方法
CN109783586B (zh) 基于聚类重采样的水军评论检测方法
CN116861358A (zh) 基于bp神经网络与多源数据融合的计算思维评测方法
CN110502669A (zh) 基于n边dfs子图的轻量级无监督图表示学习方法及装置
WO2023000725A1 (zh) 电力计量的命名实体识别方法、装置和计算机设备
CN113724779B (zh) 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备
CN113889274B (zh) 一种孤独症谱系障碍的风险预测模型构建方法及装置
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant