CN110084314A - 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法 - Google Patents
一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法 Download PDFInfo
- Publication number
- CN110084314A CN110084314A CN201910370936.6A CN201910370936A CN110084314A CN 110084314 A CN110084314 A CN 110084314A CN 201910370936 A CN201910370936 A CN 201910370936A CN 110084314 A CN110084314 A CN 110084314A
- Authority
- CN
- China
- Prior art keywords
- training
- model
- sample
- false positive
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Zoology (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Wood Science & Technology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biochemistry (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Analytical Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法,对基因突变的检测数据进行预处理;基于三重训练法选择三个不同的监督学习算法构造三个不同的初始分类器H1,H2,H3,即选用三个不同的监督学习自动机并基于初始训练集生成的学习器;对H1,H2,H3进行训练得到扩充训练集,由此对模型进行更新;使用训练的模型对未标记样本集U进行标记,根据标记结果完成过滤。本发明解决了传统方法无法有效应对批次差异的问题。
Description
技术领域
本发明属于以精准医学为应用背景的数据科学技术领域,具体涉及一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法。
背景技术
自人类基因组草图绘制完成以来,近二十年间,基因测序技术取得多项里程碑意义的突破,并迅速走向市场,其中,以第二代测序技术(英文名称:Next GenerationSequencing,英文缩写:NGS)最为成熟。靶向捕获基因测序是NGS的一种临床应用,因其性价比高、可扩展性强,是目前肿瘤精准诊疗中应用最为广泛的技术之一。近年来,靶向捕获基因测序在肿瘤常规诊疗中逐步普及,数据大量积累,在临床实践中正在发挥作用越来越显著。
靶向捕获基因测序数据不能直接服务于临床诊疗,必须使用生物信息学数据处理流程提取数据中的基因特征,由此提供临床辅助决策。生物信息学数据处理流程种类繁多,然而基因变异检测是几乎所有的流程都必须包括的共性关键步骤之一。近十年来,尽管研究人员已经设计出数十种基因变异检测方法和软件系统,但是由于生物数据的复杂性,每种方法都存在检测误差,表现为假阳性和假阴性。假阳性是检测方法误报的基因突变,假阴性是检测方法漏报的基因突变。研究认为,假阳性和假阴性的来源很多,包括检测算法的偏好、测序平台的系统偏差和批次误差、测序试剂的批次偏差、上游数据分析方法传导的误差等,难以全面规避。为了提高基因突变的检测效率,提高下游数据分析步骤的数据质量,在临床实践中普遍采用数据过滤策略对基因变异检测方法和软件的输出结果进行过滤,降低假阳性和假阴性。
目前的过滤策略主要有两种,分别是硬过滤器(英文名称:Hard filter,英文缩写:HF)和机器学习过滤(英文名称:Machine learning-based filter,英文缩写:MF)。HF的设计思想是,根据经验选取过滤指标(输出结果的数据特征)及其阈值,根据阈值进行过滤。HF策略的缺陷是,忽视了数据特征之间的相关性,导致过滤标准单一,不适应生物体复杂性带来的复杂数据特征模式。MF的设计思想是,根据经验选取过滤指标,设计一种有监督的学习模型,收集一组已知过滤结果的基因突变的数据特征,训练该模型,再由训练好的机器学习模型进行过滤。MF策略的缺陷是,所需的大规模的训练数据往往由于成本原因难以获得,而且模型只适用于数据特征与训练数据的数据特征模型类似的情况,即不能应对批次差异。此外,由于靶向捕获基因测序技术仅对目标捕获区域进行测序,靶向区域较小(样本集较小),潜在的基因突变数目比全基因组测序的基因突变数目少2-3个数量级,即使不考虑成本也难以提供满足MF模型要求的训练数据。因此,需要设计适用于靶向捕获基因测序数据、只需要小规模训练数据,且能够应对批次差异的过滤方法。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法,解决面向靶向捕获基因测序数据,当基因突变较少、训练数据规模小的情况下,使用机器学习策略适应批次差异且有效过滤基因突变数据的问题。
本发明采用以下技术方案:
一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法,包括以下步骤:
S1、对基因突变的检测数据进行预处理;
S2、基于三重训练法选择三个不同的监督学习算法构造三个不同的初始分类器H1,H2,H3,即选用三个不同的监督学习自动机并基于初始训练集生成的学习器;
S3、对步骤S2中的H1,H2,H3进行训练得到扩充训练集,由此对模型进行更新;
S4、使用S3中训练的模型对未标记样本集U进行标记,根据标记结果完成过滤。
具体的,步骤S1具体如下:
S101、读取符合VCF格式标准的输出文件,从中读取各个属性的数据,采用数据标准化和归一化方法对样本数据进行预处理;
S102、分别读取经人工标记的初始训练样本集L和经人工标记的初始测试集Lt。
进一步的,步骤S102中,初始训练集L的样本量大小不低于100,初始测试集Lt的样本量大小不低于100。
具体的,步骤S3中,更新训练集的算法如下:
设L满足最小规模;令U为未标记样本集,x为无标记样本集中的任意一个元素,如果H2,H3对x的预测结果一致,将x标记为H2(x)并加入到H1的训练集中形成新的训练集;H2和H3的训练集分别扩充为L'2和L'3;然后,H1,H2,H3重新训练,重复迭代直至满足模型迭代结束条件,即H1,H2,H3训练集不再扩充变化,训练过程结束。
进一步的,使用人工标记的初始测试集Lt对每次迭代的模型进行评估,比较第t次循环训练的模型在Lt上的分类精确度得分和第t-1次循环训练的模型对应的得分,若第t次循环训练的模型的得分大于第t-1次循环训练的模型对应的得分,则对训练集进行扩充。
更进一步的,训练集的扩充步骤具体为:如果H2和H3对x的预测正确,H1得到一个新增的有效样本x,即x被扩充进入训练集;否则H1将得到一个带有噪音标签,即错误标签的样本。
具体的,步骤S3中,设有m个样本满足约束条件,样本数量m应满足的约
束条件为:
假设Hi与目标函数H*不相符的概率为:
P[d(Hi,H*)≥ε]≤δ
其中,ε是假设最坏情况下的分类错误率,η是分类噪声率的上界,默认值是0.5,N是假设的数量,δ是置信度。
进一步的,对模型进行更新的方法为:在模型的训练过程中,判定由H2,H3为H1新标记的训练集是否应该加入到H1的新训练集中
更进一步的,设则当|Lt|>|Lt-1|时,推算出根据下式判定由H2,H3为H1新标记的训练集是否应该加入到H1的新训练集中;
其中,是H2,H3第t次迭代的错误率的上限。
更进一步的,步骤S4中,在模型的每一次循环中,分类器H2和H3从U中选择样本为H1扩充训练集,和分别表示在第t次循环和第t-1次循环中用于H1训练的标签样本集合;然后,令H1的第t次循环和第t-1次循环的训练集分别为和对应的样本个数分别用表示;在第t-1次循环中,被标记的无标记的样本不再放进原始的L集合中,在第t次循环中,中所有的无标签的样本再次放进U中;
H1的第t次和第t-1次的训练集合满足约束条件如下:
其中,Lt是第t次迭代H2,H3为H1新标记的训练集,ηL是初始训练集L的噪声率;
控制每次循环标记的样本数;样本个数的限制s计算如下:
s满足不等式在此基础上,为了满足则需满足条件:
与现有技术相比,本发明至少具有以下有益效果:
本发明一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法,基于变异检测软件输出的基因突变的检测报告文件,针对其中存在假阳性错误,引用半监督学习模型;模型提取变异的数据特征,对特征进行二分类学习训练(区分确实存在的变异和假阳性错误),当训练完成后,使用经过训练的模型将检测报告文件中的假阳性错误过滤掉。本发明利用了半监督学习模型的优势,解决了小规模训练数据下难以有效使用机器学习过滤策略的难题;其次,因为所需的训练数据规模小,所以模型可以便捷的实现针对一个批次的数据进行独立学习,而后过滤,解决了传统方法无法有效应对批次差异的问题。
进一步的,步骤S1中,特征数据的预处理是一个数据质控步骤,有助于规范数据标准,消除由于数据质量问题引入的误差;选取少量样本进行人工标记和验证是使用半监督机器学习模型的前提条件,直接影响模型的精度和泛化性等主要性能指标。
进一步的,设置初始训练集L的样本量大小不低于100,初始测试集Lt的样本量大小不低于100,半监督学习模型需要输入适当大小的训练集和测试集,训练集和测试集的大小直接影响模型的精度和泛化性等主要性能指标;根据理论推导和数据测试获得的规模的一个下界,当规模小于本设置时,模型的精度等将出现显著下降。
进一步的,S3的训练集来自于每次循环训练过程中的未标记样本U:未标记的数据集一方面是模型的求解目标,另一方面也是有助于改进模型精度的潜在训练集。因此,逐步扩充的训练集将迭代的用于模型的更新,有助于模型基于更多的数据学习输入的变异的数据特征,是解决批次差异的一种策略。
进一步的,在训练数据集扩充和模型迭代的过程中,当基分类器训练尚不充分时,基分类器很有可能将错误的分类结果引入到其余分类器中,由此产生模型噪声。基于噪声的机器学习模型需要满足相应的条件,基于半监督学习原理,本发明设置了样本数等约束条件。当条件满足时,即满足大部分未标记数据得到的标记是正确的,那么引入的噪声数据所带来的分类错误能够逐步被正确标记的训练集抵消,模型趋于收敛。
进一步的,使用大量的未标记数据辅助少量已标记数据进行机器学习,为了达到设计精度,必须进行反复学习,才能降低分类错误,获得符合性能要求的模型,继而可以使用模型对假阳性错误进行过滤。
进一步的,确定扩充的训练集是否应该加入到训练集中,继续下一次循环的模型训练,由噪声学习理论可知,只有满足公式才能够保证在迭代过程中分类器的分类错误越来越少,模型趋于收敛。
综上所述,本发明属于一类机器学习过滤策略,设计和使用了一种半监督学习模型,具备机器学习过滤策略的优势。同时,针对机器学习策略的两个缺点——需要大规模训练数据和难以应对批次差异,通过半监督学习模型予以解决:其一,半监督学习模型相比于已有方法使用的监督学习模型,经过有效的设计之后,所需的样本量显著减少,适用于靶向目标捕获测序难于获得大量测试样本的技术约束;其二,本发明的模型设计中,将待测数据与学习过程中的未标记样本相统一,此时,学习的目标在理论上转化为在未标记样本上获得最优的泛化性能。通过这样的设计,实现了同一批次数据的自训练和自过滤,解决了不同批次数据存在批次差异,导致过滤精度下降的问题。实验数据证明,本发明模型性能显著优于已有方法,在临床实践中可以显著节省成本、时间等。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为突变的特征在模型中的重要性对比图;
图2为实验数据集中每个特征的统计直方图;
图3为数据曲线图,其中,(a)为显示在NA12878-GATK3-chr21-test数据集上本发明的方法IVARCGENT-NGS的AUROC曲线图,(b)为显示在ILM_INDEL_Test_Set数据集上本发明的方法IVARCGENT-NGS的AUROC曲线图;
图4为本发明流程示意图。
具体实施方式
请参阅图4,本发明一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法,包括以下步骤:
S1、对基因检测突变位点样本数据进行预处理;
S101、读取变异检测软件输出的基因突变的检测报告文件,即符合VCF格式标准的输出文件,从中读取各个属性的数据,采用数据标准化和归一化方法对样本数据进行预处理。在数据预处理模块中,从VCF格式文件中提取的突变的特征数据及其描述如表1所示。
表1从VCF格式文件中提取的突变的特征及其物理意义
为了确保所选取的特征的相关性和重要性,采用机器学习中的特征选取工程方法,度量特征的两类重要性分别如图1和图2所示。
S102、经人工标记的初始训练样本集L和经人工标记的初始测试集Lt;
初始训练样本集的选取和标定必须尽可能精确,因为这将直接影响到模型最终的精度。综合理论推导和实践经验,本发明设置的初始训练样本集L和经人工标记的初始测试集Lt的规模下界均为100。
S2、构造初始分类器;
基于三重训练法(英文名称:Tri-training)的设计思想,对经人工标记的初始训练样本集L随机采样,获得三份训练数据子集;然后使用同一监督学习算法进行初始化学习来保证生成三个有差异的分类器,该策略有助于学习得到具有较高泛化能力的分类器;选择不同的三个监督学习算法来构造三个不同的初始分类器,分别为H1,H2,H3,本发明中采用的三个监督学习算法分别是支持向量机(SVM)、随机森林(RF)和朴素贝叶斯(NB);由此保证基分类器的差异化。
S3、训练集和模型的更新
给定L,三个基分类器H1,H2,H3,令U为未标记样本集,x为无标记样本集中的任意一个元素。如果H2,H3对x的预测结果一致,那么将x标记为H2(x)并加入到H1的训练集中,如此形成H1的新的训练集如下:
L'1=L∪{x|x∈U且H2(x)=H3(x)}
类似的,扩充H2和H3的训练集分别为L'2和L'3。当扩充完成后,将三个分类器重新训练,再进行扩充。如此重复迭代,直至满足模型迭代结束条件:H1,H2,H3的训练集都不再扩充,此时训练过程结束。
经人工标记的初始测试集Lt对每一次循环得到的模型进行评估,具体地,比较第t次循环训练的模型在Lt上的分类精确度得分和第t-1次循环训练的模型对应的得分,若第t次循环训练的模型的得分大于第t-1次循环训练的模型对应的得分,则对训练集进行扩充。
在训练集扩充过程中,如果H2和H3对x的预测正确,H1得到一个有效的新的样本,即有效地、精确地扩充了训练集,这有助于提高学习性能学习到分类更为准确的模型;否则,H1将得到一个带有噪音标签的样本即错误标签的样本,这将不利于学习到分类性能好的模型。
当分类器还分类性能还比较差的时候很有可能会将错误标记样本引入到剩下的分类器中从而产生噪声,但根据噪声学习理论提出的相关保证条件只要大部分未标记数据的标记是正确的,那么引入的噪声数据所带来的分类错误率会被正确标记的训练样本抵消。
证明如下:设有m个样本,且满足约束条件,如果新标记的样本集的数量足够,则分类噪声率的增加被补偿,即由噪声学习理论可知,当样本数量m满足公式(1):
假设Hi与目标函数H*不相符的概率为公式(2):
P[d(Hi,H*)≥ε]≤δ(2)
其中,ε是假设最坏情况下的分类错误率,η<0.5表示是分类噪声率的上界,N是可能假设的数量,δ是置信度。
在每次循环中,分类器H2和H3从U中选择一些样本为H1扩充训练集。因为分类器在迭代过程中不断的被重新定义,在不同的回合中,所选择的标签的数量和具体的未标记的样本可能不同。让和分别表示在第t次循环和第t-1次循环中用于H1训练的标签样本集合。然后,H1的第t次循环和第t-1次循环的训练集合分别用和以及他们的样本个数分别用|L∪Lt|、|L∪Lt-1|表示。在第t-1次循环中被标记了的无标记的样本将不会放进原始的L集合中。然而,在第t次循环中Lt-1中所有的样本将被认为是无标签的样本再次放进U中,H1的第t次循环和第t-1次循环的训练集合满足约束条件如下:。
其中,是第t次循环迭代H2,H3为H1新标记的训练集,是H2,H3第t次循环迭代的错误率的上限,ηL是初始训练集L的噪声率。ηL通常很小,一般实验初始假定则当|Lt|>|Lt-1|时,由公式(2)可推算出即可等价于公式(3):
是由分类器H2,H3决定的,如果不加人为控制的话,上述不等式在很多情况下是不成立的,故需要控制每次循环标记的样本数。即假设样本个数限制为s,具体公式为(4):
s可以保证为了进一步保证则需要保证条件如公式(5):
由噪声学习理论可知,保证了上述两个公式(4)、(5)那么就可以使得模型在迭代过程中保证了分类器的分类错误越来越少。
在模型训练过程中,用公式(3)来判定由H2,H3为H1新标记的训练集Lt 1是否应该加入到H1的新训练集中。即使用人工标记的初始测试集Lv对每次迭代的模型进行评估从而决定是否继续往下一层更新模型。
S4、使用S3中训练的最终模型对未标记样本集U进行标记。
将上述迭代后的三个稳定的模型集成再对未标记的样本集进行标记,即采用了集成学习,这有助于提高泛化能力。具体可描述为:采用软投票的方式对预测结果进行集成,即基于三个分类器对x预测样本为某一类别的概率的平均值作为标准,概率最高的对应的类型为最终的预测结果,软投票经常比硬投票表现的更好,因为它给予高自信的投票更大的权重。因为最后将对未标记样本的预测结果即模型预测为真阳性变异的样本标记为TV、预测为假阳性变变异的样本标记为FV加入到输入的VCF文件中,故它可以很容易地集成到现有的基因检测分析流程中。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
收集了两组实验数据,一组是来自GARFIELD-NGS提供的根据Illumina平台分别在NA12878参考样品上进行的23个高覆盖率外显子组测序实验得到的ILM_INDEL_Test_Set和ILM_SNP_Test_Set,另外一组是用于对金标准真实数据集的突变识别进行基准测试的工具hap.py提供的在Illumina平台对NA12878参考样品21号染色体上进行的覆盖度为60X的外显子组测序实验得到的NA12878-GATK3-chr21实验数据。根据实际靶向目标捕获测序技术捕获的碱基插入或缺失变异和s单个碱基替换变异分布对NA12878-GATK3-chr21原始实验数据进行随机抽样,产生了多组NA12878-GATK3-chr21-test测试集,并且在各个NA12878-GATK3-chr21-test测试集上使用GARFIELD-NGS、GATK的最佳实践hard-filters和IVARCGENT-NGS进行分析比对结果,均得到一致的结论,由于篇幅有限故选取其中一组测试集在本发明分析验证即选取的测试集包括317个indel突变和2306个snv突变具体如表2所示。
表2实验数据集
(1)对IVARCGENT-NGS的性能的评估
在NA12878-GATK3-chr21获取的317个indel(即基因的删除、插入突变)以及2306个snv(即基因的碱基替换突变)的数据集上对IVARCGENT-NGS的性能进行评估。由表3、表4、表5、表6、表7和表8可看出,IVARCGENT-NGS在尽可能多地保留真阳性突变同时显著降低假阳性率。
表3对真假阳性突变分类的混淆矩阵。对NA12878-GATK3-chr21上的indel集各算法的性能比较。
表4显示主要分类指标的文本报告。对NA12878-GATK3-chr21上的indel集,各算法的性能比较
表5对真假阳性突变分类的混淆矩阵。对NA12878-GATK3-chr21上的snv集各算法性能比较
表6显示主要分类指标的文本报告。对NA12878-GATK3-chr21的snp集上各算法的性能比较
表7突变真假阳性的分类精确度。在ILM提供的Test数据集上,各算法性能的性能比较
表8将IVARCGENT-NGS与Tri-training模型进行比对。
从图3a显示的本模型ROC曲线图以及图b显示的本模型精度-敏感度(precision-sensitivity)曲线图充分表明本模型性能的优良性。
(2)将GARFIELD-NGS、GATK的最佳HFHF配置和IVARCGENT-NGS进行对比。
分别在三组实验数据集上我们使用了GARFIELD-NGS和GATK的最佳HFHF配置对数据集上的突变进行了重新分析。
结果分别如表3、表4、表5、表6、表7所示。IVARCGENT-NGS在各组数据集中均表现出更高的准确率,均优于GARFIELD-NGS和GATK的最佳实践hard-filters。
可见GATK配合最佳HF配置采用一刀切掉的方法迫使可能丢弃真实的突变或为了保留部分真阳性而引入了大量的假阳性。同时由于不同的测序平台、使用不同的化学试剂、应用不同的比对方法等因素,这导致产生真假阳性基因突变的多样性、动态性以及丰富性等,GARFIELD-NGS虽然提出用深度学习的模型来进行突变分析,但是当应用到靶向目标捕获测序技术测序领域,尤其是当检测基因芯片为小panel(捕获区域的探针分子),一般指的是分子捕获探针为120bp左右,由于该技术检测出的突变位点较少(如低于5000个左右时)无法为GARFIELD-NGS提供充足的训练集来学习新的精确预测模型,本算法不存在该问题,故使其性能明显低于基于半监督学习算法的IVARCGENT-NGS。
(3)将IVARCGENT-NGS与原Tri-training算法进行对比。
分别在三组实验数据集上我们使用了IVARCGENT-NGS与原Tri-training算法对数据集上的突变进行了建模以及预测。
显然IVARCGENT-NGS在各项指标上优于原Tri-training算法。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (10)
1.一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法,其特征在于,包括以下步骤:
S1、对基因突变的检测数据进行预处理;
S2、基于三重训练法选择三个不同的监督学习算法构造三个不同的初始分类器H1,H2,H3,即选用三个不同的监督学习自动机并基于初始训练集生成的学习器;
S3、对步骤S2中的H1,H2,H3进行训练得到扩充训练集,由此对模型进行更新;
S4、使用S3中训练的模型对未标记样本集U进行标记,根据标记结果完成过滤。
2.根据权利要求1所述的针对靶向捕获基因测序数据的假阳性基因突变过滤方法,其特征在于,步骤S1具体如下:
S101、读取符合VCF格式标准的输出文件,从中读取各个属性的数据,采用数据标准化和归一化方法对样本数据进行预处理;
S102、分别读取经人工标记的初始训练样本集L和经人工标记的初始测试集Lt。
3.根据权利要求2所述的针对靶向捕获基因测序数据的假阳性基因突变过滤方法,其特征在于,步骤S102中,初始训练集L的样本量大小不低于100,初始测试集Lt的样本量大小不低于100。
4.根据权利要求1所述的针对靶向捕获基因测序数据的假阳性基因突变过滤方法,其特征在于,步骤S3中,更新训练集的算法如下:
设L满足最小规模;令U为未标记样本集,x为无标记样本集中的任意一个元素,如果H2,H3对x的预测结果一致,将x标记为H2(x)并加入到H1的训练集中形成新的训练集;H2和H3的训练集分别扩充为L'2和L'3;然后,H1,H2,H3重新训练,重复迭代直至满足模型迭代结束条件,即H1,H2,H3训练集不再扩充变化,训练过程结束。
5.根据权利要求4所述的针对靶向捕获基因测序数据的假阳性基因突变过滤方法,其特征在于,使用人工标记的初始测试集Lt对每次迭代的模型进行评估,比较第t次循环训练的模型在Lt上的分类精确度得分和第t-1次循环训练的模型对应的得分,若第t次循环训练的模型的得分大于第t-1次循环训练的模型对应的得分,则对训练集进行扩充。
6.根据权利要求5所述的针对靶向捕获基因测序数据的假阳性基因突变过滤方法,其特征在于,训练集的扩充步骤具体为:如果H2和H3对x的预测正确,H1得到一个新增的有效样本x,即x被扩充进入训练集;否则H1将得到一个带有噪音标签,即错误标签的样本。
7.根据权利要求1所述的针对靶向捕获基因测序数据的假阳性基因突变过滤方法,其特征在于,步骤S3中,设有m个样本满足约束条件,样本数量m应满足的约束条件为:
假设Hi与目标函数H*不相符的概率为:
P[d(Hi,H*)≥ε]≤δ
其中,ε是假设最坏情况下的分类错误率,η是分类噪声率的上界,默认值是0.5,N是假设的数量,δ是置信度。
8.根据权利要求7所述的针对靶向捕获基因测序数据的假阳性基因突变过滤方法,其特征在于,对模型进行更新的方法为:在模型的训练过程中,判定由H2,H3为H1新标记的训练集是否应该加入到H1的新训练集中。
9.根据权利要求8所述的针对靶向捕获基因测序数据的假阳性基因突变过滤方法,其特征在于,设则当|Lt|>|Lt-1|时,推算出根据下式判定由H2,H3为H1新标记的训练集是否应该加入到H1的新训练集中;
其中,是H2,H3第t次迭代的错误率的上限。
10.根据权利要求9所述的针对靶向捕获基因测序数据的假阳性基因突变过滤方法,其特征在于,步骤S4中,在模型的每一次循环中,分类器H2和H3从U中选择样本为H1扩充训练集,和分别表示在第t次循环和第t-1次循环中用于H1训练的标签样本集合;然后,令H1的第t次循环和第t-1次循环的训练集分别为和对应的样本个数分别用表示;在第t-1次循环中,被标记的无标记的样本不再放进原始的L集合中,在第t次循环中,中所有的无标签的样本再次放进U中;
H1的第t次和第t-1次的训练集合满足约束条件如下:
其中,Lt是第t次迭代H2,H3为H1新标记的训练集,ηL是初始训练集L的噪声率;
控制每次循环标记的样本数;样本个数的限制s计算如下:
s满足不等式在此基础上,为了满足则需满足条件:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910370936.6A CN110084314B (zh) | 2019-05-06 | 2019-05-06 | 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910370936.6A CN110084314B (zh) | 2019-05-06 | 2019-05-06 | 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110084314A true CN110084314A (zh) | 2019-08-02 |
CN110084314B CN110084314B (zh) | 2021-08-13 |
Family
ID=67418730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910370936.6A Active CN110084314B (zh) | 2019-05-06 | 2019-05-06 | 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110084314B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462823A (zh) * | 2020-04-08 | 2020-07-28 | 西安交通大学 | 一种基于dna测序数据的同源重组缺陷判定方法 |
CN111489792A (zh) * | 2020-04-14 | 2020-08-04 | 西安交通大学 | 一种基于半监督学习框架的t细胞受体序列分类方法 |
CN111863135A (zh) * | 2020-07-15 | 2020-10-30 | 西安交通大学 | 一种假阳性结构变异过滤方法、存储介质及计算设备 |
CN115171781A (zh) * | 2022-07-13 | 2022-10-11 | 广州市金圻睿生物科技有限责任公司 | 肿瘤变异位点是否为噪音的识别方法、系统、装置和介质 |
CN116895332A (zh) * | 2023-09-11 | 2023-10-17 | 臻和(北京)生物科技有限公司 | 一种酶切法打断建库中人工片段产生的假阳性突变的过滤方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663264A (zh) * | 2012-04-28 | 2012-09-12 | 北京工商大学 | 桥梁结构健康监测静态参数的半监督协同评估方法 |
CN105378104A (zh) * | 2013-03-15 | 2016-03-02 | 威拉赛特公司 | 用于样品分类的方法和组合物 |
US9805462B2 (en) * | 2013-05-14 | 2017-10-31 | Kla-Tencor Corporation | Machine learning method and apparatus for inspecting reticles |
CN108256052A (zh) * | 2018-01-15 | 2018-07-06 | 成都初联创智软件有限公司 | 基于tri-training的汽车行业潜在客户识别方法 |
CN109523547A (zh) * | 2018-12-21 | 2019-03-26 | 四川大学华西医院 | 一种影像结节检出的方法及装置 |
CN109523526A (zh) * | 2018-11-08 | 2019-03-26 | 腾讯科技(深圳)有限公司 | 组织结节检测及其模型训练方法、装置、设备和系统 |
CN109658983A (zh) * | 2018-12-20 | 2019-04-19 | 深圳市海普洛斯生物科技有限公司 | 一种识别和消除核酸变异检测中假阳性的方法和装置 |
-
2019
- 2019-05-06 CN CN201910370936.6A patent/CN110084314B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663264A (zh) * | 2012-04-28 | 2012-09-12 | 北京工商大学 | 桥梁结构健康监测静态参数的半监督协同评估方法 |
CN105378104A (zh) * | 2013-03-15 | 2016-03-02 | 威拉赛特公司 | 用于样品分类的方法和组合物 |
US9805462B2 (en) * | 2013-05-14 | 2017-10-31 | Kla-Tencor Corporation | Machine learning method and apparatus for inspecting reticles |
CN108256052A (zh) * | 2018-01-15 | 2018-07-06 | 成都初联创智软件有限公司 | 基于tri-training的汽车行业潜在客户识别方法 |
CN109523526A (zh) * | 2018-11-08 | 2019-03-26 | 腾讯科技(深圳)有限公司 | 组织结节检测及其模型训练方法、装置、设备和系统 |
CN109658983A (zh) * | 2018-12-20 | 2019-04-19 | 深圳市海普洛斯生物科技有限公司 | 一种识别和消除核酸变异检测中假阳性的方法和装置 |
CN109523547A (zh) * | 2018-12-21 | 2019-03-26 | 四川大学华西医院 | 一种影像结节检出的方法及装置 |
Non-Patent Citations (1)
Title |
---|
张晓东等: "基于特征挖掘的基因组缺失变异集成检测方法", 《计算机科学》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462823A (zh) * | 2020-04-08 | 2020-07-28 | 西安交通大学 | 一种基于dna测序数据的同源重组缺陷判定方法 |
CN111462823B (zh) * | 2020-04-08 | 2022-07-12 | 西安交通大学 | 一种基于dna测序数据的同源重组缺陷判定方法 |
CN111489792A (zh) * | 2020-04-14 | 2020-08-04 | 西安交通大学 | 一种基于半监督学习框架的t细胞受体序列分类方法 |
CN111863135A (zh) * | 2020-07-15 | 2020-10-30 | 西安交通大学 | 一种假阳性结构变异过滤方法、存储介质及计算设备 |
WO2022011855A1 (zh) * | 2020-07-15 | 2022-01-20 | 西安交通大学 | 一种假阳性结构变异过滤方法、存储介质及计算设备 |
CN111863135B (zh) * | 2020-07-15 | 2022-06-07 | 西安交通大学 | 一种假阳性结构变异过滤方法、存储介质及计算设备 |
CN115171781A (zh) * | 2022-07-13 | 2022-10-11 | 广州市金圻睿生物科技有限责任公司 | 肿瘤变异位点是否为噪音的识别方法、系统、装置和介质 |
CN116895332A (zh) * | 2023-09-11 | 2023-10-17 | 臻和(北京)生物科技有限公司 | 一种酶切法打断建库中人工片段产生的假阳性突变的过滤方法 |
CN116895332B (zh) * | 2023-09-11 | 2023-12-05 | 臻和(北京)生物科技有限公司 | 一种酶切法打断建库中人工片段产生的假阳性突变的过滤方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110084314B (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084314A (zh) | 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法 | |
US10402748B2 (en) | Machine learning methods and systems for identifying patterns in data | |
CN109635108B (zh) | 一种基于人机交互的远程监督实体关系抽取方法 | |
Silva-Rodriguez et al. | Self-learning for weakly supervised gleason grading of local patterns | |
US20180165413A1 (en) | Gene expression data classification method and classification system | |
CN105389583A (zh) | 图像分类器的生成方法、图像分类方法和装置 | |
US11837329B2 (en) | Method for classifying multi-granularity breast cancer genes based on double self-adaptive neighborhood radius | |
CN105930792A (zh) | 一种基于视频局部特征字典的人体动作分类方法 | |
CN109933619A (zh) | 一种半监督分类预测方法 | |
CN108877947A (zh) | 基于迭代均值聚类的深度样本学习方法 | |
CN114596467A (zh) | 基于证据深度学习的多模态影像分类方法 | |
CN105160598B (zh) | 一种基于改进em算法的电网业务分类方法 | |
Jiang et al. | Dynamic proposal sampling for weakly supervised object detection | |
Krishnapuram et al. | Joint classifier and feature optimization for cancer diagnosis using gene expression data | |
CN110263804A (zh) | 一种基于安全半监督聚类的医学影像分割方法 | |
Haase-Schütz et al. | Iterative label improvement: Robust training by confidence based filtering and dataset partitioning | |
CN103093239B (zh) | 一种融合了点对和邻域信息的建图方法 | |
Ghanmi et al. | Table detection in handwritten chemistry documents using conditional random fields | |
Lin et al. | Regulating Balance Degree for More Reasonable Visual Question Answering Benchmark | |
CN116226629B (zh) | 一种基于特征贡献的多模型特征选择方法及系统 | |
Xu et al. | Meta-learning-based sample discrimination framework for improving dynamic selection of classifiers under label noise | |
Naik et al. | Prediction of Genetic Disorders using Machine Learning | |
Aarthi et al. | Improving Class Separability for Microarray datasets using Genetic Algorithm with KLD Measure | |
Flores et al. | Boosted-LDA for biomedical data analysis | |
CN117011510A (zh) | 一种基于提示学习的弱监督定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |