CN115631791A - 胚系位点变异致病性预测方法、装置、终端及介质 - Google Patents

胚系位点变异致病性预测方法、装置、终端及介质 Download PDF

Info

Publication number
CN115631791A
CN115631791A CN202211338022.XA CN202211338022A CN115631791A CN 115631791 A CN115631791 A CN 115631791A CN 202211338022 A CN202211338022 A CN 202211338022A CN 115631791 A CN115631791 A CN 115631791A
Authority
CN
China
Prior art keywords
brca1
brca2
variation
model
pathogenicity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211338022.XA
Other languages
English (en)
Inventor
张博
杨峰
石涵
洪跟东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ruijing Biotechnology Co ltd
Original Assignee
Shanghai Ruijing Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ruijing Biotechnology Co ltd filed Critical Shanghai Ruijing Biotechnology Co ltd
Priority to CN202211338022.XA priority Critical patent/CN115631791A/zh
Publication of CN115631791A publication Critical patent/CN115631791A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请提供胚系位点变异致病性预测方法、装置、终端及介质,通过对变异位点数据进行赋值并进行功能性注释得到模型训练数据集,通过使用优化后独特的损失函数,训练得到用于胚系位点变异致病性预测的CNN‑XGBoost模型,该模型对训练集分类效果达到了99%准确度,在对平行无交集的测试数据集预测中准确度高达96%,克服了现存方法的过度训练的偏向性。利用本发明提供的预测模型可以辅助临床报告中被解读为意义不明确的基因突变位点的解读,提高变异位点解读的准确性并辅助医生的临床决策。另外,在产品设计初期可通过模型对靶标区域基因变异位点致病性致病性进行预测,辅助基因panel的设计和优化,减少致病位点的漏检,从而提高产品性能。

Description

胚系位点变异致病性预测方法、装置、终端及介质
技术领域
本申请涉及生物行业分子检测技术领域,特别是涉及胚系位点变异致病性预测方法、装置、终端及介质。
背景技术
基因变异的解读对于临床决策有着重要指导意义,包括用药指导、治疗方式等。随着二代高通量测序技术的发展,越来越多的基因变异信息被发现,变异位点的临床解读也面临越来越大的挑战。尽管国际癌症研究机构(International Agency for Research onCancer,IARC)、美国医学遗传学与基因组学学会(American College of MedicalGenetics and Genomics,ACMG)和胚系突变等位基因解读实证联盟(Evidence-basedNetwork for the Interpretation of Germline Mutant Alleles,ENIGMA)等对于变异位点的解读提供了指导原则,将基因变异分为五种类型:致病性、可能致病性、意义不明、可能良性及良性。然而,这些解读也都是基于有着大量研究基础的常见基因常见位点与特定疾病的相关性,更多的是基于既往发现进行的解读,因此依然有大量位点被解读为意义不明。而对于罕见基因及变异,缺乏较系统的研究,既往信息有限,更是不能很好的解读。
对于无热点的抑癌基因及DNA损伤修复基因的检测,往往是对全外显子进行覆盖,从而尽可能地捕捉到有害变异。由于覆盖区域过大,会导致大量检出的变异由于没有充足的证据支撑被归为意义不明确的一类,对于临床决策的指导意义有限。因此,如何更加准确地对变异位点进行解读,减少意义不明位点的归类,是整个基因变异位点解读领域面临的技术难题,本发明主要针对这一挑战提供全新的解决方案。
当下已有采用随机森林模型针对罕见中性失意变异进行训练,以达到对ClinVar数据库中的变异进行良恶性分类的目的,但表现效果并不好,准确度仅有0.893。也有采用随机森林模型针对ClinVar数据库中的变异进行良恶性分类,且准确度达到了0.99,但具有很强的偏向性和过度训练的问题。也有通过训练一个逻辑回归模型对ClinVar数据库中的变异进行良恶性分类,但同样这个工具也是面临着训练与预测来自同一个数据库的问题。因此,为了解决数据的过度训练并提高模型的范性,特别是对特定族群基因变异的解读,一个新型的机器学习模型成为本领域亟需研究的一个重要课题。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供胚系位点变异致病性预测方法、装置、终端及介质,用于解决现有的机器学习模型在胚系位点变异致病性预测中的表现不理想的技术问题。
为实现上述目的及其他相关目的,本申请的第一方面提供一种胚系位点变异致病性预测方法,包括:获取变异位点数据集,对所述变异位点数据集中的各变异位点数据按照是否为有害位点进行相应赋值,并基于一或多个基因变异指标对所述各变异位点数据进行功能性注释,以得到训练数据集;将基于卷积神经网络进行降维后的训练数据集输入XGBoost机器学习模型中,并使用基于样本平衡调整参数的损失函数,进行模型训练后得到用于胚系位点变异致病性预测的CNN-XGBoost模型。
于本申请的第一方面的一些实施例中,对所述变异位点数据集中的各变异位点数据按照是否为有害位点进行相应赋值包括:将所述变异位点数据集中的致病性变异位点数据和可能致病性变异位点数据按照有害位点进行赋值,并将所述变异位点数据集中的良性变异位点数据和可能良性变异位点数据按照无害位点进行赋值。
于本申请的第一方面的一些实施例中,基于一或多个基因变异指标对所述各变异位点数据进行功能性注释包括:基于基因突变频率值和/或变异有害性预测值对所述各变异位点数据进行功能性注释。
于本申请的第一方面的一些实施例中,所述基于样本平衡调整参数的损失函数包括:在Binary-Logistic回归损失函数中引入β系数对分类概率进行适应性调整;引入β系数后的损失函数被表示为:
Figure BDA0003915222510000021
其中,N表示样本数,yi表示第i个样本标签,pi表示第i个样本被分到第一类的概率;β为样本平衡调整参数。
于本申请的第一方面的一些实施例中,还包括通过一阶偏导计算和二阶偏导计算对所述引入β系数后的损失函数进行迭代更新计算,计算方式如下:
一阶偏导计算:gradient=pi(β-βyi+yi)-yi
二阶偏导计算:hessian=(yi+β-βyi)pi(1-pi);
其中,yi表示第i个样本标签,pi表示第i个样本被分到第一类的概率;β为样本平衡调整参数。
于本申请的第一方面的一些实施例中,还包括:基于网格搜索法对所述CNN-XGBoost模型的模型参数进行多轮调整;在每一轮调整中,先对若干模型参数进行粗目标范围遍历后保留最佳结果的参数值,再精细目标范围供进行下一轮调整,重复上述调整过程直至模型结果不再提升。
于本申请的第一方面的一些实施例中,所述CNN-XGBoost模型的结构包括卷积层和全连接层;输入数据在经过卷积层计算后连接一或多个所述全连接层;
所述卷积层表示为如下:
Figure BDA0003915222510000031
其中,C表示卷积层;l用于指示层;p,q作为当前层和下一层的索引;i,j表示行和列的索引;σ表示激活方法;x代表一个数据;θ代表卷积内核;b代表偏差;(u,v)代表卷积内核的维度;
所述全连接层通过激活函数和归一化函数将输入至全连接层的数据进行特征转化后作为分类器的输入数据;其中,所述激活函数包括ReLU激活函数,所述归一化函数包括Softmax函数。
为实现上述目的及其他相关目的,本申请的第二方面提供一种胚系位点变异致病性预测装置,包括:训练数据集生成模块,用于获取变异位点数据集,对所述变异位点数据集中的各变异位点数据按照是否为有害位点进行相应赋值,并基于一或多个基因变异指标对所述各变异位点数据进行功能性注释,以得到训练数据集;预测模型生成模块,用于将所述训练数据集输入XGBoost机器学习模型中,并使用基于样本平衡调整参数的损失函数,以进行模型训练后得到用于胚系位点变异致病性预测的CNN-XGBoost模型。
为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述胚系位点变异致病性预测方法。
为实现上述目的及其他相关目的,本申请的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述胚系位点变异致病性预测方法。
如上所述,本申请的胚系位点变异致病性预测方法、装置、终端及介质,具有以下有益效果:本发明通过对变异位点数据进行赋值并进行功能性注释得到模型训练数据集,通过使用优化后独特的损失函数,训练得到用于胚系位点变异致病性预测的CNN-XGBoost模型,该模型对训练集分类效果达到了99%准确度,在对平行无交集的测试数据集预测中准确度高达96%,克服了现存方法的过度训练的偏向性。利用本发明提供的预测模型可以辅助临床报告中被解读为意义不明确的基因突变位点的解读,提高变异位点解读的准确性并辅助医生的临床决策。另外,在产品设计初期可通过模型对靶标区域基因变异位点致病性进行预测,辅助基因panel的设计和优化,减少致病位点的漏检,从而提高产品性能。由于XGBoost模型本身具有防止过拟合的特点,同时本发明又做了训练集和测试集完全分离的设置(来自两个数据库),故更能证明模型的普适性。
附图说明
图1显示为本申请一实施例中的一种胚系位点变异致病性预测方法的流程示意图。
图2A显示为本申请一实施例中根据ClinVar数据库中具有良恶性标记的变异位点数据进行验证的模型训练ROC曲线。
图2B显示为本申请一实施例中根据ClinVitae数据库中具有良恶性标记的变异位点数据进行验证的模型训练ROC曲线。
图3显示为本申请一实施例中用于胚系位点变异致病性预测的CNN-XGBoost模型的结构示意图。
图4显示为本申请一实施例中电子终端的结构示意图。
图5显示为本申请一实施例中的一种胚系位点变异致病性预测装置的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
为解决上述背景技术中的问题,本发明提供胚系位点变异致病性预测方法、装置、终端及介质,旨在通过结合深度卷积神经网络和优化的损失函数的XGBoost机器学习两个方向的结合创新来提升模型对于不同数据样本的表现。与此同时,为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案的进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
本发明实施例提供胚系位点变异致病性预测方法、胚系位点变异致病性预测方法的系统、以及存储用于实现胚系位点变异致病性预测方法的可执行程序的存储介质。就胚系位点变异致病性预测方法的实施而言,本发明实施例将对胚系位点变异致病性预测的示例性实施场景进行说明。
如图1所示,展示了本发明实施例中的一种胚系位点变异致病性预测方法的流程示意图。本实施例中的胚系位点变异致病性预测方法主要包括如下各步骤:
步骤S11:获取变异位点数据集,对所述变异位点数据集中的各变异位点数据按照是否为有害位点进行相应赋值,并基于一或多个基因变异指标对所述各变异位点数据进行功能性注释,以得到训练数据集。
于本实施例的一些示例中,可从公共数据库中获取变异位点数据集,获取到的变异位点数据集包括如下几种数据类型:致病性变异位点数据、可能致病性变异位点数据、良性变异位点数据及可能良性变异位点数据。所述公共数据库可以是ClinVar数据库,该数据库是与疾病相关的人类基因组变异数据库,其整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库在遗传变异和临床表现方面的数据信息,形成一个标准的、可信的遗传变异-临床相关的数据库。
于本实施例的一些示例中,对所述变异位点数据集中的各变异位点数据按照是否为有害位点进行相应赋值的方式包括:将所述变异位点数据集中的致病性变异位点数据和可能致病性变异位点数据按照有害位点进行赋值,并将所述变异位点数据集中的良性变异位点数据和可能良性变异位点数据按照无害位点进行赋值。举例来说,将致病性变异位点数据和可能致病性变异位点数据赋值为1,相应地将良性变异位点数据和可能良性变异位点数据赋值为0。但应理解,上述赋值方式仅为本发明的其中一个实施例,而非用于限定本发明的保护范围。
于本实施例的一些示例中,所述基于一或多个基因变异指标对所述各变异位点数据进行功能性注释,其包括:基于基因突变频率值和/或变异有害性预测值对所述各变异位点数据进行功能性注释。
可选的,基因突变频率值可从大型公共数据库中查找到,此处的大型公共数据库例如人类基因变异数据库1000Genomes、ExAC、ESP、gnomAD等。
可选的,变异有害性预测值可使用如下任一种或多种预测工具得到:SIFT(Sorting Intolerant From Tolerant)预测工具、LRT(Likelihood Ratio Test)预测工具、Mutation Assessor预测工具、FATHMM(Functional Analysis Through Hidden MarkovModels)预测工具、PolyPhen2(Polymorphism Phenotyping v2)预测工具、MutationTaster预测工具、PROVEAN(Protein Variation Effect Analyzer)预测工具、REVEL(RareExome Variant Ensemble Learner)预测工具、Gene Splicer预测工具、SPIDEX(a Pre-computed Index of Splicing Variants)预测工具、HSF(Human Splicing Finder)预测工具、GERP(Genomic Evolutionary Rate Profiling)预测工具等。通过上述的预测工具计算得到对应的分值来进行变异有害性预测,例如使用如下分值中的任一种:MutPred分值、Eigen分值、M-CAP分值、FATHMM分值、fathmm-MKL coding分值、GERP++RS分值,LRT分值,MetaLR分值,MetaSVM分值,MutationAssessor分值,PROVEAN分值,SIFT分值,SiPhy_29way_logOdds分值等。
步骤S12:将降维后的训练数据集输入CNN-XGBoost机器学习模型中,并使用基于样本平衡调整参数的损失函数,进行模型训练后得到用于胚系位点变异致病性预测的CNN-XGBoost模型。
应理解的是,CNN-XGBoost是本发明提供的专用于预测胚系位点变异致病性的机器学习模型,主要由卷积神经网络CNN和XGBoost模型组成。XGBoost机器学习模型是eXtreme Gradient Boosting的简称,属于梯度提升树(GBDT)的范畴,GBDT的基本思想是让新的基模型去拟合前面模型的残差,从而不断将加法模型的偏差降低。XGBoost是集成学习中非常重要的一类算法,其基本原理是通过生成一系列弱学习器并在稍后的训练中强化弱学习器的性能来达到模型总体提升的效果。XGBoost相比其他模型特别是随机森林具有许多优点:1)使用包括正则化、收缩、取样等多策略防止过拟合;2)对损失函数数学上的优化;3)支持并行化,训练速度快;4)添加了对稀疏数据的处理;5)当预测结果收敛时提前停止建树,加快训练速度;6)设置样本权重,通过调整权重可以去更加关注一些样本,达到弱项强化学习的目的。
于本实施例的CNN-XGBoost机器学习模型中,卷积神经网络CNN主要由卷积层和全连接层构成,用于将输入的18维原始数据降至6维数据后输入到XGBoost模型中。
所述卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最佳化得到;卷积运算的目的是提取输入的不同特征,例如第一层卷积层提取到的是一些低级特征,如边缘、线条和角等层级,更多层的卷积层能从低级特征中迭代提取更为复杂的特征。
本实施例中的卷积层可被描述为:
Figure BDA0003915222510000061
其中,C表示卷积层;l用于指示层;p,q作为当前层和下一层的索引;i,j表示行和列的索引;σ表示激活方法;x代表一个数据;θ代表卷积内核。
在经过卷积层,通常连接1个或1个以上的全连接层,全连接层中的每个神经元与其前一层的所有神经元进行全连接,全连接层可以整合卷积层中具有类别区分性的局部信息。
本实施例中的全连接层通过激活函数和归一化函数将输入至全连接层的数据转化为具有全新特征的数据后作为XGBoost机器学习模型分类器的输入。具体而言,所述激活函数可选用ReLU激活函数:ReLU(x)=max(0,x);所述归一化函数可选用Softmax函数:
Figure BDA0003915222510000071
XGBoost机器学习模型在解决二分类问题上通常采用Binary-Logistic回归损失函数作为目标函数,并对下面的损失函数进行最优解计算:
Figure BDA0003915222510000072
其中,N表示样本数,yi表示第i个样本标签,pi表示第i个样本被分到第一类的概率。
应理解的是,Binary-Logistic回归损失函数是指二分类Logistic回归损失函数,因变量y只有“是、否”两个取值,记为1和0。假设在自变量x1,x2,...,xp作用下,y取“是”的概率是p,则取“否”的概率是(1-p),实为当y取“是”发生的概率p与自变量x1,x2,...,xp的关系。
具体而言,最优解计算的过程本质上是一种优化过程,优化的主要目标是找到一个方向,参数朝着这个方向移动之后使得损失函数的值能够减小,因此需要计算方程的一阶偏导(梯度)和二阶偏导(Hessian矩阵)来迭代更新损失函数。
一阶偏导(梯度):gradient=pi-yi; 公式3)
二阶偏导(hessian):hessian=pi(1-pi); 公式4)
优选的,为了能够有针对性地调整假阴性和假阳性,并能应对样本中阴性样本和阳性样本数量的不平衡,在本发明实施例通过引入β系数对损失函数的分类概率进行适应性的调整,具体实施表现为基于样本平衡调整参数的损失函数如下:
Figure BDA0003915222510000073
其中,N表示样本数,yi表示第i个样本标签,pi表示第i个样本被分到第一类的概率;β为样本平衡调整参数。
调整后的目标函数的更新过程则通过调整后的一阶偏导和二阶偏导进行迭代更新:
一阶偏导(梯度):gradient=pi(β-βyi+yi)-yi; 公式6)
二阶偏导(hessian):hessian=(yi+β-βyi)pi(1-pi); 公式7)
其中,yi表示第i个样本标签,pi表示第i个样本被分到第一类的概率;β为样本平衡调整参数。
通过对基于样本平衡调整参数的损失函数进行迭代,本实施例通过引入β系数对损失函数的分类概率进行了相应调整,从而可以很好地应对样本中阴性样本和阳性样本数量的不平衡,故而可以达到优化分类准确率的目的。
进一步地,本发明实施例除了使用基于样本平衡调整参数的个性化的损失函数外,对XGBoost机器学习模型的模型参数也进行了相应优化,具体优化过程包括:基于网格搜索法对所述用于胚系位点变异致病性预测的CNN-XGBoost模型的模型参数进行多轮调整;在每一轮调整中,先对若干模型参数进行粗目标范围遍历后保留最佳结果的参数值,再精细目标范围供进行下一轮调整,重复上述调整过程直至模型结果不再提升。应理解的是,网格搜索法是指定参数值的一种穷举搜索方法,通过将估计函数的参数通过交叉验证的方法进行优化来得到最优的学习算法。也即,将各个参数可能的取值进行排列组合,列出所有可能的组合结果生成“网格”,然后将各组合用于模型训练,并使用交叉验证对表现进行评估,在拟合函数尝试了所有的参数组合后,返回一个合适的分类器,自动调整至最佳参数组合。
需说明的是,所述XGBoost机器学习模型的模型参数包括但不限于:树的最大深度(max_depth)、正则项系数(gamma、alpha、lambda)、最小叶子节点权重和(min_child_weight)、随机采样比例(subsample)、学习率(eta)等。其中,树的最大深度(max_depth)常用3~10之间的数字,树的最大深度(max_depth)取值越大则模型学习越具体;正则项系数gamma表示正则化项控制叶子节点数量的复杂度,其制定了节点分裂所需的最小损失函数下降值,gamma值越大则算法越保守;正则项系数alpha表示L1正则化项权重系数,可应用于高维度情况下以加快算法速度;正则项系数lambda表示L2正则化项权重系数,用于控制XGBoost的正则化部分,可减少过拟合;最小叶子节点权重和(min_child_weight)决定最小叶子节点样本权重和,取较大值可避免模型学习到局部的特殊样本;随机采样比例(subsample)用于控制每棵树随机采样的比例,取值越小则算法越保守以避免过拟合。学习率(eta)用于通过减少每一步的权重提高模型的鲁棒性。
举例来说,第一轮调整可针对树的最大深度(max_depth)、和最小叶子节点权重和(min_child_weight)进行调整,例如最优结果由最大深度为9、最小权重为1时获得。第二轮调整针对正则项系数gamma值进行调整,最优结果由gamma=0时获得;第二轮还针对训练样本采样比例和构建树采样比例进行调整,最优结果由两个参数均为0.8时获得。第三轮针对reg_lambda(L2正则化项权重系数)进行调整,最优结果由reg_lambda=0时获得。第四轮针对弱学习器的数量和交叉验证数进行调整,最有结果由弱学习器取值5000且交叉验证数取值10时获得。
为验证本发明实施例中改良后的用于胚系位点变异致病性预测的CNN-XGBoost模型的预测精准度,使用独立于ClinVar数据库和ClinVitae数据库中的8849个具有良恶性标记的变异位点数据进行验证性的预测分类,最终实现了高达96%的准确率。其中,根据ClinVar数据库中具有良恶性标记的变异位点数据进行验证的模型训练ROC曲线结果如图2A所示,根据ClinVitae数据库中具有良恶性标记的变异位点数据进行验证的模型训练ROC曲线结果如图2B所示。
应理解的是,ROC曲线(Receiver Operating Characteristic Curve)是指接受者操作特性曲线,用于反映敏感性与特异性之间的关系,横轴为特异性(亦称为假阳性率False Positive Rate(误报率)),横轴越接近0则准确率越高;纵轴为敏感度(亦称为真阳性率True Positive Rate(敏感度)),纵轴越大代表准确率约好。根据曲线位置,可将整个图划分为2个部分,曲线下方部分的面积称为AUC(area Under Curve),用于表示预测准确性,AUC值越高,即曲线下方面积越大,说明预测准确率越高;而曲线越接近左上角则表示预测准确率越高。
除此之外,本发明实施例还将本发明中基于XGBoost进行改良后的用于胚系位点变异致病性预测的CNN-XGBoost模型与其他预测模型进行了横向比较,测试数据的来源主要是ClinVar数据库和ClinVitae数据库,比较的指标是AUC值(ROC曲线下方与坐标轴围成的面积),参与比较的预测模型包括:REVEL预测模型、MetaLR预测模型、MetaSVM预测模型、CADD预测模型、RENOVO预测模型、MLVar预测模型,比较结果如下所示:
预测模型CNN-XGBoost,ACU值0.999,数据来源是ClinVar数据库/ClinVitae数据库;
预测模型REVEL,ACU值0.957,数据来源是ClinVar数据库;
预测模型MetaLR,ACU值0.917,数据来源是ClinVar数据库;
预测模型MetaSVM,ACU值0.933,数据来源是ClinVar数据库;
预测模型CADD,ACU值0.902,数据来源是ClinVar数据库;
预测模型RENOVO,ACU值0.994,数据来源是ClinVar数据库;
预测模型MLVar,ACU值0.973,数据来源是ClinVitae数据库。
从上述内容可知,相比于现有的预测模型而言,本发明实施例提供的基于XGBoost进行改良后的用于胚系位点变异致病性预测的CNN-XGBoost模型(CNN-XGBoost)在AUC值上的表现为最佳。
于本实施例中,所述胚系位点变异致病性预测方法还包括:利用训练好的用于胚系位点变异致病性预测的CNN-XGBoost模型对公共数据库中意义不明的变异位点进行预测,以降低公共数据库中意义不明的变异位点的比例。以ClinVar数据库为例,采用本实施例的用于胚系位点变异致病性预测的CNN-XGBoost模型对ClinVar数据库中184920个意义不明的变异位点进行预测,其中有24%的变异位点被成功预测为有害变异,因此大大降低了意义不明的变异位点的比例,更有助于临床决策指导。
于本实施例中,所述胚系位点变异致病性预测方法还包括:利用训练好的用于胚系位点变异致病性预测的CNN-XGBoost模型对BRCA1、BRCA2基因编码区域进行致病变异预测,以预测识别其中的有害变异位点后生成恶性变异数据集。
应理解的是,BRCA1、BRCA2是两种具有抑制恶性肿瘤发生作用的基因,其通过编码产生肿瘤抑制蛋白,从而在调节人体细胞的复制、遗传物质DNA损伤修复、细胞的正常生长方面有重要作用。当这两种基因任一发生突变或改变,其蛋白产物不进行或不能正常行使功能,DNA损伤可能得不到适当的修复,从而使细胞可能形成其他遗传信息的改变,导致癌症。也即,基因BRCA1/2阳性意味着女性/男性有BRCA1或BRCA2基因突变,或两者均有突变,女性/男性患有乳腺癌和/或卵巢癌(男性无)的风险增加。
举例来说,采用本实施例的用于胚系位点变异致病性预测的CNN-XGBoost模型对BRCA1、BRCA2两个基因编码区域进行致病变异预测后共产生了1762个有效变异能够被成功注释为有害变异位点,为基因包(Gene Panel)的研发性能优化提供较大的指导意义。Gene表示基因,Chr表示染色体,Start表示染色体上的起始位点,End表示染色体上的结束位点,Ref表示参考基因组上该位点的碱基,Alt表示与参考基因组序列比较发生突变的碱基。
其中,1762个有效变异能够被成功注释为有害变异位点的信息如下所示,每一行代表2个有害变异位点的信息,每个有害变异位点的信息表示为:基因(Gene),染色体(Chr),染色体上的起始位点(Start),染色体上的结束位点(End),参考基因组上该位点的碱基(Ref),参考基因组序列比较发生突变的碱基(Alt),即Gene,Chr,Start,End,Ref,Alt。
BRCA1,17,41196332,41196332,T,A;
BRCA1,17,41196368,41196368,C,T;
BRCA1,17,41196409,41196409,G,A;
BRCA1,17,41197230,41197230,C,T;
BRCA1,17,41197404,41197404,G,A;
BRCA1,17,41197709,41197709,G,T;
BRCA1,17,41197710,41197710,G,A;
BRCA1,17,41197724,41197724,T,C;
BRCA1,17,41197729,41197729,T,C;
BRCA1,17,41197732,41197732,G,A;
BRCA1,17,41197733,41197733,T,C;
BRCA1,17,41197738,41197738,A,G;
BRCA1,17,41197741,41197741,T,C;
BRCA1,17,41197742,41197742,C,A;
BRCA1,17,41197747,41197747,C,T;
BRCA1,17,41197753,41197753,T,C;
BRCA1,17,41197756,41197756,A,T;
BRCA1,17,41197757,41197757,G,C;
BRCA1,17,41197771,41197771,A,G;
BRCA1,17,41197783,41197783,C,T;
BRCA1,17,41197784,41197784,G,T;
BRCA1,17,41197790,41197790,C,T;
BRCA1,17,41197791,41197791,C,T;
BRCA1,17,41197798,41197798,G,A;
BRCA1,17,41197802,41197802,C,T;
BRCA1,17,41197814,41197814,C,T;
BRCA1,17,41198270,41198270,G,A;
BRCA1,17,41199651,41199651,G,A;
BRCA1,17,41199656,41199656,T,C;
BRCA1,17,41199663,41199663,G,C;
BRCA1,17,41199669,41199669,C,A;
BRCA1,17,41199670,41199670,A,T;
BRCA1,17,41199683,41199683,C,A;
BRCA1,17,41199690,41199690,C,G;
BRCA1,17,41199692,41199692,G,A;
BRCA1,17,41199695,41199695,T,C;
BRCA1,17,41199698,41199698,A,G;
BRCA1,17,41199703,41199703,C,G;
BRCA1,17,41199707,41199707,A,G;
BRCA1,17,41199716,41199716,A,G;
BRCA1,17,41201070,41201070,A,G;
BRCA1,17,41201085,41201085,T,A;
BRCA1,17,41201092,41201092,A,G;
BRCA1,17,41201130,41201130,A,G;
BRCA1,17,41201133,41201133,C,T;
BRCA1,17,41201141,41201141,G,T;
BRCA1,17,41201142,41201142,C,T;
BRCA1,17,41201146,41201146,G,A;
BRCA1,17,41201148,41201148,G,A;
BRCA1,17,41201150,41201150,G,T;
BRCA1,17,41201151,41201151,A,T;
BRCA1,17,41201153,41201153,T,C;
BRCA1,17,41201155,41201155,A,C;
BRCA1,17,41201201,41201201,T,C;
BRCA1,17,41201210,41201210,A,G;
BRCA1,17,41201287,41201287,C,T;
BRCA1,17,41201341,41201341,A,G;
BRCA1,17,41201390,41201390,G,T;
BRCA1,17,41201442,41201442,A,G;
BRCA1,17,41201460,41201460,T,C;
BRCA1,17,41201462,41201462,A,G;
BRCA1,17,41201476,41201476,A,G;
BRCA1,17,41201482,41201482,A,G;
BRCA1,17,41201611,41201611,C,T;
BRCA1,17,41201612,41201612,G,A;
BRCA1,17,41201658,41201658,G,A;
BRCA1,17,41201682,41201682,T,C;
BRCA1,17,41202579,41202579,G,A;
BRCA1,17,41202688,41202688,G,A;
BRCA1,17,41203060,41203060,G,T;
BRCA1,17,41203069,41203069,C,T;
BRCA1,17,41203078,41203078,A,T;
BRCA1,17,41203079,41203079,C,G;
BRCA1,17,41203081,41203081,T,G;
BRCA1,17,41203085,41203085,G,C;
BRCA1,17,41203087,41203087,C,T;
BRCA1,17,41203099,41203099,G,A;
BRCA1,17,41203103,41203103,C,T;
BRCA1,17,41203112,41203112,C,T;
BRCA1,17,41203115,41203115,A,C;
BRCA1,17,41203118,41203118,T,A;
BRCA1,17,41203123,41203123,C,T;
BRCA1,17,41203128,41203128,T,A;
BRCA1,17,41203132,41203132,G,A;
BRCA1,17,41203134,41203134,T,C;
BRCA1,17,41203140,41203140,A,G;
BRCA1,17,41203676,41203676,C,T;
BRCA1,17,41203707,41203707,G,A;
BRCA1,17,41204361,41204361,G,A;
BRCA1,17,41204653,41204653,T,C;
BRCA1,17,41204856,41204856,G,A;
BRCA1,17,41205941,41205941,A,G;
BRCA1,17,41206097,41206097,C,T;
BRCA1,17,41206852,41206852,T,C;
BRCA1,17,41207660,41207660,C,T;
BRCA1,17,41208216,41208216,A,C;
BRCA1,17,41208971,41208971,A,G;
BRCA1,17,41208991,41208991,C,T;
BRCA1,17,41208992,41208992,G,A;
BRCA1,17,41209049,41209049,C,T;
BRCA1,17,41209071,41209071,T,G;
BRCA1,17,41209074,41209074,T,C;
BRCA1,17,41209076,41209076,T,C;
BRCA1,17,41209081,41209081,G,C;
BRCA1,17,41209084,41209084,T,A;
BRCA1,17,41209085,41209085,T,C;
BRCA1,17,41209087,41209087,T,A;
BRCA1,17,41209091,41209091,G,A;
BRCA1,17,41209094,41209094,C,T;
BRCA1,17,41209095,41209095,G,A;
BRCA1,17,41209096,41209096,C,T;
BRCA1,17,41209097,41209097,T,C;
BRCA1,17,41209098,41209098,T,C;
BRCA1,17,41209106,41209106,T,G;
BRCA1,17,41209110,41209110,G,T;
BRCA1,17,41209111,41209111,G,A;
BRCA1,17,41209115,41209115,C,T;
BRCA1,17,41209118,41209118,C,A;
BRCA1,17,41209123,41209123,G,A;
BRCA1,17,41209125,41209125,C,A;
BRCA1,17,41209133,41209133,C,T;
BRCA1,17,41209138,41209138,G,A;
BRCA1,17,41209142,41209142,T,G;
BRCA1,17,41209148,41209148,T,C;
BRCA1,17,41209151,41209151,T,C;
BRCA1,17,41209162,41209162,A,G;
BRCA1,17,41209575,41209575,G,A;
BRCA1,17,41209618,41209618,C,T;
BRCA1,17,41209627,41209627,C,A;
BRCA1,17,41210602,41210602,T,C;
BRCA1,17,41211653,41211653,A,G;
BRCA1,17,41212180,41212180,C,T;
BRCA1,17,41212547,41212547,C,T;
BRCA1,17,41212805,41212805,C,T;
BRCA1,17,41213013,41213013,C,T;
BRCA1,17,41213318,41213318,C,T;
BRCA1,17,41213760,41213760,C,T;
BRCA1,17,41213893,41213893,C,T;
BRCA1,17,41215331,41215331,T,C;
BRCA1,17,41215350,41215350,C,T;
BRCA1,17,41215358,41215358,G,T;
BRCA1,17,41215359,41215359,C,T;
BRCA1,17,41215369,41215369,T,C;
BRCA1,17,41215377,41215377,A,G;
BRCA1,17,41215403,41215403,T,C;
BRCA1,17,41215825,41215825,C,T;
BRCA1,17,41215826,41215826,G,A;
BRCA1,17,41215876,41215876,T,C;
BRCA1,17,41215882,41215882,T,A;
BRCA1,17,41215890,41215890,C,A;
BRCA1,17,41215892,41215892,G,A;
BRCA1,17,41215893,41215893,A,G;
BRCA1,17,41215894,41215894,A,G;
BRCA1,17,41215896,41215896,T,C;
BRCA1,17,41215901,41215901,A,C;
BRCA1,17,41215904,41215904,T,A;
BRCA1,17,41215909,41215909,A,C;
BRCA1,17,41215917,41215917,C,T;
BRCA1,17,41215919,41215919,C,T;
BRCA1,17,41215920,41215920,G,A;
BRCA1,17,41215921,41215921,C,T;
BRCA1,17,41215935,41215935,T,A;
BRCA1,17,41215939,41215939,T,C;
BRCA1,17,41215940,41215940,C,G;
BRCA1,17,41215945,41215945,T,C;
BRCA1,17,41215947,41215947,C,G;
BRCA1,17,41215948,41215948,G,A;
BRCA1,17,41215954,41215954,A,C;
BRCA1,17,41215958,41215958,A,G;
BRCA1,17,41215959,41215959,A,G;
BRCA1,17,41215977,41215977,T,G;
BRCA1,17,41217103,41217103,C,T;
BRCA1,17,41217111,41217111,C,T;
BRCA1,17,41217380,41217380,A,G;
BRCA1,17,41217874,41217874,C,T;
BRCA1,17,41218007,41218007,T,C;
BRCA1,17,41218237,41218237,T,C;
BRCA1,17,41218333,41218333,G,A;
BRCA1,17,41218467,41218467,C,T;
BRCA1,17,41218707,41218707,C,G;
BRCA1,17,41218716,41218716,G,A;
BRCA1,17,41219341,41219341,G,T;
BRCA1,17,41219360,41219360,C,T;
BRCA1,17,41219397,41219397,G,A;
BRCA1,17,41219420,41219420,C,T;
BRCA1,17,41219507,41219507,G,A;
BRCA1,17,41219517,41219517,C,T;
BRCA1,17,41219560,41219560,C,T;
BRCA1,17,41219625,41219625,C,G;
BRCA1,17,41219628,41219628,T,C;
BRCA1,17,41219643,41219643,G,T;
BRCA1,17,41219644,41219644,A,G;
BRCA1,17,41219648,41219648,G,C;
BRCA1,17,41219657,41219657,G,A;
BRCA1,17,41219690,41219690,C,T;
BRCA1,17,41219701,41219701,G,T;
BRCA1,17,41219704,41219704,C,G;
BRCA1,17,41219706,41219706,C,T;
BRCA1,17,41258479,41258479,G,A;
BRCA1,17,41258493,41258493,A,G;
BRCA1,17,41258513,41258513,G,A;
BRCA1,17,41258516,41258516,C,T;
BRCA1,17,41258518,41258518,T,C;
BRCA1,17,41258519,41258519,T,C;
BRCA1,17,41258529,41258529,G,C;
BRCA1,17,41258534,41258534,G,A;
BRCA1,17,41258535,41258535,T,G;
BRCA1,17,41258536,41258536,T,C;
BRCA1,17,41258539,41258539,A,G;
BRCA1,17,41258542,41258542,A,T;
BRCA1,17,41258543,41258543,T,G;
BRCA1,17,41258547,41258547,A,C;
BRCA1,17,41258566,41258566,A,C;
BRCA1,17,41258882,41258882,G,A;
BRCA1,17,41258946,41258946,T,C;
BRCA1,17,41259049,41259049,C,T;
BRCA1,17,41259113,41259113,G,A;
BRCA1,17,41259316,41259316,G,A;
BRCA1,17,41261233,41261233,C,T;
BRCA1,17,41262101,41262101,C,T;
BRCA1,17,41262102,41262102,G,A;
BRCA1,17,41262191,41262191,G,A;
BRCA1,17,41263430,41263430,G,A;
BRCA1,17,41263610,41263610,G,A;
BRCA1,17,41263845,41263845,A,C;
BRCA1,17,41264146,41264146,G,A;
BRCA1,17,41264339,41264339,G,A;
BRCA1,17,41264749,41264749,C,G;
BRCA1,17,41264753,41264753,C,T;
BRCA1,17,41265071,41265071,T,C;
BRCA1,17,41265776,41265776,A,G;
BRCA1,17,41266997,41266997,C,T;
BRCA1,17,41267050,41267050,G,A;
BRCA1,17,41267632,41267632,G,A;
BRCA1,17,41267742,41267742,C,A;
BRCA1,17,41267762,41267762,A,G;
BRCA1,17,41267777,41267777,G,C;
BRCA1,17,41267783,41267783,T,C;
BRCA1,17,41267788,41267788,A,G;
BRCA1,17,41267793,41267793,C,T;
BRCA1,17,41267807,41267807,A,G;
BRCA1,17,41268598,41268598,C,T;
BRCA1,17,41268746,41268746,G,A;
BRCA1,17,41269180,41269180,C,T;
BRCA1,17,41269315,41269315,C,T;
BRCA1,17,41270355,41270355,T,C;
BRCA1,17,41270463,41270463,G,A;
BRCA1,17,41271051,41271051,G,A;
BRCA1,17,41271222,41271222,C,T;
BRCA1,17,41271914,41271914,C,T;
BRCA1,17,41272996,41272996,G,A;
BRCA1,17,41273095,41273095,G,A;
BRCA1,17,41273248,41273248,C,T;
BRCA1,17,41274789,41274789,C,T;
BRCA1,17,41275655,41275655,G,A;
BRCA1,17,41276036,41276036,G,T;
BRCA1,17,41276046,41276046,T,C;
BRCA1,17,41276057,41276057,C,T;
BRCA1,17,41276058,41276058,T,C;
BRCA1,17,41276065,41276065,C,A;
BRCA1,17,41276072,41276072,G,C;
BRCA1,17,41276078,41276078,T,G;
BRCA1,17,41276082,41276082,A,G;
BRCA1,17,41276087,41276087,T,A;
BRCA1,17,41276090,41276090,A,G;
BRCA1,17,41276092,41276092,C,T;
BRCA1,17,41276093,41276093,G,A;
BRCA1,17,41276094,41276094,C,T;
BRCA1,17,41276095,41276095,G,A;
BRCA1,17,41276101,41276101,C,A;
BRCA1,17,41276107,41276107,A,T;
BRCA1,17,41276111,41276111,C,A;
BRCA1,17,41276134,41276134,T,C;
BRCA1,17,41276493,41276493,G,A;
BRCA1,17,41276952,41276952,G,A;
BRCA1,17,41277187,41277187,G,C;
BRCA1,17,41277231,41277231,C,T;
BRCA1,17,41277275,41277275,G,A;
BRCA1,17,41277277,41277277,G,A;
BRCA1,17,41277329,41277329,G,A;
BRCA1,17,41277393,41277393,G,A;
BRCA2,13,32889634,32889634,A,G;
BRCA2,13,32889656,32889656,C,T;
BRCA2,13,32889784,32889784,A,G;
BRCA2,13,32889792,32889792,A,G;
BRCA2,13,32889802,32889802,C,T;
BRCA2,13,32889803,32889803,G,A;
BRCA2,13,32890026,32890026,C,T;
BRCA2,13,32890558,32890558,G,A;
BRCA2,13,32890565,32890565,T,C;
BRCA2,13,32890586,32890586,T,C;
BRCA2,13,32890595,32890595,A,G;
BRCA2,13,32890599,32890599,T,A;
BRCA2,13,32890625,32890625,A,G;
BRCA2,13,32890649,32890649,C,T;
BRCA2,13,32890650,32890650,G,A;
BRCA2,13,32890653,32890653,G,A;
BRCA2,13,32890657,32890657,C,T;
BRCA2,13,32890660,32890660,A,G;
BRCA2,13,32890665,32890665,G,A;
BRCA2,13,32890667,32890667,A,G;
BRCA2,13,32890682,32890682,A,G;
BRCA2,13,32890684,32890684,A,G;
BRCA2,13,32890726,32890726,T,G;
BRCA2,13,32892875,32892875,G,A;
BRCA2,13,32892885,32892885,G,A;
BRCA2,13,32893232,32893232,T,G;
BRCA2,13,32893268,32893268,C,T;
BRCA2,13,32893297,32893297,G,A;
BRCA2,13,32893317,32893317,C,T;
BRCA2,13,32893318,32893318,G,A;
BRCA2,13,32893345,32893345,A,G;
BRCA2,13,32893368,32893368,G,A;
BRCA2,13,32893380,32893380,A,G;
BRCA2,13,32893381,32893381,A,G;
BRCA2,13,32893384,32893384,A,G;
BRCA2,13,32893385,32893385,T,C;
BRCA2,13,32893387,32893387,T,C;
BRCA2,13,32893403,32893403,T,C;
BRCA2,13,32893412,32893412,C,T;
BRCA2,13,32893413,32893413,G,A;
BRCA2,13,32893415,32893415,T,C;
BRCA2,13,32893437,32893437,A,G;
BRCA2,13,32893442,32893442,A,G;
BRCA2,13,32893449,32893449,C,A;
BRCA2,13,32893465,32893465,A,G;
BRCA2,13,32893480,32893480,G,A;
BRCA2,13,32893724,32893724,G,A;
BRCA2,13,32894322,32894322,G,A;
BRCA2,13,32894738,32894738,G,A;
BRCA2,13,32894977,32894977,C,T;
BRCA2,13,32896073,32896073,T,C;
BRCA2,13,32896676,32896676,G,A;
BRCA2,13,32897438,32897438,C,T;
BRCA2,13,32897533,32897533,G,A;
BRCA2,13,32899203,32899203,A,G;
BRCA2,13,32899206,32899206,G,A;
BRCA2,13,32899219,32899219,A,G;
BRCA2,13,32899239,32899239,A,G;
BRCA2,13,32899248,32899248,C,T;
BRCA2,13,32899249,32899249,G,A;
BRCA2,13,32899293,32899293,C,T;
BRCA2,13,32899309,32899309,G,A;
BRCA2,13,32899316,32899316,T,C;
BRCA2,13,32899778,32899778,C,T;
BRCA2,13,32899833,32899833,A,G;
BRCA2,13,32899838,32899838,C,T;
BRCA2,13,32899878,32899878,C,T;
BRCA2,13,32899899,32899899,G,A;
BRCA2,13,32900006,32900006,C,T;
BRCA2,13,32900149,32900149,T,C;
BRCA2,13,32900218,32900218,T,G;
BRCA2,13,32900236,32900236,A,G;
BRCA2,13,32900248,32900248,C,T;
BRCA2,13,32900249,32900249,T,C;
BRCA2,13,32900253,32900253,A,G;
BRCA2,13,32900269,32900269,C,T;
BRCA2,13,32900289,32900289,T,C;
BRCA2,13,32900368,32900368,T,C;
BRCA2,13,32900399,32900399,C,T;
BRCA2,13,32900400,32900400,A,G;
BRCA2,13,32900408,32900408,A,G;
BRCA2,13,32900409,32900409,A,G;
BRCA2,13,32900419,32900419,G,A;
BRCA2,13,32900471,32900471,A,G;
BRCA2,13,32900547,32900547,G,A;
BRCA2,13,32900619,32900619,A,G;
BRCA2,13,32900620,32900620,T,C;
BRCA2,13,32900633,32900633,C,T;
BRCA2,13,32900634,32900634,A,G;
BRCA2,13,32900637,32900637,G,T;
BRCA2,13,32900639,32900639,C,T;
BRCA2,13,32900640,32900640,G,A;
BRCA2,13,32900645,32900645,A,G;
BRCA2,13,32900664,32900664,A,G;
BRCA2,13,32900675,32900675,G,A;
BRCA2,13,32900697,32900697,C,T;
BRCA2,13,32900725,32900725,C,T;
BRCA2,13,32900728,32900728,C,T;
BRCA2,13,32900752,32900752,T,C;
BRCA2,13,32900756,32900756,A,C;
BRCA2,13,32900763,32900763,A,G;
BRCA2,13,32901291,32901291,T,C;
BRCA2,13,32901731,32901731,C,T;
BRCA2,13,32902381,32902381,C,T;
BRCA2,13,32903579,32903579,G,T;
BRCA2,13,32903580,32903580,T,C;
BRCA2,13,32903581,32903581,C,T;
BRCA2,13,32903600,32903600,G,T;
BRCA2,13,32903622,32903622,C,T;
BRCA2,13,32903636,32903636,A,G;
BRCA2,13,32903838,32903838,C,T;
BRCA2,13,32904497,32904497,G,A;
BRCA2,13,32904740,32904740,G,A;
BRCA2,13,32905043,32905043,A,T;
BRCA2,13,32905059,32905059,G,A;
BRCA1,17,41219707,41219707,G,A;
BRCA1,17,41219708,41219708,A,G;
BRCA1,17,41219710,41219710,C,G;
BRCA1,17,41219780,41219780,T,C;
BRCA1,17,41219804,41219804,T,C;
BRCA1,17,41220288,41220288,C,T;
BRCA1,17,41220797,41220797,T,C;
BRCA1,17,41222099,41222099,C,T;
BRCA1,17,41222945,41222945,A,G;
BRCA1,17,41222958,41222958,G,A;
BRCA1,17,41222966,41222966,A,G;
BRCA1,17,41222968,41222968,A,C;
BRCA1,17,41222969,41222969,C,T;
BRCA1,17,41222993,41222993,G,T;
BRCA1,17,41223003,41223003,G,A;
BRCA1,17,41223004,41223004,T,C;
BRCA1,17,41223008,41223008,A,G;
BRCA1,17,41223016,41223016,A,C;
BRCA1,17,41223020,41223020,T,A;
BRCA1,17,41223023,41223023,C,G;
BRCA1,17,41223032,41223032,G,C;
BRCA1,17,41223034,41223034,T,C;
BRCA1,17,41223051,41223051,G,A;
BRCA1,17,41223052,41223052,C,G;
BRCA1,17,41223059,41223059,C,G;
BRCA1,17,41223062,41223062,A,G;
BRCA1,17,41223065,41223065,A,G;
BRCA1,17,41223072,41223072,G,C;
BRCA1,17,41223076,41223076,T,A;
BRCA1,17,41223081,41223081,G,A;
BRCA1,17,41223082,41223082,C,T;
BRCA1,17,41223083,41223083,A,G;
BRCA1,17,41223094,41223094,T,C;
BRCA1,17,41223102,41223102,G,T;
BRCA1,17,41223103,41223103,A,T;
BRCA1,17,41223112,41223112,C,G;
BRCA1,17,41223114,41223114,T,C;
BRCA1,17,41223115,41223115,T,G;
BRCA1,17,41223116,41223116,C,T;
BRCA1,17,41223122,41223122,G,A;
BRCA1,17,41223128,41223128,T,A;
BRCA1,17,41223142,41223142,T,G;
BRCA1,17,41223148,41223148,A,G;
BRCA1,17,41223149,41223149,T,C;
BRCA1,17,41223154,41223154,T,C;
BRCA1,17,41223155,41223155,G,A;
BRCA1,17,41223158,41223158,G,C;
BRCA1,17,41223165,41223165,C,T;
BRCA1,17,41223166,41223166,G,A;
BRCA1,17,41223169,41223169,C,T;
BRCA1,17,41223185,41223185,G,A;
BRCA1,17,41223187,41223187,C,T;
BRCA1,17,41223191,41223191,A,G;
BRCA1,17,41223195,41223195,G,T;
BRCA1,17,41223197,41223197,A,G;
BRCA1,17,41223208,41223208,G,A;
BRCA1,17,41223210,41223210,T,G;
BRCA1,17,41223215,41223215,A,C;
BRCA1,17,41223216,41223216,G,A;
BRCA1,17,41223224,41223224,G,A;
BRCA1,17,41223228,41223228,A,G;
BRCA1,17,41223235,41223235,A,G;
BRCA1,17,41223242,41223242,G,C;
BRCA1,17,41223243,41223243,T,C;
BRCA1,17,41223246,41223246,G,T;
BRCA1,17,41223247,41223247,G,C;
BRCA1,17,41223249,41223249,G,A;
BRCA1,17,41223255,41223255,T,G;
BRCA1,17,41223256,41223256,C,T;
BRCA1,17,41223742,41223742,C,T;
BRCA1,17,41224266,41224266,C,T;
BRCA1,17,41224280,41224280,C,T;
BRCA1,17,41225529,41225529,C,T;
BRCA1,17,41226317,41226317,G,C;
BRCA1,17,41226352,41226352,A,G;
BRCA1,17,41226356,41226356,T,A;
BRCA1,17,41226359,41226359,C,T;
BRCA1,17,41226365,41226365,A,G;
BRCA1,17,41226367,41226367,G,A;
BRCA1,17,41226379,41226379,C,T;
BRCA1,17,41226380,41226380,G,A;
BRCA1,17,41226384,41226384,A,C;
BRCA1,17,41226387,41226387,C,T;
BRCA1,17,41226388,41226388,G,A;
BRCA1,17,41226389,41226389,T,A;
BRCA1,17,41226394,41226394,C,T;
BRCA1,17,41226395,41226395,C,T;
BRCA1,17,41226404,41226404,T,A;
BRCA1,17,41226409,41226409,C,T;
BRCA1,17,41226422,41226422,A,T;
BRCA1,17,41226429,41226429,C,A;
BRCA1,17,41226431,41226431,A,G;
BRCA1,17,41226432,41226432,C,T;
BRCA1,17,41226441,41226441,G,A;
BRCA1,17,41226443,41226443,T,C;
BRCA1,17,41226445,41226445,C,A;
BRCA1,17,41226451,41226451,A,G;
BRCA1,17,41226464,41226464,C,A;
BRCA1,17,41226475,41226475,A,G;
BRCA1,17,41226480,41226480,C,G;
BRCA1,17,41226483,41226483,A,G;
BRCA1,17,41226484,41226484,G,A;
BRCA1,17,41226492,41226492,G,A;
BRCA1,17,41226516,41226516,A,C;
BRCA1,17,41226526,41226526,A,G;
BRCA1,17,41226535,41226535,T,C;
BRCA1,17,41226548,41226548,T,C;
BRCA1,17,41226549,41226549,A,T;
BRCA1,17,41226601,41226601,G,C;
BRCA1,17,41228042,41228042,G,A;
BRCA1,17,41228495,41228495,T,C;
BRCA1,17,41228504,41228504,C,T;
BRCA1,17,41228508,41228508,T,C;
BRCA1,17,41228509,41228509,C,T;
BRCA1,17,41228511,41228511,A,T;
BRCA1,17,41228513,41228513,T,C;
BRCA1,17,41228517,41228517,G,A;
BRCA1,17,41228518,41228518,G,T;
BRCA1,17,41228523,41228523,T,A;
BRCA1,17,41228533,41228533,T,G;
BRCA1,17,41228536,41228536,T,C;
BRCA1,17,41228556,41228556,T,G;
BRCA1,17,41228558,41228558,A,G;
BRCA1,17,41228572,41228572,A,G;
BRCA1,17,41228579,41228579,T,C;
BRCA1,17,41228586,41228586,T,C;
BRCA1,17,41228588,41228588,C,T;
BRCA1,17,41228591,41228591,G,A;
BRCA1,17,41228593,41228593,T,C;
BRCA1,17,41228607,41228607,C,A;
BRCA1,17,41228618,41228618,T,A;
BRCA1,17,41228620,41228620,A,C;
BRCA1,17,41228623,41228623,T,G;
BRCA1,17,41228676,41228676,T,C;
BRCA1,17,41230044,41230044,G,A;
BRCA1,17,41230955,41230955,G,A;
BRCA1,17,41230982,41230982,C,T;
BRCA1,17,41231086,41231086,G,A;
BRCA1,17,41231516,41231516,C,T;
BRCA1,17,41232108,41232108,A,C;
BRCA1,17,41232698,41232698,C,T;
BRCA1,17,41234405,41234405,G,T;
BRCA1,17,41234422,41234422,T,A;
BRCA1,17,41234425,41234425,T,C;
BRCA1,17,41234429,41234429,G,T;
BRCA1,17,41234433,41234433,T,A;
BRCA1,17,41234435,41234435,C,A;
BRCA1,17,41234437,41234437,T,C;
BRCA1,17,41234439,41234439,G,A;
BRCA1,17,41234442,41234442,C,T;
BRCA1,17,41234447,41234447,T,C;
BRCA1,17,41234449,41234449,T,C;
BRCA1,17,41234450,41234450,C,T;
BRCA1,17,41234451,41234451,G,A;
BRCA1,17,41234456,41234456,T,C;
BRCA1,17,41234457,41234457,C,T;
BRCA1,17,41234461,41234461,A,G;
BRCA1,17,41234463,41234463,G,C;
BRCA1,17,41234467,41234467,A,C;
BRCA1,17,41234473,41234473,G,A;
BRCA1,17,41234479,41234479,T,C;
BRCA1,17,41234480,41234480,A,G;
BRCA1,17,41234487,41234487,A,C;
BRCA1,17,41234492,41234492,T,C;
BRCA1,17,41234494,41234494,G,A;
BRCA1,17,41234496,41234496,T,C;
BRCA1,17,41234497,41234497,G,T;
BRCA1,17,41234504,41234504,G,A;
BRCA1,17,41234511,41234511,T,C;
BRCA1,17,41234517,41234517,G,A;
BRCA1,17,41234518,41234518,C,A;
BRCA1,17,41234521,41234521,T,A;
BRCA1,17,41234522,41234522,T,C;
BRCA1,17,41234524,41234524,T,C;
BRCA1,17,41234542,41234542,A,G;
BRCA1,17,41234545,41234545,C,T;
BRCA1,17,41234552,41234552,T,C;
BRCA1,17,41234553,41234553,G,C;
BRCA1,17,41234554,41234554,C,A;
BRCA1,17,41234555,41234555,T,C;
BRCA1,17,41234577,41234577,G,A;
BRCA1,17,41234582,41234582,G,T;
BRCA1,17,41234584,41234584,A,C;
BRCA1,17,41234602,41234602,C,T;
BRCA1,17,41234603,41234603,G,A;
BRCA1,17,41234611,41234611,G,C;
BRCA1,17,41236043,41236043,G,A;
BRCA1,17,41236779,41236779,G,A;
BRCA1,17,41237074,41237074,A,G;
BRCA1,17,41237869,41237869,A,G;
BRCA1,17,41237953,41237953,G,A;
BRCA1,17,41239928,41239928,T,C;
BRCA1,17,41240750,41240750,G,A;
BRCA1,17,41240915,41240915,A,G;
BRCA1,17,41242931,41242931,C,T;
BRCA1,17,41242932,41242932,G,A;
BRCA1,17,41242949,41242949,C,T;
BRCA1,17,41242951,41242951,C,T;
BRCA1,17,41242952,41242952,G,A;
BRCA1,17,41242961,41242961,C,T;
BRCA1,17,41242964,41242964,A,T;
BRCA1,17,41242968,41242968,G,A;
BRCA1,17,41242970,41242970,T,A;
BRCA1,17,41242983,41242983,T,C;
BRCA1,17,41242984,41242984,G,A;
BRCA1,17,41242988,41242988,G,C;
BRCA1,17,41242990,41242990,A,G;
BRCA1,17,41242991,41242991,T,A;
BRCA1,17,41242993,41242993,G,A;
BRCA1,17,41242994,41242994,C,T;
BRCA1,17,41243002,41243002,A,T;
BRCA1,17,41243004,41243004,T,G;
BRCA1,17,41243007,41243007,T,G;
BRCA1,17,41243008,41243008,C,A;
BRCA1,17,41243011,41243011,A,G;
BRCA1,17,41243014,41243014,C,G;
BRCA1,17,41243015,41243015,G,A;
BRCA1,17,41243016,41243016,C,T;
BRCA1,17,41243030,41243030,A,G;
BRCA1,17,41243031,41243031,C,T;
BRCA1,17,41243034,41243034,C,T;
BRCA1,17,41243039,41243039,T,G;
BRCA1,17,41243040,41243040,G,A;
BRCA1,17,41243049,41243049,C,G;
BRCA1,17,41243064,41243064,A,G;
BRCA1,17,41243069,41243069,G,A;
BRCA1,17,41243409,41243409,C,T;
BRCA1,17,41243422,41243422,G,A;
BRCA2,13,32905069,32905069,A,G;
BRCA2,13,32905076,32905076,C,T;
BRCA2,13,32905079,32905079,T,C;
BRCA2,13,32905084,32905084,A,G;
BRCA2,13,32905105,32905105,A,G;
BRCA2,13,32905106,32905106,T,C;
BRCA2,13,32905107,32905107,A,T;
BRCA2,13,32905115,32905115,C,T;
BRCA2,13,32905116,32905116,G,A;
BRCA2,13,32905118,32905118,T,A;
BRCA2,13,32905128,32905128,G,A;
BRCA2,13,32905144,32905144,A,C;
BRCA2,13,32905148,32905148,A,G;
BRCA2,13,32905155,32905155,G,A;
BRCA2,13,32905168,32905168,G,A;
BRCA2,13,32905185,32905185,T,C;
BRCA2,13,32905265,32905265,G,A;
BRCA2,13,32905272,32905272,C,T;
BRCA2,13,32906389,32906389,T,C;
BRCA2,13,32906399,32906399,A,G;
BRCA2,13,32906426,32906426,G,A;
BRCA2,13,32906434,32906434,A,G;
BRCA2,13,32906437,32906437,T,A;
BRCA2,13,32906446,32906446,T,G;
BRCA2,13,32906484,32906484,T,G;
BRCA2,13,32906500,32906500,A,G;
BRCA2,13,32906508,32906508,C,T;
BRCA2,13,32906521,32906521,C,T;
BRCA2,13,32906525,32906525,G,A;
BRCA2,13,32906541,32906541,C,A;
BRCA2,13,32906576,32906576,C,T;
BRCA2,13,32906627,32906627,G,A;
BRCA2,13,32906630,32906630,G,A;
BRCA2,13,32906641,32906641,A,G;
BRCA2,13,32906655,32906655,A,G;
BRCA2,13,32906666,32906666,A,G;
BRCA2,13,32906671,32906671,C,T;
BRCA2,13,32906674,32906674,A,G;
BRCA2,13,32906707,32906707,T,C;
BRCA2,13,32906719,32906719,A,G;
BRCA2,13,32906722,32906722,T,C;
BRCA2,13,32906742,32906742,T,C;
BRCA2,13,32906751,32906751,G,A;
BRCA2,13,32906768,32906768,A,C;
BRCA2,13,32906774,32906774,G,A;
BRCA2,13,32906775,32906775,T,C;
BRCA2,13,32906781,32906781,C,T;
BRCA2,13,32906782,32906782,G,A;
BRCA2,13,32906806,32906806,A,G;
BRCA2,13,32906817,32906817,C,A;
BRCA2,13,32906818,32906818,A,G;
BRCA2,13,32906826,32906826,A,T;
BRCA2,13,32906850,32906850,C,T;
BRCA2,13,32906854,32906854,A,G;
BRCA2,13,32906874,32906874,A,G;
BRCA2,13,32906888,32906888,G,A;
BRCA2,13,32906896,32906896,C,A;
BRCA2,13,32906908,32906908,A,G;
BRCA2,13,32906940,32906940,C,T;
BRCA2,13,32906951,32906951,T,C;
BRCA2,13,32906958,32906958,G,A;
BRCA2,13,32906962,32906962,T,G;
BRCA2,13,32906983,32906983,G,C;
BRCA2,13,32906985,32906985,A,G;
BRCA2,13,32906989,32906989,A,G;
BRCA2,13,32906991,32906991,T,C;
BRCA2,13,32907002,32907002,A,G;
BRCA2,13,32907018,32907018,G,A;
BRCA2,13,32907019,32907019,A,G;
BRCA2,13,32907059,32907059,C,T;
BRCA2,13,32907069,32907069,A,G;
BRCA2,13,32907077,32907077,A,G;
BRCA2,13,32907119,32907119,A,G;
BRCA2,13,32907125,32907125,T,C;
BRCA2,13,32907132,32907132,T,C;
BRCA2,13,32907154,32907154,A,G;
BRCA2,13,32907157,32907157,G,A;
BRCA2,13,32907159,32907159,C,T;
BRCA2,13,32907166,32907166,T,C;
BRCA2,13,32907175,32907175,T,C;
BRCA2,13,32907183,32907183,A,G;
BRCA2,13,32907190,32907190,T,C;
BRCA2,13,32907198,32907198,A,G;
BRCA2,13,32907209,32907209,G,A;
BRCA2,13,32907215,32907215,G,A;
BRCA2,13,32907228,32907228,G,A;
BRCA2,13,32907232,32907232,A,G;
BRCA2,13,32907235,32907235,G,A;
BRCA2,13,32907260,32907260,A,G;
BRCA2,13,32907296,32907296,G,C;
BRCA2,13,32907331,32907331,A,G;
BRCA2,13,32907334,32907334,T,C;
BRCA2,13,32907345,32907345,C,T;
BRCA2,13,32907371,32907371,A,G;
BRCA2,13,32907379,32907379,T,G;
BRCA2,13,32907394,32907394,T,C;
BRCA2,13,32907401,32907401,G,A;
BRCA2,13,32907413,32907413,T,C;
BRCA2,13,32907415,32907415,T,A;
BRCA2,13,32907432,32907432,C,T;
BRCA2,13,32907433,32907433,G,A;
BRCA2,13,32907453,32907453,T,G;
BRCA2,13,32907467,32907467,G,C;
BRCA2,13,32907470,32907470,C,T;
BRCA2,13,32907500,32907500,C,T;
BRCA2,13,32907523,32907523,A,G;
BRCA2,13,32907526,32907526,T,A;
BRCA2,13,32907529,32907529,C,T;
BRCA2,13,32907540,32907540,T,C;
BRCA2,13,32907767,32907767,C,T;
BRCA2,13,32908347,32908347,C,T;
BRCA2,13,32908724,32908724,T,C;
BRCA2,13,32909615,32909615,G,C;
BRCA2,13,32910385,32910385,T,G;
BRCA2,13,32910403,32910403,T,C;
BRCA2,13,32910430,32910430,C,T;
BRCA2,13,32910431,32910431,T,C;
BRCA2,13,32910452,32910452,G,T;
BRCA2,13,32910457,32910457,A,G;
BRCA2,13,32910458,32910458,A,G;
BRCA2,13,32910508,32910508,A,C;
BRCA2,13,32910512,32910512,G,A;
BRCA2,13,32910516,32910516,C,G;
BRCA2,13,32910517,32910517,A,G;
BRCA2,13,32910518,32910518,T,C;
BRCA2,13,32910522,32910522,C,T;
BRCA2,13,32910538,32910538,C,T;
BRCA2,13,32910564,32910564,C,A;
BRCA2,13,32910590,32910590,T,A;
BRCA2,13,32910613,32910613,T,C;
BRCA2,13,32910625,32910625,C,A;
BRCA2,13,32910629,32910629,C,T;
BRCA2,13,32910637,32910637,A,G;
BRCA2,13,32910644,32910644,G,A;
BRCA2,13,32910663,32910663,A,G;
BRCA2,13,32910665,32910665,A,G;
BRCA2,13,32910673,32910673,A,G;
BRCA2,13,32910723,32910723,C,T;
BRCA2,13,32910744,32910744,C,G;
BRCA2,13,32910748,32910748,C,T;
BRCA2,13,32910750,32910750,T,C;
BRCA2,13,32910757,32910757,C,T;
BRCA2,13,32910761,32910761,A,G;
BRCA2,13,32910768,32910768,T,C;
BRCA2,13,32910778,32910778,T,C;
BRCA2,13,32910795,32910795,C,T;
BRCA2,13,32910798,32910798,T,G;
BRCA2,13,32910816,32910816,C,T;
BRCA2,13,32910820,32910820,G,A;
BRCA2,13,32910822,32910822,A,G;
BRCA2,13,32910840,32910840,T,C;
BRCA2,13,32910851,32910851,A,G;
BRCA2,13,32910854,32910854,G,A;
BRCA2,13,32910867,32910867,A,G;
BRCA2,13,32910886,32910886,C,T;
BRCA2,13,32910905,32910905,T,C;
BRCA2,13,32910943,32910943,G,A;
BRCA2,13,32910949,32910949,A,G;
BRCA2,13,32910959,32910959,G,A;
BRCA2,13,32910966,32910966,A,G;
BRCA2,13,32910967,32910967,T,G;
BRCA2,13,32910972,32910972,A,G;
BRCA2,13,32910982,32910982,C,T;
BRCA2,13,32910983,32910983,G,A;
BRCA2,13,32910991,32910991,G,A;
BRCA2,13,32910999,32910999,C,T;
BRCA2,13,32911007,32911007,T,C;
BRCA2,13,32911036,32911036,G,C;
BRCA2,13,32911042,32911042,A,G;
BRCA2,13,32911082,32911082,C,T;
BRCA2,13,32911083,32911083,A,T;
BRCA2,13,32911095,32911095,C,T;
BRCA2,13,32911098,32911098,C,T;
BRCA2,13,32911134,32911134,A,G;
BRCA2,13,32911150,32911150,T,C;
BRCA2,13,32911151,32911151,G,A;
BRCA2,13,32911170,32911170,A,G;
BRCA2,13,32911172,32911172,G,A;
BRCA2,13,32911175,32911175,G,A;
BRCA2,13,32911192,32911192,T,C;
BRCA2,13,32911220,32911220,C,T;
BRCA2,13,32911246,32911246,C,T;
BRCA2,13,32911247,32911247,G,A;
BRCA2,13,32911264,32911264,C,T;
BRCA2,13,32911271,32911271,A,G;
BRCA2,13,32911279,32911279,A,G;
BRCA2,13,32911284,32911284,G,A;
BRCA2,13,32911292,32911292,G,A;
BRCA2,13,32911297,32911297,T,A;
BRCA2,13,32911299,32911299,A,G;
BRCA2,13,32911308,32911308,C,G;
BRCA2,13,32911345,32911345,T,G;
BRCA2,13,32911376,32911376,C,T;
BRCA2,13,32911378,32911378,T,C;
BRCA2,13,32911390,32911390,T,C;
BRCA2,13,32911410,32911410,C,T;
BRCA2,13,32911411,32911411,G,A;
BRCA2,13,32911416,32911416,T,C;
BRCA2,13,32911428,32911428,T,C;
BRCA2,13,32911447,32911447,A,G;
BRCA2,13,32911457,32911457,T,G;
BRCA2,13,32911522,32911522,A,G;
BRCA2,13,32911524,32911524,C,T;
BRCA2,13,32911543,32911543,C,T;
BRCA2,13,32911562,32911562,A,G;
BRCA2,13,32911588,32911588,A,G;
BRCA2,13,32911604,32911604,T,C;
BRCA2,13,32911611,32911611,C,T;
BRCA2,13,32911643,32911643,T,C;
BRCA2,13,32911644,32911644,T,C;
BRCA2,13,32911651,32911651,A,G;
BRCA2,13,32911658,32911658,C,T;
BRCA2,13,32911672,32911672,C,A;
BRCA2,13,32911677,32911677,C,G;
BRCA2,13,32911680,32911680,A,T;
BRCA2,13,32911696,32911696,A,G;
BRCA2,13,32911703,32911703,C,T;
BRCA2,13,32911704,32911704,A,G;
BRCA2,13,32911710,32911710,A,G;
BRCA2,13,32911711,32911711,G,A;
BRCA2,13,32911718,32911718,G,A;
BRCA2,13,32911733,32911733,T,C;
BRCA2,13,32911757,32911757,C,T;
BRCA2,13,32911801,32911801,A,G;
BRCA2,13,32911811,32911811,C,T;
BRCA2,13,32911838,32911838,A,G;
BRCA2,13,32911843,32911843,A,G;
BRCA2,13,32911860,32911860,G,C。
为便于本领域技术人员更好地理解本发明实施例中用于胚系位点变异致病性预测的CNN-XGBoost模型的结构,现结合图3进行说明如下:
首先,对从数据库(如ClinVar数据库和Clinvitae数据库)中获取到的变异位点数据集进行赋值和功能性注释(Annotation),功能性注释主要基于基因突变频率值和/或变异有害性预测值进行。基因突变频率值可从大型公共数据库中查找到,此处的大型公共数据库例如人类基因变异数据库1000Genomes、ExAC、ESP、gnomAD等;变异有害性预测值可使用如下任一种或多种预测工具得到,预测分值可包括如下类型:MutPred分值、Eigen分值、M-CAP分值、FATHMM分值、fathmm-MKL coding分值、GERP++_RS分值,LRT分值,MetaLR分值,MetaSVM分值,MutationAssessor分值,PROVEAN分值,SIFT分值,SiPhy_29way_logOdds分值等。
其次,将上述生成得到的数据集作为模型训练的训练集,训练集被输入到卷积层进行卷积计算,卷积计算结果被输入到全连接层,最终被输入到XGBoost的分类器中进行分类预测。预测结果为二分类,即良性(benign)和致病性的(pathogenic)。
最后,在训练过程中还进行模型参数的优化(hyperparameter tuning),即基于网格搜索法对所述用于胚系位点变异致病性预测的CNN-XGBoost模型的模型参数进行多轮调整;在每一轮调整中,先对若干模型参数进行粗目标范围遍历后保留最佳结果的参数值,再精细目标范围供进行下一轮调整,重复上述调整过程直至模型结果不再提升。
需说明的是,本发明实施例提供的胚系位点变异致病性预测方法可以采用终端侧或服务器侧实施,就胚系位点变异致病性预测终端的硬件结构而言,请参阅图4,为本发明实施例提供的电子终端400的一个可选的硬件结构示意图,该终端400可以是移动电话、计算机设备、平板设备、个人数字处理设备、工厂后台处理设备等。电子终端400包括:至少一个处理器401、存储器402、至少一个网络接口404和用户接口406。装置中的各个组件通过总线系统405耦合在一起。可以理解的是,总线系统405用于实现这些组件之间的连接通信。总线系统405除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统。
其中,用户接口406可以包括显示器、键盘、鼠标、轨迹球、点击枪、按键、按钮、触感板或者触摸屏等。
可以理解,存储器402可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,StaticRandom Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous StaticRandomAccess Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类别的存储器。
本发明实施例中的存储器402用于存储各种类别的数据以支持电子终端400的操作。这些数据的示例包括:用于在电子终端400上操作的任何可执行程序,如操作系统4021和应用程序4022;操作系统4021包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序4022可以包含各种应用程序,例如媒体播放器(MediaPlayer)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例提供的胚系位点变异致病性预测方法可以包含在应用程序4022中。
上述本发明实施例揭示的方法可以应用于处理器401中,或者由处理器401实现。处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器401可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器401可以是微处理器或者任何常规的处理器等。结合本发明实施例所提供的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,电子终端400可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice),用于执行前述方法。
如图5所示,展示了本发明实施例中的一种胚系位点变异致病性预测装置的结构示意图。本实施例中,胚系位点变异致病性预测装置500包括训练数据集生成模块501和预测模型生成模块502。
所述训练数据集生成模块501用于获取变异位点数据集,对所述变异位点数据集中的各变异位点数据按照是否为有害位点进行相应赋值,并基于一或多个基因变异指标对所述各变异位点数据进行功能性注释,以得到训练数据集。所述预测模型生成模块502用于将所述训练数据集输入XGBoost机器学习模型中,并使用基于样本平衡调整参数的损失函数,以进行模型训练后得到用于胚系位点变异致病性预测的CNN-XGBoost模型。
于本实施例的一些示例中,所述训练数据集生成模块501对所述变异位点数据集中的各变异位点数据按照是否为有害位点进行相应赋值包括:将所述变异位点数据集中的致病性变异位点数据和可能致病性变异位点数据按照有害位点进行赋值,并将所述变异位点数据集中的良性变异位点数据和可能良性变异位点数据按照无害位点进行赋值。
于本实施例的一些示例中,所述训练数据集生成模块501基于一或多个基因变异指标对所述各变异位点数据进行功能性注释包括:基于基因突变频率值和/或变异有害性预测值对所述各变异位点数据进行功能性注释。
于本实施例的一些示例中,所述基于样本平衡调整参数的损失函数包括:在Binary-Logistic回归损失函数中引入β系数对分类概率进行适应性调整;引入β系数后的损失函数被表示为:
Figure BDA0003915222510000411
其中,N表示样本数,yi表示第i个样本标签,pi表示第i个样本被分到第一类的概率;β为样本平衡调整参数。
于本实施例的一些示例中,所述预测模型生成模块502通过一阶偏导计算和二阶偏导计算对所述引入β系数后的损失函数进行迭代更新计算,计算方式如下:
一阶偏导计算:gradient=pi(β-βyi+yi)-yi
二阶偏导计算:hessian=(yi+β-βyi)pi(1-pi);
其中,yi表示第i个样本标签,pi表示第i个样本被分到第一类的概率;β为样本平衡调整参数。
于本实施例的一些示例中,所述预测模型生成模块502基于网格搜索法对所述用于胚系位点变异致病性预测的CNN-XGBoost模型的模型参数进行多轮调整;在每一轮调整中,先对若干模型参数进行粗目标范围遍历后保留最佳结果的参数值,再精细目标范围供进行下一轮调整,重复上述调整过程直至模型结果不再提升。
需要说明的是:上述实施例提供的胚系位点变异致病性预测装置在进行胚系位点变异致病性预测时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的胚系位点变异致病性预测装置与胚系位点变异致病性预测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
于本申请提供的实施例中,所述计算机可读写存储介质可以包括只读存储器、随机存取存储器、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁存储设备、闪存、U盘、移动硬盘、或者能够用于存储具有指令或数据结构形式的期望的程序代码并能够由计算机进行存取的任何其它介质。另外,任何连接都可以适当地称为计算机可读介质。例如,如果指令是使用同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或者诸如红外线、无线电和微波之类的无线技术,从网站、服务器或其它远程源发送的,则所述同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线电和微波之类的无线技术包括在所述介质的定义中。然而,应当理解的是,计算机可读写存储介质和数据存储介质不包括连接、载波、信号或者其它暂时性介质,而是旨在针对于非暂时性、有形的存储介质。如申请中所使用的磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中,磁盘通常磁性地复制数据,而光盘则用激光来光学地复制数据。
综上所述,本申请提供胚系位点变异致病性预测方法、装置、终端及介质,本发明通过对变异位点数据进行赋值并进行功能性注释得到模型训练数据集,通过使用优化后独特的损失函数,训练得到用于胚系位点变异致病性预测的CNN-XGBoost模型,该模型对训练集分类效果达到了99%准确度,在对平行无交集的测试数据集预测中准确度高达96%,克服了现存方法的过度训练的偏向性。利用本发明提供的预测模型可以辅助临床报告中被解读为意义不明确的基因突变位点的解读,提高变异位点解读的准确性并辅助医生的临床决策。另外,在产品设计初期可通过模型对靶标区域基因变异位点致病性进行预测,辅助基因panel的设计和优化,减少致病位点的漏检,从而提高产品性能。所以,本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (10)

1.一种胚系位点变异致病性预测方法,其特征在于,包括:
获取变异位点数据集,对所述变异位点数据集中的各变异位点数据按照是否为有害位点进行相应赋值,并基于一或多个基因变异指标对所述各变异位点数据进行功能性注释,以得到训练数据集;
将基于卷积神经网络进行降维后的训练数据集输入XGBoost机器学习模型中,并使用基于样本平衡调整参数的损失函数,进行模型训练后得到用于胚系位点变异致病性预测的CNN-XGBoost模型。
2.根据权利要求1所述的胚系位点变异致病性预测方法,其特征在于,对所述变异位点数据集中的各变异位点数据按照是否为有害位点进行相应赋值包括:将所述变异位点数据集中的致病性变异位点数据和可能致病性变异位点数据按照有害位点进行赋值,并将所述变异位点数据集中的良性变异位点数据和可能良性变异位点数据按照无害位点进行赋值。
3.根据权利要求1所述的胚系位点变异致病性预测方法,其特征在于,基于一或多个基因变异指标对所述各变异位点数据进行功能性注释包括:基于基因突变频率值和/或变异有害性预测值对所述各变异位点数据进行功能性注释。
4.根据权利要求1所述的胚系位点变异致病性预测方法,其特征在于,所述基于样本平衡调整参数的损失函数包括:在Binary-Logistic回归损失函数中引入β系数对分类概率进行适应性调整;引入β系数后的损失函数被表示为:
Figure FDA0003915222500000011
其中,N表示样本数,yi表示第i个样本标签,pi表示第i个样本被分到第一类的概率;β为样本平衡调整参数。
5.根据权利要求4所述的胚系位点变异致病性预测方法,其特征在于,还包括通过一阶偏导计算和二阶偏导计算对所述引入β系数后的损失函数进行迭代更新计算,计算方式如下:
一阶偏导计算:gradient=pi(β-βyi+yi)-yi
二阶偏导计算:hessian=(yi+β-βyi)pi(1-pi);
其中,yi表示第i个样本标签,pi表示第i个样本被分到第一类的概率;β为样本平衡调整参数。
6.根据权利要求1所述的胚系位点变异致病性预测方法,其特征在于,还包括:基于网格搜索法对所述CNN-XGBoost模型的模型参数进行多轮调整;在每一轮调整中,先对若干模型参数进行粗目标范围遍历后保留最佳结果的参数值,再精细目标范围供进行下一轮调整,重复上述调整过程直至模型结果不再提升。
7.根据权利要求1所述的胚系位点变异致病性预测方法,其特征在于,所述CNN-XGBoost模型的结构包括卷积层和全连接层;输入数据在经过卷积层计算后连接一或多个所述全连接层;
所述卷积层表示为如下:
Figure FDA0003915222500000021
其中,C表示卷积层;l用于指示层;p,q作为当前层和下一层的索引;i,j表示行和列的索引;σ表示激活方法;x代表一个数据;θ代表卷积内核;b代表偏差;(u,v)代表卷积内核的维度;
所述全连接层通过激活函数和归一化函数将输入至全连接层的数据进行特征转化后作为分类器的输入数据;其中,所述激活函数包括ReLU激活函数,所述归一化函数包括Softmax函数。
8.一种胚系位点变异致病性预测装置,其特征在于,包括:
训练数据集生成模块,用于获取变异位点数据集,对所述变异位点数据集中的各变异位点数据按照是否为有害位点进行相应赋值,并基于一或多个基因变异指标对所述各变异位点数据进行功能性注释,以得到训练数据集;
预测模型生成模块,用于将基于卷积神经网络进行降维后的训练数据集输入XGBoost机器学习模型中,并使用基于样本平衡调整参数的损失函数,进行模型训练后得到用于胚系位点变异致病性预测的CNN-XGBoost模型。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述胚系位点变异致病性预测方法。
10.一种电子终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至7中任一项所述胚系位点变异致病性预测方法。
CN202211338022.XA 2022-10-28 2022-10-28 胚系位点变异致病性预测方法、装置、终端及介质 Pending CN115631791A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211338022.XA CN115631791A (zh) 2022-10-28 2022-10-28 胚系位点变异致病性预测方法、装置、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211338022.XA CN115631791A (zh) 2022-10-28 2022-10-28 胚系位点变异致病性预测方法、装置、终端及介质

Publications (1)

Publication Number Publication Date
CN115631791A true CN115631791A (zh) 2023-01-20

Family

ID=84909587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211338022.XA Pending CN115631791A (zh) 2022-10-28 2022-10-28 胚系位点变异致病性预测方法、装置、终端及介质

Country Status (1)

Country Link
CN (1) CN115631791A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117711487A (zh) * 2024-02-05 2024-03-15 广州嘉检医学检测有限公司 胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117711487A (zh) * 2024-02-05 2024-03-15 广州嘉检医学检测有限公司 胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质
CN117711487B (zh) * 2024-02-05 2024-05-17 广州嘉检医学检测有限公司 胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质

Similar Documents

Publication Publication Date Title
CN110070141B (zh) 一种网络入侵检测方法
CN109657805B (zh) 超参数确定方法、装置、电子设备及计算机可读介质
CN111143226B (zh) 自动化测试方法及装置、计算机可读存储介质、电子设备
Lin et al. Parameter tuning, feature selection and weight assignment of features for case-based reasoning by artificial immune system
Yan et al. Unsupervised and semi‐supervised learning: The next frontier in machine learning for plant systems biology
CN112270546A (zh) 基于stacking算法的风险预测方法、装置和电子设备
CN114328048A (zh) 一种磁盘故障预测方法及装置
CN117236278B (zh) 一种基于数字孪生技术的芯片生产仿真方法及系统
CN115631791A (zh) 胚系位点变异致病性预测方法、装置、终端及介质
CN115240777A (zh) 基于图神经网络的合成致死基因预测方法、装置、终端及介质
CN115240778A (zh) 基于对比学习的合成致死基因搭档的推荐方法、装置、终端及介质
Su et al. Application of bert to enable gene classification based on clinical evidence
Zhao et al. MFCNV: a new method to detect copy number variations from next-generation sequencing data
Liu et al. Fintech Index Prediction Based on RF‐GA‐DNN Algorithm
Sree Devi et al. Tumor detection on microarray data using grey wolf optimization with gain information
Zhu et al. An Efficient Hybrid Feature Selection Method Using the Artificial Immune Algorithm for High‐Dimensional Data
CN111582313A (zh) 样本数据生成方法、装置及电子设备
Lan et al. Deep learning approaches for noncoding variant prioritization in neurodegenerative diseases
Bian et al. Bayesian Co-evolutionary Optimization based entropy search for high-dimensional many-objective optimization
Fan et al. Identification of vesicle transport proteins via hypergraph regularized k-local hyperplane distance nearest neighbour model
JP2022106186A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Leung et al. Application of a modified neural fuzzy network and an improved genetic algorithm to speech recognition
JP2023510400A (ja) 病原性モデルの適用およびそのトレーニング
Aglin et al. Assessing optimal forests of decision trees
Prakash et al. Implementation of Hybrid Particle Swarm Optimization for Optimized Regression Testing.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination