CN111328419A

CN111328419A - 基于深度学习的深度卷积神经网络预训练技术

Info

Publication number: CN111328419A
Application number: CN201980003263.9A
Authority: CN
Inventors: H·高; K-H·法尔; S·雷迪帕迪格帕蒂
Original assignee: Inmair Ltd
Current assignee: Inmair Ltd; Illumina Inc
Priority date: 2018-10-15
Filing date: 2019-05-09
Publication date: 2020-06-23
Anticipated expiration: 2039-05-09
Also published as: SG11201911777QA; IL282689A; CN113705585A; JP2021152907A; CN111328419B; JP6888123B2; JP7200294B2; WO2020081122A1; NZ759665A; KR20200044731A; AU2021269351B2; IL271091B; JP2021501923A; AU2019272062A1; IL271091A; JP2023052011A; SG10202108013QA; KR102165734B1; AU2021269351A1; AU2019272062B2

Abstract

所公开的技术包括减少处理氨基酸序列和对应的位置频率矩阵(PFM)的神经网络实现的模型的过拟合的系统和方法。所述系统生成标记为良性的补充训练样例序列对，所述补充训练样例序列对包括按顺序排列的起始位置、目标氨基酸位置和结束位置。补充序列对补充了致病性或良性错义训练样例序列对。其在参考氨基酸序列和替代氨基酸序列中具有相同的氨基酸。所述系统包括用每个补充序列对输入补充训练位置频率矩阵(PFM)的逻辑，所述补充训练PFM与在匹配的起始和结束位置的所述良性或致病性错义训练样例序列对的PFM相同。系统包括通过补充训练样例PFM包含在将训练数据中来削弱在训练所述神经网络实现的模型期间所述训练PFM的训练影响的逻辑。

Description

基于深度学习的深度卷积神经网络预训练技术

优先权申请

本申请要求2019年5月8日提交的标题为“DEEP LEARNING-BASED TECHNIQUES FORPRE-TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS”的美国部分继续专利No.16/407,149(代理人案卷号：ILLM 1010-1/IP-1734-US)的优先权，它是以下同时于2018年10月15日提交的三个PCT申请和三个美国非临时申请的继续专利申请并要求这些申请的优先权，即：(1)于2018年10月15日提交的标题为“DEEP LEARNING-BASED TECHNIQUES FOR TRAININGDEEP CONVOLUTIONAL NEURAL NETWORKS”的PCT专利申请PCT/US2018/055840(代理人案卷号ILLM 1000-8/IP-1611-PCT)；(2)于2018年10月15日提交的标题为“DEEP CONVOLUTIONALNEURAL NETWORKS FOR VARIANT CLASSIFICATION”的PCT专利申请PCT/US2018/055878(代理案卷号：ILLM 1000-9/IP-1612-PCT)；(3)于2018年10月15日提交的标题为“SEMI-SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURALNETWORKS”的PCT专利申请PCT/US2018/055881(代理人案卷号：ILLM 1000-10/IP-1613-PCT)；(4)2018年10月15日提交的标题为“DEEP LEARNING-BASED TECHNIQUES FORTRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS”的美国临时专利申请No.16/160,903(律师案卷号：ILLM1000-5/IP-1611-US)；(5)2018年10月15日提交的标题为“DEEPCONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION”的美国非临时专利申请No.16/160,986(代理人案卷号：ILLM 1000-6/IP-1612-US)；以及(6)2018年10月15日提交的标题为“SEMI-SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEPCONVOLUTIONAL NEURAL NETWORKS”的美国非临时专利申请No.16/160,968(代理人案卷号：ILLM 1000-7/IP-1613-US)。所有三个PCT申请和三个美国非临时申请都要求以下列出的四个美国临时申请的优先权和/或权益。

2017年10月16日提交的标题为“TRAINING A DEEP PATHOGENICITY CLASSIFIERUSING LARGE-SCALE BENIGN TRAINING DATA”的美国临时专利申请No.62/573,144(代理人案卷号：ILLM 1000-1/IP-1611-PRV)。

2017年10月16日提交的标题为“PATHOGENICITY CLASSIFIER BASED ON DEEPCONVOLUTIONAL NEURAL NETWORKS(CNNS)”的美国临时专利申请No.62/573,149(代理人案卷号：ILLM 1000-2/IP-1612-PRV)。

2017年10月16日提交的标题为“DEEP SEMI-SUPERVISED LEARNING THATGENERATES LARGE-SCALE PATHOGENIC TRAINING DATA”的美国临时专利申请No.62/573,153(代理人案卷号：ILLM 1000-3/IP-1613-PRV)。

2017年11月7日提交的标题为“PATHOGENICITY CLASSIFICATION OF GENOMICDATA USING DEEP CONVOLUTIONAL NEURAL NETWORKS(CNNs)”的美国临时专利申请No.62/582,898(代理人案卷号：ILLM 1000-4/IP-1618-PRV)。

并入本文的参考文献

出于所有目的，以下内容通过引用并入本文，如同在本文中进行了完整阐述一样：

由Hong Gao,Kai-How Farh,Laksshman Sundaram和Jeremy Francis McRae于2017年10月16日提交的标题为“TRAINING A DEEP PATHOGENICITY CLASSIFIER USINGLARGE-SCALE BENIGN TRAINING DATA”的美国临时专利申请No.62/573,144(代理人案卷号ILLM 1000-1/IP-1611-PRV)。

由Laksshman Sundaram,Kai-How Farh,Hong Gao,Samskruthi ReddyPadigepati和Jeremy Francis McRae于2017年10月16日提交的标题为“PATHOGENICITYCLASSIFIER BASED ON DEEP CONVOLUTIONAL NEURAL NETWORKS(CNNS)”的美国临时专利申请No.62/573,149(代理人案卷号ILLM 1000-2/IP-1612-PRV)。

由Hong Gao，Kai-How Farh，Laksshman Sundaram和Jeremy Francis McRae于2017年10月16日提交的标题为“DEEP SEMI-SUPERVISED LEARNING THAT GENERATESLARGE-SCALE PATHOGENIC TRAINING DATA”的美国临时专利申请No.62/573,153(代理人案卷号：ILLM 1000-3/IP-1613-PRV)。

由Hong Gao,Kai-How Farh,Laksshman Sundaram于2017年11月7日提交的标题为“PATHOGENICITY CLASSIFICATION OF GENOMIC DATA USING DEEP CONVOLUTIONAL NEURALNETWORKS(CNNs)”的美国临时专利申请No.62/582,898(代理人案卷号ILLM 1000-4/

IP-1618-PRV)。

由Hong Gao,Kai-How Farh,Laksshman Sundaram和Jeremy Francis McRae于2018年10月15日提交的标题为“DEEP LEARNING-BASED TECHNIQUES FOR TRAINING DEEPCONVOLUTIONAL NEURAL NETWORKS”的PCT专利申请PCT/US18/55840。(代理人案卷号ILLM1000-8/IP-1611-PCT)。

由Laksshman Sundaram,Kai-How Farh,Hong Gao,Samskruthi ReddyPadigepati和Jeremy Francis McRae于2018年10月15日提交的标题为“DEEPCONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION”的PCT专利申请PCT/US2018/55878(代理人案卷号ILLM 1000-9/IP-1612-PCT)。

由Laksshman Sundaram,Kai-How Farh,Hong Gao和Jeremy Francis McRae于2018年10月15日提交的标题为“SEMI-SUPERVISED LEARNING FOR TRAINING AN ENSEMBLEOF DEEP CONVOLUTIONAL NEURAL NETWORKS”的PCT专利申请PCT/US2018/55881(代理人案卷号ILLM 1000-10/IP-1613-PCT)。

由Hong Gao,Kai-How Farh,Laksshman Sundaram和Jeremy Francis McRae于2018年10月15日提交的标题为“DEEP LEARNING-BASED TECHNIQUES FOR TRAINING DEEPCONVOLUTIONAL NEURAL NETWORKS”的美国非临时专利申请No.16/160,903(代理人案卷号ILLM1000-5/IP-1611-US)。

由Laksshman Sundaram,Kai-How Farh,Hong Gao和Jeremy Francis McRae于2018年10月15日提交的标题为“DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANTCLASSIFICATION”的美国非临时专利申请No.16/160,986(代理人案卷号ILLM 1000-6/IP-1612-US)。

由Laksshman Sundaram,Kai-How Farh,Hong Gao和Jeremy Francis McRae于2018年10月15日提交的标题为“SEMI-SUPERVISED LEARNING FOR TRAINING AN ENSEMBLEOF DEEP CONVOLUTIONAL NEURAL NETWORKS”的美国非临时专利申请No.16/160,968(代理人案卷号ILLM1000-7/IP-1613-US)。

文献1–A.V.D.Oord,S.Dieleman,H.Zen,K.Simonyan,O.Vinyals,A.Graves,N.Kalchbrenner,A.Senior,and K.Kavukcuoglu,“WAVENET:A GENERATIVE MODEL FOR RAWAUDIO,”arXiv:1609.03499,2016；

文献2–S.

Arik,M.Chrzanowski,A.Coates,G.Diamos,A.Gibiansky,Y.Kang,X.Li,J.Miller,A.Ng,J.Raiman,S.Sengupta and M.Shoeybi,“DEEP VOICE:REAL-TIMENEURAL TEXT-TO-SPEECH,”arXiv:1702.07825,2017；

文献3–F.Yu and V.Koltun,“MULTI-SCALE CONTEXT AGGREGATION BY DILATEDCONVOLUTIONS,”arXiv:1511.07122,2016；

文献4–K.He,X.Zhang,S.Ren,and J.Sun,“DEEP RESIDUAL LEARNING FOR IMAGERECOGNITION,”arXiv:1512.03385,2015；

文献5–R.K.Srivastava,K.Greff,and J.Schmidhuber,“HIGHWAY NETWORKS,”arXiv:1505.00387,2015；

文献6–G.Huang,Z.Liu,L.van der Maaten and K.Q.Weinberger,“DENSELYCONNECTED CONVOLUTIONAL NETWORKS,”arXiv:1608.06993,2017；

文献7–C.Szegedy,W.Liu,Y.Jia,P.Sermanet,S.Reed,D.Anguelov,D.Erhan,V.Vanhoucke,and A.Rabinovich,“GOING DEEPER WITH CONVOLUTIONS,”arXiv:1409.4842,2014；

文献8–S.Ioffe and C.Szegedy,“BATCH NORMALIZATION:ACCELERATING DEEPNETWORK TRAINING BY REDUCING INTERNAL COVARIATE SHIFT,”arXiv:1502.03167,2015；

文献9–J.M.Wolterink,T.Leiner,M.A.Viergever,and I.

“DILATEDCONVOLUTIONAL NEURAL NETWORKS FOR CARDIOVASCULAR MR SEGMENTATION INCONGENITAL HEART DISEASE,”arXiv:1704.03669,2017；

文献10–L.C.Piqueras,“AUTOREGRESSIVE MODEL BASED ON A DEEPCONVOLUTIONAL NEURAL NETWORK FOR AUDIO GENERATION,”Tampere University ofTechnology,2016；

文献11–J.Wu,“Introduction to Convolutional Neural Networks,”NanjingUniversity,2017；

文献12–I.J.Goodfellow,D.Warde-Farley,M.Mirza,A.Courville,andY.Bengio,“CONVOLUTIONAL NETWORKS”,Deep Learning,MIT Press,2016；and

文献13–J.Gu,Z.Wang,J.Kuen,L.Ma,A.Shahroudy,B.Shuai,T.Liu,X.Wang,andG.Wang,“RECENT ADVANCES IN CONVOLUTIONAL NEURAL NETWORKS,”arXiv:1512.07108,2017.

文献1描述了深度卷积神经网络架构，其利用具有卷积窗口尺寸相同的卷积滤波器的残差块组、批归一化层、修正线性单元(缩写为ReLU)层、维数更改层、具有指数增长的空洞卷积率的空洞卷积层、跳跃连接和softmax分类层来接受输入序列并产生对所述输入序列中的条目进行评分的输出序列。所公开的技术利用了文献1中描述的神经网络组件和参数。在一个实施方式中，所公开的技术对文献1中描述的神经网络组件的参数进行了修改。例如，不同于文献1，所公开的技术中的空洞卷积率从一个较低残差块组到一个较高残差块组以非指数的方式累进。在另一个实例中，不同于文献1，所公开的技术中的卷积窗口尺寸在残差块组之间变化。

文献2描述了在文献1中描述的深度卷积神经网络架构的细节。

文献3描述了由所公开的技术采用的空洞卷积。如本文中所使用的，空洞卷积也被称为“膨胀卷积”。空洞/膨胀卷积实现了具有很少的可训练参数的大感受野。空洞/膨胀卷积是指通过以一定步长(也称为空洞卷积率或膨胀因子)跳过输入值来将内核应用于大于其长度的区域的卷积。空洞/膨胀卷积在卷积滤波器/内核的元素之间增加了间距，使得当执行卷积操作时，顾及到了间距较大的相邻输入条目(例如，核苷酸和氨基酸)。这使得将长程上下文依赖性并入输入成为可能。空洞卷积保留部分卷积计算，以便在处理相邻核苷酸时重复使用。

文献4描述了由所公开的技术使用的残差块和残差连接。

文献5描述了由所公开的技术使用的跳跃连接。如本文所使用的，跳跃连接也称为“公路网络”。

文献6描述了由所公开的技术使用的密集连接的卷积网络架构。

文献7描述了由所公开的技术使用的维数更改卷积层和基于模块的处理流水线。维数更改卷积的一个示例是1×1卷积。

文献8描述了由所公开的技术使用的批归一化层。

文献9还描述了由所公开的技术使用的空洞/膨胀卷积。

文献10描述了可由所公开的技术使用的各种深度神经网络的架构，其包括卷积神经网络、深度卷积神经网络和具有空洞/膨胀卷积的深度卷积神经网络。

文献11描述了可由所公开的技术使用的卷积神经网络的细节，其包括用于训练具有子采样层(例如，池化)和全连接层的卷积神经网络的算法。

文献12描述了可由所公开的技术使用的各种卷积操作的细节。

文献13描述了可由所公开的技术使用的各种卷积神经网络的架构。

技术领域

所公开的技术涉及人工智能型计算机和数字数据处理系统以及相对应的用于智能仿真的数据处理方法和产品(即，基于知识的系统、推理系统和知识获取系统)；并且包括用于不确定性推理的系统(例如模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。特别地，所公开的技术涉及使用基于深度学习的技术来训练深度卷积神经网络。尤其地，所公开的技术涉及预训练深度卷积神经网络，以避免过拟合。

背景技术

不能仅仅因为在本节中提到了本节中所讨论的主题而认为其是现有技术。同样地，也不能认为本节中所提及的或与作为技术背景而提供的主题相关的问题先前已经被现有技术所认可。本节中的主题仅表示不同的方法，这些方法本身也可以对应于所要求保护的技术的实施方式。

机器学习

在机器学习中，输入变量用于预测输出变量。输入变量通常称为特征并且由X＝(X₁,X₂,...,X_k)表示，其中每个X_i,i∈1,...,k是一个特征。输出变量通常称为响应变量或因变量，并且由变量Yi表示。Y和相对应的X之间的关系可以用一般形式写成：

Y＝f(X)+∈

在上面的等式中，f是特征(X₁,X₂,...,X_k)的函数并且∈是随机误差项。该误差项独立于X且具有零的平均值。

实际上，特征X在没有Y或不知道X和Y之间的确切关系的情况下也是有效的。因为该误差项的平均值为零，所以目标是估计值f。

在上面的等式中，

是∈的估计值，其通常被认为是一个黑盒，这意味着仅

的输入和输出之间的关系是已知的，但是它为什么会起作用这个问题仍然没有答案。

利用学习来找到该函数

监督学习和无监督学习是机器学习中用于此任务的两种方式。在监督学习中，标记数据用于训练。通过示出输入和相对应的输出(＝标签)，函数

被优化，使得它近似于输出。在无监督学习中，目标是从未标记数据中找到隐藏的结构。该算法对输入数据的准确性没有任何度量，这使其与监督学习有所差异。

神经网络

神经网络是在彼此之间交换消息的互连的人工神经元(例如，a1、a2、a3)的系统。所示的神经网络具有三个输入、隐藏层中的两个神经元和输出层中的两个神经元。隐藏层具有激活函数f(·)并且输出层具有激活函数g(·)。连接具有在训练期间被调整的数字权重(例如，w11、w21、w12、w31、w22、w32、v11、v22)，以便训练得当的神经网络在收到图像以进行识别时能正确地作出响应。输入层处理原始输入，隐藏层基于输入层与隐藏层之间的连接的权重来处理来自输入层的输出。输出层从隐藏层获取输出且基于隐藏层与输出层之间的连接的权重对其进行处理。该神经网络包括多层特征检测神经元。每层具有响应于来自先前层的输入的不同组合的许多神经元。这些层被构造成使得第一层检测输入图像数据中的一组原始图案，第二层检测图案的图案，并且第三层检测这些图案的图案。

在使用神经网络模型预测用于生产样本的输出之前，先使用训练样例对其进行训练。通过使用训练样例的测试集来评估训练后的模型的预测质量，该训练样例的测试集在训练期间未作为输入提供。如果该模型正确地预测了用于测试样本的输出，则可以将其用于推理，具有高置信度。但是，如果该模型没有正确地预测用于测试样例的输出，则我们可以说该模型在训练数据上过拟合，并且其尚未对未出现的测试数据实现泛化。

深度学习在基因组学中的应用的调查可以在以下出版物中找到：

·T.Ching et al.,Opportunities And Obstacles For Deep Learning InBiology And Medicine,www.biorxiv.org:142760,2017；

·Angermueller C,

T,Parts L,Stegle O.Deep Learning ForComputational Biology.Mol Syst Biol.2016；12:878；

·Park Y,Kellis M.2015Deep Learning For RegulatoryGenomics.Nat.Biotechnol.33,825–826.(doi:10.1038/nbt.3313)；

·Min,S.,Lee,B.&Yoon,S.Deep Learning In Bioinformatics.Brief.Bioinform.bbw068(2016)；

·Leung MK,Delong A,Alipanahi B et al.Machine Learning In GenomicMedicine:A Review of Computational Problems and Data Sets 2016；and

·Libbrecht MW,Noble WS.Machine Learning Applications In Genetics andGenomics.Nature Reviews Genetics 2015；16(6):321-32。

附图说明

在附图中，在所有不同的视图中，相同的附图标记通常指代相同的部分。此外，附图不一定按比例绘制，而是总体上将重点放在说明所公开的技术的原理上。在以下描述中，参考以下附图来描述所公开的技术的各种实施方式，在附图中：

图1示出了系统的架构层级示意图，其中在变体致病性预测模型的训练期间，使用了补充训练样例来减少过拟合。

图2示出了用于致病性预测的深度残差网络的示例性架构，在本文中称为“PrimateAI”

图3描绘了PrimateAI的示意图，PrimateAI是用于致病性分类的深度学习网络架构。

图4描绘了卷积神经网络的工作方式的一种实施方式。

图5描绘了根据所公开的技术的一种实施方式的训练卷积神经网络的框图。

图6展示了示例性错义变体和相应的补充良性训练样例。

图7示出了采用补充数据集对致病性预测模型进行公开的预训练。

图8示出了在预训练迭代批次之后对预训练的致病性预测模型进行训练。

图9示出了训练后的致病性预测模型在评估未标记的变体中的应用。

图10展示了具有致病性错义变体的示例性氨基酸序列的位置频率矩阵起点和相应的补充良性训练样例。

图11展示了具有良性错义变体的示例性氨基酸序列的位置频率矩阵起点和相应的补充良性训练样例。

图12示出了灵长类动物、哺乳动物和脊椎动物氨基酸序列的位置频率矩阵的构建。

图13给出了人类参考氨基酸序列和人类替代氨基酸序列的示例性独热编码。

图14示出了变体致病性预测模型的输入示例。

图15是可用于实现所公开的技术的计算机系统的简化框图。

具体实施方式

给出以下讨论以使本领域任何技术人员能够制造和使用所公开的技术，并且在特定应用及其要求的上下文中提供以下讨论。对所公开的实施方式的各种修改对于本领域技术人员来说将是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，本文定义的一般原理可以应用于其他实施方式和应用。由此，所公开的技术并非意图被限定于所示出的实施方式，而是应被赋予与本文所公开的原理和特征一致的最广范围。

介绍

本申请的各节重复了参考的申请文本的相关内容，以提供所公开的改进的背景技术。先前的申请公开了使用非人类灵长类动物的错义变体数据进行训练的深度学习系统，如下所述。在提供背景技术之前，我们将介绍所公开的改进的信息。

发明人凭经验观察到，某些训练模式有时会导致深度学习系统过分强调位置频率矩阵输入。对位置频率矩阵的过拟合可能会降低系统区分通常是良性的氨基酸错义(例如R->K)和通常是有害的氨基酸错义(例如R->W)的能力。用特定选择的训练样例来补充训练集可以减少或抵消过拟合，并改善训练结果。

标记为良性的补充训练样例包括与错义训练样例相同的位置频率矩阵(“PFM”)，这些位置频率矩阵可能是未标记(并假定为是致病性)的、标记为致病性的或标记为良性的。这些补充良性训练样例的直观影响是迫使反向传播训练在非位置频率矩阵的基础上区分良性和致病性。

补充性良性训练样例被构造为与训练集中的致病性或未标记样例形成对照。补充良性训练样例还可以强化良性错义样例。为了进行对照，致病性错义可以是筛选的致病性错义，也可以是训练集中组合生成的样例。所选择的良性变体可以是同义变体，其表达来自两个不同密码子(为同一个氨基酸编码的两个不同的三核苷酸序列)的相同氨基酸。当使用同义良性变体时，它不是随机构造的。相反，它是从序列种群中观察到的同义变体中选择出来的。同义变体可能是人类变体，因为与其他灵长类动物、哺乳动物或脊椎动物相比，人类可获得更多的序列数据。补充性良性训练样例在参考和替代氨基酸序列中均具有相同的氨基酸序列。或者，所选择的良性变体可以仅位于与其形成对照的训练样例相同的位置。在抵消过拟合方面这有可能与采用同义良性变体同样有效。

在初始训练迭代批次后可以中断使用补充良性训练样例，也可以在整个训练过程中继续使用所述补充良性训练样例，因为这些示例准确地反映了本质。

卷积神经网络

如背景技术中所言，卷积神经网络是一种特殊类型的神经网络。密集连接层和卷积层之间的根本差异是：密集层在其输入特征空间中学习全局图案，而卷积层学习局部图案：在图像实例中，在输入的小2D窗口中找到的图案。这一关键特性给卷积神经网络带来了两个有趣的特性：(1)他们学习的图案是平移不变的,(2)他们可以学习图案的空间层次。

至于第一个特点，在学习了图片右下角的某个图案之后，卷积层可以在左上角等任何地方对其进行识别。如果所述图案出现在新的位置，密集连接网络就必须重新学习这个图案。这使得卷积神经网络能高效地利用数据，因为它们只需要较少的训练样例来学习具有泛化能力的表示。

至于第二个特点，第一卷积层能够学习边缘等小的局部图案，第二卷积层会学习由第一层的特征构成的更大的图案，依此类推。这使得卷积神经网络能高效地学习日益复杂和抽象的视觉概念。

卷积神经网络通过将布置在许多不同层中的具有使这些层产生依赖的激活函数的人工神经元层互连来学习高度非线性的映射。它包括散布有一个或多个子采样层和非线性层的一个或多个卷积层，紧随其后的是一个或多个全连接层。卷积神经网络的每个元素从前一层中的一组特征接收输入。卷积神经网络进行并发学习，因为同一特征图中的神经元具有相同的权重。这些局部共享权重降低了所述卷积神经网络的复杂性，使得当多维输入数据进入所述卷积神经网络时，所述卷积神经网络避免了特征提取和回归或分类过程中复杂的数据重构。

卷积在具有两个空间轴(高度和宽度)以及深度轴(也称为通道轴)的3D张量(称为特征图)上操作。对于RGB图像来说，深度轴的维度是3，因为图像具有三个颜色通道：红色、绿色和蓝色。对于黑白图像来说，深度为1(灰度级)。卷积操作从其输入特征图中提取图像区块，并将相同的变换应用于所有这些图像区块，从而产生输出特征图。该输出特征图仍然是一个具有宽度和高度的3D张量。其深度可以是任意的，因为输出深度是层的参数，并且该深度轴上的不同通道不再代表如在RGB输入中的具体颜色；相反，它们代表滤波器。滤波器对输入数据的具体方面进行编码：例如，在高度层面上，单个滤波器可以对“输入中存在人脸”的概念进行编码。

例如，第一卷积层获取大小为(28，28，1)的特征图，并输出大小为(26，26，32)的特征图：它相对于其输入计算32个滤波器。这32个输出通道中的每一个都包含一个26x26数值网格，其是该滤波器相对于输入的响应图，指示了该滤波器图案在输入中的不同位置的响应。术语“特征图”指的是，所述深度轴中的每个维度都是一个特征(或滤波器)，并且2D张量输出[：,：,n]是该滤波器相对于输入的响应的2D空间图。

卷积由两个关键参数定义：(1)从输入中提取的图像区块的大小(通常是1x1、3x3或5x5)；以及(2)输出特征图的深度(是由卷积计算的滤波器的数量)。通常，这些以32个滤波器的深度开始，延伸到64个滤波器的深度并以128或256个滤波器的深度终止。

卷积的工作方式是：在3D输入特征图的上方滑动这些大小为3x3或5x5的窗口，在每个位置停止，并提取周围特征的3D图像区块(形状(窗口_高度、窗口_宽度和输入_深度))来工作。然后经由具有相同的学到的权重矩阵的张量积(被称为卷积内核)，将每个这样的3D图像区块变换为形状的1D向量(输出_深度)。然后将所有这些向量在空间上重新组合成形状的3D输出图(高度、宽度和输出_深度)。输出特征图中的每个空间位置对应于所述输入特征图中的相同位置(例如，输出的右下角包含关于输入的右下角的信息)。例如，通过3×3窗口，向量输出[i,J,：]来自3D图像区块输入[i-1：i+1,j-1：j+1,：]。在图4中详细描述了整个过程(标记为400)。

卷积神经网络包括卷积层，所述卷积层在输入值和卷积滤波器(权重矩阵)之间执行卷积操作，所述卷积滤波器是在训练期间通过许多次梯度更新迭代学到的。设(m,n)为滤波器大小，设w为权重矩阵，然后卷积层通过计算点积W·x+b来执行W与输入X的卷积，其中x是X的实例，而b是偏差。所述卷积滤波器滑过输入的步长被称为步幅，并且滤波器面积(m×n)被称为感受野。同一个的卷积滤波器应用于输入的不同位置，这减少了所学习的权重的数量。它还实现了位置不变学习，即，如果输入中存在重要图案，则无论该图案位于序列中何处，所述卷积滤波器都可以学习它。

训练卷积神经网络

作为另一个技术背景，图5所示的是根据所公开的技术的一个实施方式训练卷积神经网络的框图500。对卷积神经网络进行调整或训练，以便从输入数据得到特定的输出估值。采用基于输出估值和真值的比较的反向传播来调整所述卷积神经网络，直到输出估值逐渐匹配或接近真值为止。

通过基于真值与实际输出之间的差异来调整神经元之间的权重来训练卷积神经网络。这在数学上被描述为：

whereδ＝(groundtruth)-(actualoutput)

其中δ＝(真值)-(实际输出)

在一个实施方式中，训练规则被定义为：

在上面的等式中：所述箭头指示所述值的更新；t_m是神经元m的目标值；

是计算出的神经元m的当前输出；a_n是输入n；以及α是学习率。

训练中的中间步骤包括利用卷积层从输入数据生成特征向量。从输出开始，计算关于每层中的权重的梯度。这被称为逆推法或后退。采用负梯度和先前权重的组合来更新所述卷积神经网络中的权重。

在一个实施方式中，卷积神经网络使用随机梯度更新算法(诸如ADAM)，该算法借助于梯度下降来执行误差的反向传播。下面描述了基于S形函数的反向传播算法的一个示例：

在上面的S形函数中，h是由神经元计算的加权和。该S形函数具有以下导数：

该算法包括计算所述卷积神经网络中的所有神经元的激活，从而产生用于正推法的输出。隐藏层中的神经元m的激活被描述为：

对所有隐藏层执行此操作以获取激活，描述如下：

然后，在每一层计算误差和正确权重。按以下公式计算输出的误差：

按以下公式计算隐藏层中的误差：

按以下公式更新输出层的权重：

按以下公式使用学习率α来更新隐藏层的权重：

vnm←wnm+αδhman

在一个实施方式中，卷积神经网络使用梯度下降优化来计算跨所有层的误差。在此类优化中，对于输入特征向量x和预测的输出

损失函数被定义为l，(代表了目标为y时预测

的成本)，即

采用函数f从输入特征向量x中变换预测的输出

函数f由卷积神经网络的权重参数化，即

损失函数描述为

或Q(z,w)＝l(f_w(x),y)，其中z是输入和输出数据对(x,y)。通过根据以下公式更新权重来执行梯度下降优化：

w_t+1＝w_t+v_t+1

在上面的等式中，α是学习率。此外，损失被计算为相对于一组n数据对的平均值。当线性收敛时，学习率α足够小的时候，终止计算。在其他实施方式中，仅使用被馈送到内斯特罗夫加速梯度和自适应梯度的选定数据对来计算梯度，以注入计算效率。

在一个实施方式中，卷积神经网络使用随机梯度下降(SGD)来计算成本函数。SGD通过仅从一个随机化的数据对中对其进行计算，使SGD近似于与损失函数中权重有关的梯度(z_t)，描述如下：

v_t+1＝μv-α▽wQ(z_t，w_t)

w_t+1＝w_t+v_t+1

在上面的等式中：α是学习率；μ是动量；并且t是更新之前的当前权重状态。当学习率α以足够快或足够慢的速度减少时，SGD的收敛速度都约为O(1/t)。在其他实现中，卷积神经网络使用不同的损失函数，诸如欧几里得损失和softmax损失。在另一个实施方式中，Adam随机优化器被卷积神经网络采用。

在通过引用并入本文的申请中可以找到卷积层、子采样层和非线性层的其他公开和说明、卷积实例以及基于反向传播的训练的说明。通过引用并入本文的资料中还涵盖了基本CNN技术的架构变体。

先前描述的迭代平衡采样的一个变形是在一个或两个周期而不是二十个周期中选择整个优秀训练集。通过半监督训练可以了解到，已知的良性训练样例与可靠分类的预测的致病性变体之间也许会有足够的差别，以便仅一个或两个训练周期或三到五个训练周期就足以构成优秀训练集。藉此公开了用以描述一个循环、两个循环或三至五个循环的范围的所公开的方法和装置的修改，并且通过将先前公开的迭代转换为一个、两个或三至五个循环，可以轻易地实现这些修改。

基因组学方面的深度学习

此处重申了通过引用并入本文的申请的一些重要贡献。遗传变异可以帮助解释许多疾病。每个人都有唯一的遗传密码，在一群个体中有许多遗传变体。大多数有害的遗传变体已通过自然选择从基因组中消耗了。重要的是要识别出哪些遗传变异可能是致病性的或有害的，这将有助于研究人员将重点放在可能的致病性遗传变体上，并且有助于加快诊断和治疗众多疾病的速度。

对变体的性质和功能效应(例如，致病性)进行建模是基因组学领域中一项重要但具有挑战性的任务。尽管功能基因组测序技术的发展迅速，但由于细胞类型特异性转录调控系统的复杂性，如何解释变体的功能后果仍然是一个巨大的挑战。

在过去几十年中，随着生物化学技术的进步，催生了下一代测序(NGS)平台，该平台能够以比以前低得多的成本快速生成基因组数据。如此大量的测序DNA仍然难以进行注释。当有大量标记数据可用时，监督式机器学习算法通常表现良好。在生物信息学和许多其他数据丰富的学科中，标记实例的过程的成本很高。但是，未标记的实例成本低且容易获得。对于标记数据量相对较小而未标记数据量较大的情况，半监督学习可以作为手动标记的一种经济的可选方案。

利用半监督算法来构建基于深度学习的致病性分类器的时机已经出现，该分类器可以准确地预测变体的致病性。无人为确定偏差的致病性变体数据库可能将会出现。

至于致病性分类器，深度神经网络是一种人工神经网络，它使用多个非线性复杂的转换层来连续地对高层特征进行建模。深度神经网络通过反向传播来提供反馈，该反馈携带了观察到的和预测的输出之间的差异，以调整参数。随着大规模的训练数据集、并行和分布计算能力以及复杂的训练算法可供使用，深度神经网络已经得到了进化。深度神经网络推动了计算机视觉、语音识别和自然语言处理等许多领域的重大进步。

卷积神经网络(CNN)和递归神经网络(RNN)是深度神经网络的组成部分。卷积神经网络在图像识别方面尤其成功，其架构包括卷积层、非线性层和池化层。递归神经网络被设计成利用输入数据的顺序信息，同时，感知器、长短期记忆单元和门控递归单元等构件循环连接。此外，还提出了许多其它新兴的深度神经网络用于有限的场景，例如：深度时空神经网络、多维度递归神经网络和卷积自编码器。

训练深度神经网络的目的是对每一层中的权重参数进行优化，以逐渐将较简单的特征结合到复杂特征当中去，以便可以从数据中学习到最合适的分层表示。优化过程的单个循环如下组织。首先，给定一个训练数据集，用正推法依次计算每层中的输出，并通过网络向前传播函数信号。在最后的输出层中，靶损失函数测量推断输出和给定标签之间的误差。为了将训练误差降到最低，逆推法使用链式法则反向传播误差信号，并相对于整个神经网络的所有权重计算梯度。最后，基于随机梯度下降，利用优化算法对所述权重参数进行更新。鉴于批量梯度下降为每个完整的数据集进行参数更新，随机梯度下降则通过为每一小组的数据样本进行更新来提供随机近似值。几种优化算法源自于随机梯度下降。例如，在基于梯度的更新频率和矩为每个参数自适应修改学习率的同时，Adagrad和Adam训练算法分别进行随机梯度下降。

深度神经网络训练的另一个核心要素是正规化，其指的是旨在避免过拟合从而获得良好的泛化性能的策略。例如，权重衰减为所述靶损失函数添加一个惩罚因子，以便权重参数收敛至更小的绝对值。Dropout在训练期间随机从神经网络去除隐藏单元，并可被认为是可能存在的子神经网络的集合。为了增强Dropout的能力，提出了一个被称为maxout的新激活函数和一个用于递归神经网络的被称为rnnDrop的Dropout变形。而且，通过在一个小批量内为每次激活对标量特征进行归一化以及学习每个均值和方差作为参数，批归一化提供了一种新的正规化方法。

鉴于测序数据是多维和高维的，对于生物信息学研究来说，深度神经网络因其广泛的适用性和增强的预测能力而具有很大的前景。已经采用卷积神经网络来解决基因组学中与序列有关的问题，例如：模体发现、致病变体识别和基因表达推断。卷积神经网络采用一种权重共享策略。该策略对于DNA研究来说尤其有用，因为其可以捕捉序列模体，所述序列模体是DNA中推测具有重要的生物学功能的较短的反复出现的局部模式。卷积神经网络的一个特点是使用卷积滤波器。与基于精心设计和手动创建的特征的传统分类方法不同，卷积滤波器进行自适应的特征学习，类似于将原始输入数据映射至知识的信息表示的过程。从这个意思上来说，卷积滤波器充当一系列模体扫描仪，因为一组这样的滤波器能够在训练过程中识别输入中的相关模式并对它们进行更新。递归神经网络能够捕捉不同长度的连续数据(例如：蛋白质或DNA序列)中的长程依赖。

因此，用于预测变体致病性的强大的计算模型对于基础科学和转化研究来说都具有巨大的益处。

常见的多态性代表了自然实验，其适合度已经被一代又一代的自然选择所检验。通过比较人类错义和同义替代的等位基因频率分布，我们发现非人类灵长类物种中高等位基因频率下错义变体的存在可以可靠地预测在人类种群中变体也受到中性选择的影响。相反，随着进化距离的增加，更远缘的物种中的常见变体经历了负选择。

我们利用来自六个非人类灵长类物种的常见变异来训练一个半监督深度学习神经网络，该半监督深度学习神经网络仅使用序列就可以准确地对临床新生错义突变进行分类。拥有超过500种已知物种的灵长类动物谱系包含了足够的常见变异来系统性地模拟大多数显著性不确定的人类变体的效应。

人类参考基因组具有超过七千万种潜在的蛋白质修改错义替代，其中绝大多数是稀有突变，其对人类健康的影响尚未得到表征。这些显著性不确定的变体对临床应用中的基因组解释来说是一种挑战，并对测序技术在种群范围内的筛选和个体化医疗中的长期应用产生了障碍。

对不同人类种群的共同变异进行分类是识别临床上的良性变异的有效策略，但现代人类中可用的共同变异受到我们这个物种的远古瓶颈事件的限制。人类和黑猩猩拥有99％的序列一致性，这表明影响黑猩猩变体的自然选择有模拟人类中状态一致的变体的效应的潜力。人类种群中性多态性的平均聚结时间是物种分化时间的一小部分，因此，自然发生的黑猩猩变异在很大程度上是对与人类变异不重叠的突变空间的探索，但是通过平衡选择来维持的单倍型的稀有情况除外。

最近获得的来自60,706名人类的总体外显子组数据使我们能够通过比较错义和同义突变的等位基因频谱来检验这一假设。ExAC中的单件变体与针对突变率采用三核苷酸上下文进行调整后通过新生突变预测的2.2：1的预期错义-同义比紧密匹配，但是在较高的等位基因频率下，由于通过自然选择过滤掉了有害变体，因此观察到的错义变体的数量减少了。整个等位基因频谱上的错义-同义比的模式表明，种群频率小于0.1％的错义变体中的很大一部分是轻度有害的，也就是说，其致病性还不足以使其必须立即从种群中去除，而且其也不够中性而能够在较高的等位基因频率下存在，这与先前对更有限的种群数据的观察结果一致。这些研究结果支持诊断实验室过滤掉对渗透性遗传疾病来说可能是良性的等位基因频率大于0.1％～1％的变体的广泛经验性实践，但是少数由平衡选择和建立者效应引起的有据可查的例外除外。

通过采用与常见黑猩猩变体(在黑猩猩种群测序中多次被观察到)状态一致的人类变体子集重复此分析，我们发现在等位基因频谱上，错义-同义比在很大程度上是恒定的。黑猩猩种群中这些变体的高等位基因频率表明它们已经通过了黑猩猩中自然选择的筛分，并且它们对人类种群中适合度的中性影响提供了令人信服的证据，即，对错义变体的选择压力在这两个物种中是高度一致的。在黑猩猩中观察到的较低的错义-同义比与黑猩猩祖先种群中较大的有效种群数量相一致，从而可以更高效地过滤轻度有害的变体。

相反，稀有的黑猩猩变体(在黑猩猩种群测序中仅被观察到一次)在较高的等位基因频率下表现出错义-同义比的适度下降。通过根据人类变异数据模拟规模相同的群组，我们估计在这个规模的群组中被观察到一次的变体中只有64％的变体在一般种群中的等位基因频率大于0.1％，而在该群组中被多次观察到的变体的等位基因频率为99.8％，这表明并非所有稀有的黑猩猩变体已经通过选择的筛选。总体而言，我们估计在已确定的黑猩猩错义变体中有16％的变体在一般群体中的等位基因频率不足0.1％，并且这些变体在更高的等位基因频率下易受到负选择。

接下来，我们来表征与在其他非人类灵长类物种(倭黑猩猩、大猩猩、红毛猩猩、恒河猴和狨猴)中观察到的变异状态一致的人类变体。与黑猩猩类似，我们观察到除了在高等位基因频率下错义变异略有消耗之外，错义-同义比在整个等位基因频谱上大致相等，由于包含了少量稀有变体(～5-15％)，因此这是可以预计到的。这些结果意味着，对错义变体的选择力在至少延伸至新世界猴的灵长类动物系谱内很大程度上是一致的，据估计，新世界猴是从约3500万年前的人类祖先系谱中分化出来的。

与其他灵长类动物中的变体状态一致的人类错义变体在ClinVar中得到了极大地丰富，产生了良好的结果。在排除注释不明或冲突的变体后，我们观察到灵长类直接同源的人类变体在ClinVar中大约有95％可能性被注释为良性或可能是良性，而在一般情况下，对错义变异来说这个可能性为45％。从非人类灵长类动物中被归类为致病性的一小部分ClinVar变体与通过从类似规模的健康人群中确定稀有变体来观察的那部分致病性ClinVar变体相差无几。这些变体中有相当大的部分被注释为致病性或可能是致病性，表明它们的分类是在大型等位基因频率数据库问世之前被接纳，并且在今天可能会作出不同的筛选。

人类遗传学领域长期以来一直依靠模型生物来推断人类突变的临床影响，但是由于到达大多数遗传学上易处理的动物模型的进化距离漫长，人们担忧这些研究结果会以何种程度被回推至人类呢？为了检验人类和更远缘的物种中错义变体的自然选择的一致性，我们将分析扩展到了灵长类动物谱系之外的范围，包括来自四种其他哺乳动物物种(小鼠、猪、山羊和牛)和两种更远缘的脊椎动物物种(鸡和斑马鱼)的常见变异。与先前的灵长类动物分析对比，我们观察到，尤其在进化距离较大的情况下，相较于稀有的等位基因频率，常见等位基因频率下的错义变异显著减少，这表明更远缘的物种中很大一部分的常见错义变异会在人类种群中遭受负选择。尽管如此，在更远缘的脊椎动物中观察错义变体仍会增加良性结果的可能性，因为被自然选择所消耗的常见错义变体部分远少于基线处的人类错义变体约50％的损耗。与这些结果一致的是，我们发现在鼠、狗、猪和牛中观察到的人类错义变体在Cl inVar中大约有85％可能性被注释为良性或可能是良性，相比之下，灵长类动物变异有95％的可能性，而Cl inVar数据库整体有45％的可能性。

在不同的进化距离存在着密切关联的物种对，这也为评估人类种群中固定的错义替代的功能性结果提供了机遇。我们在哺乳动物家谱上密切关联的物种对(分支长度小于0.1)中观察到，与稀有的等位基因频率相比，在常见的等位基因频率下固定的错义变异被消耗了，这表明很大一部分的物种间固定替代在人类甚至是灵长类动物系谱中是非中性的。错义损耗程度的比较表明，物种间固定取代远不如物种内多态性中性。有趣的是，与物种内常见多态性相比，密切关联的哺乳动物之间的物种间变异在Cl inVar中并没有明显更高的致病性(有83％可能性被注释为良性或可能是良性)，这表明这些变化不会破坏蛋白质功能，而是反映了为实现针对物种的适应性优势而对蛋白质功能所做的调整。

大量可能存在的显著性不确定的变体以及准确的变体分类对于临床应用的至关重要性引发了利用机器学习来解决该问题的几次尝试，但是这些尝试很大程度上受限于常见人类变体数量的不足以及所选择的数据库中不可靠的注释质量。来自六种非人类灵长类动物的变异贡献了超过30万个唯一的错义变体，这些错义变体没有与常见的人类变异重叠，并且基本上具有良性结果，这大大增加了可用于机器学习方法的训练数据集的规模。

与采用大量人工设计的特征和元分类器的早期模型不同，我们采用了一个简单的深度学习残差网络，该深度学习残差网络仅将受关注的变体侧面的氨基酸序列和其他物种中的直系同源序列对位排列作为输入。为了向所述深度学习残差网络提供有关蛋白质结构的信息，我们训练了两个单独的网络以仅从序列中学习二级结构和溶剂亲和力，并将它们作为子网络并入到更大的深度学习网络中，以预测对蛋白质结构的影响。采用序列作为起点避免了蛋白质结构和功能域注释中潜在的偏差，这些偏差可能无法被完全确定或被前后一致地应用。

我们采用半监督学习来克服训练集仅包含带有良性标签的变体的问题，即，首先通过训练一个网络集合来将突变率和序列覆盖率匹配的可能是良性的灵长类动物变体与随机的未知变体分开。该网络集合用于对完整的未知变体进行评分，并通过偏向具有更具致病性的预测结果的未知变体来影响未知变体的选择，以为分类器的下一个迭代做准备，从而在每次迭代采用循序渐进的步骤来防止模型过早收敛到一个不是很理想的结果。

常见的灵长类动物变异还提供了干净的验证数据集来评估现有方法，该数据集完全独立于之前使用的训练数据，元分类器的增加导致很难客观地对所述训练数据进行评估。我们采用了一万个被保留的灵长类动物常见变体来评估模型以及其它四个流行的分类算法(Sift、Polyphen2、CADD和M-CAP)的性能。因为在所有的人类错义变体中大约有50％的人类错义变体会在常见等位基因频率上通过自然选择被去除，我们为每一个针对一组随机选择的错义变体的分类器计算了第五十百分位的得分，这些错义变体按照突变率与一万个被保留的灵长类动物常见变体相匹配，并采用该阈值来评估所述被保留的灵长类动物常见变体。通过采用仅根据人类常见变体训练的深度学习网络或者同时采用人类常见变体和灵长类动物变体，我们的深度学习模型的准确率明显优于针对此独立验证数据集的其他分类器。

最近的家系测序研究已经对神经发育障碍患者及其健康兄弟姐妹中的数千个新生突变进行了分类，从而能够评估各种分类算法在区分病例与对照中的新生错义突变的强度。针对这四种分类算法中的每一个，我们对病例和对照中的每个新生错义变体进行了评分，并报道了从两个分布之间差异的Wi lcoxon秩和检验得出的p值，表明根据灵长类动物变体(p～10-³³)训练的深度学习方法的表现远优于在这个临床场景下其他分类器(p～10^-13至10^-19)。根据超出先前对该群组报道的预期值约1.3倍的新生错义变体富集量以及约20％的错义变体会产生功能丧失效应的预估，我们期待一个完美的分类器来将p值为p～10-^-40的两个类别分开来。

深度学习分类器的准确率随训练数据集的大小而定，来自六种灵长类物种的变异数据分别能独立地提高分类器的准确率。现存的非人类灵长类物种的巨大数量和多样性以及证明了对蛋白修改变体的选择压力在灵长类动物谱系中是基本一致的证据表明，系统性的灵长类种群测序可作为对数百万个显著性不确定的人类变体进行分类的有效策略，这些人类变体目前限制了临床基因组解释。在504种已知的非人类灵长类物种中，约有60％的非人类灵长类物种由于狩猎和栖息地的丧失而面临灭绝，因此迫切需要进行世界范围的保护工作，这对那些独特且不可替代的物种以及我们人类自身来说都是有益的。

尽管现有的总体全基因组数据量不及外显子组数据量(这限制了检测深度内含子区域中自然选择的影响的能力)，但是我们亦能够计算远离外显子区域的隐蔽剪接突变的观测值与预期值。总的来说，我们在离外显子-内含子边界大于50nt的距离处观察到了隐蔽剪接突变消耗了60％。信号衰减可能是由于具有全基因组数据的样本量较小(与外显子组相比)以及预测深度内含子变体影响的难度较大共同造成的。

术语

本申请中引用的所有文献和类似材料，包括但不限于专利、专利申请、文章、书籍、论文和网页，无论这些文献和类似材料的格式如何，均通过引用其全部内容明确地并入。如果一个或多个所并入的文献和类似材料与本申请不同或矛盾，包括但不限于所定义的术语、术语用法、所描述的技术等，则以本申请为准。

如本文所用，以下术语具有所指示的含义。

碱基是指核苷酸碱基或核苷酸、A(腺嘌呤)、C(胞嘧啶)、T(胸腺嘧啶)或G(鸟嘌呤)。

术语“蛋白质”和“翻译序列”可在本申请中互换使用。

术语“密码子”和“碱基三联体”可在本申请中互换使用。

术语“氨基酸”和“翻译单位”可在本申请中互换使用。

术语“变体致病性分类器”、“用于变体分类的基于卷积神经网络的分类器”和“用于变体分类的基于深度卷积神经网络的分类器”可在本申请中互换使用。

术语“染色体”是指活细胞的带有遗传的基因载体，其衍生自包含DNA和蛋白质成分(尤其是组蛋白)的染色质链。本文采用了常规的国际公认的人类个体基因组染色体编码系统.

术语“位点”是指参考基因组上的独特位置(例如，染色体ID、染色体位置和取向)。在某些实现方式中，位点可以是残基、序列标签或序列上的片段的位置。术语“基因座”可用于指参考染色体上的核酸序列或多态性的特定位置。

本文中的术语“样品”是指通常衍生自包含核酸或包含至少一种待测序和/或分阶段进行的核酸序列的核酸混合物的生物流体、细胞、组织、器官或生物体的样品。此类样品包括但不限于痰液/口液、羊水、血液、血液分数、细针穿刺活检样品(例如，外科活检、细针穿刺活检等)、尿液、腹膜液、胸膜液、组织外植体、器官培养物和任何其他组织或细胞制剂，或其馏分或衍生物或从中分离的。尽管样品通常取自人类受试者(例如患者)，但样品可以取自具有染色体的任何生物体，包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。样品可以从生物来源获得时那样直接使用或在修饰样品特性的预处理之后使用。例如，这样的预处理可包括从血液、稀释粘性流体等制备血浆。预处理方法可能还包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分失活、试剂添加、裂解等。

术语“序列”包括或表示彼此偶联的核苷酸链。核苷酸可基于DNA或RNA。应当理解，一个序列可包括多个子序列。例如，(例如，PCR扩增子的)单个序列可具有350个核苷酸。样品读长可在这350个核苷酸内包括多个子序列。例如，样品读长可包括具有例如20-50个核苷酸的第一和第二侧翼子序列。第一和第二侧翼子序列可位于具有相应子序列(例如40-100个核苷酸)的重复片段的任一侧。每个侧翼子序列可包括(或包括部分的)引物子序列(例如，10-30个核苷酸)。为了易于阅读，术语“子序列”将被称为“序列”，但是应理解，两个序列在公共链上不一定彼此分开。为了区分本文所述的各种序列，可以给序列赋予不同的标记(例如，靶序列、引物序列、侧翼序列、参考序列等)。诸如“等位基因”的其他术语可被赋予不同的标签以区分相似的对象。

术语“双端测序”是指对靶片段的两端进行测序的测序方法。双端测序可以促进基因组重排和重复片段的检测，以及基因融合和新型转录本的检测。在PCT公开WO07010252、PCT申请序列号PCTGB2007/003798和美国专利申请公开US 2009/0088327中描述了用于双端测序的方法，其各自通过引入并入本文。在一个实例中，一系列操作可以如下进行；(a)产生核酸簇；(b)使核酸线性化；(c)杂交第一测序引物，并如上所述进行延伸、扫描和去封闭的重复循环；(d)通过合成互补拷贝“反转”流细胞表面的靶核酸；(e)使重新合成的链线性化；(f)杂交第二测序引物，并如上所述进行延伸、扫描和去封闭的重复循环。可以通过传递如上所述的用于桥式扩增的单个循环的试剂来进行转化操作。

术语“参考基因组”或“参考序列”是指可用于参考来自受试者的鉴定序列的任何生物体的任何特定的已知基因组序列，无论是部分的还是完整的。例如，在国家生物技术信息中心(ncbi.nlm.nih.gov)上可以找到用于人类受试者以及许多其他生物体的参考基因组。“基因组”是指以核酸序列表达的生物体或病毒的完整遗传信息。基因组既包括基因又包括DNA的非编码序列。参考序列可能比与之比对的读长大。例如，它可以大至少约100倍，或大至少约1000倍，或大至少约10,000倍，或大至少约105倍，或大至少约106倍，或大至少约107倍。在一个实例中，参考基因组序列是全长人类基因组的序列。在另一个实例中，参考基因组序列限于特定的人类染色体，例如13号染色体。在一些实施方案中，参考染色体是来自人类基因组版本hg19的染色体序列。这样的序列可被称为染色体参考序列，尽管术语参考基因组旨在覆盖这样的序列。参考序列的其他实例包括其他物种的基因组，以及任何物种的染色体、子染色体区域(例如链)等。在各种实施方案中，参考基因组是共有序列或衍生自多个个体的其他组合。然而，在某些应用中，参考序列可以取自特定个体。

术语“读长”是指描述核苷酸样品或参照物的片段的序列数据的集合。术语“读长”可以指样品读长和/或参考读长。通常，尽管不是必须的，读长代表样品或参考中的连续碱基对的短序列。读长可由样品或参考片段的碱基对序列(在ATCG中)象征性地表示。可以将其存储在存储设备中，并进行适当的处理，以确定读长是否与参考序列匹配或满足其他标准。可以直接从测序设备获得读长，或从与样品有关的存储序列信息间接获得读长。在某些情况下，读长是具有足够长度(例如，至少约25bp)的DNA序列，可用于识别更大的序列或区域，例如可比对并特异性分配给染色体或基因组区域或基因的更大的序列或区域。

下一代测序方法包括，例如，通过合成技术(Illumina)测序、焦磷酸测序(454)、离子半导体技术(离子激流测序)、单分子实时测序(Pacific Biosciences)和通过连接测序(SOLiD测序)。根据测序方法的不同，每个读长的长度可能在大约30bp至大于10,000bp。例如，使用SOLiD测序仪的Illumina测序方法产生约50bp的核酸读长。又例如，离子激流测序产生高达400bp的核酸读长，而454焦磷酸测序产生约700bp的核酸读长。又例如，单分子实时测序方法可产生10,000bp至15,000bp的读长。因此，在某些实施方案中，核酸序列读长的长度为30-100bp、50-200bp或50-400bp。

术语“样品读长”、“样品序列”或“样品片段”是指来自样品的感兴趣的基因组序列的序列数据。例如，样品读长包括来自具有正向和反向引物序列的PCR扩增子的序列数据。序列数据可从任何选择的序列方法中获得。样品读长可以是，例如，来自边合成边测序(SBS)反应、边连接边测序或需要确定重复序列的长度和/或同一性的任何其他合适的测序方法。样品读长可以是衍生自多个样品读长的共有(例如，平均或加权)序列。在某些实施方案中，提供参考序列包括基于PCR扩增子的引物序列鉴定感兴趣的基因座。

术语“原始片段”是指感兴趣的基因组序列的一部分的序列数据，其至少部分地重叠在样品读长或样品片段内的指定的感兴趣位置或次要位置。原始片段的非限制性实例包括双工缝合片段，单工缝合片段、双工非缝合片段和单工非缝合片段。术语“原始”用于指示原始片段包括与样品读长中的序列数据有某种关系的序列数据，而不管原始片段是否显示出对应于并鉴定或确认样品读长中的潜在变异的支持变体。术语“原始片段”并不表示该片段必然包含支持变体，该变体可验证样品读长中的变体识别。例如，当变体识别应用确定样品读长显示出第一变体时，变体识别应用可以确定一个或多个原始片段缺少相应类型的“支持”变体，否则可预期在样品读长中的给定变体的条件下可能发生。

术语“映射(mapping)”、“比对(aligned)”、“比对(alignment)”或“比对(aligning)”是指将阅读或标签与参考序列进行比较，从而确定参考序列是否包含阅读序列的过程。如果参考序列包含读长，则该读长可以被映射到参考序列，或者在某些实现方式中，可以被映射到参考序列中的特定位置。在某些情况下，比对只是告诉读长是否为特定参考序列的成员(即，读长在参考序列中存在还是不存在)。例如，读长与人染色体13的参考序列的比对将表明该读长是否存在于13号染色体的参考序列中。提供此信息的工具可以称为设置成员资格测试仪。在某些情况下，比对还指示读长或标签所映射的参考序列中的位置。例如，如果参考序列是整个人类基因组序列，则比对可以指示在13号染色体上存在读长，并且可以进一步指示该读长在13号染色体的特定链和/或位点上。

术语“插入/缺失”是指生物体DNA中碱基的插入和/或缺失。微型插入缺失表示导致1至50个核苷酸的净变化的插入缺失。在基因组的编码区域中，除非插入缺失的长度是3的倍数，否则它将产生移码突变。插入缺失可以与点突变形成对比。插入缺失插入物从序列中插入和删除核苷酸，而点突变是一种替换形式，可以替换一个核苷酸而不改变DNA的总数。插入缺失也可以与串联碱基突变(TBM)形成对比，串联碱基突变可以定义为在相邻核苷酸处的取代(主要是在两个相邻核苷酸处的取代，但已经观察到在三个相邻核苷酸处的取代)。

术语“变体”是指与核酸参照不同的核酸序列。典型的核酸序列变体包括但不限于单核苷酸多态性(SNP)、短缺失和插入多态性(Indel)、拷贝数变异(CNV)、微卫星标记或短串联重复和结构变异。体细胞变异识别是鉴定DNA样品中低频存在的变异的工作。在癌症治疗的背景下，体细胞变异识别是令人感兴趣的。癌症是由DNA突变的积累引起的。来自肿瘤的DNA样品通常是异质的，包括一些正常细胞，一些处于癌症进展早期的细胞(突变较少)和一些晚期细胞(突变较多)。由于这种异质性，当对肿瘤进行测序(例如，从FFPE样品中)时，体细胞突变通常会以较低的频率出现。例如，SNV可能仅在覆盖给定碱基的10％读长中可见。被变体分类器分类为体细胞或种系的变体在本文中也称为“被测变体”。

术语“噪声”是指由于测序过程和/或变异识别应用程序中的一个或多个错误而导致的错误变体识别。

术语“变体频率”表示种群中特定基因座的等位基因(基因变异)的相对频率，以分数或百分比表示。例如，分数或百分比可以是携带该等位基因的种群中的所有的染色体的分数。举例来说，样品变体频率表示在“种群”上沿着感兴趣的基因组序列在特定基因座/位置的等位基因/变体的相对频率，该“种群”对应于针对来自个体的感兴趣的基因组序列获得的读长和/或样品的数量。作为另一实例，基线变体频率表示沿着一个或多个基线基因组序列在特定基因座/位置的等位基因/变体的相对频率，其中“种群”对应于来自正常个体种群的一个或多个基线基因组序列获得的读长和/或样品的数量。

术语“变异等位基因频率(VAF)”是指观察到的与变体匹配的测序读长的百分比除以靶位置的总覆盖率。VAF是携带变体的测序读长的比例的测度。

术语“位置”、“指定位置”和“基因座”是指一个或多个核苷酸在核苷酸序列内的位置或坐标。术语“位置”、“指定位置”和“基因座”也指核苷酸序列中的一个或多个碱基对的位置或坐标。

术语“单倍型”是指在染色体上相邻位点的等位基因的组合，其是一起遗传的。单倍型可以是一个基因座、多个基因座或整个染色体，取决于给定基因座组之间(如果有的话)发生的重组事件的数量。

术语“阈值”在本文中是指用作临界值以表征样品、核酸或其部分(例如，读长)的数值或非数值。阈值可基于经验分析而变化。可以将阈值与测量值或计算值进行比较，以确定是否应以特定方式对产生该值的来源进行分类。阈值可以凭经验或分析来识别。阈值的选择取决于用户希望进行分类的置信度。可以出于特定目的(例如，以平衡灵敏度和选择性)来选择阈值。如本文所用，术语“阈值”表示可以改变分析过程的点和/或可以触发动作的点。阈值不需要是预定数量。相反，阈值可以是例如，基于多个因素的函数。该阈值可以适应环境。此外，阈值可以指示上限、下限或极限之间的范围。

在一些实现方式中，可以将基于测序数据的度量或得分与阈值进行比较。如本文所用，术语“度量”或“得分”可以包括从测序数据确定的值或结果，或者可以包括基于从测序数据确定的值或结果的函数。像阈值一样，度量或得分可以适应环境。例如，度量或得分可以是归一化值。作为得分或度量的实例，一个或多个实现方式可以在分析数据时使用计数得分。计数得分可以基于样品读长的数量。样品读长可能已经历一个或多个过滤阶段，以使样品读长具有至少一种共同的特征或质量。例如，用于确定计数得分的每个样品读长可能已经与参考序列比对，或者可能被指定为潜在等位基因。可以对具有共同特征的样品读长次数进行计数以确定读长计数。计数得分可以基于读长计数。在一些实施方案中，计数得分可以是等于读长计数的值。在其他实施方案中，计数得分可以基于读长计数和其他信息。例如，计数得分可以基于遗传基因座的特定等位基因的读长计数和遗传基因座的读长总数。在一些实现方式中，计数得分可以基于读长计数和遗传基因座先前获得的数据。在一些实现方式中，计数得分可以是预定值之间的归一化得分。计数得分还可以是来自样品其他基因座的读长计数的函数，或者是与感兴趣样品同时运行的其他样品的读长计数的函数。例如，计数得分可以是特定等位基因的读长计数和样品中其他基因座的读长计数和/或来自其他样品的读长计数的函数。作为一个实例，来自其他基因座的读长计数和/或来自其他样品的读长计数可用于归一化特定等位基因的计数得分。

术语“覆盖率”或“片段覆盖率”是指针对序列的相同片段的多个样品读长的计数或其他度量。读长计数可以代表覆盖相应片段的读长数目的计数。可备选地，可以通过将读长计数乘以基于历史知识、样品知识、基因座知识等的指定因子来确定覆盖率。

术语“读长深度”(通常为数字，后跟“×”)是指在靶位置处具有重叠比对的测序读长的数目。这通常表示为在一组时间间隔(例如外显子、基因或面板)上超过临界值的平均值或百分比。例如，一份临床报告可能会说面板平均覆盖率是1,105倍，其中98％的靶碱基覆盖率超过100倍。

术语“碱基识别质量得分”或“Q得分”是指范围为0-20的PHRED缩放的概率，范围与单个测序碱基正确的概率成反比。例如，Q为20的T碱基识别可能被认为正确，具有0.01的置信度P值。Q<20的任何碱基识别均应被认为是低质量的，而鉴定出支持该变体的相当一部分测序读长的低质量的任何变体都应被视为潜在的假阳性。

术语“变体读长”或“变体读长数目”是指支持变体存在的测序读长的数目。

测序过程

本部分提供了通过合成测序(SBS)和变体鉴定的背景。本文阐述的实施方案可适用于分析核酸序列以鉴定序列变异。可以使用实现方式来分析遗传位置/基因座的潜在变体/等位基因，并确定遗传基因座的基因型，或者换句话说，为该基因座提供基因型识别。举例来说，可以根据美国专利申请公开号2016/0085910和美国专利申请公开号2013/0296175中描述的方法和系统分析核酸序列，其全部主题明确地通过引用全部内容并入本文。

在一个实现方式中，测序过程包括接收样品，该样品包含或怀疑包含核酸，例如DNA。样品可以来自已知或未知来源，例如动物(例如人)、植物、细菌或真菌。样品可直接从来源获取。例如，血液或唾液可直接取自个体。可备选地，可能无法直接从来源获得样品。然后，一个或多个处理器指导系统准备用于测序的样品。制备可包括去除外来物质和/或分离某些物质(例如DNA)。可以制备生物学样品以包括用于特定测定的特征。例如，可以制备生物样品以进行合成测序(SBS)。在某些实施方案中，制备可包括扩增基因组的某些区域。例如，制备可以包括扩增已知的包括STR和/或SNP的预定遗传基因座。可以使用预定的引物序列扩增遗传基因座。

接下来，一个或多个处理器指导系统对样品进行测序。可以通过多种已知的测序方案进行测序。在特定的实现方式中，测序包括SBS。在SBS中，多个荧光标记的核苷酸用于对存在于光学基质表面(例如，至少部分地限定流动池中的通道的表面)上的多个扩增的DNA簇(可能数百万个簇)进行测序。流动池可包含用于测序的核酸样品，其中将流动池放置在适当的流动池支架内。

可以制备核酸使得它们包含与未知靶序列相邻的已知引物序列。为了启动第一个SBS测序循环，一个或多个不同标记的核苷酸和DNA聚合酶等可以通过流体流动子系统流入/流过流动池。可以一次添加一种类型的核苷酸，或者可以对测序过程中使用的核苷酸进行特殊设计，使其具有可逆的终止特性，从而使测序反应的每个循环在几种类型的标记核苷酸(例如，A、C、T、G)存在下同时发生。核苷酸可以包括可检测的标记部分，例如荧光团。在四个核苷酸混合在一起的情况下，聚合酶能够选择正确的碱基进行整合，并且每个序列都可以延伸一个碱基。可通过使洗涤液流过流动池来洗去未结合的核苷酸。一个或多个激光可以激发核酸并诱导荧光。从核酸发出的荧光是基于掺入碱基的荧光团，并且不同的荧光团可以发射不同波长的发射光。可以将去封闭剂添加到流动池中，以从延伸和检测到的DNA链中去除可逆终止子基团。然后，可以通过使洗涤溶液流过流动池来洗去去封闭剂。然后，流动池准备好进行进一步的测序循环，从引入上述标记的核苷酸开始。流体和检测操作可以重复几次以完成测序运行。举例的测序方法描述于例如，Bentley等人，Nature 456:53-59(2008)、国际公开号WO 04/018497；和美国专利号7,057,026；国际公开号WO 91/06678；国际公开号WO

07/123744；美国专利号7,329,492；美国专利号7,211,414；美国专利号7,315,019；美国专利号7,405,281和美国专利申请公开号2008/0108082，其每一个均通过引用并入本文。

在一些实施方案中，可在测序之前或期间将核酸附着至表面并扩增。例如，可以使用桥式扩增来进行扩增以在表面上形成核酸簇。有用的桥式扩增方法描述于例如美国专利号5,641,658；美国专利申请公开号2002/0055100；美国专利号7,115,400；美国专利申请公开号2004/0096853；美国专利申请公开号2004/0002090；美国专利申请公开号2007/0128624；和美国专利申请公开号2008/0009420，其每一个均通过引用其全部内容并入本文。扩增表面上的核酸的另一种有用的方法是滚环扩增(RCA)，例如，如Lizardi等人，Nat.Genet.19:225-232(1998)所述，和美国专利申请公开号2007/0099208A1，其每一个均通过引用并入本文。

一个示例性的SBS协议利用具有可去除的3'嵌段的修饰的核苷酸，例如，如国际公开号WO 04/018497、美国专利申请公开号2007/0166705A1和美国专利号7,057,026中所描述的，其每一个均通过引用并入本文。例如，作为桥式扩增方案的结果，例如，可以将重复循环的SBS试剂传递至具有与其连接的靶核酸的流动池。可以使用线性化溶液将核酸簇转化成单链形式。线性化溶液可以包含例如，能够切割每个簇的一条链的限制性核酸内切酶。裂解的其他方法可以用作限制性内切酶或切口酶的替代方法，尤其包括化学裂解(例如，与高碘酸盐的二醇键的裂解)、通过用核酸内切酶裂解的无碱基位点的裂解(例如“USER”，如由NEB,Ipswich,Mass.,USA,part number M5505S供应的“USER”)，通过暴露于热或碱下，将掺入扩增产物中的核糖核苷酸裂解，否则其由脱氧核糖核苷酸组成、光化学裂解或肽接头裂解。在线性化操作之后，可以在用于使测序引物与待测序的靶核酸杂交的条件下将测序引物递送至流动池。

然后，可将流动池与SBS延伸试剂接触，该SBS延伸试剂具有修饰的核苷酸(带有可移动的3'嵌段)和荧光标记，条件是通过添加单个核苷酸即可扩展与每个靶核酸杂交的引物。仅将一个核苷酸添加到每个引物中，因为一旦将修饰的核苷酸掺入了与正在测序的模板区域互补的正在生长的多核苷酸链中，就没有游离的3'-OH基团可用于指导进一步的序列延伸，因此聚合酶不能添加其他核苷酸。可以去除SBS扩展试剂，并用扫描试剂代替，该试剂包含在辐射激发下保护样品的组分。扫描试剂的示例性组分在美国专利申请公开号2008/0280773A1和美国专利申请号13/018,255中进行了描述，其各自通过引用并入本文。然后可以在扫描试剂的存在下荧光检测延伸的核酸。一旦检测到荧光，就可以使用适合所用封闭基团的去封试剂去除3’嵌段。在WO004018497、US 2007/0166705A1和美国专利号7,057,026中描述了可用于各个封闭基团的示例性去封闭试剂，其各自通过引用并入本文。可以洗去去封闭剂，剩下的靶核酸与具有3'-OH基团的延伸引物杂交，现在可以添加其他核苷酸。因此，可以重复添加延伸试剂、扫描试剂和去封闭试剂的循环，并在一个或多个操作之间进行可选的洗涤，直到获得所需的序列。当每个修饰的核苷酸具有与其连接的不同标记(已知对应于特定碱基)时，可以在每个循环中使用单个延伸试剂递送操作来进行上述循环。不同的标记促进在每次掺入操作期间添加的核苷酸之间的区分。可备选地，每个循环可包括延伸试剂递送的单独操作，然后是扫描试剂递送和检测的单独操作，在这种情况下，两个或多个核苷酸可以具有相同的标记并且可以基于已知的递送顺序来区分。

尽管上面已针对特定的SBS方案讨论了测序操作，但应理解，可以根据需要执行用于对各种其他分子分析中的任何一种进行测序的其他方案。

然后，系统的一个或多个处理器接收测序数据以进行后续分析。测序数据可以各种方式格式化，例如以.BAM文件格式。测序数据可以包括例如，许多样品读长。测序数据可包括具有核苷酸的相应样品序列的多个样品读长。尽管仅讨论了一个样品读长，但是应当理解，测序数据可以包括例如，数百、数千、数十万或数百万的样品读长。不同的样品读长可能具有不同数量的核苷酸。例如，样品读长的范围可以在10个核苷酸至约500个核苷酸或更多之间。样品读长可能跨越来源(多个)的整个基因组。作为一个实例，样品读长直接针对预定的遗传基因座，例如具有可疑STR或可疑SNP的那些遗传基因座。

每个样品读长可以包括核苷酸序列，其可以称为样品序列、样品片段或靶序列。样品序列可以包括例如引物序列、侧翼序列和靶序列。样品序列内的核苷酸数目可包括30、40、50、60、70、80、90、100或更多。在一些实施方案中，一个或多个样品读长(或样品序列)包括至少150个核苷酸、200个核苷酸、300个核苷酸、400个核苷酸、500个核苷酸或更多。在一些实施方案中，样品读长可包括多于1000个核苷酸、2000个核苷酸或更多。样品读长(或样品序列)可在一端或两端包括引物序列。

接下来，一个或多个处理器分析测序数据以获得潜在的变体识别(多个)和样品变体识别(多个)的样品变异频率。该操作也可以称为变体识别应用或变异识别器。因此，变体识别器识别或检测变体，且变体分类器将检测到的变体分类为体细胞或种系。可以根据本文的实现方式利用备选的变体识别器，其中可以基于所执行的测序操作的类型，基于感兴趣的样品特征等使用不同的变异识别器。变体识别应用的一个非限制性示例，例如Illumina Inc.(San Diego,CA)的Pisces^TM应用程序，托管在https://github.com/Illumina/Pisces上，并在文章Dunn,Tamsen&Berry,Gwenn&Emig-Agius,Dorothea&Jiang,Yu&Iyer,Anita&Udar,Nitin&

Michael.(2017)中进行了描述。Pisces：一个准确而多功能的单一样品体细胞和种系变体识别器595-595.10.1145/3107411.3108203，通过引用将其全部内容明确地合并于此。

良性训练集生成

在通过引用并入本文的申请中公开了扩展训练集。已经对数以百万计的人类基因组和外显子组进行了测序，但是由于难以将良性遗传变异和致病突变区分开来，因此其临床应用仍然有限。在这里，我们证明了其他灵长类物种中的常见错义变体临床上在人类中基本上是良性的，从而可以通过排除过程来系统性地识别致病性突变。通过采用六种非人类灵长类物种种群测序得到的数十万个常见变体，我们对一个深度神经网络进行训练，该深度神经网络能以88％的准确率来识别稀有病患者体内的致病性突变，并能够发现14个新的智力障碍方面的替代基因，达到全基因组显著性。对来自其他灵长类物种的常见变异进行分类将能改进对数以百万计的显著性不确定的变体的解释，从而进一步促进了人类基因组测序的临床效用。

由于难以解释人类种群中稀有遗传变体和推断其对疾病风险影响，因此诊断测序的临床可行性受到了限制。由于其对适合度有有害影响，因此临床上显著的遗传变体在种群中往往极为稀有，并且对于临床上显著的遗传变体来说，其对人体健康的影响尚未被确定。这些临床显著性不确定的变体的巨大数量和稀有性严重阻碍了采用测序来进行个体化医疗和全种群健康筛查。

大多数渗透性孟德尔疾病在种群中的发生率很低，因此，如果在种群中观察到高频率下的变体的话，这将是有利于良性后果的有力证据。分析不同人类种群的共同变异是对良性变体进行分类的有效策略，但是由于我们这个物种近代历史(在此期间，很大一部分祖先多样性已经遗失)中的瓶颈事件，当代人类的共同变异总数仍然有限。当代人类的群体研究表明，不足一万个个体的有效种群规模(N_e)在过去一万五千至六万五千年间有了显著的增长，并且少部分的常见多态性可追溯到这个规模的种群中有限的变异能力。在参考基因组的超过七千万个潜在的蛋白质修改错义替代中，只有大约千分之一的蛋白质修改错义替代存在于大于0.1％的总种群等位基因频率。

在现代人类种群之外，黑猩猩包含了下一个最接近的现存物种，并共享了99.4％的氨基酸序列一致性。人类和黑猩猩中蛋白质编码序列的近乎一致性表明，对黑猩猩蛋白质编码变体产生作用的纯化选择也可能模拟对状态一致的人类突变的适合度的后果。

由于中性多态性在人类祖先谱系(约4N_e世代)中持续的平均时间是该物种分化时间(约600万年前)的一部分，所以自然发生的黑猩猩变异是对除偶然情况外基本上不重叠的突变空间的探索，但是通过平衡选择来维持单倍型的稀有实例除外。如果状态一致的多态性同样影响两个物种中的适合度，黑猩猩种群中高等位基因频率下变体的存在则应表示人类中的良性后果，从而扩大了其良性后果已通过净化选择确定的已知变体的目录。通过引用并入本文的申请中给出了其它实质性细节。

深度学习网络的架构

在通过引用并入本文的申请公开的一个实施方式中，致病性预测网络将以受关注的变体为中心的长度为51的氨基酸序列和具有在中心位置被代替的错义变体的二级结构和溶剂可及性网络(图2和图3)的输出作为输入。从99种脊椎动物的多个序列对位排列中生成了三个长度为51的位置频率矩阵，包括用于11种灵长类动物的位置频率矩阵、用于50种哺乳动物(不包括灵长类动物)的位置频率矩阵和用于38种脊椎动物(不包括灵长类动物和非哺乳动物)的的位置频率矩阵。

所述二级结构深度学习网络可预测每个氨基酸位置的三态二级结构：α螺旋(H)、β褶板(B)和卷曲(C)。所述溶剂可及性网络预测每个氨基酸位置的三态溶剂可及性：掩埋态(B)，中间态(I)和暴露态(E)。这两个网络只能将侧翼氨基酸序列作为其输入，并可以采用来自Protein DataBank中已知的非冗余晶体结构的标签进行训练。对于所述预训练的三态二级结构和三态溶剂可及性网络的输入，可以采用单个长度位置频率矩阵，该矩阵由所有99种脊椎动物的多个序列对位排列生成，长度和深度分别为51和20。根据来自ProteinDataBank的已知晶体结构对所述网络进行预训练后，可以将二级结构和溶剂模型的最后两层删除，并且可以直接将所述网络的输出连接到致病性模型的输入。三态二级结构预测模型实现的示例性测试准确度为79.86％。当采用用于约四千个具有晶体结构的人类蛋白质的DSSP注释的结构标签和仅采用预测的结构标签对所述神经网络的预测结果进行比较时，并没有实质性差异。

用于致病性预测的深度学习网络(PrimateAI)和用于预测二级结构和溶剂可及性的深度学习网络均采用了残差块架构。PrimateAI的详细架构在图3中进行了描述。

图2所示的是用于致病性预测的深度残差网络的示例性架构200，在本文中被称为“PrimateAI”。在图2中，1D是指一维卷积层。预测的致病性的等级为0(良性)至1(致病性)。该网络将以变体为中心的人类氨基酸(AA)参考和替代序列(51AA)、从99种脊椎动物中计算得到的位置权重矩阵(PWM)保守性分布图作为输入以及二级结构和溶剂可及性预测深度学习网络的输出作为输入，所述二级结构和溶剂可及性预测深度学习网络对三态蛋白质二级结构(螺旋-H、β褶板-B和卷曲-C)和三态溶剂可及性(掩埋态—B、中间态—I和暴露态—E)进行预测。

图3所示的是PrimateAI(用于致病性分类的深度学习网络架构)的示意图300。该模型的输入包括用于参考序列和变体在其中被替代的序列的侧翼序列的51个氨基酸(AA)、由灵长类动物、哺乳动物和脊椎动物对位排列生成的三个长度为51-AA的位置加权矩阵代表的保守性以及预训练后的二级结构网络和溶剂可及性网络(长度也为51AA)的输出。

基于预训练的改进

本公开介绍了对致病性预测模型进行训练来减少或抵消过拟合并改善训练结果。参照图1描述了该系统。图1所示的是根据一种实施方式的系统的架构层级示意图100。因为图1是架构图，所以有意省略了某些细节以使描述更加清晰。对图1的论述如下：首先，描述附图的元素，然后描述它们的互连。接着，对系统中元素的使用进行更加详细的描述。

本段对图1所示的系统的标记部分进行了命名。该系统包括四个训练数据集：致病性错义训练样例121、补充良性训练样例131、良性错义训练样例161和补充良性训练样例181。该系统还包括训练器114、测试器116、位置频率矩阵(PFM)计算器184、输入编码器186、变体致病性预测模型157和神经网络155。所述补充良性训练样例131对应于所述致病性错义训练样例121，因此这两个数据集一起设在虚线方框中。同样地，所述补充良性训练样例181对应于所述良性错义训练样例161，因此这两个数据集都显示在同一方框中。

以PrimateAI作为示例性变体致病性预测模型157，对该系统进行了描述，该模型以受关注的变体侧面的氨基酸序列和其他物种中的直系同源序列对位排列作为输入。结合图3，上文对所述用于致病性预测的PrimateAI模型的详细架构进行了介绍.氨基酸序列的输入包括所述受关注的变体。术语“变体”是指与氨基酸参考序列不同的氨基酸序列。染色体的蛋白质编码区域中特定位置的三核苷酸碱基序列(也被称为密码子)表达氨基酸。有二十种可由六十一种三核苷酸序列组合形成的氨基酸。一个以上的密码子或三核苷酸序列组合可以产生相同的氨基酸。例如，密码子“AAA”和“AAG”代表赖氨酸氨基酸(也被称为符号“K”)。

氨基酸序列变体可由单核苷酸多态性(SNP)产生。SNP是单核苷酸中的变异，其发生在基因的特定基因座上，并在一定的明显程度上可在种群中被观察到(例如，大于1％)。所公开的技术重点关注出现在基因中被称为外显子的蛋白质编码区域中的SNP。有两种SNP：同义SNP和错义SNP。同义SNP是一种蛋白质编码SNP，它可以将氨基酸的第一个密码子更改为同一个氨基酸的第二个密码子。另一方面，错义SNP包括将第一个氨基酸的第一密码子改变为第二个氨基酸的第二密码子。

图6所示的是针对错义变体和相应的构建的同义变体的“蛋白质序列对”的实例600。术语“蛋白质序列对”(或简称为“序列对”)是指参考蛋白质序列和替代蛋白质序列。所述参考蛋白质序列包含由参考密码子或三核苷酸碱基表达的参考氨基酸。所述替代蛋白质序列包含由替代密码子或三核苷酸碱基表达的替代氨基酸，这样，由于在所述参考密码子中出现了表达所述参考蛋白质序列的参考氨基酸的变体，就产生了所述替代蛋白质序列。

在图6中，我们提出了对应于错义变体的补充良性同义配对训练样例(以上被称为补充良性训练样例)的构建方式。错义变体可以是致病性错义训练样例，也可以是良性错义训练样例。假定有具有参考氨基酸序列的错义变体的蛋白质序列对，该氨基酸序列在1号染色体的位置5、6和7(即5:7)具有密码子“TTT”。现在假定有SNP出现在同一染色体中的位置6，从而在相同位置(即，5：7)产生了具有密码子“TCT”的替代序列。所述参考序列中的密码子“TTT”产生苯丙氨酸(F)氨基酸，而所述替代氨基酸序列中的密码子“TCT”产生丝氨酸(S)氨基酸。为了简化说明，图6仅显示了靶位置处的序列对中的氨基酸和相应的密码子。所述序列对中的侧翼氨基酸和各自的密码子没有显示出来。在训练数据集中，错义变体被标记为致病性(标记为“1”)。为了减少训练期间模型的过拟合，所公开的技术为相应的错义变体构建了一个配对的补充良性训练样例。用于构建的补充良性训练样例的序列对中的参考序列与图6的左侧所示的错义变体中的参考序列相同。图6的右侧示出了补充良性训练样例，其是与错义变体的参考序列中一样具有染色体1中处于位置5:7的参考序列密码子“TTT”的同义配对物。为同义配对物构建的替代序列在位置7具有产生密码子“TTC”的SNP。如相同染色体中相同位置的参考序列中一样，该密码子在所述替代序列中产生了氨基酸苯丙氨酸(F)。同一染色体中相同位置的两个不同的密码子表达相同的氨基酸，因此，所述同义配对物被标记为良性(或被标记为“0”)。在参考和替代序列中相同位置的两个不同的密码子在靶标位置表达相同的氨基酸。良性配对物不是随机构建的；相反，它是从在序列种群中观察到的同义变体中选择出来的。所公开的技术构件了补充良性训练样例来和致病性错义训练样例形成对照，以减少训练期间所述变体致病性预测模型的过拟合。

补充良性训练示例不必是同义的。所公开的技术还可以构建与所述参考序列中一样在所述替代序列中具有相同氨基酸的补充良性训练样例，其是由相同的三核苷酸密码子构建的。无论氨基酸是由同义密码子还是由相同密码子表达的，对于相同的氨基酸序列来说，相关的位置频率矩阵(PFM)是相同的。因此，在减少所述变体致病性预测模型在训练期间的过拟合方面，这种补充训练样例具有与图6所示的同义配对训练样例相同的效果。

现在我们描述一下图1所示的系统的其他元素。训练器114采用图1所示的四个训练数据集来训练所述变体致病性预测模型。在一种实施方式中，将所述变体致病性预测模型作为一个卷积神经网络(CNN)来实施。参考图5，CNN训练描述如上。在训练过程中，对所述CNN进行调整或训练，以使从输入数据得出特定的输出估值。训练包括基于所述输出估值与真值的比较，采用反向传播来调整所述CNN，直到所述输出估值逐渐匹配或接近所述真值为止。训练后，测试器116采用测试数据集来对所述变体致病性预测模型进行基准测试。所述输入编码器186将分类输入数据(例如，参考和替代氨基酸序列)转换成可作为输入提供给所述变体致病性预测模型的形式。在图13中采用了示例性参考和替代序列对此作了进一步的说明。

所述PFM计算器184计算位置频率矩阵(PFM)，该位置频率矩阵也被称为位置特异性评分矩阵(PSSM)或位置权重矩阵(PWM)。所述PFM指示如图10和11所示的在每个氨基酸位置(沿水平轴)的每个氨基酸的频率(沿纵轴)。所公开的技术计算三种PFM，每种分别用于灵长类动物、哺乳动物和脊椎动物。三种PFM中每一种的氨基酸序列长度可以为51，目标氨基酸的侧面在上游和下游具有至少25个氨基酸。所述PFM有20行用于氨基酸序列中的氨基酸和51列用于氨基酸序列中的氨基酸位置。所述PFM计算器计算具有11种灵长类动物的氨基酸序列的第一个PFM、具有48种哺乳动物的氨基酸序列的第二个PFM和具有40种脊椎动物的氨基酸序列的第三个PFM。PFM中的一个单元是序列中特定位置的一个氨基酸的出现次数的计数。对这三种PFM的氨基酸序列进行对位排列。这指的是，针对参考氨基酸序列或替代氨基酸序列中的每个氨基酸位置对灵长类动物、哺乳动物和脊椎动物PFM进行逐位计算的结果以与所述氨基酸位置出现在所述参考氨基酸序列或替代氨基酸序列中相同的顺序逐位或按顺序位置进行存储。

所公开的技术在初始训练迭代批次(例如，2、3、5、8或10个迭代批次或3至5个、3至8个或2至10个时期)期间采用补充良性训练样例131和181。图7、8和9所示的是在预训练迭代批次、训练迭代批次和推断期间的致病性预测模型。图7所示的是第一至第五个预训练迭代批次的示意图700，在这些预训练迭代批次中大约四十万个良性补充训练样例131与从深度学习模型预测而来的大约四十万个致病性变体121相结合。较少的(例如，大约十万、二十或三十万个)良性补充训练样例也可以与致病性变体相结合。在一种实施方式中，如上所述，采用来自大约6800万个合成变体的随机样本在20个循环中生成致病性变体数据集。在另一种实施方式中，致病性变体数据集可以在一个周期内由大约6800万个合成变体生成。所述致病性变体121和所述补充良性训练样例131在前五个迭代批次中作为输入提供给网络集合。同样地，将大约四十万个补充良性训练样例181与大约四十万个良性变体161相结合用于预训练迭代批次期间的集合训练。较少的(例如，大约十万、二十或三十万个)良性训练样例也可以与良性变体结合。

如图8中的示例800所示，在其余训练迭代批次(第6至第n个训练迭代批次)中，未提供所述补充良性数据集131和181作为输入。在多个迭代批次期间，采用致病性变体数据集和良性变体数据集继续对所述网络集合进行训练。在预定数量的训练迭代批次之后或达到终止条件时，终止训练。如图9中的实例900所示，在推理期间利用所述训练过的网络来评估合成变体810。所述训练过的网络将变体预测为致病性或良性。

现在我们为示例性补充良性训练样例1012来说明PFM，该示例性补充良性训练样例1012被构造为与致病性错义变体训练样例1002的对应实例，如图10所示(用数字1000表示)。为训练样例生成或引用PFM。训练样例的PFM仅取决于参考序列的位置，因此两个训练样例1002和1012具有相同的PFM。例如，图10中示出了两个训练样例。第一个训练样例1002是致病性/未标记的变体。第二个训练样例1012是与所述训练样例1002相对应的配对的补充良性训练样例。所述训练样例1002具有参考序列1002R和替代序列1002A。仅基于所述参考序列1002R的位置来为所述训练样例1002访问或生成第一个PFM。所述训练样例1012具有参考序列1012R和替代序列1012A。所述实例1002的第一个PFM可以为所述实例1012重复使用。可以采用来自多个物种(例如99个灵长类动物、哺乳动物和脊椎动物物种)的氨基酸序列来计算作为所有物种序列保守性指示的PFM。人类可能也可能不属于PFM计算中所代表的物种。该PFM中的单元包括序列中所有物种的氨基酸的出现次数的计数。所述PFM 1022是PFM的起点，其阐明了一个训练样例中单个序列的独热编码。以99个物种为例，当PFM完成时，所有物种全部保存的位置的值为“99”而不是“1”。在本实例中，部分保存会导致一列中的两行或更多行的值总计为99。因为PFM取决于总的序列位置而非序列中心位置的氨基酸，所以参考序列和替代序列都具有相同的PFM。

现在我们采用图10中示例性参考序列中的位置来对所述PFM 1012的确定进行描述。如图10所示的用于致病性/未标记的训练样例1002和补充良性训练实施例1012的示例性参考和替代氨基酸序列具有51个氨基酸。所述参考氨基酸序列1002R在序列中的位置26(也被称为靶位置)具有由“R”表示的精氨酸氨基酸。要注意的是，在核苷酸水平上，六个三核苷酸碱基或密码子(CGT，CGC，CGA，CGG，AGA和AAG)中其中一个表达氨基酸“R”。在此示例中，我们在本实例中示出这些密码子不是为了简化图示，而是要将重点放在PFM的计算上。假定有来自99个物种中其中一个的氨基酸序列(未图示)与所述参考序列进行对位排列，且在位置26具有氨基酸“R”。这将使在所述PFM 1022中的“R”行和“26”列的相交处的单元中的值为“1”。为所述PFM的所有列确定相似的值。所述两个PFM(即，用于所述致病性错义变体1002的参考序列1002R的PFM和用于补充良性训练样例1012的参考序列1012R的PFM)是相同的，但是出于说明目的，仅显示了一个PFM 1022。这两个PFM代表了相关氨基酸的相对立的致病性实例。其中一个被标记为致病性或“1”，另一个被标记为“0”(良性)。因此，所公开的技术通过在训练过程中为所述模型提供这些实例来减少过拟合。

我们构造了第二组补充良性训练示例181，它们与所述训练数据集中的良性错义变体161相对应。图11示出了实例1100，在这个实例中针对示例性良性错义变体1102和相应的补充良性训练样例1122计算了两个PFM。从该实例中可以看出，对于良性错义变体1102和补充良性训练样例1112来说，参考序列1102R和1112R是相同的。它们各自的替代序列1102A和1112A也在图11中示出。如上文针对图10所示的实例所描述的一样，为所述两个参考序列产生或引用了两个PFM。两个PFM是相同的，因此出于说明的目的，在图11中仅示出了一个PFM 1122。这两个PFM均代表标记为良性(“0”)的氨基酸序列。

使用公开的技术分别为11个灵长类动物序列、48个哺乳动物序列和40个脊椎动物序列计算三个PFM。图12示出了所述三个PFM1218、1228和1238，每个具有20行和51列。在一种实施方式中，所述灵长类动物序列不包括人类参考序列。在另一个实施方式中，所述灵长类动物序列包括人类参考序列。通过计算在PFM给定位置(列标签)的所有序列中存在的一个氨基酸(行标记)的出现次数，可以计算出所述三个PFM中的单元值。例如，如果三个灵长类动物序列在位置26具有氨基酸“K”，则带有行标签“K”和列标签“26”的单元的值将为“3”。

独热编码是一个将分类变量转换成可以作为输入提供给深度学习模型的形式的过程。分类值表示数据集中条目的字母数字值。例如，参考和替代氨基酸序列各自具有按顺序排列的51个氨基酸字符。序列中位置“1”的氨基酸字符“T”代表在该序列中第一个位置的氨基酸苏氨酸。在独热编码的表示中通过将行标签为“T”且列标签为“1”的单元中的值设为“1”来对所述氨基酸序列编码。一个氨基酸序列的独热编码表示在除代表出现在特定位置(列标签)的氨基酸(行标签)的单元以外的单元中具有0。图13所示的是实例1300，其中用于补充良性训练样例的参考和替代序列被表示为独热热编码形式。参考氨基酸序列和替代氨基酸序列作为独热编码形式的输入提供给所述变体致病性预测模型。图14包括了提供给所述变体致病性预测模型的输入的示意图1400。所述输入包括独热编码形式的人类参考和替代氨基酸序列、用于灵长类动物的PFM 1218、用于哺乳动物的PFM 1228和用于脊椎动物的PFM 1238。如上所述，所述用于灵长类动物的PFM可以仅包括非人类灵长类动物或人类和非人类灵长类动物。

这种补充训练集的方法的变形既适用于通过引用并入本文的申请所描述的的架构，也适用于采用与其他数据类型(尤其是氨基酸或核苷酸的序列)相结合的PFM的任何其它架构。

结果

由于采用了上述预训练迭代批次，所述基于神经网络的模型(例如，上述PrimateAI模型)的性能得到了改善。下表显示了实例测试结果。该表中的结果分为六个标题。在介绍结果之前，我们简要描述一下这些标题。“重复”列显示了20次重复操作的结果。每次操作可以是具有不同的随机种子的八个模型的集合。“准确度”是指被分类为良性的一万个保留的灵长类动物良性变体的比例。“Pvalue_DDD”显示了Wilcoxon等级检验的结果，以评估将患有发育障碍的患儿的新生突变从未患病的兄弟姐妹分离出来的程度。“pvalue_605genes”显示与pvalue_DDD类似的测试的结果，但是在605种疾病相关基因中使用了新生突变的情况除外。“Corr_RK_RW”显示了从R到K和从R到W的氨基酸变化之间的灵长类动物AI评分的相关性。

Corr_RK_RW的值越小表示性能越好。“Pvalue_Corr”显示了在前一列中相关性的pvalue，即Corr_RK_RW。

结果表明，在20次重复操作中，采用作为临界值的未知变体的中位数来预测良性变体的中位准确度为91.44％。Wilcoxon秩和检验的log p-valu是29.39，用于将DDD患者的新生错义变体与对照的新生错义变体区分开来。同样地，秩和检验的log p-value是16.18，仅比较了605个疾病基因中的新生错义变体。指标比以前报告的结果有所改善。R->K和R->W之间的相关性显著降低，经Wilcoxon秩和检验，p-value等于3.11e-70。

特定实施方式

我们描述了用于预训练处理氨基酸序列和对应的位置频率矩阵(PFM)的神经网络实现的模型的系统、方法和制品。一种实施方式的一个或多个特征可与基本实施方式相结合。被教授的不相悖的实施方式是可以组合的。一种实施方式的一个或多个特征可与其它实施方式相结合。本公开定期提醒用户这些选项。尽管在某些实施方式中省略了重述这些选项的详细描述，但不应将此视为是对上述章节中教授的组合的限制。因此，这些详细描述是通过引用被进一步并入以下各实施方式中的。

所公开的技术的一种系统实施方式包括连接到存储器的一个或多个处理器。所述存储器加载有计算机指令以减少处理氨基酸序列和对应的位置频率矩阵(PFM)的神经网络实现的模型的过拟合。该系统包括生成良性标记补充训练样例序列对的逻辑，所述良性标记补充训练样例序列对包括按顺序排列的起始位置、目标氨基酸位置和结束位置。补充序列对与错义训练样例序列对的起始位置和结束位置匹配。其在参考氨基酸序列和替代氨基酸序列具有相同的氨基酸。该系统包括用每个补充序列对输入补充训练PFM的逻辑，所述补充训练PFM与在匹配的起始和结束位置的所述错义训练样例序列对的PFM相同。该系统包括采用所述良性训练样例序列对、所述补充训练样例PFM、所述错义训练样例序列对以及在匹配的起始和结束位置的所述错义训练样例序列对的PFM来训练所述神经网络实现的模型的逻辑。所述训练PFM的训练影响在训练期间被削弱。

该公开的系统实施方式和其它系统可选地包括以下一个或多个特征。该系统也可包括结合所公开的方法描述的特征。为简洁起见，系统特征的可选组合就不一一列举了。对于基本特征的各个规定类集，适用于系统、方法和制品的特征不再熬述。读者将会了解到本节中识别的特征是如何与其它规定类中的基本特征轻易结合的。

该系统可包括构建补充序列对以使每个补充序列对与良性错义训练样例序列对的起始位置和结束位置匹配的逻辑。

该系统可包括构建补充序列对以使每个补充序列对与致病性错义训练样例序列对的起始位置和结束位置匹配的逻辑。

该系统包括修改所述神经网络实现的模型的训练以在预定训练迭代批次后终止使用所述补充训练样例序列对和所述补充训练PFM的逻辑。

该系统包括修改所述神经网络实现的模型的训练以在三个训练迭代批次后终止使用所述补充训练样例序列对和所述补充训练PFM的逻辑。

该系统包括修改所述神经网络实现的模型的训练以在五个训练迭代批次后终止使用所述补充训练样例序列对和所述补充训练PFM的逻辑。

所述补充训练样例序列对与所述致病性训练样例序列对的比可以在1:1至1:8之间。该系统可采用不同的范围值，例如，1:1至1:2之间、1:1至1:16之间及1:1至1:24之间。

所述补充训练样例序列对与所述良性训练样例序列对的比可以在1:2至1:8之间。系统可采用不同的范围值，如1:1至1:12之间、1:1至1:16之间及1:1至1:24之间。

该系统包括采用来自非人类灵长类动物和非灵长类哺乳动物的数据的氨基酸位置来创建所述补充PFM的逻辑。

其他实施方式可包括一种存储指令的非暂时性计算机可读存储介质，所述指令可由处理器执行来执行上述系统的功能。另一种实施方式也可包括一种执行上述系统的功能的方法。

所公开的技术的一种方法实施方式包括生成良性标记的补充训练样例序列对，其包括按顺序排列的起始位置、目标氨基酸位置和结束位置。每个补充序列对与错义训练样例序列对的起始位置和结束位置匹配。其在参考氨基酸序列和替代氨基酸序列中具有相同的氨基酸。该方法包括用每个补充序列对输入补充训练PFM，所述补充训练PFM与在匹配的起始位置和结束位置的所述错义训练样例序列对的PFM相同。该方法包括采用所述良性训练样例序列对、所述补充训练样例PFM、所述错义训练样例序列对以及在匹配的起始和结束位置的所述错义训练样例序列对的PFM来训练所述神经网络实现的模型。所述训练PFM的训练影响在训练期间被削弱。

该方法实施方式和其它方法可选地包括以下一个或多个特征。方法还可包括结合所公开的系统描述的特征。读者将会了解到本节中识别的特征是如何与其它规定类中的基本特征轻易结合的。

其他实施方式可包括一组共同存储计算机程序指令的一个或多个非暂时性计算机可读存储介质，所述计算机程序指令可由一个或多个处理器执行以减少处理氨基酸序列和对应的位置频率矩阵(PFM)的神经网络实现的模型的过拟合。当所述计算机程序指令在一个或多个处理器上执行时，其实施的方法包括：生成良性标记的补充训练样例序列对，其包括按顺序排列的起始位置、目标氨基酸位置和结束位置。每个补充序列对与错义训练样例序列对的起始位置和结束位置匹配。其在参考氨基酸序列和替代氨基酸序列具有相同的氨基酸。该方法包括用每个补充序列对输入补充训练PFM，所述补充训练PFM与在匹配的起始位置和结束位置的所述错义训练样例序列对的PFM相同。方法包括采用所述良性训练样例序列对、所述补充训练样例PFM、所述错义训练样例序列对以及在匹配的起始和结束位置的所述错义训练样例序列对的PFM来训练所述神经网络实现的模型。所述训练PFM的训练影响在训练期间被削弱。

所公开放入技术的计算机可读介质(CRM)实施方式包括一个或多个加载有计算机程序指令的非暂时性计算机可读存储介质，当所述计算机程序指令在一个或多个处理器上执行时，其实施上述方法。该CRM实施方式包括以下一个或多个特征。该CRM实施方式还可包括结合上述系统和方法描述的特征。

上述说明是为了使所公开的技术得以实现和利用。所公开的实施方式的各种修改将是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，本文定义的基本原理可被应用于其它实施方式和应用。因此，所公开的技术并非局限于所示的实施方式，而是要符合与本文公开的原理和特征相一致的最大范围。所公开的技术的范围由所附的权利要求书限定。

计算机系统

图15为用于实现所公开的技术的计算机系统的简化框图1500。计算机系统通常包括至少一个通过总线子系统和若干外围设备通信的处理器。这些外围设备可包括存储子系统(例如，包括存储器设备和文件存储子系统)、用户接口输入设备、用户接口输出设备及网络接口子系统。所述输入和输出设备可使用户与计算机系统进行交互。网络接口子系统提供连接到外部网络的接口，包括连接到其它计算机系统中的相应接口设备的接口。

在一个实施方式中，所述神经网络(例如，变体致病性分类器157)、所述PFM计算器184以及所述输入编码器186与所述存储子系统和用户接口输入设备通信连接。

用户接口输入设备可包括键盘、指示设备(例如：鼠标、轨迹球、触摸板或图形输入板)、扫描仪、整合在显示器中的触摸屏、音频输入设备(例如：语音识别系统和麦克风)以及其它类型的输入设备。通常，使用术语“输入设备”旨在包括将信息输入计算机系统的所有可能类型的设备和方式。

用户接口输出设备可包括显示子系统、打印机、传真机或非视觉显示器(例如，音频输出设备)。所述显示子系统可包括阴极射线管(CRT)、平板设备(例如，液晶显示器(LCD))、投影设备或用于创建可视图像的一些其它机构。所述显示子系统还可提供非视觉显示器，例如，音频输出设备。通常，术语“输出设备”的使用旨在包括从所述计算机系统向用户或另一机器或计算机系统输出信息的所有可能类型的设备和方式。

所述存储子系统存储了编程和数据结构，这些编程和数据结构提供了本文所述的一些或所有模块和方法的功能。这些软件模块通常由处理器单独执行或与其它处理器结合执行。

所述存储子系统中使用的存储器可以包括多个存储器，所述存储器包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)和存储固定指令的只读存储器(ROM)。文件存储子系统可永久存储程序和数据文件，并且可包括硬盘驱动器、软盘驱动器以及相关的可移动介质、CD-ROM驱动器、光驱或可移动介质磁带。实施某些实施方式的功能的模块可由所述存储子系统中的文件存储子系统存储，或者可以存储在由所述处理器访问的其它机器中。

所述总线子系统为使所述计算机系统的各种组件和子系统按预期的方式彼此通信提供了一种机制。尽管所述总线子系统被示意性地显示为单条总线，但是所述总线子系统的可选实施方式可以使用多条总线。

所述计算机系统本身可以是不同类型，包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视、大型主机、服务器群、分布广泛的松散联网计算机集群或任何其它数据处理系统或用户设备。由于计算机和网络不断变化的特性，图15所示的计算机系统的描述仅旨在作为用于说明所公开的技术的特定实例。计算机系统的许多其它配置可能比图15所示的计算机系统具有更多或更少的组件。

深度学习处理器可以是GPU或FPGA，并可由深度学习云平台(例如，谷歌云平台、Xilinx和Cirrascale)托管。所述深度学习处理器的实例包括谷歌的张量处理单元(TPU)，机架式解决方案(如GX4 Rackmount Series和GX8 Rackmount Series)、英伟达DGX-1、微软的Stratix V FPGA、Graphcore的智能处理器单元(IPU)、具有骁龙处理器的高通Zeroth平台、英伟达的Volta、英伟达的DRIVE PX、英伟达的JETSON TX1/TX2 MODULE、英特尔的Nirvana、Movidius VPU、富士通DPI、ARM的DynamicIQ、IBM TrueNorth等。

Claims

1.一种减少处理氨基酸序列和对应的位置频率矩阵(PFM)的神经网络实现的模型的过拟合的方法，所述方法包括：

生成标记为良性的补充训练样例序列对，其包括起始位置，通过靶氨基酸位置到达结束位置，其中每个补充序列对：

与错义训练样例序列对的起始位置和结束位置匹配；并且

在参考氨基酸序列和替代氨基酸序列中具有相同的氨基酸；

用每个补充序列对输入补充训练PFM，所述补充训练PFM与在匹配的起始和结束位置的所述错义训练样例的PFM相同；以及

利用所述良性训练样例序列对和所述补充训练样例PFM、所述错义训练样例序列对以及在匹配的起始和结束位置的所述错义的PFM来对所述神经网络实现的模型进行训练；

由此所述训练PFM的训练影响在训练期间被削弱。

2.根据权利要求1所述的方法，其中，所述补充序列对与致病性错义训练样例序列对的起始位置和结束位置匹配。

3.根据权利要求1所述的方法，其中所述补充序列对与良性错义训练样例序列对的起始位置和结束位置匹配。

4.根据权利要求1所述的方法，还包括：

对所述神经网络实现的模型的训练进行修改，以在预定数量的训练迭代批次之后终止使用所述补充训练样例序列对和所述补充训练PFM。

5.根据权利要求1所述的方法，还包括：

对所述神经网络实现的模型的训练进行修改，以在五个训练迭代批次之后终止使用所述补充训练样例序列对和所述补充训练PFM。

6.根据权利要求2所述的方法，还包括：

所述补充训练样例序列对与所述致病性病原错义训练样例序列对的比在1∶1和1∶8之间。

7.根据权利要求3所述的方法，还包括：

所述补充训练样例序列对与所述良性错义训练样例序列对的比在1∶1和1∶8之间。

8.根据权利要求1所述的方法，还包括：

在创建所述补充PFM时，采用来自非人类灵长类动物和非灵长类哺乳动物的数据的氨基酸位置。

9.一种包括耦合到存储器的一个或多个处理器的系统，所述存储器加载有计算机指令以减少处理氨基酸序列和对应的位置频率矩阵(PFM)的神经网络实现的模型的过拟合，当所述指令在处理器上执行时，实施的动作包括：

与错义训练样例序列对的起始位置和结束位置匹配；以及

在参考氨基酸序列和替代氨基酸序列中具有相同的氨基酸；

由此所述训练PFM的训练影响在训练期间被削弱或抵消。

10.根据权利要求9所述的系统，其中，所述补充序列对与致病性错义训练样例序列对的起始位置和结束位置匹配。

11.根据权利要求9所述的系统，其中，所述补充序列对与良性错义训练样例序列对的起始位置和结束位置匹配。

12.根据权利要求9所述的系统，进一步实施的动作包括：

13.根据权利要求9所述的系统，进一步实施的动作包括：

14.根据权利要求10所述的系统，进一步实施的动作包括：

所述补充训练样例序列对与所述致病性错义训练样例序列对的比在1∶1和1∶8之间。

15.根据权利要求11所述的系统，进一步实施的动作包括：

16.根据权利要求9所述的系统，进一步实施的动作包括：

17.一种非暂时性计算机可读存储介质，其加载有计算机程序指令以减少处理氨基酸序列和对应的位置频率矩阵(PFM)的神经网络实现的模型的过拟合，当所述指令在处理器上执行时，其实施一种方法，所述方法包括：

与错义训练样例序列对的起始位置和结束位置匹配；以及

在参考氨基酸序列和替代氨基酸序列中具有相同的氨基酸；

用每个补充序列对输入补充训练PFM，所述补充训练PFM与在匹配的起始和结束位置的所述错义的PFM相同；以及

由此所述训练PFM的训练影响在训练期间被削弱。

18.根据权利要求17所述的非暂时性计算机可读存储介质，其中，所述补充序列对与致病性错义训练样例序列对的起始位置和结束位置匹配。

19.根据权利要求17所述的非暂时性计算机可读存储介质，其中，所述补充序列对与良性错义训练样例序列对的起始位置和结束位置匹配。

20.根据权利要求17所述的非暂时性计算机可读存储介质，其实施一种方法，所述方法还包括：

21.根据权利要求17所述的非暂时性计算机可读存储介质，其实施一种方法，所述方法还包括：

22.根据权利要求18所述的非暂时性计算机可读存储介质，其实施一种方法，所述方法还包括：

23.根据权利要求19所述的非暂时性计算机可读存储介质，其实施一种方法，所述方法还包括：

24.根据权利要求17所述的非暂时性计算机可读存储介质，其实施一种方法，所述方法还包括：