CN110832510A

CN110832510A - 基于深度学习的变体分类器

Info

Publication number: CN110832510A
Application number: CN201980003259.2A
Authority: CN
Inventors: O·B·舒尔茨-特里格拉夫; A·J·科克斯; K-H·法尔
Original assignee: Inmair Cambridge Ltd; Inmair Ltd
Current assignee: Inmair Cambridge Ltd; Illumina Cambridge Ltd; Inmair Ltd; Illumina Inc
Priority date: 2018-01-15
Filing date: 2019-01-14
Publication date: 2020-02-21
Also published as: JP2023080096A; KR20200010488A; AU2019206709A1; AU2021282469A1; AU2023251541A1; JP6862581B2; AU2021282469B2; JP2021120869A; KR102689425B1; JP7247253B2; IL283427A; IL283427B2; KR102273717B1; US20230386611A1; IL283427B1; NZ759659A; US20190220704A1; WO2019140402A1; CA3065939A1; IL271093B

Abstract

所述公开的技术直接影响测序数据，并且衍生出自己的特征过滤器。其对跨越一个目标碱基位置的多个对位排列的读长进行处理。其将读长的ELEGANT编码和轻量级分析结合起来，使用轻量级硬件来产生较高的查全率和查准率。例如，可以以较高的查全率和查准率在不到10小时的时间内在单个GPU显卡上训练目标碱基变异位点(各具有50至100个读长)的一百万个训练样本。因为配有单个GPU的计算机比较廉价，所以单个GPU显卡最合适，查看遗传数据的用户几乎普遍能承受得起。它可以很容易地在合适的基础平台上使用。

Description

基于深度学习的变体分类器

优先权申请

本申请要求2018年1月15日提交的名称为“基于深度学习的变体分类器”的美国临时专利申请号62/617,552(代理人案号：ILLM 1005-1/IP-1663-PRV)的优先权或权益。处于所有目的，本优先权申请据此通过引用并入本文。

并入

处于所有目的，以下内容通过引用并入本文，如同在本文中对其做了充分的阐述一样：

Illumina Inc.的Strelka^TM应用程序托管在https://github.com/Illumina/strelka上，并在T Saunders、Christopher&Wong、Wendy&Swamy、Sajani&Becq、Jennifer&JMurray、Lisa&Cheetham和Keira在《生物信息学》(英国牛津大学出版)28.1811-7上发表的文章《Strelka：基于已测序的肿瘤-正常样本对的精确体细胞小变体识别》(2012年)中进行了描述；

Illumina Inc.的Strelka^TM应用程序托管在https://github.com/Illumina/strelka上，并在Kim、S.、Scheffler、K.、Halpern、A.L.、Bekritsky、M.A.、Noh、E.、

M.、Chen、X.、Beyter、D.、Krusche、P.和Saunders出版的文章中进行了描述，C.T.(2017年)；

A.van den Oord、S.Dieleman、H.Zen、K.Simonyan、O.Vinyals、A.Graves、N.Kalchbrenner、A.Senior和K.Kavukcuoglu，《WAVENET：原始音频的生成模型》，arXiv:1609.03499，2016年；

S.

.Arik、M.Chrzanowski、A.Coates、G.Diamos、A.Gibiansky、Y.Kang、X.Li、J.Miller、A.Ng、J.Raiman、S.Sengupta和M.Shoeybi，《DEEP VOICE：基于神经网络的实时文本语音转换系统》，arXiv:1702.07825,2017年；

F.Yu和V.Koltun，《基于膨胀卷积的多尺度上下文聚合》，arXiv:1511.07122,2016年；

K.He、X.Zhang、S.Ren和J.Sun，《用于图像识别的深度残差学习》，arXiv:1512.03385,2015年；

R.K.Srivastava、K.Greff和J.Schmidhuber，《高速神经网络》，arXiv:1505.00387，2015年；

G.Huang、Z.Liu、L.van der Maaten和K.Q.Weinberger，《密集连接的卷积神经网络》，arXiv:1608.06993，2017年；

C.Szegedy、W.Liu,Y.Jia、P.Sermanet、S.Reed、D.Anguelov、D.Erhan、V.Vanhoucke和A.Rabinovich，《深入了解卷积》，arXiv:1409.4842，2014年；

S.Ioffe和C.Szegedy，《批归一化：通过减少内部协变量偏移来加速深度神经网络训练》，arXiv:1502.03167，2015年；

Srivastava、Nitish、Hinton、Geoffrey、Krizhevsky、Alex、Sutskever、Ilya和Salakhutdinov，Ruslan，《DROPOUT：一种防止神经网络过拟合的简单方法》，《机器学习研究杂志》，15(1):1929-1958，2014年；

J.M.Wolterink、T.Leiner、M.A.Viergever和I.

《用于先天性心脏病中的心血管磁共振图像分割的膨胀卷积神经网络》，arXiv:1704.03669，2017年；

L.C.Piqueras，《用于语音生成的基于深度卷积神经网络的自回归模型》，坦佩雷理工大学，2016年；

J.Wu，《卷积神经网络简介》，南京大学，2017年；

I.J.Goodfellow、D.Warde-Farley、M.Mirza、A.Courville和Y.Bengio，《卷积网络》，深度学习，麻省理工学院出版社，2016年；

J.Gu、Z.Wang、J.Kuen、L.Ma、A.Shahroudy、B.Shuai、T.Liu、X.Wang和G.Wang，《卷积神经网络的最新进展》，arXiv:1512.07108，2017年；

M.Lin、Q.Chen和S.Yan，《网中网结构》，收录于《国际学习表征会议论文集》，

L.Sifre，《用于图像分类的刚体运动散射》，博士论文，2014年；

L.Sifre和S.Mallat，《用于纹理判别的旋转、缩放和变形不变散射》，收录于《计算机视觉与模式识别会议论文集》，2013年；

F.Chollet，《Xception：采用深度可分离卷积的深度学习》，收录于《计算机视觉与模式识别会议论文集》，2017年；

X.Zhang、X.Zhou、M.Lin和J.Sun，《ShuffleNet：一种用于移动设备的极高效的卷积神经网络》，收录于arXiv:1707.01083，2017年；

K.He、X.Zhang、S.Ren和J.Sun，《用于图像识别的深度残差学习》，收录于《计算机视觉与模式识别会议论文集》，2016年；

S.Xie、R.Girshick、P.Dollár、Z.Tu和K.He，《用于深度神经网络的聚合残差转换》，收录于《计算机视觉与模式识别会议论文集》，2017年；

A.G.Howard、M.Zhu、B.Chen、D.Kalenichenko、W.Wang、T.Weyand、M.Andreetto和H.Adam，《Mobilenets:用于移动视觉应用的高效卷积神经网络》，收录于arXiv:1704.04861，2017年；

M.Sandler、A.Howard、M.Zhu、A.Zhmoginov和L.Chen，《MobileNetV2：倒置残差和线性瓶颈》，收录于arXiv:1801.04381v3，2018年；

Z.Qin、Z.Zhang、X.Chen和Y.Peng，《FD-MobileNet：具有快速下采样策略的改进MobileNet》，收录于arXiv:1802.03750，2018年；

2017年11月14日提交的名称为“用于序列变体识别的验证方法和系统”的PCT国际专利申请号PCT/US17/61554；

2017年1月17日提交的名称为“用于序列变体识别的验证方法和系统”的美国临时专利申请号62/447,076；

2016年11月16日提交的名称为“用于提高变体识别精度的方法和系统”的美国临时专利申请号62/422,841；以及

N.ten DIJKE，《用于调控基因组学的卷积神经网络》，硕士论文，UniversiteitLeiden Opleiding Informatica，2017年6月17日。

技术领域

所述公开的技术涉及用于智能仿真的人工智能型计算机和数字化数据处理系统以及相应的数据处理方法和产品(即：基于知识的系统、推理系统和知识获取系统)，并且包括用于不确定性推理的系统(例如：模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。特别是，所述公开的技术涉及利用深度学习和卷积神经网络(CNN)对有序数据进行分析。

技术背景

不能仅仅因为在本节中提到了本节中所讨论的主题而认为其是现有技术。同样地，也不能认为本节中所提及的或与作为技术背景而提供的主题相关的问题之前已经被现有技术所认可。本节中的主题仅仅代表不同的方法，这些方法本身也可以对应于所述要求保护的技术的实施方式。

基因序列中变体的精确识别具有很多重要的影响，并且引起了广泛的关注。目前正努力尝试将谷歌的Inception引擎应用于变体识别，这很有趣，但是也极耗资源。亟需一种更高效的方法。

下一代测序已经产生了大量的顺序数据用于变体分类。顺序数据彼此高度相关且具有复杂的相互依赖性，这对支持向量机等传统分类器在变体分类任务中的应用产生了障碍。因此，亟需可以从顺序数据中提取出高层特征的高级分类器。

深度神经网络是一类人工神经网络，其采用多个非线性复杂转换层来依次对高层特征进行建模，并通过反向传播提供反馈。深度神经网络已经进化，提供了大规模的训练数据集、并行和分布计算能力以及非常复杂的训练算法。深度神经网络为众多领域(例如：计算机视觉、语音识别和自然语言处理)的重大进步提供了便利。

卷积神经网络和递归神经网络是深度神经网络的组件。卷积神经网络尤其在图像识别方面取得了成功，其架构包括卷积层、非线性层和池化层。递归神经网络被设计成利用输入数据的连续信息，同时，感知器、长短期记忆单元和门控递归单元等构件循环连接。此外，还提出了许多其它新兴的深度神经网络用于有限的场景，例如：深度时空神经网络、多维度递归神经网络和卷积自编码器。

训练深度神经网络的目的是对每一层中的权重参数进行优化，以逐渐将较简单的特征结合到复杂特征当中去，以便可以从数据中学习到最合适的分层表示。优化过程的单个循环如下组织。首先，给定一个训练数据集，正推法依次计算每层中的输出，并将函数信号正向传播至整个网络。在最后的输出层中，目标损失函数测量推断输出和给定标签之间的误差。为了将训练误差降到最低，逆推法使用链式法则反向传播误差信号，并相对于整个神经网络的所有权重计算坡度。最后，基于随机梯度下降，利用优化算法对所述权重参数进行更新。鉴于批量梯度下降为每个完整的数据集进行参数更新，随机梯度下降则通过为每一小组的数据样本进行更新来提供随机近似值。几种优化算法源自于随机梯度下降。例如，在基于梯度的更新频率和矩为每个参数自适应修改学习率的同时，Adagrad和Adam训练算法分别进行随机梯度下降。

深度神经网络训练的另一个核心要素是正规化，其指的是旨在避免过拟合从而获得良好的泛化性能的策略。例如，权重衰减为所述目标损失函数添加一个惩罚因子，以便权重参数收敛至更小的绝对值。Dropout在训练期间随机从神经网络去除隐藏单元，并可被认为是可能存在的子神经网络的集合。为了增强Dropout的能力，提出了一个被称为maxout的新激活函数和一个用于递归神经网络的被称为rnnDrop的Dropout变形。而且，通过在一个小批量内为每次激活对标量特征进行归一化以及学习每个均值和方差作为参数，批归一化提供了一种新的正规化方法。

鉴于顺序数据是多维和高维的，对于生物信息学研究来说，深度神经网络因其广泛的适用性和增强的预测能力而具有远大的前途。已经采用卷积神经网络来解决基因组学中与序列有关的问题，例如：模体发现、致病变体识别和基因表达推断。卷积神经网络的一个特点是卷积滤镜的使用。与基于精心设计和手工制作的特征的传统分类方法不同，卷积滤镜进行自适应的特征学习，类似于将原始输入数据映射至知识的信息表示的过程。从这个意思上来说，所述卷积滤镜充当的是一系列的模体扫描器，因为一组这样的滤镜能够在训练过程中识别输入中的相关模式并对它们进行更新。递归神经网络能够捕捉不同长度的连续数据(例如：蛋白质或DNA序列)中的长期依赖性。

因此，使用深度神经网络进行变体分类的机会出现了。

附图说明

在附图中，相同的参考字符在所有不同的视图中通常指的是相同的部件。同样地，所述附图未必按比例绘制，而是一般重点说明所述公开的技术的原理。在以下描述中，结合以下附图对所述公开的技术的各种实施方式进行描述，其中：

图1A所示的是通过本文所公开的训练过的变体分类器进行的变体识别的一个实施方式。所述训练过的变体分类器包括卷积神经网络(CNN)。

图1B所示的是利用包含候选变体的标记训练数据对图1A中的变体分类器进行训练的一个实施方式。

图1C所示的是图1A中的变体分类器的卷积神经网络处理的输入和输出模块的一个实施方式。

图2所示的是提供给图1A中的变体分类器的卷积神经网络的输入特征阵列的一个实施方式。

图3A所示的是图1A中的变体分类器的卷积神经网络的架构的一个实施方式。图3B所示的是图1A中的变体分类器的卷积神经网络的架构的另一个实施方式。图3C所示的是图1A中的变体分类器的卷积神经网络的架构的另一个实施方式。

图4A所示的是全连接(FC)神经网络。

图4B所示的是仅将经验变体评分(EVS)特征作为输入的变体分类器的全连接神经网络的架构的一个实施方式。该架构不使用任何卷积。

图5所示的是基于所述变体分类器的卷积神经网络的单碱基多态性(SNP)分类性能和基于被称为经验变体评分(EVS)模型的基准Strelka^TM模型的单碱基多态性(SNP)分类性能之间比较的查准率-查全率曲线的一个实例。

图6所示的是基于所述变体分类器的卷积神经网络的SNP分类性能和基于所述EVS模型的SNP分类性能之间比较的查准率-查全率曲线的另一个实例。

图7所示的是基于所述变体分类器的卷积神经网络的indel分类性能和基于所述EVS模型的indel分类性能之间比较的查准率-查全率曲线的一个实例。

图8所示的是训练和验证期间的所述变体分类器的收敛曲线。

图9所示的是训练和测试(推断)期间的所述变体分类器的全连接神经网络的收敛曲线。

图10利用查准率-查全率曲线来比较(i)根据EVS模型版本2.8.2的EVS特征训练的变体分类器的全连接神经网络、(ii)根据EVS模型版本2.9.2的EVS特征训练的变体分类器的全连接神经网络、(iii)EVS模型版本2.8.2和(iv)EVS模型版本2.9.2的SNP分类性能。

图11利用查准率-查全率曲线来比较(i)根据EVS模型版本2.8.2的EVS特征训练的变体分类器的全连接神经网络、(ii)根据EVS模型版本2.9.2的EVS特征训练的变体分类器的全连接神经网络、(iii)EVS模型版本2.8.2和(iv)EVS模型版本2.9.2的indel分类性能。

图12所示的是可用于实现所述变体分类器的计算机系统的简化方框图。

具体实施方式

以下论述是为了使本领域的任何技术人员能够实现和利用所述公开的技术，并且是在特定的应用及其要求的背景下进行的。针对所述公开的实施方式的各种修改对于本领域的技术人员来说是显而易见的，并且本文中所定义的一般性原理在不脱离所述公开的技术的精神和范围的前提下可应用于其它实施方式和应用。因此，所述公开的技术并非限制仅限于所示的实施方式，而是要获得符合本文所公开的原理和特征的最大的范围。

引言

所述公开的技术直接影响DNA测序数据，并且衍生出自己的特征过滤器。其对跨越一个目标碱基位置的多个对位排列的读长(例如：10至500范围内的读长深度)进行处理。其将读长的ELEGANT编码和轻量级分析结合起来，使用轻量级硬件来产生较高的查全率和查准率。例如，可以以较高的查全率和查准率在不到10小时的时间内在单个GPU显卡上训练目标碱基变异位点(各具有50至100个读长)的一百万个训练样本。因为配有单个GPU的计算机比较廉价，所以单个GPU显卡最合适，查看遗传数据的用户几乎普遍能承受得起。它可以很容易地在合适的基础平台上使用。

ELEGANT编码将以一个目标碱基(两侧各有110个或更多的碱基)为中心的读长的后续数据结合起来。当然，很少有(如果有的话)读长会跨越221个碱基序列，所以大多数读长会在读长序列的一端或两端具有空缺碱基。为一个读长序列中每个碱基编码的数据包括所述个体读长、来自一个参考读长的对应的参考碱基、读取所述碱基的碱基识别精度评分、读取所述碱基的脱氧核糖核酸(缩写成DNA)链型、与所述碱基邻接的插入变化的插入数以及用于指出对位排列确定所述读长在个体读长位点有一个缺失的缺失标记。

在这个编码过程中，对插入和缺失的处理是不同的。在任意两个读长的位置之间可以有任意数量的插入。插入的总数用来表示参考位置之间的任意数量。不采用插入碱基识别，因为这会导致读长的错位排列。缺失发生在可被标记的特定位置。如果在两个个体读长之间有多个缺失，那么在对位排列后，会在所述缺失位点设置多个缺失标记。不能为一个缺失的碱基分配一个ACGT码，因为不适用。

这是一个简单的编码系统，其不用进行颜色空间转换或适应图像处理引擎(如，Inception)的处理。简单有助于快速训练。

当有更多的计算资源可供使用时，可以使用比221个碱基位置更长的序列。由于平台进化产生了更长的读长序列，因此使用更多的侧碱基的优点有望显现出来。

在训练期间和操作期间(可选)，上述单读长数据可由遗留系统生成的单变体表征数据作为补充。有很多对特定位置的变体进行表征的基于规则的人工设计的系统。在通过卷积层来处理多个读长后，可以采用一个或多个输入(单变体)作为输入。后期添加的单变体输入缩短了训练。这是所期望的，因为遗留系统的精度已经很高了，预计超过90％。

轻量级分析结构也有助于快速训练。在一些实施例中包括用于处理所述单读长数据的五个卷积层，然后是从卷积输出和单变体数据接收输入的双层全连接结构，其被证明是轻量级的精确神经网络结构。七个卷积层和八个卷积层也取得了成功，因此两到八个卷积层是有效的，更多层也可能有用。

更具体地，第一个卷积层接受在221(碱基)×100(读长)×12(属性，同时对ACGT读长进行独热编码)中进行列出的编码。中心碱基被当作目标位置。应用若干随机初始化或以前训练的过滤器。在一个设计中，在一层上使用32个卷积过滤器。多维过滤器往往会对行进行折叠。

由于提供了一百万个训练和校验样本，七个训练迭代批次已经给出了很好的结果。应当限制训练迭代批次的数量，以避免过拟合。迭代批次数量限制可与Dropout相结合，以避免过拟合。

术语

本申请中引用的所有文献和类似材料，包括但不限于专利、专利申请、文章、书籍、论文和网页，无论这些文献和类似材料的格式如何，均通过引用其全部内容明确地并入。如果一个或多个所并入的文献和类似材料与本申请不同或矛盾，包括但不限于所定义的术语、术语用法、所描述的技术等，则以本申请为准。

如本文所用，以下术语具有所指示的含义。

碱基是指核苷酸碱基或核苷酸、A(腺嘌呤)、C(胞嘧啶)、T(胸腺嘧啶)或G(鸟嘌呤)。在本申请中，“碱基”和“核苷酸”可互换使用。

术语“染色体”是指活细胞的带有遗传的基因载体，其衍生自包含DNA和蛋白质成分(尤其是组蛋白)的染色质链。本文采用了常规的国际公认的人类个体基因组染色体编码系统.

术语“位点”是指参考基因组上的独特位置(例如，染色体ID、染色体位置和取向)。在某些实现方式中，位点可以是残基、序列标签或序列上的片段的位置。术语“基因座”可用于指参考染色体上的核酸序列或多态性的特定位置。

本文中的术语“样品”是指通常衍生自包含核酸或包含至少一种待测序和/或分阶段进行的核酸序列的核酸混合物的生物流体、细胞、组织、器官或生物体的样品。此类样品包括但不限于痰液/口液、羊水、血液、血液分数、细针穿刺活检样品(例如，外科活检、细针穿刺活检等)、尿液、腹膜液、胸膜液、组织外植体、器官培养物和任何其他组织或细胞制剂，或其馏分或衍生物或从中分离的。尽管样品通常取自人类受试者(例如患者)，但样品可以取自具有染色体的任何生物体，包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。样品可以从生物来源获得时那样直接使用或在修饰样品特性的预处理之后使用。例如，这样的预处理可包括从血液、稀释粘性流体等制备血浆。预处理方法可能还包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分失活、试剂添加、裂解等。

术语“序列”包括或表示彼此偶联的核苷酸链。核苷酸可基于DNA或RNA。应当理解，一个序列可包括多个子序列。例如，(例如，PCR扩增子的)单个序列可具有350个核苷酸。样品读长可在这350个核苷酸内包括多个子序列。例如，样品读长可包括具有例如20-50个核苷酸的第一和第二侧翼子序列。第一和第二侧翼子序列可位于具有相应子序列(例如40-100个核苷酸)的重复片段的任一侧。每个侧翼子序列可包括(或包括部分的)引物子序列(例如，10-30个核苷酸)。为了易于阅读，术语“子序列”将被称为“序列”，但是应理解，两个序列在公共链上不一定彼此分开。为了区分本文所述的各种序列，可以给序列赋予不同的标记(例如，靶序列、引物序列、侧翼序列、参考序列等)。诸如“等位基因”的其他术语可被赋予不同的标签以区分相似的对象。在本申请中，“读长”和“序列读长”互换使用

术语“双端测序”是指对靶片段的两端进行测序的测序方法。双端测序可以促进基因组重排和重复片段的检测，以及基因融合和新型转录本的检测。在PCT公开WO07010252、PCT申请序列号PCTGB2007/003798和美国专利申请公开US 2009/0088327中描述了用于双端测序的方法，其各自通过引入并入本文。在一个实例中，一系列操作可以如下进行；(a)产生核酸簇；(b)使核酸线性化；(c)杂交第一测序引物，并如上所述进行延伸、扫描和去封闭的重复循环；(d)通过合成互补拷贝“反转”流细胞表面的靶核酸；(e)使重新合成的链线性化；(f)杂交第二测序引物，并如上所述进行延伸、扫描和去封闭的重复循环。可以通过传递如上所述的用于桥式扩增的单个循环的试剂来进行转化操作。

术语“参考基因组”或“参考序列”是指可用于参考来自受试者的鉴定序列的任何生物体的任何特定的已知基因组序列，无论是部分的还是完整的。例如，在国家生物技术信息中心(ncbi.nlm.nih.gov)上可以找到用于人类受试者以及许多其他生物体的参考基因组。“基因组”是指以核酸序列表达的生物体或病毒的完整遗传信息。基因组既包括基因又包括DNA的非编码序列。参考序列可能比与之比对的读长大。例如，它可以大至少约100倍，或大至少约1000倍，或大至少约10,000倍，或大至少约105倍，或大至少约106倍，或大至少约107倍。在一个实例中，参考基因组序列是全长人类基因组的序列。在另一个实例中，参考基因组序列限于特定的人类染色体，例如13号染色体。在一些实施方案中，参考染色体是来自人类基因组版本hg19的染色体序列。这样的序列可被称为染色体参考序列，尽管术语参考基因组旨在覆盖这样的序列。参考序列的其他实例包括其他物种的基因组，以及任何物种的染色体、子染色体区域(例如链)等。在各种实施方案中，参考基因组是共有序列或衍生自多个个体的其他组合。然而，在某些应用中，参考序列可以取自特定个体。在其他实施方案中，“基因组”还包括所谓的“图基因组”，其使用特定的存储格式和基因组序列的表示。在一个实施方案中，图基因组将数据存储在线性文件中。在另一个实施方案中，图基因组是指替代序列(例如，具有小差异的染色体的不同拷贝)作为不同路径存储在图中的表示。关于图基因组实施的其他信息可在

https://www.biorxiv.org/content/biorxiv/early/2018/03/20/194530.full.pdf,中找到，其内容通过引用整体并入本文。

术语“读长”是指描述核苷酸样品或参照物的片段的序列数据的集合。术语“读长”可以指样品读长和/或参考读长。通常，尽管不是必须的，读长代表样品或参考中的连续碱基对的短序列。读长可由样品或参考片段的碱基对序列(在ATCG中)象征性地表示。可以将其存储在存储设备中，并进行适当的处理，以确定读长是否与参考序列匹配或满足其他标准。可以直接从测序设备获得读长，或从与样品有关的存储序列信息间接获得读长。在某些情况下，读长是具有足够长度(例如，至少约25bp)的DNA序列，可用于识别更大的序列或区域，例如可比对并特异性分配给染色体或基因组区域或基因的更大的序列或区域。

下一代测序方法包括，例如，通过合成技术(Illumina)测序、焦磷酸测序(454)、离子半导体技术(离子激流测序)、单分子实时测序(Pacific Biosciences)和通过连接测序(SOLiD测序)。根据测序方法的不同，每个读长的长度可能在大约30bp至大于10,000bp。例如，使用SOLiD测序仪的DNA测序方法产生约50bp的核酸读长。又例如，离子激流测序产生高达400bp的核酸读长，而454焦磷酸测序产生约700bp的核酸读长。又例如，单分子实时测序方法可产生10,000bp至15,000bp的读长。因此，在某些实施方案中，核酸序列读长的长度为30-100bp、50-200bp或50-400bp。

术语“样品读长”、“样品序列”或“样品片段”是指来自样品的感兴趣的的基因组序列的序列数据。例如，样品读长包括来自具有正向和反向引物序列的PCR扩增子的序列数据。序列数据可从任何选择的序列方法中获得。样品读长可以是，例如，来自边合成边测序(SBS)反应、边连接边测序或需要确定重复序列的长度和/或同一性的任何其他合适的测序方法。样品读长可以是衍生自多个样品读长的共有(例如，平均或加权)序列。在某些实施方案中，提供参考序列包括基于PCR扩增子的引物序列鉴定感兴趣的基因座。

术语“原始片段”是指感兴趣的基因组序列的一部分的序列数据，其至少部分地重叠在样品读长或样品片段内的指定的感兴趣位置或次要位置。原始片段的非限制性实例包括双工缝合片段，单工缝合片段、双工非缝合片段和单工非缝合片段。术语“原始”用于指示原始片段包括与样品读长中的序列数据有某种关系的序列数据，而不管原始片段是否显示出对应于并鉴定或确认样品读长中的潜在变异的支持变体。术语“原始片段”并不表示该片段必然包含支持变体，该变体可验证样品读长中的变体识别。例如，当变体识别应用确定样品读长显示出第一变体时，变体识别应用可以确定一个或多个原始片段缺少相应类型的“支持”变体，否则可预期在样品读长中的给定变体的条件下可能发生。

术语“映射(mapping)”、“比对(aligned)”、“比对(alignment)”或“比对(aligning)”是指将阅读或标签与参考序列进行比较，从而确定参考序列是否包含阅读序列的过程。如果参考序列包含读长，则该读长可以被映射到参考序列，或者在某些实现方式中，可以被映射到参考序列中的特定位置。在某些情况下，比对只是告诉读长是否为特定参考序列的成员(即，读长在参考序列中存在还是不存在)。例如，读长与人染色体13的参考序列的比对将表明该读长是否存在于13号染色体的参考序列中。提供此信息的工具可以称为设置成员资格测试仪。在某些情况下，比对还指示读长或标签所映射的参考序列中的位置。例如，如果参考序列是整个人类基因组序列，则比对可以指示在13号染色体上存在读长，并且可以进一步指示该读长在13号染色体的特定链和/或位点上。

术语“插入/缺失”是指生物体DNA中碱基的插入和/或缺失。微型插入缺失表示导致1至50个核苷酸的净变化的插入缺失。在基因组的编码区域中，除非插入缺失的长度是3的倍数，否则它将产生移码突变。插入缺失可以与点突变形成对比。插入缺失插入物从序列中插入和删除核苷酸，而点突变是一种替换形式，可以替换一个核苷酸而不改变DNA的总数。插入缺失也可以与串联碱基突变(TBM)形成对比，串联碱基突变可以定义为在相邻核苷酸处的取代(主要是在两个相邻核苷酸处的取代，但已经观察到在三个相邻核苷酸处的取代)。

术语“变体”是指与核酸参照不同的核酸序列。典型的核酸序列变体包括但不限于单核苷酸多态性(SNP)、短缺失和插入多态性(Indel)、拷贝数变异(CNV)、微卫星标记或短串联重复和结构变异。体细胞变异识别是鉴定DNA样品中低频存在的变异的工作。在癌症治疗的背景下，体细胞变异识别是令人感兴趣的。癌症是由DNA突变的积累引起的。来自肿瘤的DNA样品通常是异质的，包括一些正常细胞，一些处于癌症进展早期的细胞(突变较少)和一些晚期细胞(突变较多)。由于这种异质性，当对肿瘤进行测序(例如，从FFPE样品中)时，体细胞突变通常会以较低的频率出现。例如，SNV可能仅在覆盖给定碱基的10％读长中可见。被变体分类器分类为体细胞或种系的变体在本文中也称为“被测变体”。

术语“噪声”是指由于测序过程和/或变异识别应用程序中的一个或多个错误而导致的错误变体识别。

术语“变体频率”表示种群中特定基因座的等位基因(基因变异)的相对频率，以分数或百分比表示。例如，分数或百分比可以是携带该等位基因的种群中的所有的染色体的分数。举例来说，样品变体频率表示在“种群”上沿着感兴趣的基因组序列在特定基因座/位置的等位基因/变体的相对频率，该“种群”对应于针对来自个体的感兴趣的基因组序列获得的读长和/或样品的数量。作为另一实例，基线变体频率表示沿着一个或多个基线基因组序列在特定基因座/位置的等位基因/变体的相对频率，其中“种群”对应于来自正常个个体种群的一个或多个基线基因组序列获得的读长和/或样品的数量。

术语“变异等位基因频率(VAF)”是指观察到的与变体匹配的测序读长的百分比除以靶位置的总覆盖率。VAF是携带变体的测序读长的比例的测度。

术语“位置”、“指定位置”和“基因座”是指一个或多个核苷酸在核苷酸酸序列内的位置或坐标。术语“位置”、“指定位置”和“基因座”也指核苷酸序列中的一个或多个碱基对的位置或坐标。

术语“单倍型”是指在染色体上相邻位点的等位基因的组合，其是一起遗传的。单倍型可以是一个基因座、多个基因座或整个染色体，取决于给定基因座组之间(如果有的话)发生的重组事件的数量。

术语“阈值”在本文中是指用作临界值以表征样品、核酸或其部分(例如，读长)的数值或非数值。阈值可基于经验分析而变化。可以将阈值与测量值或计算值进行比较，以确定是否应以特定方式对产生该值的来源进行分类。阈值可以凭经验或分析来识别。阈值的选择取决于用户希望进行分类的置信度。可以出于特定目的(例如，以平衡灵敏度和选择性)来选择阈值。如本文所用，术语“阈值”表示可以改变分析过程的点和/或可以触发动作的点。阈值不需要是预定数量。相反，阈值可以是例如，基于多个因素的函数。该阈值可以适应环境。此外，阈值可以指示上限、下限或极限之间的范围。

在一些实现方式中，可以将基于测序数据的度量或得分与阈值进行比较。如本文所用，术语“度量”或“得分”可以包括从测序数据确定的值或结果，或者可以包括基于从测序数据确定的值或结果的函数。像阈值一样，度量或得分可以适应环境。例如，度量或得分可以是归一化值。作为得分或度量的实例，一个或多个实现方式可以在分析数据时使用计数得分。计数得分可以基于样品读长的数量。样品读长可能已经历一个或多个过滤阶段，以使样品读长具有至少一种共同的特征或质量。例如，用于确定计数得分的每个样品读长可能已经与参考序列比对，或者可能被指定为潜在等位基因。可以对具有共同特征的样品读长次数进行计数以确定读长计数。计数得分可以基于读长计数。在一些实施方案中，计数得分可以是等于读长计数的值。在其他实施方案中，计数得分可以基于读长计数和其他信息。例如，计数得分可以基于遗传基因座的特定等位基因的读长计数和遗传基因座的读长总数。在一些实现方式中，计数得分可以基于读长计数和遗传基因座先前获得的数据。在一些实现方式中，计数得分可以是预定值之间的归一化得分。计数得分还可以是来自样品其他基因座的读长计数的函数，或者是与感兴趣样品同时运行的其他样品的读长计数的函数。例如，计数得分可以是特定等位基因的读长计数和样品中其他基因座的读长计数和/或来自其他样品的读长计数的函数。作为一个实例，来自其他基因座的读长计数和/或来自其他样品的读长计数可用于归一化特定等位基因的计数得分。

术语“覆盖率”或“片段覆盖率”是指针对序列的相同片段的多个样品读长的计数或其他度量。读长计数可以代表覆盖相应片段的读长数目的计数。可备选地，可以通过将读长计数乘以基于历史知识、样品知识、基因座知识等的指定因子来确定覆盖率。

术语“读长深度”(通常为数字，后跟“×”)是指在靶位置处具有重叠比对的测序读长的数目。这通常表示为在一组时间间隔(例如外显子、基因或面板)上超过临界值的平均值或百分比。例如，一份临床报告可能会说面板平均覆盖率是1,105×，其中98％的靶碱基覆盖率超过100×。

术语“碱基识别质量得分”或“Q得分”是指范围为0-50的PHRED缩放的概率，范围与单个测序碱基正确的概率成反比。例如，Q为20的T碱基识别可能被认为正确，概率为99.99％。Q<20的任何碱基识别均应被认为是低质量的，而鉴定出支持该变体的相当一部分测序读长的低质量的任何变体都应被视为潜在的假阳性。

术语“变体读长”或“变体读长数目”是指支持变体存在的测序读长的数目。

至于“链型”(或者DNA链型)，DNA中的遗传信息可以被表示为A、G、C和T的字母串，例如：5’–AGGACA–3’。通常，所述序列以此处所示的方向书写，5’端写在左边，3’端写在右边。DNA有时可能以单链分子的形式出现(如在某些病毒中)，但是一般来说，我们发现DNA是一个双链单元。其是一个具有两条反向平行链的双螺旋结构。在这种情况下，“反向平行”这个词指的是两条链平行延伸，但是极性相反。所述双链DNA通过碱基之间的配对结合在一起，并且在所述配对中，腺嘌呤(A)总是与胸腺嘧啶(T)配对，胞嘧啶(C)总是与鸟嘌呤(G)配对。该配对被称为互补性，并且DNA的其中一条链被称为是另一条链的互补链。因此，所述双链DNA可被表示为如下的两条字母串：5’–AGGACA–3’和3’–TCCTGT–5’。请注意，这两条链的极性相反。从而，所述两条DNA链的链型可被称为参考链及其互补链、正向链和反向链、顶链和底链、正义链和反义链或者Watson链和Crick链。

读长对位排列(也称为读长映射)是确定基因组中一个序列来自何方的过程。一旦进行对位排列，则通过给定读长的“映射质量”或“映射质量评分”(MAPQ)对其在所述基因组上的位置的正确概率进行量化。所述映射质量是在PHRED等级中编码的。在PHRED等级中，P代表对位排列的不正确概率。概率的计算方式如下：P＝10^(-MAQ/10)，其中，MAPQ是映射质量。例如，映射质量为40＝10^(-4)指的是读长的对位排列有0.01％的可能性是不正确的。因此，映射质量与几个对位排列因素(例如：读长的碱基质量、参考基因组的复杂性和配对端信息)联系在一起。至于第一个因素，如果所述读长的碱基质量不高，那么意味着被观察的序列可能是错误的，因此它的对位排列也是错误的。至于第二个因素，可映射性指的是所述基因组的复杂性。重复区域更难映射，而属于这些区域的读长的映射质量通常不高。在这种情况下，MAPQ反映出的事实是，所述读长没有被唯一性地对位排列，并且无法确定它们的真实起源。至于第三个因素，就双端测序数据来说，协调对更有可能被对位排列好。映射质量越高，则对位排列更好。以高映射质量对位排列的读长通常指的是所述读长序列良好，且在高可映射性的区域内以很少的错配量对位排列。MAPQ值可被用作对位排列结果的质量控制。以高于20的MAPQ值对位排列的读长的比例通常用于下游分析。

测序过程

本文阐述的实施方案可适用于分析核酸序列以鉴定序列变异。可以使用实现方式来分析遗传位置/基因座的潜在变体/等位基因，并确定遗传基因座的基因型，或者换句话说，为该基因座提供基因型识别。举例来说，可以根据美国专利申请公开号2016/0085910和美国专利申请公开号2013/0296175中描述的方法和系统分析核酸序列，其全部主题明确地通过引用全部内容并入本文。

在一个实现方式中，测序过程包括接收样品，该样品包含或怀疑包含核酸，例如DNA。样品可以来自已知或未知来源，例如动物(例如人)、植物、细菌或真菌。样品可直接从来源获取。例如，血液或唾液可直接取自个体。可备选地，可能无法直接从来源获得样品。然后，一个或多个处理器指导系统准备用于测序的样品。制备可包括去除外来物质和/或分离某些物质(例如DNA)。可以制备生物学样品以包括用于特定测定的特征。例如，可以制备生物样品以进行合成测序(SBS)。在某些实施方案中，制备可包括扩增基因组的某些区域。例如，制备可以包括扩增已知的包括STR和/或SNP的预定遗传基因座。可以使用预定的引物序列扩增遗传基因座。

接下来，一个或多个处理器指导系统对样品进行测序。可以通过多种已知的测序方案进行测序。在特定的实现方式中，测序包括SBS。在SBS中，多个荧光标记的核苷酸用于对存在于光学基质表面(例如，至少部分地限定流动池中的通道的表面)上的多个扩增的DNA簇(可能数百万个簇)进行测序。流动池可包含用于测序的核酸样品，其中将流动池放置在适当的流动池支架内。

可以制备核酸使得它们包含与未知靶序列相邻的已知引物序列。为了启动第一个SBS测序循环，一个或多个不同标记的核苷酸和DNA聚合酶等可以通过流体流动子系统流入/流过流动池。可以一次添加一种类型的核苷酸，或者可以对测序过程中使用的核苷酸进行特殊设计，使其具有可逆的终止特性，从而使测序反应的每个循环在几种类型的标记核苷酸(例如，A、C、T、G)存在下同时发生。核苷酸可以包括可检测的标记部分，例如荧光团。在四个核苷酸混合在一起的情况下，聚合酶能够选择正确的碱基进行整合，并且每个序列都可以延伸一个碱基。可通过使洗涤液流过流动池来洗去未结合的核苷酸。一个或多个激光可以激发核酸并诱导荧光。从核酸发出的荧光是基于掺入碱基的荧光团，并且不同的荧光团可以发射不同波长的发射光。可以将去封闭剂添加到流动池中，以从延伸和检测到的DNA链中去除可逆终止子基团。然后，可以通过使洗涤溶液流过流动池来洗去去封闭剂。然后，流动池准备好进行进一步的测序循环，从引入上述标记的核苷酸开始。流体和检测操作可以重复几次以完成测序运行。举例的测序方法描述于例如，Bentley等人，Nature 456:53-59(2008)、国际公开号WO 04/018497；和美国专利号7,057,026；国际公开号WO 91/06678；国际公开号WO 07/123744；美国专利号7,329,492；美国专利号7,211,414；美国专利号7,315,019；美国专利号7,405,281和美国专利申请公开号2008/0108082，其每一个均通过引用并入本文。

在一些实施方案中，可在测序之前或期间将核酸附着至表面并扩增。例如，可以使用桥式扩增来进行扩增以在表面上形成核酸簇。有用的桥式扩增方法描述于例如美国专利号5,641,658；美国专利申请公开号2002/0055100；美国专利号7,115,400；美国专利申请公开号2004/0096853；美国专利申请公开号2004/0002090；美国专利申请公开号2007/0128624；和美国专利申请公开号2008/0009420，其每一个均通过引用其全部内容并入本文。扩增表面上的核酸的另一种有用的方法是滚环扩增(RCA)，例如，如Lizardi等人，Nat.Genet.19:225-232(1998)所述，和美国专利申请公开号2007/0099208 A1，其每一个均通过引用并入本文。

一个示例性的SBS协议利用具有可去除的3'嵌段的修饰的核苷酸，例如，如国际公开号WO 04/018497、美国专利申请公开号2007/0166705A1和美国专利号7,057,026中所描述的，其每一个均通过引用并入本文。例如，作为桥式扩增方案的结果，例如，可以将重复循环的SBS试剂传递至具有与其连接的靶核酸的流动池。可以使用线性化溶液将核酸簇转化成单链形式。线性化溶液可以包含例如，能够切割每个簇的一条链的限制性核酸内切酶。裂解的其他方法可以用作限制性内切酶或切口酶的替代方法，尤其包括化学裂解(例如，与高碘酸盐的二醇键的裂解)、通过用核酸内切酶裂解的无碱基位点的裂解(例如“USER”，如由NEB,Ipswich,Mass.,USA,part number M5505S供应的“USER”)，通过暴露于热或碱下，将掺入扩增产物中的核糖核苷酸裂解，否则其由脱氧核糖核苷酸组成、光化学裂解或肽接头裂解。在线性化操作之后，可以在用于使测序引物与待测序的靶核酸杂交的条件下将测序引物递送至流动池。

然后，可将流动池与SBS延伸试剂接触，该SBS延伸试剂具有修饰的核苷酸(带有可移动的3'嵌段)和荧光标记，条件是通过添加单个核苷酸即可扩展与每个靶核酸杂交的引物。仅将一个核苷酸添加到每个引物中，因为一旦将修饰的核苷酸掺入了与正在测序的模板区域互补的正在生长的多核苷酸链中，就没有游离的3'-OH基团可用于指导进一步的序列延伸，因此聚合酶不能添加其他核苷酸。可以去除SBS扩展试剂，并用扫描试剂代替，该试剂包含在辐射激发下保护样品的组分。扫描试剂的示例性组分在美国专利申请公开号2008/0280773A1和美国专利申请号13/018,255中进行了描述，其各自通过引用并入本文。然后可以在扫描试剂的存在下荧光检测延伸的核酸。一旦检测到荧光，就可以使用适合所用封闭基团的去封试剂去除3’嵌段。在WO004018497、US 2007/0166705A1和美国专利号7,057,026中描述了可用于各个封闭基团的示例性去封闭试剂，其各自通过引用并入本文。可以洗去去封闭剂，剩下的靶核酸与具有3'-OH基团的延伸引物杂交，现在可以添加其他核苷酸。因此，可以重复添加延伸试剂、扫描试剂和去封闭试剂的循环，并在一个或多个操作之间进行可选的洗涤，直到获得所需的序列。当每个修饰的核苷酸具有与其连接的不同标记(已知对应于特定碱基)时，可以在每个循环中使用单个延伸试剂递送操作来进行上述循环。不同的标记促进在每次掺入操作期间添加的核苷酸之间的区分。可备选地，每个循环可包括延伸试剂递送的单独操作，然后是扫描试剂递送和检测的单独操作，在这种情况下，两个或多个核苷酸可以具有相同的标记并且可以基于已知的递送顺序来区分。

尽管上面已针对特定的SBS方案讨论了测序操作，但应理解，可以根据需要执行用于对各种其他分子分析中的任何一种进行测序的其他方案。

然后，系统的一个或多个处理器接收测序数据以进行后续分析。测序数据可以各种方式格式化，例如以.BAM文件格式。测序数据可以包括例如，许多样品读长。测序数据可包括具有核苷酸的相应样品序列的多个样品读长。尽管仅讨论了一个样品读长，但是应当理解，测序数据可以包括例如，数百、数千、数十万或数百万的样品读长。不同的样品读长可能具有不同数量的核苷酸。例如，样品读长的范围可以在10个核苷酸至约500个核苷酸或更多之间。样品读长可能跨越来源(多个)的整个基因组。作为一个实例，样品读长直接针对预定的遗传基因座，例如具有可疑STR或可疑SNP的那些遗传基因座。

每个样品读长可以包括核苷酸序列，其可以称为样品序列、样品片段或靶序列。样品序列可以包括例如引物序列、侧翼序列和靶序列。样品序列内的核苷酸数目可包括30、40、50、60、70、80、90、100或更多。在一些实施方案中，一个或多个样品读长(或样品序列)包括至少150个核苷酸、200个核苷酸、300个核苷酸、400个核苷酸、500个核苷酸或更多。在一些实施方案中，样品读长可包括多于1000个核苷酸、2000个核苷酸或更多。样品读长(或样品序列)可在一端或两端包括引物序列。

接下来，一个或多个处理器分析测序数据以获得潜在的变体识别(多个)和样品变体识别(多个)的样品变异频率。该操作也可以称为变体识别应用或变异识别器。因此，变体识别器识别或检测变体，且变体分类器将检测到的变体分类为体细胞或种系。可以根据本文的实现方式利用备选的变体识别器，其中可以基于所执行的测序操作的类型，基于感兴趣的样品特征等使用不同的变异识别器。变体识别应用的一个非限制性示例，例如Illumina Inc.(San Diego,CA)的Pisces^TM应用程序，托管在https://github.com/Illumina/Pisces上，并在文章Dunn,Tamsen&Berry,Gwenn&Emig-Agius,Dorothea&Jiang,Yu&Iyer,Anita&Udar,Nitin&

Michael.(2017)中进行了描述。Pisces：一个准确而多功能的单一样品体细胞和种系变体识别器595-595.10.1145/3107411.3108203，通过引用将其全部内容明确地合并于此。

这样的变体识别应用可以包括四个顺序执行的模块：

(1)Pisces读长缝合器：通过将BAM中的配对读长(同一分子的读长一和读长二)缝合成共有读长来减少噪音。输出是缝合的BAM。

(2)Pisces变体识别器：识别小的SNV、插入和删除。Pisces包括变体折叠算法以合并被读长边界分解的变体、基本过滤算法以及简单的基于Poisson的变体置信度评分算法。输出为VCF。

(3)Pisces变体质量重新校准器(VQR)：如果变体识别不可抵抗地遵循与热损伤或FFPE脱氨相关的模式，则VQR步骤将降低可疑变体识别的变体Q得分。输出为调整后的VCF。

(4)Pisces变体定相器(Scylla)使用读后的贪婪聚类方法将小的变体从克隆的亚种群装成复杂的等位基因。这可以通过下游工具更准确地确定功能后果。输出为调整后的VCF。

附加地或可替代地，该操作可以利用由托管在https://github.com/Illumina/strelka的Illumina Inc.的和在文章T Saunders,Christopher&Wong,Wendy&Swamy,Sajani&Becq,Jennifer&J Murray,Lisa&Cheetham,Keira.(2012)中描述的变体识别应用Strelka^TM应用。Strelka：从从已测序的肿瘤正常样品对中准确的体细胞小变异识别。Bioinformatics(Oxford,England).28.1811-7.10.1093/生物信息学/bts271，其全部主题明确地通过引用全部内容并入本文。此外，附加地或可替代地，该操作可以利用托管在https://github.com/Illumina/strelka的Illumina Inc.和在文章Kim,S.,Scheffler,K.,Halpern,A.L.,Bekritsky,M.A.,Noh,E.,

M.,Chen,X.,Beyter,D.,Krusche,P.,and Saunders,C.T.(2017)中描述的变体识别应用程序Strelka2^TM。Strelka2：用于临床测序应用的快速和准确的变体识别，其全部部主题明确地通过引用全部内容并入本文。此外，附加地或可替代地，该操作可以利用变体注释/识别工具，例如托管在https://github.com/Illumina/Nirvana/wiki的Illumina Inc.的和在文章Stromberg,Michael&Roy,Rajat&Lajugie,Julien&Jiang,Yu&Li,Haochen&Margulies,Elliott.(2017)中描述的Nirvana^TM应用程序。Nirvana：临床等级变体注释器。器。596-596.10.1145/3107411.3108204，通过引用将其全部内容明确地合并于此。

这样的变体注释/识别工具可以应用不同的算法技术，例如Nirvana中公开的那些算法：

a.使用区间数组识别所有重叠的转录本：对于功能注释，我们可以识别所有与变体重叠的转录本，并且可以使用间隔树。然而，由于一组间隔可以是静态的，因此我们能够将其进一步优化为间隔数组。间隔树以O(min(n,k lg n))时间返回所有重叠的转录本，其中n是树中的间隔数，而k是重叠的间隔数。实际上，由于与大多数变体的n相比，k确实很小，因此间隔树上的有效运行时间为O(k lg n)。通过创建一个将所有间隔都存储在排序数组中的间隔数组，我们将其改进为O(lg n+k)，因此我们只需要找到第一个重叠间隔，然后枚举剩余的(k-1)。

b.CNVs/SVs(Yu)：可以提供“拷贝数变异”和“结构变体”的注释。与小变体的注释类似，可在在线数据库中注释与SV重叠的转录本以及以前报告的结构变体。与小的变体不同，并不是所有重叠的转录本都需要注释，因为太多的转录本会与大型SV重叠。相反，可以注释属于部分重叠基因的所有重叠转录本。具体地，对于这些转录本，可以报道受影响的内含子、外显子以及由结构变体引起的后果。提供允许输出所有重叠转录本的选项，但是可以报告这些转录本的基本信息，例如基因符号，标记是与转录本规范重叠还是部分重叠。对于每个SV/CNV，了解是否已经研究了这些变体以及它们在不同种群中的频率也很有趣。因此，我们报告了外部数据库(例如1000个基因组、DGV和ClinGen)中的重叠SV。为了避免使用任意的临界值来确定哪个SV重叠，相反可以使用所有重叠的转录本，并且可以计算出相互的重叠，即重叠长度除以这两个SV长度的最小值。

c.报告补充注释：补充注释有两种类型：小型和结构变体(SV)。SV可以建模为间隔，并使用上面讨论的间隔数组来标识重叠的SV。小变体被建模为点，并通过位置和(可选)等位基因进行匹配。这样，它们使用类似于二进制搜索的算法进行搜索。由于补充注释数据库可能很大，因此创建了一个更小的索引，以将染色体位置映射到补充注释所驻留的文件位置。索引是对象的排序数组(由染色体位置和文件位置组成)，可以使用位置进行二进制搜索。为了使索引大小较小，将多个位置(最多达到某个最大计数)压缩到一个对象，该对象存储第一个位置的值和仅存储后续位置的增量。由于我们使用二进制搜索，因此运行时间为O(lg n)，其中n是数据库中的项目数。

d.VEP缓存文件

e.转录本数据库：转录本缓存(缓存)和补充数据库(SAdb)文件是数据对象(例如转录本和补充注释)的序列化转储。我们使用Ensembl VEP缓存作为缓存的数据源。为了创建缓存，将所有转录本插入间隔数组中，并将数组的最终状态存储在缓存文件中。因此，在注释期间，我们只需要加载一个预先计算的时间间隔数组并对它执行搜索。由于缓存已加载到内存中并且搜索非常快(如上所述)，因此在Nirvana中查找重叠的笔录非常快(配置为少于总运行时间的1％？)。

f.补充数据库：SAdb的数据源在补充材料下列出。小型变体的SAdb是通过对所有数据源进行k路合并而产生的，以便数据库中的每个对象(由参考名称和位置标识)都具有所有相关的补充注释。Nirvana主页中详细记录了解析数据源文件时遇到的问题。为了限制内存使用，仅将SA索引加载到内存中。该索引允许快速查找文件位置以获取补充注释。然而，由于必须从磁盘中获取数据，因此添加补充注释已被确定为Nirvana的最大瓶颈(配置为总运行时间的30％)。

g.后果和序列本体：Nirvana的功能注释(当提供时)遵循序列本体论(SO)(http://www.sequenceontology.org/)准则。有时，我们有机会识别当前SO中的问题，并与SO团队合作以改善注释状态。

这样的变体注释工具可以包括预处理。例如，Nirvana包括来自外部数据源的大量注释，例如ExAC、EVS、1000基因组项目、dbSNP、ClinVar、Cosmic、DGV和ClinGen。为了充分利用这些数据库，我们必须清理来自它们的信息。我们实施了不同的策略来应对来自不同数据源的不同冲突。例如，对于同一位置有多个dbSNP条目和交替的等位基因的情况，我们将所有ID合并为一个逗号分隔的ID列表；如果同一等位基因有多个具有不同CAF值的条目，则使用第一CAF值。对于有冲突的ExAC和EVS条目，我们考虑样品计数数量，并使用具有更高样品计数的条目。在1000个基因组计划中，我们删除了冲突的等位基因的等位基因频率。另一个问题是不正确信息。我们主要从1000个基因组计划中提取了等位基因频率信息，然而，我们注意到，对于GRCh38，info字段中报告的等位基因频率并未排除基因型不可用的样品，从而导致并非所有样品都可用的变体频率降低。为了保证注释的准确度，我们使用所有个体水平基因型来计算真实的等位基因频率。众所周知，基于不同的比对，相同的变体可以具有不同的表示形式。为了确保我们可以准确报告已识别变体的信息，我们必须对来自不同资源的变体进行预处理，以使其具有一致的表示形式。对于所有外部数据源，我们修剪了等位基因以去除参考等位基因和替代等位基因中的重复核苷酸。对于ClinVar，我们直接解析xml文件，并对所有变体执行了五个素数对齐，这在vcf文件中经常使用。不同的数据库可以包含相同的信息集。为了避免不必要的重复，我们删除了一些重复的信息。例如，由于我们已经报告了1000个基因组中的这些变体，并且提供了更详细的信息，因此我们删除了DGV中具有1000个基因组项目数据源的变体。

根据至少一些实现方式，变体识别应用程序提供对低频变体的识别、种系识别等。作为非限制性实例，变异识别应用可以在仅肿瘤样品和/或肿瘤正常配对样品上运行。变体识别应用可以搜索单核苷酸变异(SNV)、多核苷酸变异(MNV)、插入缺失等。变体识别应用识别变异，同时过滤由于测序或样品制备错误导致的不匹配。对于每个变体，变体识别器识别参考序列、变体的位置以及潜在的一个或多个变体序列(例如，A至C SNV或AG至A缺失)。变体识别应用识别样品序列(或样品片段)、参考序列/片段和变异识别以指示存在变体。变体识别应用可以标识原始片段，并输出原始片段的名称，验证潜在变体识别的原始片段数量的计数，原始片段在其中发生支持变体的位置以及其他相关信息。原始片段的非限制性实例包括双工缝合片段，单工缝合片段、双工非缝合片段和单工非缝合片段。

变体识别应用可以各种格式输出识别，例如.VCF或.GVCF文件。仅作为实例，变体识别应用可以被包括在MiSeqReporter管线中(例如，当在

测序仪上实现时)。任选地，可以利用各种工作流程来实现该应用。该分析可以包括以指定方式分析样品读长以获得所需信息的单个方案或方案的组合。

然后，一个或多个处理器执行与潜在变体识别有关的验证操作。验证操作可以基于质量得分和/或分层测试的层次结构，如下文所述。当验证操作验证或验证潜在的变体识别时，验证操作将变体识别信息(来自变体识别应用)传递给样品报告生成器。可替代地，当验证操作使潜在的变体识别无效或取消资格时，验证操作将相应的指示(例如，否定指示符、无识别指示符、无效识别指示符)传递给样品报告生成器。验证操作还可以传递与变体识别正确或无效识别指定正确的置信度有关的置信度得分。

接下来，一个或多个处理器生成并存储样品报告。样品报告可以包括例如，关于样品的关于多个遗传基因座的信息。例如，对于预定的一组遗传基因座的每个遗传基因座，样品报告可以至少提供以下一项：提供基因型识别；指示无法进行基因型识别；提供基因型识别的确定性的置信度得分；或指出有关一个或多个遗传基因座的测定法可能存在的问题。样品报告还可以指示提供样品的个人的性别和/或指示样品包括多个来源。如本文所用，“样品报告”可以包括遗传基因座或遗传基因座的预定集合的数字数据(例如，数据文件)和/或遗传基因座或遗传基因座的集合的打印报告。因此，生成或提供可以包括创建数据文件和/或打印样品报告，或显示样品报告。

样品报告可能指示已确定变体识别，但未通过验证。当确定变体识别无效时，样品报告可以指示有关确定不验证变体识别的基础的其他信息。例如，报告中的附加信息可以包括原始片段的描述以及原始片段支持或与变体识别相抵触的程度(例如，计数)。附加地或可替代地，报告中的附加信息可以包括根据本文所述的实现方式获得的质量得分。

变体识别应用

本文公开的实现方式包括分析测序数据以识别潜在的变异识别。可以对存储的数据执行变体识别，以进行先前执行的排序操作。附加地或可替代地，它可以在执行测序操作的同时实时地进行。每个样品读长被分配给相应的遗传基因座。可以基于样品读长的核苷酸的序列，或者换句话说，样品读长内的核苷酸的顺序(例如，A、C、G、T)，将样品读长分配给相应的遗传基因座。基于该分析，可以将样品读长指定为包括特定遗传基因座的可能变体/等位基因。样品读长可以与已经指定为包括遗传基因座的可能变体/等位基因的其他样品读长一起收集(或聚集或分类)。分配操作也可以称为识别操作，其中样品读长被识别为可能与特定的遗传位置/基因座相关联。可以分析样品读长以定位一个或多个区分样品读长与其他样品读长的核苷酸的鉴定序列(例如，引物序列)。更具体地，一个或多个识别序列可以将来自其他样品读长的样品读长识别为与特定遗传基因座相关。

分配操作可以包括分析识别序列的n个核苷酸序列以确定该识别序列的n个核苷酸序列是否与一个或多个选择序列有效匹配。在特定实现方式中，分配操作可以包括分析样品序列的前n个核苷酸以确定样品序列的前n个核苷酸是否与一个或多个选择序列有效匹配。数字n可以具有各种值，可以将其编程到协议中或由用户输入。例如，数量n可以定义为数据库内最短选择序列的核苷酸数量。数量n可以是预定数量。预定数量可以是例如10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。然而，在其他实现方式中可以使用更少或更多的核苷酸。数字n也可以由个人(例如系统的用户)选择。数量n可以基于一个或多个条件。例如，数量n可以定义为数据库内最短引物序列的核苷酸数量或指定数量，以较小的数量为准。在一些实现方式中，可使用n的最小值，例如15，使得小于15个核苷酸的任何引物序列可被指定为例外。

在某些情况下，识别序列的n个核苷酸序列可能与选择序列的核苷酸不完全匹配。然而，如果识别序列与选择序列几乎相同，则识别序列可以有效地与选择序列匹配。例如，如果识别序列的n个核苷酸序列(例如，前n个核苷酸)的序列与选择序列具有不超过指定数目的错配(例如3个)和/或指定的移位数量(例如2个)的选择序列匹配，则可为遗传座位识别样品读长。可以建立规则，使得每个错配或移位都可以算作样品读长和引物序列之间的差异。如果差异的数目小于指定数目，则可以为对应的遗传基因座(即，分配给相应的遗传基因座)识别样品读长。在一些实现方式中，可以基于样品读长的识别序列和与基因座相关的选择序列之间的差异数来确定匹配得分。如果匹配得分超过指定的匹配阈值，则可以将与选择序列相对应的遗传基因座指定为样品读长的潜在基因座。在一些实现方式中，可以进行后续分析以确定样品读长是否被称为遗传基因座。

如果样品读长有效匹配数据库中的选择序列之一(即，如上所述完全匹配或几乎匹配)，则将样品读长分配或指定给与选择序列相关的遗传基因座。这可以称为基因座识别或临时基因座识别，其中针对与选择序列相关的遗传基因座识别样品读长。然而，如上所述，可能需要多于一个的基因座进行样品读长。在这样的实现方式中，可以执行进一步的分析以识别或分配仅针对潜在遗传基因座之一的样品读长。在一些实现方式中，与参考序列数据库比较的样品读长是来自配对末端测序的第一读长。当执行配对末端测序时，将获得与样品读长相关的第二个读长(代表原始片段)。分配后，使用分配的读长进行的后续分析可以基于已为分配的读长识别的遗传基因座的类型。

接下来，分析样品读长以识别潜在的变体识别。其中，分析结果确定了潜在变体识别、样品变体频率、参考序列以及感兴趣的基因组序列中变异发生的位置。例如，如果已知遗传基因座包含SNP，则可以对该遗传基因座识别的指定读长进行分析以识别指定读长的SNP。如果已知遗传基因座包含多态性重复DNA元素，则可以分析指定的读长，以鉴定或表征样品读长中的多态性重复DNA元素。在一些实现方式中，如果分配的读长与STR基因座和SNP基因座有效匹配，则可以将警告或标志分配给样品读长。样品读长可以被指定为STR基因座和SNP基因座。该分析可以包括根据比对协议来比对所分配的读长，以确定所分配的读长的序列和/或长度。比对方案可以包括2013年3月15日提交的国际专利申请号PCT/US2013/030867(公开号WO 2014/142831)中描述的方法，其通过引用其全部内容并入本文。

然后，一个或多个处理器分析原始片段，以确定在原始片段内的对应位置是否存在支持变体。可以识别各种类型的原始片段。例如，变体识别器可以识别出原始片段的类型，该原始片段表现出验证原始变体识别的变体。例如，原始片段的类型可以表示双工缝合片段、单工缝合片段、双工未缝合片段或单工未缝合片段。替代上述实例或除上述实例之外，还可以任选地识别其他原始片段。与识别每种类型的原始片段有关，变体识别器还识别原始片段在其中发生支持变体的位置，以及表现出支持变体的原始片段的数量。例如，变体识别器可以输出指示，其识别出10个原始片段的读长以表示在特定位置X具有支持变体的双工缝合片段。变体识别器还可以输出指示，其五个原始片段的读长被标识为代表在特定位置Y具有支持变体的单工未缝合片段。变体识别器还可以输出许多与参考序列相对应的原始片段，因此不包括支持变体，否则其提供证据来验证在感兴趣的基因组序列处的潜在变体呼叫。

接下来，维护包括支持变体在内的原始片段的计数，以及支持变体发生的位置。附加地或可替代地，可以保持原始片段的计数，该原始片段在感兴趣的位置(相对于样品读长或样品片段中潜在的变异识别的位置)不包括支持变体。附加地或可替代地，可以维持对应于参考序列并且不认证或确认潜在变体识别的原始片段的计数。确定的信息将输出到变体识别验证应用程序，包括支持潜在变体识别的原始片段的计数和类型，原始片段中支持变异的位置，不支持潜在变体识别等的原始片段的计数。

当识别出潜在变体识别时，该过程输出潜在变体识别、变体序列、变体位置和与其相关联的参考序列的指示。变体识别被指定为代表“潜在”变体，因为错误可能导致识别过程识别错误的变量。根据本文的实现方式，分析了潜在的变体识别以减少和消除错误变体或假阳性。附加地或可替代地，该过程分析与样品读长相关联的一个或多个原始片段，并输出与原始片段相关联的对应变体识别。

变体分类器

图1A所示的是通过本文所公开的训练过的变体分类器进行的变体识别的一个实施方式。所述训练过的变体分类器包括卷积神经网络(CNN)。所述变体分类器的输入是一个输入特征阵列(根据图2描述)。所述阵列是从读长(或序列读长)编码的。通过对基因组分析仪采用合成法测序(SBS)等测序方案产生的测序数据进行一次分析来识别读长中的碱基(或核苷酸)。通过对位排列过程(下文对其一个实施方式进行了论述)对位于所述读长范围内候选变异位点的候选变体进行识别。

硬件和软件方面的最新进步显著提高了Illumina测序系统(例如：HiSeqX^TM、HiSeq3000^TM、HiSeq4000^TM、NovaSeq 6000^TM、MiSeqDx^TM和Firefly^TM)等基因组分析仪的数据输出能力。现在，通常在10天内就能生成超过33千兆字节(GB)的序列输出(包含约三亿个2×100碱基对(bp)读长)。在一个实施方式中，所述公开的技术采用Illumina的序列和变异的共有性评估(CASAVA)软件。该软件可无缝处理这么多数量的测序数据，支持大的或小的基因组的测序、目标脱氧核糖核酸(DNA)的重测序和核糖核酸(RNA)的测序。

CASAVA软件可分两个步骤对所述基因组分析仪产生的测序数据(例如：图像数据和检测数据)进行分析。在第一个步骤(一次分析)中，在设备用计算机上运行的测序控制软件/实时分析(SCS/RTA)进行实时数据分析和碱基识别。碱基识别产生读长。在第二个步骤中，CASAVA软件通过相对于一个参考读长对所述读长进行对位排列来对所述读长进行全面二次分析，以确定序列差异(例如：单碱基多态性(SNPs)、插入/缺失(indels)等候选变体)或更大的总序列等。在Illumina的专利申请号WO05068089和Illumina的名为《基因组分析仪的全面二次分析流程》的技术说明(参见https://www.illumina.com/documents/products/technotes/technote_casava_secondary_analysis.pdf)中对读长对位排列和候选变体检测的算法进行了描述，其通过引用并入本文，如同在本文中对其做了充分的阐述一样。

在其它实施方式中，通过Illumina应用程序(例如：全基因测序和DRAGEN)进行所述一次和二次分析，更多细节可在

https://www.illumina.com/products/by-type/informatics-products/ basespace-sequence-hub/apps/whole-genome-sequencing.html？langsel＝/us/和

https://support.illumina.com/content/dam/illumina-marketing/ documents/products/technotes/illumina-proactive-technical-note- 1000000052503.pdf中找到，并且其通过引用并入本文，如同在本文中对其做了充分的阐述一样。

输入特征阵列

图2所示的是提供给图1A中的变体分类器的卷积神经网络的输入特征阵列的一个实施方式。所述阵列对与一个参考读长对位排列的一组读长进行编码。该组读长中的每个读长包括一个目标碱基位置(以灰色突出显示)。所述目标碱基位置对应于一个位于候选变异位点的候选变体(例如：SNP或indel)。所述目标碱基位置在每一侧都有伴有或延长了碱基(例如：左侧碱基或右侧碱基)。在一些实施方式中，左侧碱基的数量与右侧碱基的数量相同。在其它实施方式中，左侧碱基的数量与右侧碱基的数量不同。在每一侧的侧碱基的数量可以是30、70、90、110等。

根据一个实施方式，该组读长以行的形式沿着x轴(即，沿着诸如高度维度的第一空间维度)在所述阵列内排列。即，所述阵列中的每一行代表一个与所述参考读长对位排列的并包括所述目标碱基位置的读长。根据一个实施方式，该组读长中的碱基位置以列的形式沿着y轴(即，沿着诸如宽度维度的第二空间维度)排列在所述阵列内。即，所述阵列中的每一列代表在特定顺序位置的读长中的碱基。

所述阵列中的每个单元为一个输入特征(如图2中的正面方框所示)。所述阵列中的每个输入特征对应该组读长中的一个碱基。所述阵列中的每个输入特征具有多个维度。根据一个实施方式，所述多个维度沿着z轴(例如，沿着深度、通道、特征或纤维维度)在所述阵列中排列。

在一个实施方式中，所述多个维度包括：(1)识别所述碱基的第一维度集；(2)识别一个与所述碱基对位排列的参考碱基的第二维度集；(3)识别所述碱基的碱基识别精度评分的第三维度集；(4)识别所述碱基的链型(即：DNA链型)的第四维度集；(5)识别与所述碱基的位置邻接的变化的插入数(INS)的第五维度集；(6)识别在所述碱基的位置的缺失标记(DEL)的第六维度集。

在其它实施方式中，所述阵列可被认为是一个体积。在另一些其它实施方式中，所述阵列可被认为是一个张量。在一些实施方式中，所述阵列代表围绕一个候选变体的读长堆。在一些实施方式中，一个输入特征的维度可以被认为是输入通道。

在一个实例中，每个输入特征具有十二个维度。那么，所述第一维度集包括四个利用独热编码识别所述输入特征的碱基的维度。所述碱基可以是腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)或胸腺嘧啶(T)。所述第二维度集也包括四个利用独热编码识别与所述碱基对位排列的参考碱基的维度。所述参考碱基还可以是A、C、G或T。

在独热编码中，用一个四位二进制向量来对一个序列中的每个碱基进行编码，其中一位为热(即，1)，而其它位为0。例如，A＝(1，0，0，0)，C＝(0，1，0，0)，G＝(0，0，1，0)以及T＝(0，0，0，1)。在一些实施方式中，未知碱基被编码为N＝(0，0，0，0)。

从而，每个输入特征“局部地”对一个读长中的碱基和所述参考读长中对应的参考碱基之间的对位排列进行编码。结果，当图1A中的变体分类器的卷积神经网络的卷积过滤器的内核被应用到所述阵列中输入特征的一个窗口上时，其顾及到了所述参考读长中的碱基和该组读长中的碱基之间所谓的“一对一上下文依赖性”以及该组读长中的碱基之间所谓的“相邻上下文依赖性”。

所述第三、第四、第五和第六维度集各包括一个维度来分别将所述碱基的碱基识别精度评分识别为一个连续数字、利用独热编码来识别所述碱基的链型(例如：0代表正向链，1代表反向链)、将与所述碱基的位置邻接的变化的插入数(INS)识别为数字(例如：4代表四个插入的碱基)以及将位于所述碱基的位置的缺失标记(DEL)识别为数字(例如：1111代表4个缺失的碱基位置)。在图2中，采用不同的灰度来图形化区分一个输入特征的六个维度集。

在一些实施方式中，每个读长的映射质量也在所述阵列中编码。映射质量(MAPQ)是一个可在所述阵列中的每个单元或每个输入特征的另一个维度或通道中编码的数字。

至于碱基识别精度评分，在一个实施方式中，其可被识别为定义为与碱基识别误差概率(P)²对数相关的特性的PHRED质量评分(例如：Q10、Q20、Q30、Q40和Q50)。关于碱基识别精度评分的其它信息，可在名为《下一代测序的质量评分》和《了解Illumina质量评分》(参见https://www.illumina.com/documents/products/technotes/technote_Q-Scores.pdf和

https://www.illumina.com/documents/products/technotes/technote_understanding_quality_scores.pdf)的Illumina技术说明中找到，其通过引用并入本文，如同在本文中对其做了充分的阐述一样。

至于与所述碱基的位置邻接的变化的插入数(INS)，在一个实施方式中，其可识别在所述碱基之前或之后插入的一些碱基。至于在所述碱基位置的缺失标记(DEL)，在一个实施方式中，其可识别位于所述碱基位置的未确定、未读取、未识别、空或缺失碱基。

在一个实施方式中，所述阵列的维数为100×221×12，其中：(A)100代表该组中与所述参考读长对位排列的并在所述目标碱基位置跨越所述候选变异位点的读长数量；(b)221代表每个读长中碱基位置的数量，位于第111个顺序位置的目标碱基位置在每一侧都伴有110个碱基位置；(c)12代表所述阵列中每个输入特征的局部维数，即：每个输入特征的维度数量。

在其它实施方式中，所述输入特征可具有不同数量的维度，可利用不同的编码方案进一步将这些维度分割成不同大小的维度集。

在另一些其它实施方式中，独热编码可别其它编码方案(例如：基于由训练过的神经网络产生的嵌入空间或嵌入矩阵的密集或实值编码方案)替代。在更多其它的实施方式中，编码方案可基于定量或数值数据类型、定性数据类型、离散数据类型、连续数据类型(具有上下限)、整数数据类型(具有上下限)、定类数据类型、顺序或分级数据类型、分类数据类型、区间数据类型和/或比率数据类型。例如，编码可基于0到1之间的实值、连续值(例如：0到256之间的红色、绿色和蓝色(RGB)值)、十六进制值、一个特定维度的尺寸(例如：高度和宽度)、一组不同的值和数据类型等或其任意组合。

变体分类器CNN架构

以上所述的是提供给图1A中的变体分类器的卷积神经网络的输入特征阵列的一个实施方式。图3A所示的是图1A中的变体分类器的卷积神经网络的架构300A的一个实施方式。具体地，图3A所示的卷积神经网络架构具有八个卷积层。所述变体分类器卷积神经网络可包括一个输入层，紧随其后的是多个卷积层。紧随其中一些卷积层之后的可以是一个最大池化(或取样)层，在所述卷积层和最大池化层之间的是一个中间批归一化层。在所述实施方式中，所述卷积神经网络具有八个卷积层、三个最大池化层和八个批归一化层。

至于批归一化，批归一化是一种通过使数据标准化成为所述神经网络架构的组成部分来加速深度神经网络训练的方法。在训练期间，随着所述均值和方差随时间变化，批归一化可自适应地对数据进行归一化。其工作原理是，在内部维持一个在训练期间发现的数据的分批均值和方差的指数移动平均值。批归一化的主要效果是，它有助于梯度传播(非常像残差连接)，从而使深度神经网络成为可能。一些非常深的神经网络只能在包含多个批归一化层的条件下训练。

批归一化可以被看作是另一层，其可被插入到所述模型架构中，就像全连接或卷积层。所述批归一化层通常是在一个卷积或密集连接层之后使用。其还可以在一个卷积或密集连接层之前使用。两种实施方式都可被所述公开的技术采用。所述批归一化层采用了一个轴实参，其指定应当被归一化的特征轴。这个实参默认为-1，是输入张量中的最后一个轴。当采用data_format被设为“channels_last”的密集层、Conv1D层、RNN层和Conv2D层时，这是合适的值。但是在data_format被设置成“channels_first”的Conv2D层的特殊用例中，所述特征轴是轴1；批归一化中的轴实参可被设成1。

批归一化为前馈输入和通过逆推法根据所述参数及其自身输入计算坡度提供了定义。实际上，批归一化层是在一个卷积或全连接层之后但在输出被输入激活函数之前插入的。对于卷积层来说，以相同的方式对同一个特征图中位于不同位置的不同元素(即：激活函数)进行归一化，以符合卷积特性。这样，在所有位置对一个小批量内的所有激活函数而非单个激活函数进行归一化。

内部协变量偏移是深度架构训练出了名的慢的主要原因。这是因为深度神经网络不但要在每一层学习新的表示，而且还要对其分布的变化负责。

通常，协变量偏移是深度学习领域中一个已知的问题，且经常发生在现实问题中。一个常见的协变量偏移问题是训练和测试集的分布差异，这会导致不是很理想的泛化性能。这个问题通常是利用标准化或白化预处理步骤来处理的。然而，特别是白化操作的计算开销很大，因此在在线背景下不实用，尤其是当协变量偏移发生在所有不同层时。

在内部协变量偏移现象中，在训练期间，神经网络激活函数的分布因神经网络参数变化而发生跨层变化。在理想情况下，每一层应当被转换成一个空间，在这个空间里，他们的分布相同，但是函数关系保持不变。为了避免代价高昂的协方差矩阵计算以在每一层和每一步对数据进行去相关和白化，我们对整个小批量中的每一层中的每个输入特征的分布进行归一化以获得零均值和1的一个标准差。

在正推法过程中，计算小批量均值和方差。利用这些小批量统计数据通过减去所述均值和除以所述标准差来对所述数据进行归一化。最后，利用学到的缩放和偏移参数来对所述数据进行缩放和平移。因为归一化是可微变换，所以误差会传播到这些学到的参数中，从而能够通过学习恒等变换来恢复所述神经网络的表征能力。相反，假如那是可执行的最理想操作，通过学习与相应的批量统计数据完全一致的缩放和偏移参数，批归一化变换将不会对所述神经网络产生影响。在测试的时候，所述批量均值和方差被各自的总体统计数据所取代，因为输入不取决于来自小批量的其它样本。另一个方法是在训练期间使所述批量统计数据的平均值保持运行，并在测试时使用其来计算神经网络输出。

可通过一些卷积过滤器(例如：32个过滤器)和卷积窗口尺寸来确定所述卷积层的参数。进一步地，通过两个空间维度(即：高度和宽度(例如：5×5或5×1))和一个第三深度、特征或纤维维度(例如：12、10和32)来确定所述卷积层的参数。在实施方式中，所述卷积神经网络的第一卷积层的卷积过滤器的深度维数与所述阵列的输入特征的维度数量匹配。

所述卷积神经网络还可包括一个或多个全连接层。在所示的实施例中，所述卷积神经网络包括两个全连接层。在实施方式中，所述卷积神经网络通过所述卷积层来处理该组读长，并将所述卷积层的输出与由一个补充输入层输入的对应的经验变体评分(EVS)特征进行连接。所述卷积神经网络的补充输入层可与将所述阵列作为输入提供给所述卷积神经网络的第一卷积层的输入层不同。在一个实施方式中，所述卷积神经网络的最后一个卷积层的输出被所述卷积神经网络的一个扁平化层扁平化，然后与所述EVS特征结合。

至于所述EVS特征，一组EVS特征可与所述阵列中的候选变异位点相关联(例如，针对SNPs的23个EVS特征以及针对indels的22个EVS特征)。EVS特征的一些实例包括胚系特征、RNA-seq特征、体细胞特征、胚系SNV特征、胚系indel特征、RNA-seq SNV特征、RNA-seqindel特征、体细胞SNV特征和体细胞indel特征。稍后在本申请中名为“EVS特征”的章节中还提供了所述EVS特征的其它实例。

每个EVS特征是一个代表一个候选变异位点的特定属性的数字。因此，根据一个实施方式，一个候选变异位点的一组EVS特征由一个数字或数字描述符向量识别。所述EVS特征数字被直接提供给所述卷积神经网络。例如，GenotypeCategory为0时代表杂合位点，为1时代表纯合位点，为2时代表ALT-杂合位点。其它的(如：SampleRMSMappingQuality)都是浮点数。RMS代表均方根EVS特征，其通过对覆盖位点的每个读长的平方映射质量求和、用读长的数量来除并算出除得的结果的平方根来确定。我们观察到保守基因型质量EVS特征的精度更高。

在所述最后一个卷积层的输出与所述EVS特征连接起来后，所述卷积神经网络接着将连接结果提供给所述全连接层。紧随所述全连接层之后的一个分类层(例如：Softmax层)可以产生所述目标碱基位置的每个候选变体是真变体还是假变体的可能性的分类评分。在其它实施方式中，所述分类层可以产生所述目标碱基位置的每个候选变体是纯合变体、杂合变体、非变体还是复杂变体的可能性的分类评分。

图3B所示的是图1A中的变体分类器的卷积神经网络的架构300B的另一个实施方式。图3B还显示了在所述卷积神经网络的不同处理阶段的输入/输出的维数。具体地，图3B所示的卷积神经网络架构具有七个卷积层。在这个示例性架构中，由一个具有32个过滤器和一个第一连续最大池化层的第一5×5卷积层产生的输出的维数可以是108×48×32；由一个具有32个过滤器和一个第二连续最大池化层的第二5×5卷积层产生的输出的维数可以是52×22×32；由一个具有32个过滤器和一个第三连续最大池化层的第三5×5卷积层产生的输出的维数可以是24×9×32。进一步地，由一个具有32个过滤器但没有连续最大池化层的第四5×5卷积层产生的输出的维数可以是20×5×32；由一个具有32个过滤器但没有连续最大池化层的第五5×5卷积层产生的输出的维数可以是16×1×32；由一个具有32个过滤器但没有连续最大池化层的第六5×1卷积层产生的输出的维数可以是11×1×32；由一个具有32个过滤器但没有连续最大池化层的第七5×1卷积层产生的输出的维数可以是7×1×32。进一步地，所述7×1×32输出可以被扁平化成一个224维向量，并进一步地与一个23或22维EVS特征向量连接以产生一个247或246维连接向量。所述连接向量可被提供给一个具有256个单元的全连接层和一个分类层，以产生分类评分。

图3C所示的是图1A中的变体分类器的卷积神经网络的架构300C的另一个实施方式。具体地，图3C所示的卷积神经网络架构具有五个卷积层。在这个示例性架构中，所述变体分类器卷积神经网络可包括一个输入层，紧随其后的是五个各具有32个卷积过滤器的3×3卷积层。紧随每个卷积层之后的可以是一个批归一化层和一个2×2最大池化层。所述卷积神经网络可进一步包括一个扁平化层、一个补充输入层、一个连接层、两个全连接(FC)层和一个分类层。图3B还显示了在所述卷积神经网络的不同处理阶段的输入/输出的维数。

图3D所示的是图1A中的变体分类器的卷积神经网络的架构300D的另一个实施方式。具体地，图3D中所示的卷积神经网络架构采用深度可分离卷积。相比标准卷积，深度可分离卷积进行输入数据的每个通道的单独卷积，然后进行逐点卷积，以将通道混合。关于深度可分离卷积的其它信息，请参见A.G.Howard、M.Zhu、B.Chen、D.Kalenichenko、W.Wang、T.Weyand、M.Andreetto和H.Adam所著的《MobileNets：用于移动视觉应用的高效卷积神经网络》，其收录于arXiv:1704.04861，2017；其全部内容通过引用并入本文，如同在本文中对其做了充分的阐述一样。

变体分类器FC神经网络架构

图4A所示的是一种全连接(FC)网络400A，其中，计算单元与上一层的所有计算单元具有全连接。假设一个层具有m个计算单元且上一层提供n个输出，那么我们会得到总数为m*n的权重。

图4B所示的是没有任何卷积层的变体分类器的全连接神经网络的架构400B的一个实施方式。所述架构400B采用全连接层(也被称为“密集层”)。在图4B中，有七个密集层，它们与批归一化和丢弃层一起分布。

在一个实施方式中，所述变体分类器的全连接神经网络具有四个全连接层，每层具有64个单元，丢弃率为10％，紧随每个全连接层之后有一个批归一化层。

所述全连接神经网络的输入是一个候选变异位点的经验变体评分(EVS)特征。每个EVS特征是一个代表一个候选变异位点的特定属性的数字。因此，根据一个实施方式，一个候选变异位点的一组EVS特征由一个数字或数字描述符向量识别。所述EVS特征数字被直接提供给所述卷积神经网络。例如，GenotypeCategory为0时代表杂合位点，为1时代表纯合位点，为2时代表ALT-杂合位点。其它的(如：SampleRMSMappingQuality)都是浮点数。RMS代表均方根EVS特征，其通过对覆盖位点的每个读长的平方映射质量求和、用读长的数量来除并算出除得的结果的平方根来确定。我们观察到ConservativeGenotypeQuality EVS特征的精度更高。

所述全连接神经网络的输入可以是以下列出的EVS特征的任意组合。即，可对由变体识别器评估的一个特定候选变异位点的EVS特征向量进行编码或构建，以包含以下列出的EVS特征中的任意一个的数值。

EVS特征

以下列出了分为四类的EVS特征实例：

(1)胚系SNV特征：GenotypeCategory、SampleRMSMappingQuality、SiteHomopolymerLength、SampleStrandBias、SampleRMSMappingQualityRankSum、SampleReadPosRankSum、RelativeTotalLocusDepth、SampleUsedDepthFraction、ConservativeGenotypeQuality和NormalizedAltHaplotypeCountRatio。

(2)胚系indel特征：GenotypeCategory、SampleIndelRepeatCount、SampleIndelRepeatUnitSize、SampleIndelAlleleBiasLower、SampleIndelAlleleBias、SampleProxyRMSMappingQuality、RelativeTotalLocusDepth、SamplePrimaryAltAlleleDepthFraction、ConservativeGenotypeQuality、InterruptedHomopolymerLength、ContextCompressability、IndelCategory和NormalizedAltHaplotypeCountRatio。

(3)体细胞SNV特征：

SomaticSNVQualityAndHomRefGermlineGenotype、NormalSampleRelativeTotalLocusDepth、TumorSampleAltAlleleFraction、RMSMappingQuality、ZeroMappingQualityFraction、TumorSampleStrandBias、TumorSampleReadPosRankSum、AlleleCountLogOddsRatio、NormalSampleFilteredDepthFraction和TumorSampleFilteredDepthFraction。

(4)体细胞indel特征：

SomaticIndelQualityAndHomRefGermlineGenotype、TumorSampleReadPosRankSum、TumorSampleLogSymmetricStrandOddsRatio、RepeatUnitLength、IndelRepeatCount、RefRepeatCount、InterruptedHomopolymerLength、TumorSampleIndelNoiseLogOdds、TumorNormalIndelAlleleLogOdds和AlleleCountLogOddsRatio。

以下为以上列出的EVS特征的定义：

胚系特征说明：

体细胞特征说明：

请注意，对于体细胞特征来说，“所有样本”指的是肿瘤和匹配正常样本。

在一些实施方式中，输入只包括EVS特征。在其它实施方式中，在输入中，EVS特征可被读长数据补充，如上文CNN实施方式中讨论的。

图1B所示的是利用包含候选变体(SNPs和indels)的标记训练数据对图1A中的变体分类器进行训练的一个实施方式。在各种实施方式中，根据五万(50000)至一百万(1000000)个候选变体(SNPs和indels)对所述变体分类器进行训练。所述候选变体标记有真实的变体类别，从而在训练期间作为真值。在一个实施方式中，可以在5到10个训练迭代批次中以较高的查全率和查准率在不到10小时的时间内在单个GPU显卡上训练候选变异位点(各具有50至100个读长)的一百万个训练样本。训练数据可包括NA129878样本，验证数据来自提出的2/20号染色体。利用Adam和正规化技术(如：Dropout)等基于反向传播的随机梯度下降算法对所述本体分类器卷积神经网络进行训练。

图1C所示的是图1A中的变体分类器的卷积神经网络的输入和输出模块的一个实施方式。所述输入模块包括将所述输入特征阵列提供给所述卷积神经网络，如上所述。所述输出模块包括将所述卷积神经网络进行的分析翻译成目标碱基位置的每个候选变体是真变体还是假变体的可能性的分类评分。所述卷积神经网络的最后一个softmax分类层可以产生相加等于1的两个类的归一化概率。在所述的实例中，真正类(或真变体)的softmax概率是0.85，而假正类(或假变体)的softmax概率是0.15。从而，在目标碱基位置的候选变体被分类成真变体。

关于变体分类器卷积神经网络的架构、训练、推断、分析和翻译的更多信息，请参见J.Wu所著的《卷积神经网络简介》(南京大学，2017年)、I.J.Goodfellow、D.Warde-Farley、M.Mirza、A.Courville和Y.Bengio所著的《卷积神经网络》(麻省理工学院出版社的《深度学习》，2016年)和《批归一化：通过减少内部协变量偏移来加速深度神经网络训练》(arXiv：1502.03167,2015年)，其全部内容通过引用并入本文，如同在本文中对其做了充分的阐述一样。

在另一些其它实施方式中，图1A中的变体分类器的卷积神经网络可采用1D卷积、2D卷积、3D卷积、4D卷积、5D卷积、膨胀或空洞卷积、转置卷积、深度可分离卷积、逐点卷积、1×1卷积、分组卷积、扁平化卷积、跨通道卷积、混洗分组卷积、空间可分离卷积和反卷积。其可以使用一个或多个损失函数，例如：逻辑回归/对数损失、多类交叉熵/softmax损失、二进制交叉熵损失、均方误差损失、L1损失、L2损失、平滑L1损失和Huber损失。其可以使用任何并行、效率和压缩方案，例如：TFRecords、压缩编码(例如：PNG)、分片、地图转换的并行调用、批处理、预取、模型并行、数据并行和同步/异步SGD。其可包括上取样层、下取样层、递归连接、门电路和选通存储器单元(如：LSTM或GRU)、残差块、残差连接、高速连接、跳跃连接、激活函数(例如：修正线性单元(ReLU)、泄漏的ReLU、指数线性单元(ELU)、Sigmoid和双曲正切等非线性变换函数)、批归一化层、正规化层、丢弃层、池化层(例如：最大或平均池化)、全局平均池化层和注意力机制。

实验结果

图5所示的是基于所述变体分类器的卷积神经网络的单碱基多态性(SNP)分类性能和基于被称为经验变体得分(EVS)模型的基准Strelka^TM模型的单碱基多态性(SNP)分类性能之间比较的查准率-查全率曲线的一个实例。如图5所示，所述变体分类器的卷积神经网络比所述EVS模型具有更好的SNPs的查准率-查全率曲线。

图6所示的是基于所述变体分类器的卷积神经网络的SNP分类性能和基于所述EVS模型的SNP分类性能之间比较的查准率-查全率曲线的另一个实例。此处，根据一个更大的训练集对所述变体分类器的卷积神经网络进行训练，这样，其性能进一步超过了所述EVS模型。

图7所示的是基于所述变体分类器的卷积神经网络的插入\缺失标记分类性能和基于所述EVS模型的插入\缺失标记分类性能之间比较的查准率-查全率曲线的一个实例。如图7所示，所述变体分类器的卷积神经网络比所述EVS模型具有更好的indels的查准率-查全率曲线。

图8所示的是训练和验证期间的所述变体分类器的卷积神经网络的收敛曲线。如图8所示，所述卷积神经网络在训练和验证期间收敛约8到9个迭代批次，每个迭代批次要在单个GPU上花费一个小时的时间来完成。

图9所示的是训练和测试(推断)期间的所述变体分类器的全连接神经网络的收敛曲线。如图9所示，所述全连接神经网络在训练和验证期间收敛约14个迭代批次。

在其它实施方式中，所述变体分类器可以被训练50个迭代批次，20至30个无过拟合的迭代批次后就有小的改进。

图10利用查准率-查全率曲线来比较(i)根据EVS模型版本2.8.2的EVS特征训练的变体分类器的全连接神经网络、(ii)根据EVS模型版本2.9.2的EVS特征训练的变体分类器的全连接神经网络、(iii)EVS模型版本2.8.2和(iv)EVS模型版本2.9.2的SNP分类性能。如图10，所述变体分类器的全连接神经网络的性能超过所述EVS模型。

图11利用查准率-查全率曲线来比较(i)根据EVS模型版本2.8.2的EVS特征训练的变体分类器的全连接神经网络、(ii)根据EVS模型版本2.9.2的EVS特征训练的变体分类器的全连接神经网络、(iii)EVS模型版本2.8.2和(iv)EVS模型版本2.9.2的indel分类性能。如图11，所述变体分类器的全连接神经网络的性能超过所述EVS模型。

计算机系统

图12所示的是可用于实现所述变体分类器的计算机系统的简化方框图。计算机系统1200包括至少一个通过总线子系统1255与一些外围设备通信的中央处理器(CPU)1272。这些外围设备可包括存储子系统1210，其包括存储装置、文件存储子系统1236、用户界面输入设备1238、用户界面输出设备1276和网络接口子系统1274。所述输入和输出设备实现与所述计算机系统1200的用户交互。所述网络接口子系统1274提供了一个针对外部网络的接口，包括针对其他计算机系统中对应的接口设备的接口。

在一个实施方式中，所述变体分类器与所述存储子系统1210和所述用户界面输入设备1238通信连接。

所述用户界面输入设备1238可包括键盘、指示设备(例如：鼠标、轨迹球、触摸板或图形输入板)、扫描器、整合在显示器中的触摸屏、语音输入设备(例如：语音识别系统和麦克风)以及其它类型的输入设备。通常，术语“输入设备”的使用意在包括所有可能类型的设备和方式，以将信息输入到所述计算机系统1200里面。

用户界面输出设备1276可包括显示子系统、打印机、传真机或非视频显示器(例如：语音输出设备)。所述显示子系统可包括LED显示器、阴极射线管(CRT)显示器、平板设备(例如：液晶显示器(LCD))、投影设备或一些其它的用于产生可见图像的机构。所述显示子系统还可提供非视频显示器(例如：语音输出设备)。通常，术语“输出设备”的使用意在包括所有可能类型的设备和方式，以将信息从所述计算机系统1200输出给用户或另一台机器或计算机系统。

所述存储子系统1210存储了编程和数据结构，其提供了本文所述的一些或全部模块和方法的功能。这些软件模块一般通过深度学习处理器1278来执行。

所述深度学习处理器1278可以是图形处理器(GPUs)、现场可编程门阵列(FPGAs)、应用专用集成电路(ASICs)和/或粗粒度可重构结构(CGRAs)。所述深度学习处理器1278可由深度学习云平台(例如：Google云平台^TM、Xilinx^TM和Cirrascale^TM)托管。所述深度学习处理器1278的实例包括Google张量处理器(TPU)^TM、Rackmount方案(例如：GX4Rackmount系列^TM和GX12 Rackmount系列^TM)、英伟达DGX-1^TM、微软Stratix V FPGA^TM、Graphcore智能处理器单元(IPU)^TM、具有骁龙处理器^TM的高通Zeroth平台^TM、英伟达Volta^TM、英伟达DRIVE PX^TM、英伟达JETSON TX1/TX2 MODULE^TM、英特尔Nirvana^TM、Movidius VPU^TM、富士通DPI^TM、ARMDynamicIQ^TM、IBM TrueNorth^TM等。

在所述存储子系统1210中使用的存储器子系统1222可包括若干个内存，包括在程序执行期间用于存储指令和数据的主随机存取存储器(RAM)1232和存储固定指令的只读存储器(ROM)1234。所述文件存储子系统1236可永久存储程序和数据文件，且可以包括硬盘驱动器、带有相关可移动介质的软盘驱动器、CD-ROM驱动器、光驱或可移动介质磁带。实施某些实施方式的功能的模块可存储在所述存储子系统1210中的文件存储子系统1236或者可由所述处理器访问的其它机器中。

所述总线子系统1255为使所述计算机系统1200的各种组件和子系统按预期的方式彼此通信提供了一种机制。虽然所述总线子系统1255在示意图中显示为单条总线，但是所述总线子系统的可选实施方式可以使用多条总线。

所述计算机系统1200自身可以是不同的类型，包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视、大型主机、服务器群、分布广泛的松散联网的计算机集群或者任何其它的数据处理系统或用户设备。由于计算机和网络不断-变化的特性，图12所示的计算机系统1200的描述仅作为用于说明本发明的优选实施例的特定实例。相比图12所示的计算机系统具有更多或更少组件的许多其它配置的计算机系统1200也是可能的。

特定实施方式

卷积神经网络(CNN)实施方式

所述公开的技术涉及一种包括训练过的变体分类器的系统。所述变体分类器包括许多并行运行的且与内存连接的处理器。所述变体分类器还包括卷积神经网络，其在所述许多个处理器上运行。

根据多组跨越候选变异位点且标记有这些组的真变体类别的读长的至少50000至1000000个训练样本对所述卷积神经网络进行训练。在训练中使用的每个训练样本包括一组与一个参考读长对位排列的读长。每个读长包括一个目标碱基位置，其在每一侧都有伴有或延长了至少110个碱基。所述读长中的碱基中的每一个都伴有所述参考读长中一个相应的参考碱基、读取所述碱基的碱基识别精度评分、读取所述碱基的链型(即：DNA链型)、与所述碱基的位置邻接的变化的插入数和在所述碱基的位置的缺失标记。

所述卷积神经网络的一个运行在所述许多个处理器中至少一个上的输入模块为所述目标碱基位置的评估提供该组读长。

所述卷积神经网络的一个运行在所述许多个处理器中至少一个上的输出模块将所述卷积神经网络进行的分析翻译成目标碱基位置的每个候选变体是真变体还是假变体的可能性的分类评分。

所述公开的系统实施方式及其它系统可选地包括一个或多个以下特征。所述系统还可包括结合所公开的方法而描述的特征。为简洁起见，没有单独列举系统特征的可选组合。没有为每个规定的碱基特征类集重述适用于系统、方法和制品的特征。读者将会理解在本节中所识别的特征如何能够轻易地与其它规定类中的碱基特征相结合。

所述卷积神经网络可具有一个或多个卷积层和一个或多个全连接层。所述卷积神经网络可通过所述卷积层来处理该组读长，并对具有对应的经验变体评分(EVS)特征的卷积层的输出进行连接。所述卷积神经网络能进一步地向所述全连接层提供连接结果。

可利用独热编码对所述读长中的碱基进行编码可利用独热编码对所述参考读长中对应的碱基进行编码。读取所述碱基的碱基识别精度评分可被编码为一个连续的数字。可利用独热编码对读取所述碱基的链型进行编码。与所述碱基的位置邻接的变化的插入数可被编码为一个数字。在所述碱基位置的缺失标记可被编码为一个数字。

所述候选变体可以是一个候选单碱基多态性(缩写为SNP)。所述候选变体可以是一个候选插入或缺失(缩写为indel)。

所述许多个处理器可以是图形处理器(缩写为GPU)的一部分。所述卷积神经网络可以在所述GPU上运行，并在5至10个迭代批次中对所述训练样本的评估进行迭代，每个迭代批次要花一个小时的时间完成。在另一些实施方式中，所述变体分类器可以训练50个迭代批次，20至30个无过拟合的迭代批次后就有小的改进。

在一些实施方式中，所述目标碱基位置可以在每一侧伴有或增加至少30个碱基。

所述卷积神经网络还可以具有一个或多个最大池化层和一个或多个批归一化层。

在一些实施方式中，可以在一个或多个训练服务器上对所述卷积神经网络进行训练。训练过后，可以将所述卷积神经网络部署在一个或多个从请求客户端接收该组读长的生产服务器(支持云环境)上，所述生产服务器能够通过所述卷积神经网络的输入和输出模块对该组读长进行处理以产生分类评分，其被传输给所述客户端。

其它实施方式可包括一个非暂时性计算机可读存储介质，其存储由处理器执行来实施上述系统的功能的指令。

在另一个实施方式中，所述公开的技术涉及一种变体识别方法。所述方法包括：向卷积神经网络提供输入特征阵列，以及通过所述卷积神经网络对所述阵列进行处理。

所述阵列对一组读长进行编码，该组读长与一个参考读长对位排列，并且包括一个在每一侧伴有或延长了至少30个碱基的目标碱基位置。所述阵列中的每个输入特征对应该组读长中的一个碱基，并且具有多个维度。

所述多个维度包括识别所述碱基的第一维度集、识别一个与所述碱基对位排列的参照碱基的第二维度集、识别所述碱基的碱基识别精度评分的第三维度集、识别所述碱基的链型(即：DNA链型)的第四维度集、识别与所述碱基的位置邻接的变化的插入总数的第五维度集以及识别在所述碱基的位置的缺失标记的第六维度集。

所述方法进一步包括：将所述卷积神经网络对所述阵列进行的处理翻译成目标碱基位置的每个输入特征是真变体还是假变体的可能性的分类评分。

在一些实施方式中，每个输入特征可以具有十二个维度。在一些实施方式中，所述第一维度集可以利用独热编码对四个碱基进行编码。在一些实施方式中，所述第二维度集可以利用独热编码对四个碱基进行编码。

在这个针对系统实施方式的特定实施方式章节中讨论的每个特征同样适用于该方法实施方式。如上所述，所有系统特征不在此处复述，而应当被认为是通过引用来复述。

其它实施方式可包括一个非暂时性计算机可读存储介质，其存储由处理器执行来实施上述方法的指令。另一个实施方式可包括一个包含内存和一个或多个可运行来执行存储在所述内存中的指令以实施上述方法的处理器的系统。

在另一个实施方式中，所述公开的技术涉及一种包括一个训练过的变体分类器的系统。所述变体分类器包括许多并行运行的且与内存连接的处理器。所述变体分类器还包括卷积神经网络，其在所述许多个处理器上运行。

根据多组跨越标记有这些组的真变体类别的候选变异位点的读长的至少50000至1000000个训练样本，利用逐步将所述卷积神经网络的输出与对应的真值标签进行匹配的基于反向传播的坡度更新技术来对所述卷积神经网络进行训练。

在训练中使用的每个训练样本包括一组与一个参考读长对位排列的读长。每个读长包括一个目标碱基位置，其在每一侧都有伴有或增加了至少110个碱基。

所述读长中的碱基中的每一个都伴有所述参考读长中一个相应的参考碱基、读取所述碱基的碱基识别精度评分、读取所述碱基的链型(即：DNA链型)、与所述碱基的位置邻接的变化的插入数和在所述碱基的位置的缺失标记。

所述读长中的每个碱基可进一步地伴有将一个含有该碱基的对应的读长与所述参考读长对位排列的映射质量评分。

所述卷积神经网络可具有一个或多个卷积层和一个或多个全连接层。所述卷积神经网络可通过所述卷积层来处理该组读长，并将所述卷积层的输出与对应的经验变体评分(缩写为EVS)特征进行连接，同时将连接结果提供给所述全连接层。

每个卷积层具有卷积过滤器，并且每个卷积过滤器具有卷积内核。所述卷积过滤器可采用深度可分离卷积。

所述卷积神经网络可以具有一个或多个最大池化层和一个或多个批归一化层。

所述卷积神经网络可以使用一个softmax分类层来产生所述分类评分。

所述卷积神经网络可以使用Dropout。

所述卷积神经网络可以使用扁平化层。

所述卷积神经网络可以使用连接层。

所述卷积神经网络可以在GPU上运行，并在5至50个迭代批次中对所述训练样本的评估进行迭代，每个迭代批次要花一个小时的时间完成。

所述卷积神经网络运行在许多个并行运行且与内存连接的处理器上，并且根据多组跨越标记有这些组的真变体类别的候选变异位点的读长的至少50000个训练样本，利用逐步将所述卷积神经网络的输出与对应的真值标签进行匹配的基于反向传播的坡度更新技术来对所述卷积神经网络进行训练。

全连接神经网络(FCN)实施方式

在另一个实施方式中，所述公开的技术涉及一种包括一个训练过的变体分类器的系统。所述变体分类器包括许多并行运行的且与内存连接的处理器。所述变体分类器还包括全连接神经网络，其在所述许多个处理器上运行。

根据标记有位点的真变体类别的所述候选变异位点的经验变体评分(缩写为EVS)特征集的至少50000至1000000个训练样本，利用逐步将所述全连接神经网络的输出与对应的真值标签进行匹配的基于反向传播的坡度更新技术来对所述全连接神经网络进行训练。

在训练中使用的每个训练样本包括一个代表一组读长中的一个对应的候选变异位点的特点的EVS特征集。

所述全连接神经网络的一个运行在所述许多个处理器中至少一个上的输入模块为一个目标候选变异位点的评估提供该EVS特征集。

所述全连接神经网络的一个运行在所述许多个处理器中至少一个上的输出模块将所述全连接神经网络进行的分析翻译成在目标候选变异位点出现的至少一个变体是真变体还是假变体的可能性的分类评分。

所述全连接神经网络可以具有一个或多个最大池化层和一个或多个批归一化层。

所述全连接神经网络可以使用Dropout。

所述全连接神经网络可以使用一个softmax分类层来产生所述分类评分。

在另一个实施方式中，所述公开的技术涉及一种变体识别方法。所述方法包括：向全连接神经网络提供一个目标候选变异位点的经验变体评分(缩写为EVS)特征集，以及通过所述全连接神经网络处理所述EVS特征集。

所述全连接神经网络运行在许多个并行运行并与内存连接的处理器上，并且根据标记有位点的真变体类别的候选变异位点的EVS特征集的至少50000个训练样本，利用逐步将所述全连接神经网络的输出与对应的真值标签进行匹配的基于反向传播的坡度更新技术来对所述全连接神经网络进行训练。

所述EVS特征集代表所述目标候选变异位点的特点。

所述方法进一步包括：将所述全连接神经网络对所述EVS特征集进行的处理翻译成在目标候选变异位点出现的至少一个变体是真变体还是假变体的可能性的分类评分。

以上描述是为了实现所述公开的技术的形成和应用。针对所述公开的实施方式的各种修改是显而易见的，并且本文中所定义的一般性原理在不脱离所述公开的技术的精神和范围的前提下可应用于其它实施方式和应用。因此，所述公开的技术并非限制仅限于所示的实施方式，而是要获得符合本文所公开的原理和特征的最大的范围。所述公开的技术的范围由所附的权利要求书定义。

Claims

1.一种训练过的变体识别器，包括：

许多个处理器，其并行运行且与内存连接；

卷积神经网络，其运行在所述许多个处理器上，根据多组跨越标记有这些组的真变体类别的候选变异位点的读长的至少50000个训练样本，利用逐步将所述卷积神经网络的输出与对应的真值标签进行匹配的基于反向传播的坡度更新技术来对所述卷积神经网络进行训练；

其中，在训练中使用的每个训练样本包括一组与一个参考读长对位排列的读长，每个读长包括一个每侧伴有或延长了至少110个碱基的目标碱基位置，所述读长中的每个碱基伴有

所述参考读长中一个对应的参考碱基、

读取所述碱基的碱基识别精度评分、

读取所述碱基的链型、

与所述碱基的位置邻接的变化的插入总数以及

在所述碱基位置的缺失标记；

所述卷积神经网络的输入模块，其运行在所述许多个处理器中至少一个上，并为所述目标碱基位置的评估提供该组读长；以及

所述卷积神经网络的输出模块，其运行在所述许多个处理器中至少一个上，并将所述卷积神经网络进行的分析翻译成目标碱基位置的每个候选变体是真变体还是假变体的可能性的分类评分。

2.根据权利要求1所述的变体识别器，其中，所述读长中的每个碱基进一步伴有将一个含有该碱基的对应的读长与所述参考读长对位排列的映射质量评分。

3.根据权利要求1-2中的任意一项所述的变体识别器，其中，所述卷积神经网络具有一个或多个卷积层和一个或多个全连接层。

4.根据权利要求1-3中的任意一项所述的变体识别器，其中，所述卷积神经网络通过所述卷积层对该组读长进行处理，并将所述卷积层的输出与对应的经验变体评分(缩写为EVS)特征进行连接，同时将连接结果提供给所述全连接层。

5.根据权利要求1-4中的任意一项所述的变体识别器，其中，每个卷积层具有卷积过滤器，并且每个卷积过滤器具有卷积内核。

6.根据权利要求1-5中的任意一项所述的变体识别器，其中，所述卷积过滤器采用深度可分离卷积。

7.根据权利要求1-6中的任意一项所述的变体识别器，其中，所述卷积神经网络具有一个或多个最大池化层和一个或多个批归一化层。

8.根据权利要求1-7中的任意一项所述的变体识别器，其中，所述卷积神经网络采用一个softmax分类层来产生所述分类评分。

9.根据权利要求1-8中的任意一项所述的变体识别器，其中，所述卷积神经网络采用Dropout。

10.根据权利要求1-9中的任意一项所述的变体识别器，其中，所述卷积神经网络采用扁平化层。

11.根据权利要求1-10中的任意一项所述的变体识别器，其中，所述卷积神经网络采用连接层。

12.根据权利要求1-11中的任意一项所述的变体识别器，其中，所述卷积神经网络在GPU上运行，并在5至50个迭代批次中对所述训练样本的评估进行迭代，每个迭代批次要花一个小时的时间完成。

13.根据权利要求1-12中的任意一项所述的变体识别器，其中，根据1000000个训练样本来对所述卷积神经网络进行训练。

14.一种变体识别方法，包括：

向卷积神经网络提供输入特征阵列，以及通过所述卷积神经网络对所述阵列进行处理；

其中，所述卷积神经网络运行在许多个并行运行且与内存连接的处理器上，并且根据多组跨越标记有这些组的真变体类别的候选变异位点的读长的至少50000个训练样本，利用逐步将所述卷积神经网络的输出与对应的真值标签进行匹配的基于反向传播的坡度更新技术来对所述卷积神经网络进行训练；

其中，所述阵列对一组读长进行编码，该组读长与一个参考读长对位排列，并且包括一个在每一侧伴有或延长了至少30个碱基的目标碱基位置；

其中，所述阵列中的每个输入特征对应所述读长中的一个碱基，并且具有多个维度，包括

识别所述碱基的第一维度集、

识别一个与所述碱基对位排列的参照碱基的第二维度集、

识别所述碱基的碱基识别精度评分的第三维度集、

识别所述碱基的链型的第四维度集、

识别与所述碱基的位置邻接的变化的插入总数的第五维度集以及

识别在所述碱基的位置的缺失标记的第六维度集；以及

将所述卷积神经网络对所述阵列进行的处理翻译成目标碱基位置的每个输入特征是真变体还是假变体的可能性的分类评分。

15.根据权利要求14所述的变体识别器，其中，所述阵列中的每个输入特征进一步包括识别将一个含有该碱基的对应的读长与所述参考读长对位排列的映射质量评分的第七维度集。

16.根据权利要求14-15中的任意一项所述的方法，其中，所述卷积神经网络具有一个或多个卷积层和一个或多个全连接层。

17.一种训练过的变体识别器，包括：

许多个处理器，其并行运行且与内存连接；

全连接神经网络，其运行在所述许多个处理器上，根据标记有位点的真变体类别的所述候选变异位点的经验变体评分(缩写为EVS)特征集的至少50000个训练样本，利用逐步将所述全连接神经网络的输出与对应的真值标签进行匹配的基于反向传播的坡度更新技术来对所述全连接神经网络进行训练；

其中在训练中使用的每个训练样本包括一个代表一组读长中的一个对应的候选变异位点的特点的EVS特征集；

所述全连接神经网络的输入模块，其运行在所述许多个处理器中至少一个上，并为一个目标候选变异位点的评估提供该EVS特征集；以及

所述全连接神经网络的输出模块，其运行在所述许多个处理器中至少一个上，并将所述全连接神经网络进行的分析翻译成在目标候选变异位点出现的至少一个变体是真变体还是假变体的可能性的分类评分。

18.根据权利要求17所述的变体识别器，其中，所述全连接神经网络具有一个或多个最大池化层和一个或多个批归一化层。

19.根据权利要求17-18中的任意一项所述的变体识别器，其中，所述全连接神经网络采用Dropout。

20.根据权利要求17-19中的任意一项所述的变体识别器，其中，所述全连接神经网络采用一个softmax分类层来产生所述分类评分。