CN114402393A - 基于人工智能的表观遗传 - Google Patents

基于人工智能的表观遗传 Download PDF

Info

Publication number
CN114402393A
CN114402393A CN202080065003.7A CN202080065003A CN114402393A CN 114402393 A CN114402393 A CN 114402393A CN 202080065003 A CN202080065003 A CN 202080065003A CN 114402393 A CN114402393 A CN 114402393A
Authority
CN
China
Prior art keywords
sequence
artificial intelligence
based system
intelligence based
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080065003.7A
Other languages
English (en)
Inventor
S·卡拉佐普罗潘吉欧托普卢
K-H·法尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN114402393A publication Critical patent/CN114402393A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biotechnology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Neurology (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Genetics & Genomics (AREA)
  • Image Analysis (AREA)
  • Navigation (AREA)

Abstract

本公开提供了一种基于人工智能的系统,该基于人工智能的系统包括输入准备模块,该输入准备模块访问序列数据库并且生成输入碱基序列。该输入碱基序列包括具有靶向碱基的靶向碱基序列,其中该靶向碱基序列侧接具有下游上下文碱基的右端碱基序列,和具有上游上下文碱基的左端碱基序列。序列对序列模型处理输入碱基序列并且生成输入碱基序列的替代表示。输出模块处理输入碱基序列的该替代表示并且针对靶向碱基序列中的靶向碱基中的每个靶向碱基产生至少一个每碱基输出。该每碱基输出针对对应靶向碱基指定多个表观遗传轨迹的信号水平。

Description

基于人工智能的表观遗传
优先权数据
本专利申请要求2019年9月20日提交的标题为“ARTIFICIAL INTELLIGENCE-BASEDEPIGENETICS”的美国临时专利申请第62/903,700号的优先权或权益(代理人案卷号ILLM1025-1/IP-1898-PRV)。
文献并入
以下文献以引用方式并入,即如同在本文完整示出一样,以用于所有目的:
Kishore Jaganathan、Kai-How Farh、Sofia Kyriazopoulou Panagiotopoulou和Jeremy Francis McRae的在2018年10月15日提交的标题为“Deep Learning-Based SpliceSite Classification”的PCT专利申请第PCT/US18/55915号(代理人案卷号ILLM 1001-7/IP-1610-PCT),随后公布为PCT公开第WO 2019/079198号;
Kishore Jaganathan、Kai-How Farh、Sofia Kyriazopoulou Panagiotopoulou和Jeremy Francis McRae的在2018年10月15日提交的标题为“Deep Learning-BasedAberrant Splicing Detection”的PCT专利申请第PCT/US18/55919号(代理人案卷号ILLM1001-8/IP-1614-PCT),随后公布为PCT公开第WO 2019/079200号;
Kishore Jaganathan、Kai-How Farh、Sofia Kyriazopoulou Panagiotopoulou和Jeremy Francis McRae的在2018年10月15日提交的标题为“Aberrant SplicingDetection Using Convolutional Neural Networks(CNNs)”的PCT专利申请第PCT/US18/55923号(代理人案卷号ILLM1001-9/IP-1615-PCT),随后公布为PCT公开第WO 2019/079202号;
Kishore Jaganathan、Kai-How Farh、Sofia Kyriazopoulou Panagiotopoulou和Jeremy Francis McRae的在2018年10月15日提交的标题为“Deep Learning-Based SpliceSite Classification”的美国专利申请第16/160,978号(代理人案卷号ILLM 1001-4/IP-1610-US);
Kishore Jaganathan、Kai-How Farh、Sofia Kyriazopoulou Panagiotopoulou和Jeremy Francis McRae的在2018年10月15日提交的标题为“Deep Learning-BasedAberrant Splicing Detection”的US专利申请第16/160,980号(代理人案卷号ILLM 1001-5/IP-1614-US);
Kishore Jaganathan、Kai-How Farh、Sofia Kyriazopoulou Panagiotopoulou和Jeremy Francis McRae的在2018年10月15日提交的标题为“Aberrant SplicingDetection Using Convolutional Neural Networks(CNNs)”的US专利申请第16/160,984号(代理人案卷号ILLM 1001-6/IP-1615-US);
文档1—S.Dieleman、H.Zen、K.Simonyan、O.Vinyals、A.Graves、N.Kalchbrenner、A.Senior和K.Kavukcuoglu,“WAVENET:AGENERATIVE MODEL FOR RAW AUDIO”,arXiv:1609.03499,2016年;
文档2—S.
Figure BDA0003549282650000021
Arik、M.Chrzanowski、A.Coates、G.Diamos、A.Gibiansky、Y.Kang、X.Li、J.Miller、A.Ng、J.Raiman、S.Sengupta和M.Shoeybi,“DEEP VOICE:REAL-TIMENEURAL TEXT-TO-SPEECH”,arXiv:1702.07825,2017年;
文档3—F.Yu和V.Koltun,“MULTI-SCALE CONTEXT AGGREGATION BY DILATEDCONVOLUTIONS”,arXiv:1511.07122,2016年;
文档4—K.He、X.Zhang、S.Ren和J.Sun,“DEEP RESIDUAL LEARNING FOR IMAGERECOGNITION”,arXiv:1512.03385,2015年;
文档5—R.K.Srivastava、K.Greff和J.Schmidhuber,“HIGHWAY NETWORKS”,arXiv:1505.00387,2015年;
文档6—G.Huang、Z.Liu、L.van der Maaten和K.Q.Weinberger,“DENSELYCONNECTED CONVOLUTIONAL NETWORKS”,arXiv:1608.06993,2017年;
文档7—C.Szegedy、W.Liu、Y.Jia、P.Sermanet、S.Reed、D.Anguelov、D.Erhan、V.Vanhoucke和A.Rabinovich,“GOING DEEPER WITH CONVOLUTIONS”,arXiv:1409.4842,2014年;
文档8—S.Ioffe和C.Szegedy,“BATCH NORMALIZATION:ACCELERATING DEEPNETWORK TRAINING BY REDUCING INTERNAL COVARIATE SHIFT”,arXiv:1502.03167,2015年;
文档9—J.M.Wolterink、T.Leiner、M.A.Viergever和I.
Figure BDA0003549282650000031
“DILATEDCONVOLUTIONAL NEURAL NETWORKS FOR CARDIOVASCULAR MR SEGMENTATION INCONGENITAL HEART DISEASE”,arXiv:1704.03669,2017年;
文档10—L.C.Piqueras,“AUTOREGRESSIVE MODEL BASED ON ADEEPCONVOLUTIONAL NEURAL NETWORK FOR AUDIO GENERATION”,坦佩雷理工大学,2016年;
文档11—J.Wu,“Introduction to Convolutional Neural Networks”,南京大学,2017年;
文档12—I.J.Goodfellow、D.Warde-Farley、M.Mirza、A.Courville和Y.Bengio,“CONVOLUTIONAL NETWORKS”,Deep Learning,MIT出版社,2016年;和
文档13—J.Gu、Z.Wang、J.Kuen、L.Ma、A.Shahroudy、B.Shuai、T.Liu、X.Wang和G.Wang,“RECENT ADVANCES IN CONVOLUTIONAL NEURAL NETWORKS”,arXiv:1512.07108,2017年。
文档1描述了深度卷积神经网络架构,该深度卷积神经网络架构使用带有具有相同卷积窗尺寸的卷积滤波器的残差块组、批量归一化层、修正线性单元(缩写为ReLU)层、维度变更层、具有指数增长的空洞卷积速率的空洞卷积层、跳跃连接和softmax分类层来接受输入序列以及产生对输入序列中的条目进行评分的输出序列。所公开的技术使用文档1中所述的神经网络部件和参数。在一个具体实施中,所公开的技术修改文档1中所述的神经网络部件的参数。例如,与文档1不同,所公开的技术中的空洞卷积速率从较低残差块组非指数进展到较高残差块组。在另一示例中,与文档1不同,所公开的技术中的卷积窗尺寸在残差块组之间不同。
文档2描述了文档1中所述的深度卷积神经网络架构的细节。
文档3描述了由所公开的技术使用的空洞卷积。如本文所用,空洞卷积也被称为“扩张卷积”。空洞/扩张卷积允许具有很少可训练参数的大感受场。空洞/扩张卷积是其中通过以特定步长(也被称为空洞卷积速率或扩张因子)跳过输入值来在比内核长度大的区域上应用该内核的卷积。空洞/扩张卷积在卷积滤波器/内核的元素之间添加间距,使得在执行卷积运算时,考虑较大间隔的邻近输入条目(例如,核苷酸、氨基酸)。这使得能够在输入中结合长程情境依赖性。空洞卷积节省了部分卷积计算以在处理相邻核苷酸时重新使用。
文档4描述了由所公开的技术使用的残差块和残差连接。
文档5描述了由所公开的技术使用的跳跃连接。如本文所用,跳跃连接也称为“高速公路网络”。
文档6描述了由所公开的技术使用的密集连接的卷积网络架构。
文档7描述了由所公开的技术使用的维度变更卷积层和基于模块的处理流水线。维度变更卷积的一个示例是1×1卷积。
文档8描述了由所公开的技术使用的批量归一化层。
文档9也描述了由所公开的技术使用的空洞/扩张卷积。
文档10描述了可以由所公开的技术使用的深度神经网络的各种架构,包括卷积神经网络、深度卷积神经网络和具有空洞/扩张卷积的深度卷积神经网络。
文档11描述了卷积神经网络的细节,该卷积神经网络可以由所公开的技术使用,包括用于训练具有子采样层(例如,池化)和全连接层的卷积神经网络的算法。
文档12描述了可以由所公开的技术使用的各种卷积运算的细节。
文档13描述了可以由所公开的技术使用的卷积神经网络的各种架构。
技术领域
本发明所公开的技术涉及人工智能类型计算机和数字数据处理系统以及对应数据处理方法和用于仿真智能的产品(即,基于知识的系统、推断系统和知识采集系统);并且包括用于不确定性推断的系统(例如,模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。具体地,所公开的技术涉及使用基于深度学习的技术来训练深度卷积神经网络。
背景技术
本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为背景技术提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。
机器学习
在机器学习中,使用输入变量来预测输出变量。输入变量通常被称为特征并且由X=(X1,X2,...,Xk)表示,其中每个Xi(i∈1,...,k)是特征。输出变量通常被称为响应或因变量,并且由变量Yi表示。Y与对应X之间的关系可以按一般形式编写:
Y=f(X)+∈
在上述方程中,f是特征(X1,X2,...,Xk)的函数,并且∈是随机误差项。误差项独立于X并且平均值为零。
实际上,特征X是可用的而无需具有Y或知道X与Y之间的确切关系。由于误差项的平均值为零,因此目标是估计f。
Figure BDA0003549282650000051
在上述方程中,
Figure BDA0003549282650000052
是对∈的估计,这通常被认为是黑箱(black box),这意味着仅
Figure BDA0003549282650000053
的输入与输出之间的关系是已知的,但是其为什么工作的问题仍未回答。
使用学习找到函数
Figure BDA0003549282650000054
监督学习和无监督学习是用于此任务的机器学习中所使用的两种方式。在监督学习中,使用标记数据来进行训练。通过示出输入和对应输出(=标记),函数
Figure BDA0003549282650000055
经最优化使得其逼近输出。在无监督学习中,目标是从未标记数据找到隐藏结构。算法没有对输入数据的准确度的测量,此将其与监督学习区分开。
神经网络
单层感知(SLP)是神经网络的最简单模型。其包括一个输入层和一个激活函数,如图1所示。输入通过加权图。函数f使用输入的总和作为自变量并将此与阈值θ进行比较。
图2示出了具有多个层的全连接神经网络的一个具体实施。神经网络是在彼此之间交换消息的互连人工神经元(例如,a1、a2、a3)的系统。所示出神经网络具有三个输入、隐藏层中的两个神经元和输出层中的两个神经元。隐藏层具有激活函数f(·)并且输出层具有激活函数g(·)。连接具有在训练过程期间被调谐的数字权重(例如,w11、w21、w12、w31、w22、w32、v11、v22),使得在馈送图像以识别时,经正确训练的网络正确地响应。输入层处理原始输入,隐藏层基于输入层与隐藏层之间的连接的权重来处理来自该输入层的输出。输出层获得来自隐藏层的输出,并且基于隐藏层与输出层之间的连接的权重对该输出进行处理。该网络包括多层的特征检测神经元。每层具有许多神经元,该神经元对来自先前层的输入的不同组合做出响应。这些层被构造成使得第一层检测输入图像数据中的一组基元模式,第二层检测模式的模式,并且第三层检测那些模式的模式。
基因变异可以帮助解释许多疾病。每个人具有独特的基因密码,并且在一组个体内存在许多基因变体。通过自然选择,已从基因组去除了大多数有害基因变体。识别哪些基因变异可能是致病性或有害的是较重要的。这将有助于研究人员关注可能的致病性基因变体并且加快许多疾病的诊断和治愈的速度。
建模变体的属性和功能效果(例如,致病性)是基因组学领域的重要但具有挑战性的任务。尽管功能基因组测序技术的快速进展,但由于细胞类型特异性转录调节系统的复杂性,对非编码变体的功能后果的解释仍保持巨大挑战。另外,已通过实验功能地验证了有限数量的非编码变体。
先前对解释基因组变体的努力主要专注于编码区中的变体。然而,非编码变体也在复杂疾病中起重要作用。从大量中性非编码变体识别致病性功能非编码变体在基因型-表型关系研究和精度医学中可能是重要的。
此外,大部分已知的致病性非编码变体驻留在启动子区或保守位点中,从而导致训练集中的确诊偏差,因为已知致病性趋势的简便或明显的病例可能相对于整个致病性非编码变体群体富集在标记数据集中。如果未解决,那么标记致病性数据中的此偏差将导致不实际的模型性能,因为模型可以简单地通过预测所有核心变体是致病性的而所有其他变体都是良性的而实现相对高的测试设置性能。然而,在临床中,此类模型会以不可接受的高速率将致病性、非核心变体不正确地分类为良性。
过去几十年生物化学技术的进展已产生下一代测序(NGS)平台,该平台以比以往低得多的成本快速产生基因组数据。此类压倒性大量测序DNA仍然难以注释。当大量标记数据可用时,监督机器学习算法通常很好地执行。在生物信息学和许多其他富含数据的学科中,标记示例的过程是昂贵的;然而,未标记示例是廉价的并且易于获得。对于其中标记数据的量相对较小并且未标记数据的量基本上较大的情况,半监督学习表示手动标记的成本有效的替代形式。
出现构造基于深度学习的致病性分类器的机会,该基于深度学习的致病性分类器准确地预测非编码变体的致病性。可产生不含人类确定偏差的致病性非编码变体的数据库。
附图说明
本专利或专利申请文件包含至少一幅彩色附图。具有彩色附图的本专利或本专利申请公布的副本将在提出请求并支付必要费用后由专利局提供。彩色附图也可通过补充内容选项卡成对地获得。
在附图中,在所有不同视图中,类似的参考符号通常是指类似的部件。另外,附图未必按比例绘制,而是重点说明所公开的技术的原理。在以下描述中,参考以下附图描述了所公开的技术的各种具体实施,其中:
图1示出单层感知(SLP)。
图2示出具有多个层的前馈神经网络的一个具体实施。
图3描绘卷积神经网络的工作的一个具体实施。
图4根据所公开的技术的一个具体实施描绘训练卷积神经网络的框图。
图5示出根据所公开的技术的一个具体实施的ReLU非线性层的一个具体实施。
图6示出扩张卷积。
图7是根据所公开的技术的一个具体实施的子采样层(平均/最大池化)的一个具体实施。
图8描绘卷积层的两层卷积的一个具体实施。
图9描绘经由特征图加法在下游再注入先前信息的残差连接。
图10描绘残差块和跳跃连接的一个具体实施。
图11示出堆叠扩张卷积的一个具体实施。
图12示出批量归一化正向传递。
图13示出测试时间的批量归一化变换。
图14示出批量归一化后向传递。
图15描绘具有卷积或密集连接层的批量归一化层的使用。
图16示出1D卷积的一个具体实施。
图17示出全局平均池化(GAP)如何工作。
图18示出具有可以用于实现所公开技术的训练服务器和生产服务器的计算环境的一个具体实施。
图19描绘可以由序列对序列表观遗传模型和/或致病性确定器使用的模型的架构的一个具体实施。
图20示出可以由序列对序列表观遗传模型和/或致病性确定器使用的残差块的一个具体实施。
图21描绘序列对序列表观遗传模型和/或致病性确定器的架构的另一具体实施,在本文被称为“Model80”。
图22描绘序列对序列表观遗传模型和/或致病性确定器的架构的另一具体实施,在本文被称为“Model400”。
图23描绘序列对序列表观遗传模型和/或致病性确定器的架构的其他具体实施,在本文被称为“Model2000”。
图24描绘序列对序列表观遗传模型和/或致病性确定器的架构的另一具体实施,在本文被称为“Model10000”。
图25示出独热(one-hot)编码器。
图25B示出基因的示例启动子序列。
图26示出访问序列数据库并且生成输入碱基序列的输入准备模块。
图27示出序列对序列表观遗传模型的示例。
图28示出序列对序列模型的每轨处理器。
图29示出参考序列和替代序列。
图30示出使用序列对序列模型2700生成逐位置比较结果的一个具体实施。
图31示出示例致病性分类器。
图32描绘使用训练数据训练致病性分类器的一个具体实施,该训练数据包括用致病性标记(例如,“1”)注释的一组致病性非编码变体,以及用良性标记(例如,“0”)注释的一组良性非编码变体。
图33是可以用于实现所公开的技术的计算机系统的简化框图。
图34示出了如何生成一组致病性非编码变体的一个具体实施。
图35描绘针对所公开的技术如何生成训练数据集。
具体实施方式
呈现以下讨论以使得本领域的任何技术人员能够实现和使用所公开的技术,并且在特定应用及其要求的上下文中提供以下讨论。对所公开的具体实施的各种修改对于本领域的技术人员而言将是显而易见的,并且在不脱离所公开的技术的实质和范围的情况下,本文所定义的一般原理可应用于其他具体实施和应用。因此,所公开的技术并非旨在限于所示的具体实施,而是要符合与本文所公开的原理和特征一致的最广范围。
残差连接
图9描绘经由特征图加法在下游再注入先前信息的残差连接。残差连接包括通过将过去的输出张量添加到稍后输出张量来将先前表示再注入到下游数据流中,这有助于防止沿着数据处理流的信息损失。残差连接解决了困扰任何大规模深度学习模型的两个常见问题:消失梯度和表示瓶颈。通常,向具有超过10层的任何模型添加残差连接可能是有益的。如上所讨论,残差连接包括将较早层的输出作为输入用于稍后层,从而在顺序网络中有效地创建快捷方式。较早输出与稍后激活相加,而不是连接到稍后激活,这假设两个激活的尺寸相同。如果它们具有不同的尺寸,那么可以使用线性变换以将较早激活重塑为目标形状。
残差学习和跳跃连接
图10描绘残差块和跳跃连接的一个具体实施。残差学习的主要概念是残差映射比原始映射更容易学习。残差网络堆叠多个残差单元,以缓解训练准确度的劣化。残差块利用特殊加性跳跃连接来减轻深度神经网络中的消失梯度。在残差块开始时,数据流被分成两个流:第一流携带块的不变输入,而第二流应用权重和非线性。在块结束时,使用逐元素求和来合并两个流。此类构造的主要优点是允许梯度更容易地流过网络。
得益于残差网络,可容易地训练深度卷积神经网络(CNN),并且已实现图像分类和对象检测的改进准确度。卷积前馈网络将lth层的输出作为输入连接到(l+1)th层,这产生以下层转变:xl=Hl(xl-1)。残差块添加跳跃连接,该跳跃连接利用恒等函数绕过非线性变换:xl=Hl(xl-1)+xl-1。残差块的优点是梯度可以直接通过恒等函数从稍后层流到较早层。然而,恒等函数和Hl的输出通过求和组合,这可能阻止网络中的信息流。
波网
波网是用于生成原始音频波形的深度神经网络。波网将自身与其他卷积网络区分开,因为它能够以低成本采取相对较大的“视野”。此外,能够本地和全局添加信号的调节,这允许波网用作具有多个语音的文本语音转换(TTS)引擎,即TTS给出本地调节并且特定语音给出全局调节。
波网的主构建块是因果扩张卷积。作为在因果扩张卷积的延伸,波网还允许这些卷积的堆叠,如图11所示。为了获得该图中具有扩张卷积的相同感受场,需要另一扩张层。堆叠是扩张卷积的重复,从而将扩张卷积层的输出连接到单个输出。这使得波网能够以相对低的计算成本获得一个输出节点的大“视觉”场。为了进行比较,为了获得512个输入的视野,全卷积网络(FCN)将需要511个层。就扩张卷积网络而言,我们将需要八层。堆叠的扩张卷积仅需要具有七层两堆叠或六层四堆叠。为了获得覆盖相同视野所需的计算能力的差异的概念,以下表示出网络中所需的权重数目,其中假设每层一个滤波器并且滤波器宽度为二。此外,假设网络使用8位的二进制编码。
Figure BDA0003549282650000101
波网在进行残差连接之前添加跳跃连接,这绕过所有以下残差块。在通过一系列激活函数和卷积之前,对这些跳跃连接中的每个跳跃连接进行求和。直观地,这是每个层中提取的信息的总和。
批量归一化
批量归一化是通过对网络架构的积分部分进行数据标准化来加速深度网络训练的方法。正当平均值和方差在训练期间随时间变化时,批量归一化可自适应地归一化数据。它通过内部维持训练期间所看到的数据的逐批量平均值和方差的指数移动平均值来工作。批量归一化的主要作用是其有助于梯度传播—很像残差连接—并且因此允许深度网络。一些非常深的网络可以只有在它们包括多个批量归一化层时才被训练。
批量归一化可以被看作可以插入到模型架构中的另一层,仅像全连接或卷积层一样。批量归一化层通常在卷积或密集连接层之后使用。其也可以在卷积或密集连接层之前使用。两个具体实施可以通过所公开的技术使用并且在图15示出。批量归一化层采用轴自变量,该轴自变量指定应该进行归一化的特征轴。此自变量默认为-1,输入张量中的最后轴。当使用具有设置为“channels_last”的data_format的密集层、Conv1D层、RNN层和Conv2D层时,这是正确的值。但是,在具有设置为“channels_first”的data_format的Conv2D层的生态位使用情况下,特征轴是轴1;批量归一化中的轴自变量可设置为1。
批量归一化经由后向传递提供了关于前馈输入并且计算相对于参数的梯度的定义以及其自身输入。实际上,在卷积或全连接层之后,但在输出被馈送到激活函数中之前,插入批量归一化层。对于卷积层,在不同位置处的相同特征图的不同元素(即,激活)以相同方式进行归一化以便遵循卷积属性。因此,在所有位置上,而不是每次激活,对微型批量中的所有激活进行归一化。
内部协方差偏移是深度架构众所周知地一直训练缓慢的主要原因。这是源自以下事实:深度网络不仅必须学习每个层处的新表示,而且必须考虑其分布的改变。
通常,协方差偏移是深度学习领域中的已知问题,并且在现实问题中经常发生。常见的协方差偏移问题是训练和测试集的分布的差异,这可能导致未达最佳的生成化性能。此问题通常用标准化或白化预处理步骤处理。然而,尤其是白化操作在计算上是昂贵的,并且因此在在线设置中是不切实际的,尤其是在贯穿不同层发生协方差偏移的情形下。
内部协方差偏移是其中网络激活的分布由于训练期间网络参数的改变而跨层改变的现象。理想地,每个层应被变换成它们具有相同分布但函数关系保持不变的空间。为了避免协方差矩阵的昂贵计算以去相关以及白化每个层和步骤处的数据,我们将跨每个微型批量的每个层中每个输入特征的分布归一化为具有零平均值和标准偏差1。
正向传递
在正向传递期间,计算微型批量平均值和方差。利用这些微型批量统计,通过减去平均值并且除以标准偏差来对数据进行归一化。最后,用所学习的缩放和偏移参数来对数据进行缩放以及偏移。图12描绘批量归一化正向传递fBN
在图12,分别地,μβ是批量平均值并且
Figure BDA0003549282650000121
是批量方差。所学习的缩放和偏移参数分别由γ和β表示。为了清楚起见,本文描述了每次激活的批量归一化程序并且省略对应索引。
由于归一化是可微分变换,因此误差被传播到这些学习参数中,并且因此能够通过学习恒等变换来恢复网络的表示能力。相反地,通过学习与对应批量统计值相同的缩放和偏移参数,在批量归一化变换是执行的最佳操作的情况下,该批量归一化变换将对网络没有任何影响。在测试时间,批量平均值和方差由相应群体统计值代替,因为输入不取决于来自微型批量的其他样品。另一方法是在训练期间保持批量统计值的动态平均值并且使用动态平均值在测试时间计算网络输出。在测试时间,批量归一化变换可以如图13所示表达。在图13,μD以及
Figure BDA0003549282650000122
分别表示群体平均值和方差,而不是批量统计值。
后向传递
由于归一化是可微分运算,因此可以计算后向传递,如图14所描绘。
1D卷积
1D卷积从序列提取局部1D斑块或子序列,如图16所示。1D卷积从输入序列中的时间斑块获得每个输出时间步长。1D卷积层识别序列中的局部模式。因为对每个斑块执行相同的输入变换,所以可稍后在不同的位置处识别在输入序列中的特定位置处学习的模式,从而使得1D卷积层平移对于时间平移不变。例如,使用尺寸为5的卷积窗处理碱基序列的1D卷积层应能够学习长度为5或更小的碱基或碱基序列,并且它应能够识别输入序列中任何上下文中的碱基基序。因此,碱基水平的1D卷积能够了解碱基形态。
全局平均池化
图17示出全局平均池化(GAP)如何工作。通过获取最后层中的特征的空间平均值以进行评分,可以使用全局平均池化来替换全连接(FC)层以进行分类。全局平均池化减少训练负荷并避开过拟合问题。全局平均池化在模型之前应用结构,并且其等同于具有预定义权重的线性变换。全局平均池化减少了参数的数量并且消除了全连接层。全连接层通常是参数和连接最密集层,而全局平均池化提供了成本低得多的方法来实现类似的结果。全局平均池化的主要概念是从每个最后层特征图生成平均值作为直接馈送到softmax层中的用于评分的置信因子。
全局平均池化具有三种益处:(1)在全局平均池化层中不存在额外参数,因此在全局平均池化层处避免了过拟合;(2)由于全局平均池化的输出是整个特征图的平均值,因此全局平均池化将对空间平移更稳健;以及(3)由于在整个网络的所有参数中通常占据超过50%的全连接层中的大量参数,因此通过全局平均池化层更换它们可以显著降低模型的尺寸,并且这使得全局平均池化在模型压缩中非常有用。
全局平均池化有意义,因为最后层中的更强特征预期具有更高的平均值。在一些具体实施中,全局平均池化可以用作分类评分的代理。全局平均池化下的特征图可以被解释为置信图,并且促成特征图与类别之间的对应关系。如果最后层特征处于足够抽象以进行直接分类,那么全局平均池化可能特别有效;然而,如果应当将多级特征组合成组,如部件模型(这最佳地通过在全局平均池化之后添加简单的全连接层或其他分类器来执行),那么单独的全局平均池化是不够的。
基因组学中的深度学习
基因变异可以帮助解释许多疾病。每个人具有独特的基因密码,并且在一组个体内存在许多基因变体。通过自然选择,已从基因组去除了大多数有害基因变体。识别哪些基因变异可能是致病性或有害的是较重要的。这将有助于研究人员关注可能的致病性基因变体并且加快许多疾病的诊断和治愈的速度。
建模变体的属性和功能效果(例如,致病性)是基因组学领域的重要但具有挑战性的任务。尽管功能基因组测序技术的快速进展,但由于细胞类型特异性转录调节系统的复杂性,对变体的功能后果的解释仍保持巨大挑战。
关于致病性分类器,深度神经网络是一种人工神经网络,其使用多个非线性且复杂的变换层来对高级特征进行连续建模。深度神经网络经由反向传播提供反馈,该反向传播携带观察输出和预测输出之间的差异以调整参数。深度神经网络随着大型训练数据集的可用性、并行与分布式计算的能力以及复杂的训练算法而演进。深度神经网络已促进了许多领域诸如计算机视觉、语音识别和自然语言处理的重大进步。
卷积神经网络(CNN)和递归神经网络(RNN)是深度神经网络的组成部分。卷积神经网络在具有包括卷积层、非线性层和池化层的架构的图像识别方面尤其成功。递归神经网络被设计成利用输入数据的顺序信息,并且具有在构建模块如感知子、长短期记忆单元和门控递归单元之间循环连接。此外,已提出了针对有限情境的许多其他新兴深度神经网络,诸如深度时空神经网络、多维递归神经网络和卷积自编码器。
训练深度神经网络的目标是优化每层中的权重参数,这将较简单的特征逐渐组合成复杂的特征,使得可以从数据中学习到最合适的分层表示。优化过程的单个循环按以下步骤来进行。首先,在给定训练数据集的情况下,前向传递顺序地计算每层中的输出并将函数信号通过网络向前传播。在最终输出层中,目标损失函数测量推断的输出与给定标记之间的误差。为了使训练误差最小化,向后传递使用链规则来反向传播误差信号并计算相对于整个神经网络中的所有权重的梯度。最后,基于随机梯度下降使用优化算法来更新权重参数。虽然批量梯度下降针对每个完整的数据集执行参数更新,但随机梯度下降通过针对每个小数据示例集执行更新来提供随机逼近。若干优化算法源自随机梯度下降。例如,Adagrad和Adam训练算法执行随机梯度下降,同时分别基于每个参数的梯度的更新频率和动量自适应地修改学习速率。
深度神经网络训练中的另一个核心元素是正则化,该正则化是指旨在避免过度拟合并因此实现良好泛化性能的策略。例如,权重衰减将惩罚因子添加到目标损失函数,使得权重参数收敛到较小绝对值。丢弃在训练期间从神经网络随机移除隐藏单元,并且可被认为是可能子网络的集成。为了增强丢弃的能力,已提出了新的激活函数、最大输出和递归神经网络的丢弃变体(被称为rnnDrop)。此外,批量归一化通过归一化微型批量内每次激活的标量特征并学习每个平均值和方差作为参数来提供新的正则化方法。
鉴于序列数据是多维和高维的,深度神经网络由于其广泛的适用性和增强的预测能力而在生物信息学研究方面具有巨大前景。卷积神经网络已被用于解决基因组学中基于序列的问题,诸如基序发现、致病性变异鉴定和基因表达推断。卷积神经网络使用权重共享策略,该策略尤其可用于研究DNA,因为其可捕获序列基序,该序列基序是DNA中被假定具有显著生物学功能的短且反复出现的局部模式。卷积神经网络的标志是卷积滤波器的使用。与基于精密设计的特征和手工制作的特征的传统分类方法不同,卷积滤波器执行特征的自适应学习,类似于将原始输入数据映射到知识的信息表示的过程。在这个意义上,卷积滤波器用作一系列基序扫描器,因为一组此类滤波器能够在训练过程期间识别输入中的相关模式并更新其自身。递归神经网络可捕获具有不同长度的序列数据(诸如,蛋白质或DNA序列)中的长程依赖。
因此,用于预测变体的致病性的强大计算模型对于基础科学和转化研究两者都可以具有巨大的益处。
特定具体实施
我们描述了用于基于人工智能的表观遗传学的系统、方法和制品。具体实施的一个或多个特征可与基本具体实施组合。不互相排斥的具体实施被教导为可组合的。具体实施的一个或多个特征可与其他具体实施组合。本公开周期性地提醒用户这些选项。从一些具体实施中省略重复这些选项的表述不应被视为限制前述部分中教导的组合,这些表述将据此以引用方式并入以下具体实施中的每个具体实施中。
在一个具体实施中,序列对序列表观遗传模型和/或致病性确定器是卷积神经网络。在另一具体实施中,序列对序列表观遗传模型和/或致病性确定器是递归神经网络。在另一具体实施中,序列对序列表观遗传模型和/或致病性确定器是具有残差块和残差连接的残差神经网络。在其他具体实施中,序列对序列表观遗传模型和/或致病性确定器是卷积神经网络和递归神经网络的组合。
本领域的技术人员将理解,序列对序列表观遗传模型和/或致病性确定器可以使用各种填补和步幅配置。其可使用不同的输出函数(例如,分类或回归),并且可包括或可不包括一个或多个全连接层。其可使用1D卷积、2D卷积、3D卷积、4D卷积、5D卷积、扩张或空洞卷积、转置卷积、深度可分离卷积、逐点卷积、1×1卷积、分组卷积、扁平卷积、空间和跨通道卷积、混洗分组卷积、空间可分离卷积和去卷积。其可使用一种或多种损失函数,诸如逻辑回归/对数损失函数、多类交叉熵/softmax损失函数、二元交叉熵损失函数、均方误差损失函数、L1损失函数、L2损失函数、平滑L1损失函数和Huber损失函数。其可以使用任何并行性、效率性和压缩方案,诸如TFRecords、压缩编码(例如,PNG)、锐化、映射图转换的并行检出、批处理、预取、模型并行性、数据并行性和同步/异步SGD。其可包括上采样层、下采样层、递归连接、栅极和栅极存储器单元(如LSTM或GRU)、残差块、残差连接、高速连接、跳跃连接、窥视孔连接、激活函数(例如,非线性变换函数如修正线性单元(ReLU)、泄露ReLU、指数衬里单元(ELU)、sigmoid和双曲线正切(tanh))、批量归一化层、正则化层、丢弃层、池化层(例如,最大或平均池化)、全局平均池化层和注意力机制。
启动子序列
图25B示出基因的示例启动子序列2501。致病性分类器的输入是启动子序列,其是与转录启动位点(TSS)相邻的基因上游(朝向5'区)的调控区。它们不为蛋白质编码,而是提供用于调控基因转录的起始和控制点。
在一个具体实施中,启动子序列的长度是3001个碱基。在其他具体实施中,长度可以例如从200到20,000个碱基减少或增加,或其可以适于特定的启动子区(例如,以TSS为中心)。启动子序列侧接在启动子区外部延伸的右端上下文和左端上下文,包括在启动子区之后的基因序列(例如,5'UTR区2502、启动密码子和终止密码子2503、3'UTR区2504、转录终止子2505)。侧接上下文可以是100至5000个碱基。通常,上游和下游侧接上下文相等,但是这不是必需的。
启动子序列含有来自一个或多个参考基因组数据库的参考碱基。参考碱基被单热编码,以节省启动子序列中每个单独碱基的位置特异性信息。在单热编码中,每个参考碱基用四位的二进制矢量编码,其中一个位是热的(即,1)而其他位关闭(即,0)。例如,如图25所示,T=(1,0,0,0),G=(0,1,0,0),C=(0,0,1,0),并且A=(0,0,0,1)。在一些具体实施中,未确定碱基被编码为N=(0,0,0,0)。图25B示出具有使用单热编码表示的参考碱基的示例启动子序列(呈黄色)。在致病性分类器作为卷积神经网络接收经单热编码参考碱基时,它们能够保持启动子序列内的空间位置关系。
序列对序列表观遗传模型
图26示出访问序列数据库2608并且生成输入碱基序列2602的输入准备模块2610。输入碱基序列2602包括(i)具有靶向碱基的靶向碱基序列。靶向碱基序列侧接(ii)具有下游上下文碱基的右端碱基序列,和(iii)具有上游上下文碱基的左端碱基序列。在一些具体实施中,靶向碱基序列是启动子序列2501。
图27示出序列对序列表观遗传模型2700的示例。
序列对序列模型2700处理输入碱基序列2602并且生成输入碱基序列2602的替代表示2702。输出模块处理输入碱基序列2602的替代表示2702并且产生输出2704,该输出具有用于靶向碱基序列中的靶向碱基中的每个靶向碱基的至少一个每碱基输出,其中每碱基输出针对对应靶向碱基指定多个表观遗传轨迹的信号水平。序列对序列模型2700的细节描述于图19、图20、图21、图22、图23和图24。
表观遗传轨迹及其信号水平
多个表观遗传轨迹包括脱氧核糖核酸(DNA)甲基化改变(例如,CpG)、组蛋白修饰、非编码核糖核酸(ncRNA)表达和染色质结构改变(例如,核小体定位)。多个表观遗传轨迹包括脱氧核糖核酸酶(DNase)轨迹。多个表观遗传轨迹包括组蛋白3赖氨酸27乙酰化(H3K27ac)轨迹。这些跨不同组织、细胞类型和细胞系的表观遗传轨迹的组合产生了超过一千个不同的表观遗传轨迹,并且我们的序列对序列模型2700可以产生输出,该输出针对输入碱基序列中的每个碱基指定一千个表观遗传轨迹中的每个表观遗传轨迹的信号水平。
在一个具体实施中,我们的序列对序列模型2700产生输出,该输出针对输入碱基序列中的每个碱基指定151个表观遗传轨迹中的每个表观遗传轨迹的信号水平。这些151个表观遗传轨迹被产生为以下表观遗传信号的细胞类型和细胞系组合:GM12878 Roadmap轨迹(DNase、H2A.Z、H3K27ac、H3K27me3、H3K36me3、H3K4me1、H3K4me2、H3K4me3、H3K79me2、H3K9ac、H3K9me3、H4K20me1)。
出于训练目的,表观遗传轨迹的基准真值信号水平是从如Roadmap表观遗传计划(https://egg2.wustl.edu/roadmap/web_portal/index.html)和/或ENCODE(https://www.encodeproject.org/)的源获得的。在一个具体实施中,表观遗传轨迹是基因组宽信号覆盖轨迹,该基因组宽信号覆盖轨迹此处在https://egg2.wustl.edu/roadmap/web_portal/processed_data.html#ChipSeq_DNaseSeq(其以引用方式并入本文)发现。在一些具体实施中,表观遗传轨迹是-log10(p值)信号轨迹,该信号轨迹此处在https://egg2.wustl.edu/roadmap/data/byFileType/signal/consolidated/macs2signal/pval/(其以引用方式并入本文)发现。在其他具体实施中,表观遗传轨迹是倍数富集信号轨迹,该倍数富集信号轨道此处在https://egg2.wustl.edu/roadmap/data/byFileType/signal/consolidated/macs2signal/foldChange/(其以引用方式并入本文)发现。
在一个具体实施中,我们使用MACSv2.0.10峰值调用器的信号处理引擎来生成基因组宽信号覆盖轨迹(https://github.com/taoliu/MACS/,以引用方式并入本文)。将全细胞提取物用作组蛋白ChIP-seq覆盖率的信号归一化的对照。使用模拟背景数据集来对每个DNase-seq数据集进行归一化,该模拟背景数据集是通过跨可映射基因组均匀地分布等同数量的读数而产生的。
在一个具体实施中,我们生成两种类型的轨迹,该两种类型的轨迹使用基于泊松背景模型的不同统计值来表示每碱基信号分数。简而言之,读数在5'到3'方向上延伸所估计的片段长度。在每个碱基处,将观察到的与碱基重叠的ChIP-seq/DNaseI-seq扩展读数的计数与从对照数据集估计的对应动态预期背景计数(local)进行比较。local被定义为max(BG,1K,5K,10K),其中BG是每碱基的预期计数,假设对照读数跨基因组中的所有可映射碱基均匀分布并且1K、5K、10K是从以碱基为中心的1kb、5kb和10kb窗估计的预期计数。针对ChIP-seq/DNase-seq数据集相对于对照数据集的测序深度的比率来调整local。每碱基计算的两种类型的信号分数统计值如下。
(1)ChIP-seq或DNase计数相对于预期背景计数local的倍数富集比率。这些分数提供了基因组中任何碱基处富集的效应尺寸的直接度量。
(2)ChIP-seq或DNase计数的泊松p值相对于预期背景计数local的负log10。这些信号置信分数提供观察到的富集的统计显著性的度量。
关于如何使用ChIP-seq或DNase和peak calling来测量诸如p值、倍数富集值等信号水平的附加信息可以在附录B中找到,该附录B完全并入在优先权临时申请第62/903,700号中。
每轨处理器
图28示出序列对序列模型2700的每轨处理器。在一个具体实施中,序列对序列模型2700具有对应于多个表观遗传轨迹中的相应表观遗传轨迹的多个每轨处理器2802、2812和2822。每个每轨处理器还包括至少一个处理模块2804a、2814a和2824a(例如,每个每轨处理器中的多个残差块)和输出模块2808、2818和2828(例如,线性模块、修正线性单元(ReLU)模块)。序列对序列模型处理输入碱基序列并且生成输入碱基序列的替代表示2702。每个每轨处理器的处理模块处理替代表示并且生成对特定每轨处理器具有特异性的另外的替代表示2806、2816和2826。每个每轨处理器的输出模块处理由其对应处理模块生成的另外替代表示,并且产生对应表观遗传轨迹和输入碱基序列中的每个碱基的信号水平,作为输出2810、2820和2830。
逐位置比较
图29描绘参考序列2902和替代性/变体序列2912。图30示出使用序列对序列模型2700生成逐位置比较结果的一个具体实施。
在一个具体实施中,输入准备模块2610访问序列数据库并且生成(i)参考序列2902,该参考序列在目标位置2932处含有碱基,其中该碱基侧接下游上下文碱基2942和上游上下文碱基2946;和(ii)替代序列2912,该替代性序列在目标位置处含有碱基的变体2922,其中该变体侧接下游上下文碱基和上游上下文碱基。序列对序列模型2700处理参考序列并且生成参考输出3014,其中参考输出针对参考序列中的每个碱基2902指定多个表观遗传轨迹的信号水平,并且处理替代序列2912并且生成替代输出3024,其中替代输出3024针对替代序列2912中的每个碱基指定多个表观遗传轨迹的信号水平。
比较器3002将逐位置确定性比较函数应用于针对参考序列2902和替代序列2912中的碱基生成的参考输出3014和替代输出3024,并且基于在参考输出3014的信号水平与替代输出3024的信号水平之间由替代序列2912中的变体引起的差异而生成逐位置比较结果3004。
逐位置确定性比较函数计算参考输出3014与替代输出3024之间的逐元素差异。逐位置确定性比较函数计算参考输出3014与替代输出3024的逐元素总和。逐位置确定性比较函数计算参考输出3014与替代输出3024之间的逐元素比率。
致病性确定器
致病性确定器3100处理逐位置比较结果3004并且产生输出,该输出将替代序列2912中的变体评分为致病性或良性。致病性确定器3100处理逐位置比较结果3004并且生成逐位置比较结果3004的替代表示。逐位置比较结果3004基于在针对参考序列中的碱基所确定的多个表观遗传轨迹的信号水平与针对替代序列中的碱基所确定的多个表观遗传轨迹的信号水平之间由替代序列2912中的变体引起的差异。输出模块(例如,sigmoid)处理逐位置比较结果的替代表示并且产生输出,该输出将替代序列中的变体评分为致病性或良性。在具体实施中,如果输出高于阈值(高于0.5),那么变体被分类为致病性。
基于基因表达的致病性标记
致病性确定器3100使用训练数据进行训练,该训练数据包括用致病性标记3312(例如,“1”)注释的一组致病性非编码变体3202和用良性标记3314(例如,“0”)注释的一组良性非编码变体3204;
图34示出了如何生成一组致病性非编码变体的一个具体实施。该组致病性非编码变体包括单件模式(singleton),该单件模式仅在个体群组当中的单个个体中出现,并且对于与该致病性组中的非编码变体相邻的基因,该单个个体跨多个组织/器官组织3402表现出低表达。该组致病性非编码变体在图34中被认为是“表达异常值”。
该组良性非编码变体是单件模式,该单件模式仅在个体群组当中的单个个体中出现,并且对于与该良性组中的非编码变体相邻的基因,该单个个体跨多个组织未表现出低表达。
低表达是通过以下操作来确定的:分析由个体群组针对基因中的每个基因跨多个组织中的每个组织表现出的表达的分布,并且基于该分布而计算单个个体的中值z分数。
在每个组织中,我们计算每个个体的z分数。也就是说,如果x_i是个体i的值,m是跨所有个体的x_i值的平均值,并且s是标准偏差,那么个体i的z得分将是(x_i–m)/s。然后,我们测试z_i是否低于某个阈值(例如,如权利要求中所提及的-1.5)。我们还需要上述情形针对同一个体在多个组织(例如,至少两个组织,其中z_i<-1.5)中发生。
关于基于基因表达的致病性标记的附加细节可以在附录B中找到,该附录B完全并入在优先权临时申请第62/903,700号中。
所公开的此系统具体实施和其他系统任选地包括以下特征中的一个或多个特征。系统还可以包括结合所公开的方法所述的特征。为了简洁起见,没有单独枚举系统特征的替代组合。适用于系统、方法和制品的特征对于每组法定分类的基本特征并不重复。读者将理解在本部分中识别的特征可如何容易地与在其他法定分类中的基本特征组合。
其他具体实施可包括存储指令的非暂态计算机可读存储介质,该指令可由处理器执行以执行上述系统中的动作。另一具体实施可以包括执行上述系统的动作的方法。
关于所公开技术的附加细节可以在附录A中找到,该附录A完全并入在优先权临时申请第62/903,700号中。
模型架构
我们针对序列对序列表观遗传模型2700和/或致病性确定器3100训练了若干基于超深卷积神经网络的模型。我们设计了四个架构,即Model-80nt、Model-400nt、Model-2k和Model-10k,该四个架构分别在所关注位置的每侧上使用40、200、1,000和5,000个核苷酸作为输入,该模型的输入是单热编码核苷酸的序列,其中A、C、G和T(或等效地U)被编码为[1,0,0,0]、[0,1,0,0]、[0,0,1,0]和[0,0,0,1]。
模型架构可用于序列对序列表观遗传模型2700和/或致病性确定器3100。
模型架构具有修改的波网类型架构,该修改的波网类型架构在输入启动子序列中的特定位置上并且在该特定位置处发现的参考碱基的三个碱基变化上迭代。修改的波网类型架构可以计算输入中的3,000个位置的多达9,000个输出,因为每个位置具有多达三个单个碱基变化。修改的波网类型架构相对较好地标度,因为中间计算被重复使用。致病性分类器在修改的类波网架构的单个调用中确定输入启动子序列中的多个特定位置处的三个碱基变化中的至少一个碱基变化的致病性可能性分数,并且存储在该单个调用中所确定的致病性可能性分数。确定三个碱基变异中的至少一个碱基变异还包括确定所有三个变异。多个特定位置为输入启动子序列中的至少500个或1,000个,或1500个,或2000个,或90%。
模型架构的基本单元是残差块(He等人,2016b),其由批量归一化层(Ioffe和Szegedy,2015)、修正线性单元(ReLU)和以特定方式组织的卷积单元组成(图21、图22、图23和图24)。在设计深度神经网络时通常使用残差块。在开发残差块之前,由于激增/消失梯度(Glorot和Bengio,2010)的问题,由一个接一个堆叠的多个卷积单元组成的深度神经网络是非常难以训练的,并且增加此类神经网络的深度通常导致更高的训练误差(He等人,2016a)。通过一组全面的计算实验,示出了由一个接一个堆叠的许多残差块组成的架构,以克服这些问题(He等人,2016a)。
在图21、图22、图23和图24提供完整的模型架构。架构由以下组成:将输入层连接到倒数第二层的K个堆叠残差块,和将倒数第二层连接到输出层的具有softmax激活的卷积单元。将残差块堆叠使得ith残差块的输出连接到i+1th残差块的输入。此外,将每第四残差块的输出添加到倒数第二层的输入。此类“跳跃连接”通常用于深度神经网络中,以在训练期间增加收敛速度(Oord等人,2016)。
每个残差块具有三个超参数N、W和D,其中N表示卷积内核的数量,W表示窗尺寸并且D表示每个卷积内核的扩张速率(Yu和Koltun,2016)。由于具有窗尺寸W和扩张速率D的卷积内核跨越(W-1)D个邻近位置提取特征,因此具有超参数N、W和D的残差块跨越2(W-1)D个邻近位置提取特征。因此,模型架构的总邻近跨度由以下给出:
Figure BDA0003549282650000221
其中Ni、Wi和Di是ith残差块的超参数。对于Model-80nt、Model-400nt、Model-2k和Model-10k架构,选择残差块的数量和每个残差块的超参数,使得S分别等于80、400、2,000和10,000。
除了卷积单元之外,模型架构还仅具有归一化和非线性激活单元。因此,模型可以用于具有可变序列长度的序列对序列模式(Oord等人,2016)。例如,Model-10k模型的输入(S=10,000)是S/2+l+S/2长度的单热编码核苷酸序列,并且输出是对应于输入中的l中心位置(即,在排除第一和最后S/2核苷酸之后剩余的位置)的三个分数的l×3矩阵。可以利用此特征在训练以及测试期间获得巨大量的计算节省。这是由于以下事实:对于彼此接近的位置的大部分计算是共同的,并且共享计算需要仅在它们用于序列对序列表观遗传模型2700和/或致病性确定器3100时通过模型进行一次。
我们的模型采用残差块架构,该架构由于其在图像分类中成功而变得广泛采用。残差块包括重复卷积单元,散布有跳跃连接,该跳跃连接允许来自较早层的信息跳过残差块。在每个残差块中,首先对输入层进行批量归一化,之后进行使用修正线性单元(ReLU)的激活层。然后,使激活通过1D卷积层。对来自1D卷积层的此中间输出再次进行批量归一化以及ReLU激活,之后进行另一1D卷积层。在第二1D卷积结束时,我们将第二1D卷积的输出与原始输入加总到残差块中,这通过允许原始输入信息绕过残差块来充当跳跃连接。在此类架构(由其作者称为深度残差学习网络)中,输入被保留在其原始状态,并且残差连接保持不含来自模型的非线性激活,从而允许有效训练更深的网络。
在残差块之后,softmax层计算每个氨基酸的三个状态的概率,其中最大softmax概率确定氨基酸的状态。使用ADAM优化器利用整个蛋白质序列的累积类别互熵损失函数来训练模型。
空洞/扩张卷积允许具有很少可训练参数的大感受场。空洞/扩张卷积是其中通过以特定步长(也被称为空洞卷积速率或扩张因子)跳过输入值来在比内核长度大的区域上应用该内核的卷积。空洞/扩张卷积在卷积滤波器/内核的元素之间添加间距,使得在执行卷积运算时,考虑较大间隔的邻近输入条目(例如,核苷酸、氨基酸)。这使得能够在输入中结合长程情境依赖性。空洞卷积节省了部分卷积计算以在处理相邻核苷酸时重新使用。
所示的示例使用1D卷积。在其他具体实施中,模型可以使用不同类型的卷积,诸如2D卷积、3D卷积、扩张或空洞卷积、转置卷积、可分离卷积和深度可分离卷积。一些层还使用ReLU激活函数,该ReLU激活函数与饱和非线性(诸如sigmoid或双曲线正切)相比大大加速了随机梯度下降的收敛。所公开的技术可以使用的激活函数的其他示例包括参数ReLU、泄漏ReLU和指数线性单元(ELU)。
一些层也使用批量归一化(Ioffe和Szegedy 2015)。关于批量归一化,卷积神经网络(CNN)中的每个层的分布在训练期间改变,并且其从一层到另一层不同。此降低了优化算法的收敛速度。批量归一化是克服此问题的技术。用x表示批量归一化层的输入以及使用z表示其输出,批量归一化将以下变换应用于x:
Figure BDA0003549282650000241
批量归一化使用μ和σ将均值方差归一化应用于输入x,并且使用γ和β对其进行线性缩放以及偏移。使用被称为指数移动平均值的方法在训练集上计算当前层的归一化参数μ和σ。换句话讲,它们并非可训练参数。相比之下,γ和β是可训练参数。在推断期间在正向传递中使用在训练期间所计算的μ和σ的值。
如图19所示,模型可以包括以从最低到最高布置在序列中的残差块的组。每组残差块由残差块中的卷积滤波器的数量、残差块的卷积窗尺寸和残差块的空洞卷积速率参数化。
如图20所示,每个残差块可以包括至少一个批量归一化层、至少一个修正线性单元(缩写为ReLU)层、至少一个空洞卷积层和至少一个残差连接。在此类具体实施中,每个残差块包括两个批量归一化层、两个ReLU非线性层、两个空洞卷积层和一个残差连接。
如图21、图22、图23和图24所示,在模型中,空洞卷积速率从较低残差块群组非指数地进行到较高残差块组。
如图21、图22、图23和图24所示,在模型中,卷积窗尺寸在残差块组之间不同。
模型可以被配置为评估输入,该输入包括还侧接40个上游上下文核苷酸和40个下游上下文核苷酸的靶向核苷酸序列。在此类具体实施中,模型包括一组四个残差块和至少一个跳跃连接。每个残差块具有32个卷积滤波器、11个卷积窗尺寸和1个空洞卷积速率。模型的此具体实施在本文被称为“SpliceNet80”,并且在图21示出。
模型可以被配置为评估输入,该输入包括还侧接200个上游上下文核苷酸和200个下游上下文核苷酸的靶向核苷酸序列。在此类具体实施中,模型包括至少两组四个残差块和至少两个跳跃连接。第一组中的每个残差块具有32个卷积滤波器、11个卷积窗尺寸和1个空洞卷积速率。第二组中的每个残差块具有32个卷积滤波器、11个卷积窗尺寸和4个空洞卷积速率。模型的此具体实施在本文被称为“SpliceNet400”,并且在图22示出。
模型可以被配置为评估输入,该输入包括还侧接1000个上游上下文核苷酸和1000个下游上下文核苷酸的靶向核苷酸序列。在此类具体实施中,模型包括至少三组四个残差块和至少三个跳跃连接。第一组中的每个残差块具有32个卷积滤波器、11个卷积窗尺寸和1个空洞卷积速率。第二组中的每个残差块具有32个卷积滤波器、11个卷积窗尺寸和4个空洞卷积速率。第三组中的每个残差块具有32个卷积滤波器、21个卷积窗尺寸和19个空洞卷积速率。模型的此具体实施在本文被称为“SpliceNet2000”,并且在图23示出。
模型可以被配置为评估输入,该输入包括还侧接5000个上游上下文核苷酸和5000个下游上下文核苷酸的靶向核苷酸序列。在此类具体实施中,模型包括至少四组四个残差块和至少四个跳跃连接。第一组中的每个残差块具有32个卷积滤波器、11个卷积窗尺寸和1个空洞卷积速率。第二组中的每个残差块具有32个卷积滤波器、11个卷积窗尺寸和4个空洞卷积速率。第三组中的每个残差块具有32个卷积滤波器、21个卷积窗尺寸和19个空洞卷积速率。第四组中的每个残差块具有32个卷积滤波器、41个卷积窗尺寸和25个空洞卷积速率。该模型的此具体实施在本文被称为“SpliceNet10000”,并且在图24示出。
受过训练的模型可以部署在一个或多个生产服务器上,该生产服务器从请求客户端接收输入序列,如图18所示。在此类具体实施中,生产服务器通过模型的输入和输出级处理输入序列以产生传输到客户端的输出,如图18所示。
图35描绘针对所公开的技术如何生成训练数据集。首先,根据一个具体实施识别19,812个基因中的启动子序列。在一些具体实施中,19,812个启动子序列中的每个启动子序列具有3001个碱基位置(不包括启动子区外部的侧接上下文),其产生总计59,455,812个碱基位置3501(灰色)。
在一个具体实施中,从总计59,455,812个碱基位置3501,8,048,977个观察到的pSNV位置3502适于作为良性位置。8,048,977个良性位置3502根据一个具体实施产生8,701,827个观察到的pSNV,该8,701,827个观察到的pSNV形成最终良性组。在一些具体实施中,在人和非人灵长类动物物种(诸如黑猩猩、倭黑猩猩、大猩猩、红毛猩猩、恒河猴和狨猴)中观察到良性pSNV。
在一些具体实施中,纳入在良性组中的标准是观察到的pSNV的最小等位基因频率应大于0.1%。根据一个具体实施,此类标准产生600,000个观察到的pSNV。在其他具体实施中,纳入标准不考虑观察到的pSNV的最小等位基因频率。即,只要在人和非人灵长类动物物种中观察到pSNV,其即被纳入在良性组中并且因此被标记为良性。根据一个具体实施,第二纳入策略产生大得多的含8,701,827个观察到的pSNV的良性组。
另外地,从总计59,455,812个碱基位置3501,移除属于均聚物区、低复杂度区和重叠的编码位置(例如,启动或终止密码子)的15,406,835个未观察到的pSNV位置3503,它们由于序列特异性误差或与非编码变体的分析不相关而被认为是不可靠的。
因此,在一些具体实施中,结果是36,000,000个未观察到的pSNV位置3504,从该未观察到的pSNV位置,通过将36,000,000个基因座中的每个基因座突变到三个替代单碱基等位基因而得到总计108,000,000个未观察到的pSNV 3505。根据一个具体实施,这些108,000,000个未观察到的pSNV形成经取代生成的未观察到的pSNV的最终池3505。
计算机系统
图33是可以用于实现所公开的技术的计算机系统的简化框图。计算机系统通常包括经由总线子系统与多个外围设备通信的至少一个处理器。这些外围设备可包括存储子系统,该存储子系统包括例如存储器设备和文件存储子系统、用户界面输入设备、用户界面输出设备和网络界面子系统。输入设备和输出设备允许用户与计算机系统进行交互。网络界面子系统提供到外部网络的界面,包括到其他计算机系统中的对应界面设备的界面。
在一个具体实施中,诸如ACNN和CNN等神经网络通信地链接到存储子系统和用户界面输入设备。
用户界面输入设备可包括键盘;指向设备,诸如鼠标、轨迹球、触摸板或图形输入板;扫描仪;结合到显示器中的触摸屏;音频输入设备,诸如语音识别系统和麦克风;以及其他类型的输入设备。一般来讲,使用术语“输入设备”旨在包括将信息输入到计算机系统中的所有可能类型的设备和方式。
用户界面输出设备可包括显示子系统、打印机、传真机或非视觉显示器诸如音频输出设备。显示子系统可包括阴极射线管(CRT)、平板设备诸如液晶显示器(LCD)、投影设备或用于产生可见图像的一些其他机构。显示子系统还可提供非视觉显示器,诸如音频输出设备。一般来讲,使用术语“输出设备”旨在包括将信息从计算机系统输出到用户或输出到另一机器或计算机系统的所有可能类型的设备和方式。
存储子系统存储提供本文所述的一些或全部模块的功能和方法的编程和数据构造。这些软件模块通常由处理器单独或与其他处理器组合执行。
在存储子系统中使用的存储器可包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)和其中存储固定指令的只读存储器(ROM)。文件存储子系统可为程序文件和数据文件提供持久性存储,并且可包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质磁带盘。实现某些具体实施的功能的模块可由文件存储子系统存储在存储子系统中,或存储在处理器可访问的其他机器中。
总线子系统提供用于使计算机系统的各种部件和子系统按照预期彼此通信的机构。尽管总线子系统被示意性地示出为单个总线,但总线子系统的替代具体实施可使用多条总线。
计算机系统本身可具有不同类型,包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视机、主机、服务器群、一组广泛分布的松散联网的计算机或任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质,对图33中描绘的计算机系统的描述仅旨在作为用于示出所公开的技术的具体示例。计算机系统的许多其他配置是可能的,其具有比图33中描绘的计算机系统更多或更少的部件。
深度学习处理器可为GPU或FPGA并且可以由诸如Google Cloud Platform、Xilinx和Cirrascale的深度学习云平台托管。深度学习处理器的示例包括Google公司的张量处理单元(TPU)、架装解决方案(如GX4架装系列、GX8架装系列)、NVIDIA DGX-1、Microsoft公司的Stratix V FPGA、Graphcore公司的智能处理器单元(IPU)、Qualcomm公司的具有骁龙(Snapdragon)处理器的第零平台(Zeroth Platform)、英伟达(NVIDIA)公司的Volta、英伟达公司的DRIVE PX、英伟达公司的JETSON TX1/TX2MODULE、Intel公司的Nirvana、MovidiusVPU、Fujitsu DPI、ARM公司的DynamicIQ、IBM TrueNorth等。
呈现前述描述以使得能够制造和使用所公开的技术。对所公开的具体实施的各种修改将是显而易见的,并且在不脱离所公开的技术的实质和范围的情况下,本文所定义的一般原理可应用于其他具体实施和应用。因此,所公开的技术并非旨在限于所示的具体实施,而是要符合与本文所公开的原理和特征一致的最广范围。所公开的技术的范围由所附权利要求限定。
条款
本文包括以下条款。
非编码变体的基于人工智能的致病性分类
1.一种基于人工智能的系统,所述基于人工智能的系统包括:
输入准备模块,所述输入准备模块访问序列数据库并且生成输入碱基序列,其中所述输入碱基序列包括
(i)靶向碱基序列,所述靶向碱基序列具有靶向碱基,其中所述靶向碱基序列侧接
(ii)右端碱基序列,所述右端碱基序列具有下游上下文碱基,
(iii)左端碱基序列,所述左端碱基序列具有上游上下文碱基;
序列对序列模型,所述序列对序列模型处理所述输入碱基序列并且生成所述输入碱基序列的替代表示;和
输出模块,所述输出模块处理所述输入碱基序列的所述替代表示并且针对所述靶向碱基序列中的所述靶向碱基中的每个靶向碱基产生至少一个每碱基输出;
其中所述每碱基输出针对对应靶向碱基指定多个表观遗传轨迹的信号水平。
2.根据条款1所述的基于人工智能的系统,其中所述每碱基输出使用连续值来指定所述多个表观遗传轨迹的所述信号水平。
3.根据条款1所述的基于人工智能的系统,其中所述输出模块还包括多个每轨处理器,其中每个每轨处理器对应于所述多个表观遗传轨迹中的相应表观遗传轨迹,并且产生对应表观遗传轨迹的信号水平。
4.根据条款3所述的基于人工智能的系统,其中所述多个每轨处理器中的每个每轨处理器处理所述输入碱基序列的所述替代表示,生成对特定每轨处理器具有特异性的另外替代表示,并且基于所述另外替代表示产生所述对应表观遗传轨迹的所述信号水平。
5.根据条款4所述的基于人工智能的系统,其中每个每轨处理器还包括至少一个残差块和线性模块和/或修正线性单元(ReLU)模块,并且
其中所述残差块生成所述另外替代表示和所述线性模块和/或所述ReLU模块处理所述另外替代表示并且产生所述对应表观遗传轨迹的所述信号水平。
6.根据条款3所述的基于人工智能的系统,其中所述多个每轨处理器中的每个每轨处理器处理所述输入碱基序列的所述替代表示,并且基于所述替代表示产生所述对应表观遗传轨迹的所述信号水平。
7.根据条款6所述的基于人工智能的系统,其中每个每轨处理器还包括线性模块和/或ReLU模块。
8.根据条款1所述的基于人工智能的系统,其中所述多个表观遗传轨迹包括脱氧核糖核酸(DNA)甲基化改变(例如,CpG)、组蛋白修饰、非编码核糖核酸(ncRNA)表达和染色质结构改变(例如,核小体定位)。
9.根据条款1所述的基于人工智能的系统,其中所述多个表观遗传轨迹包括脱氧核糖核酸酶(DNase)轨迹。
10.根据条款1所述的基于人工智能的系统,其中所述多个表观遗传轨迹包括组蛋白3赖氨酸27乙酰化(H3K27ac)轨迹。
11.根据条款1所述的基于人工智能的系统,其中所述序列对序列模型是卷积神经网络。
12.根据条款11所述的基于人工智能的系统,其中所述卷积神经网络还包括残差块组。
13.根据条款12所述的基于人工智能的系统,其中每组残差块由所述残差块中的卷积滤波器的数量、所述残差块的卷积窗尺寸和所述残差块的空洞卷积速率参数化。
14.根据条款12所述的基于人工智能的系统,其中所述卷积神经网络由残差块的数量、跳跃连接的数量和残差连接的数量参数化。
15.根据条款12所述的基于人工智能的系统,其中每组残差块通过处理前述输入产生中间输出,其中所述中间输出的维度是(I-[{(W-1)*D}*A])×N,其中
I是所述前述输入的维度,
W是所述残差块的卷积窗尺寸,
D是所述残差块的空洞卷积速率,
A是所述组中的空洞卷积模块的数量,并且
N是所述残差块中的卷积滤波器的数量。
16.根据条款15所述的基于人工智能的系统,其中所述空洞卷积速率从较低残差块组非指数地进展到较高残差块组。
17.根据条款16所述的基于人工智能的系统,其中空洞卷积节省了部分卷积计算以在处理相邻碱基时重新使用。
18.根据条款13所述的基于人工智能的系统,其中所述卷积窗尺寸在残差块组之间不同。
19.根据条款1所述的基于人工智能的系统,其中所述输入碱基序列的维度为(Cu+L+Cd)×4,其中
Cu是所述左端碱基序列中的上游上下文碱基的数量;
Cd是所述右端碱基序列中的下游上下文碱基的数量,并且
L是所述靶向碱基序列中的靶向碱基的数量。
20.根据条款11所述的基于人工智能的系统,其中所述卷积神经网络还包括维度变更卷积模块,所述维度变更卷积模块重塑前述输入的空间维度和特征维度。
21.根据条款12所述的基于人工智能的系统,其中每个残差块还包括至少一个批量归一化模块,至少ReLU模块、至少一个空洞卷积模块和至少一个残差连接。
22.根据条款21所述的基于人工智能的系统,其中每个残差块还包括两个批量归一化模块、两个ReLU非线性模块、两个空洞卷积模块和一个残差连接。
23.根据条款1所述的基于人工智能的系统,其中用训练数据训练所述序列对序列模型,所述训练数据包括编码碱基和非编码碱基两者。
24.一种基于人工智能的系统,所述基于人工智能的系统包括:
序列对序列模型;
多个每轨处理器,所述多个每轨处理器对应于多个表观遗传轨迹中的相应表观遗传轨迹,
其中每个每轨处理器还包括至少一个处理模块(例如,残差块)和输出模块(例如,线性模块、修正线性单元(ReLU)模块);
所述序列对序列模型处理输入碱基序列并且生成所述输入碱基序列的替代表示;
每个每轨处理器的处理模块处理所述替代表示并且生成对特定每轨处理器具有特异性的另外替代表示;和
每个每轨处理器的输出模块处理由所述每轨处理器的对应处理模块生成的所述另外替代表示,并且产生对应表观遗传轨迹和所述输入碱基序列中的每个碱基的信号水平作为输出。
其他具体实施可包括存储指令的非暂态计算机可读存储介质,所述指令可由处理器执行以执行上述系统中的动作。另一具体实施可以包括执行上述系统的动作的方法。
非编码变体的基于人工智能的致病性分类
1.一种基于人工智能的系统,所述基于人工智能的系统包括:
输入准备模块,所述输入准备模块访问序列数据库并且生成
(i)参考序列,所述参考序列在靶向位置处含有碱基,其中所述碱基侧接下游上下文碱基和上游上下文碱基,和
(ii)替代碱基序列,所述替代碱基序列在所述靶向位置处含有所述碱的变体,其中所述变体侧接所述下游上下文碱基和所述上游上下文碱基;
序列对序列模型,
所述序列对序列模型处理所述参考序列并且生成参考输出,其中所述参考输出针对所述参考序列中的每个碱基指定多个表观遗传轨迹的信号水平,以及
处理所述替代序列并且生成替代输出,其中所述替代输出针对所述替代序列中的每个碱基指定所述多个表观遗传轨迹的所述信号水平;
比较器,所述比较器
将逐位置确定性比较函数应用于所述参考输出和针对所述参考序列和所述替代序列中的碱基生成的所述替代输出,以及
基于在所述参考输出的所述信号水平与所述替代输出的所述信号水平之间由所述替代序列中的所述变体引起的差异,生成逐位置比较结果;和
致病性确定器,所述致病性确定器处理所述逐位置比较结果并且产生输出,该输出将所述另选序列中的所述变体评分为致病性或良性。
2.根据条款1所述的基于人工智能的系统,其中所述逐位置确定性比较函数计算所述参考输出与所述替代性输出之间的逐元素差异。
3.根据条款1所述的基于人工智能的系统,其中所述逐位置确定性比较函数计算所述参考输出和所述替代输出的逐元素总和。
4.根据条款1所述的基于人工智能的系统,其中所述逐位置确定性比较函数计算所述参考输出与所述替代性输出之间的逐元素比率。
5.根据条款1所述的基于人工智能的系统,所述基于人工智能的系统还包括后处理模块,所述后处理模块
处理所述参考输出并且产生另外参考输出;和
处理所述替代输出并且产生另外替代输出。
6.根据条款5所述的基于人工智能的系统,其中所述比较器
将所述逐位置确定性比较函数应用于所述另外参考输出和所述另外替代输出,用于所述参考输出和所述替代输出中的元素,以及
生成所述逐位置比较结果。
7.根据条款5所述的基于人工智能的系统,其中所述后处理模块是具有一个或多个卷积层的卷积神经网络。
8.根据条款1所述的基于人工智能的系统,其中所述序列对序列模型还包括多个中间层,并且所述中间层中的一个中间层
处理所述参考序列并且生成中间参考输出;
处理所述替代序列并且生成中间替代输出;和
所述比较器
将所述逐位置确定性比较函数应用于所述中间参考序列和所述中间替代序列中的元素的所述中间参考输出和所述中间替代输出,以及
生成所述逐位置比较结果。
9.根据条款1所述的基于人工智能的系统,其中所述参考序列还侧接右端侧接碱基序列和左端侧接碱基序列,并且所述序列对序列模型处理所述参考序列连同所述右端侧接碱基序列和所述左端侧接碱基序列。
10.根据条款1所述的基于人工智能的系统,其中所述替代序列还侧接右端侧接碱基序列和左端侧接碱基序列,并且所述序列对序列模型处理所述替代序列连同所述右端侧接碱基序列和所述左端侧接碱基序列。
11.根据条款1所述的基于人工智能的系统,其中所述参考序列和所述替代序列是非编码碱基序列。
12.根据条款11所述的基于人工智能的系统,其中所述参考序列和所述替代序列是启动子序列,并且所述变体是启动子序列。
13.根据条款1所述的基于人工智能的系统,其中所述输入馈送模块在所述致病性确定器的所述输入中除了所述逐位置比较结果之外还包括所述参考序列和所述替代序列。
14.根据条款13所述的基于人工智能的系统,其中所述参考序列和所述替代序列是单热编码。
15.根据条款1所述的基于人工智能的系统,其中所述序列对序列模型是卷积神经网络。
16.根据条款15所述的基于人工智能的系统,其中所述卷积神经网络还包括残差块组。
17.根据条款16所述的基于人工智能的系统,其中每组残差块由所述残差块中的卷积滤波器的数量、所述残差块的卷积窗尺寸和所述残差块的空洞卷积速率参数化。
18.根据条款16所述的基于人工智能的系统,其中所述卷积神经网络由残差块的数量、跳跃连接的数量和残差连接的数量参数化。
19.根据条款1所述的基于人工智能的系统,其中所述致病性确定器还包括输出模块,所述输出模块产生所述输出作为致病性分数。
20.根据条款19所述的基于人工智能的系统,其中所述输出模块是sigmoid处理器,并且所述致病性分数在零与一之间。
21.根据条款20所述的基于人工智能的系统,所述基于人工智能的系统还包括基于所述致病性分数是高于还是低于预设阈值来识别所述替代序列中的所述变体是致病性还是良性。
22.根据条款1所述的基于人工智能的系统,所述基于人工智能的系统还包括使用连续反向传播共同地训练所述序列对序列模型和所述致病性确定器。
23.根据条款1所述的基于人工智能的系统,所述基于人工智能的系统还包括基于在它训练期间学习的所述序列对序列模型的权重,使用迁移学习来在它训练期间来初始化所述致病性确定器的权重。
24.一种基于人工智能的系统,所述基于人工智能的系统包括:
致病性确定器,所述致病性确定器处理逐位置比较结果并且生成所述逐位置比较结果的替代表示,
其中所述逐位置比较结果基于以下信号水平之间由替代序列中的变体引起的差异:
针对参考序列中的碱基所确定的多个表观遗传轨迹的信号水平,和
针对所述替代序列中的碱基所确定的所述多个表观遗传轨迹的信号水平;和
输出模块,所述输出模块处理所述逐位置比较结果的所述替代表示并且产生输出,所述输出将所述替代序列中的所述变体评分为致病性或良性。
25.根据条款24所述的基于人工智能的系统,所述基于人工智能的系统还包括将所述参考序列作为输入提供给所述致病性确定器。
26.根据条款24所述的基于人工智能的系统,所述基于人工智能的系统还包括将所述替代序列作为输入提供给所述致病性确定器。
其他具体实施可包括存储指令的非暂态计算机可读存储介质,所述指令可由处理器执行以执行上述系统中的动作。另一具体实施可以包括执行上述系统的动作的方法。
用于基于人工智能训练的非编码变体的基于基因表达的标记
1.一种训练致病性确定器的基于人工智能的方法,所述方法包括:
使用训练数据训练所述致病性确定器,所述训练数据包括用致病性标记(例如,“1”)注释的一组致病性非编码变体,以及用良性标记(例如,“0”)注释的一组良性非编码变体;
其中该组致病性非编码变体为单件模式,所述单件模式仅在个体群组当中的单个个体中出现,并且对于与所述致病性组中的所述非编码变体相邻的基因,所述单个个体跨多个组织表现出低表达;
其中该组良性非编码变体是单件模式,所述单件模式仅在所述个体群组当中的单个个体中出现,并且对于与所述良性组中的所述非编码变体相邻的基因,所述单个个体跨所述多个组织未表现出所述低表达;和
对于所述训练数据中的特定非编码变体,
生成(i)在靶向位置处含有所述特定非编码变体的替代序列,所述特定非编码变体侧接下游上下文碱基和上游上下文碱基,以及(ii)在所述靶向位置处含有参考碱基的参考序列,所述参考碱基侧接所述下游上下文碱基和所述上游上下文碱基;
通过表观遗传模型处理所述替代序列和所述参考序列,并且针对所述替代序列和所述参考序列中的每个碱基确定多个表观遗传轨迹的信号水平;
基于在针对所述参考序列和所述替代序列中的碱基所确定的所述信号水平之间由所述特定非编码变体引起的差异,生成逐位置比较结果;
通过所述致病性确定器处理所述逐位置比较结果并且对所述特定非编码变体产生致病性预测;和
当所述特定非编码变体来自所述致病性组时,基于所述致病性预测与所述致病性标记之间所计算的误差,以及当所述特定非编码变体来自所述良性组时,基于所述致病性预测与所述良性标记之间所计算的误差,使用反向传播来修改所述致病性确定器的权重。
2.根据条款1所述的基于人工智能的方法,其中所述低表达是通过以下操作来确定:分析由所述个体群组针对所述基因中的每个基因跨所述多个组织中的每个组织表现出的表达的分布,并且基于所述分布而计算所述单个个体的中值z分数。
3.根据条款1所述的基于人工智能的方法,其中基于所述基因上的转录启动位点(TSS)与所述非编码变体之间的碱基数量来测量与所述致病性组中的所述非编码变体相邻的所述基因的相邻性。
4.根据条款3所述的基于人工智能的系统,其中所述碱基数量是1500个碱基。
5.根据条款1所述的基于人工智能的系统,所述基于人工智能的系统还包括当所述中值z分数低于阈值时,推断所述低表达。
6.根据条款5所述的基于人工智能的系统,其中所述阈值为-1.5。
其他具体实施可包括存储指令的非暂态计算机可读存储介质,所述指令可由处理器执行以执行上述系统中的动作。另一具体实施可以包括执行上述系统的动作的方法。

Claims (24)

1.一种基于人工智能的系统,所述基于人工智能的系统包括:
输入准备模块,所述输入准备模块访问序列数据库并且生成输入碱基序列,其中所述输入碱基序列包括
(i)靶向碱基序列,所述靶向碱基序列具有靶向碱基,其中所述靶向碱基序列侧接
(ii)右端碱基序列,所述右端碱基序列具有下游上下文碱基,和
(iii)左端碱基序列,所述左端碱基序列具有上游上下文碱基;
序列对序列模型,所述序列对序列模型处理所述输入碱基序列并且生成所述输入碱基序列的替代表示;和
输出模块,所述输出模块处理所述输入碱基序列的所述替代表示并且针对所述靶向碱基序列中的所述靶向碱基中的每个靶向碱基产生至少一个每碱基输出;
其中所述每碱基输出针对对应靶向碱基指定多个表观遗传轨迹的信号水平。
2.根据权利要求1所述的基于人工智能的系统,其中所述每碱基输出使用连续值来指定所述多个表观遗传轨迹的所述信号水平。
3.根据权利要求1所述的基于人工智能的系统,其中所述输出模块还包括多个每轨处理器,其中每个每轨处理器对应于所述多个表观遗传轨迹中的相应表观遗传轨迹,并且产生对应表观遗传轨迹的信号水平。
4.根据权利要求3所述的基于人工智能的系统,其中所述多个每轨处理器中的每个每轨处理器处理所述输入碱基序列的所述替代表示,生成对特定每轨处理器具有特异性的另外替代表示,并且基于所述另外替代表示产生所述对应表观遗传轨迹的所述信号水平。
5.根据权利要求4所述的基于人工智能的系统,其中每个每轨处理器还包括至少一个残差块和线性模块和/或修正线性单元(ReLU)模块,并且
其中所述残差块生成所述另外替代表示和所述线性模块和/或所述ReLU模块处理所述另外替代表示并且产生所述对应表观遗传轨迹的所述信号水平。
6.根据权利要求3所述的基于人工智能的系统,其中所述多个每轨处理器中的每个每轨处理器处理所述输入碱基序列的所述替代表示,并且基于所述替代表示产生所述对应表观遗传轨迹的所述信号水平。
7.根据权利要求6所述的基于人工智能的系统,其中每个每轨处理器还包括线性模块和/或ReLU模块。
8.根据权利要求1所述的基于人工智能的系统,其中所述多个表观遗传轨迹包括脱氧核糖核酸(DNA)甲基化改变(例如,CpG)、组蛋白修饰、非编码核糖核酸(ncRNA)表达和染色质结构改变(例如,核小体定位)。
9.根据权利要求1所述的基于人工智能的系统,其中所述多个表观遗传轨迹包括脱氧核糖核酸酶(DNase)轨迹。
10.根据权利要求1所述的基于人工智能的系统,其中所述多个表观遗传轨迹包括组蛋白3赖氨酸27乙酰化(H3K27ac)轨迹。
11.根据权利要求1所述的基于人工智能的系统,其中所述序列对序列模型是卷积神经网络。
12.根据权利要求11所述的基于人工智能的系统,其中所述卷积神经网络还包括残差块组。
13.根据权利要求12所述的基于人工智能的系统,其中每组残差块由所述残差块中的卷积滤波器的数量、所述残差块的卷积窗尺寸和所述残差块的空洞卷积速率参数化。
14.根据权利要求12所述的基于人工智能的系统,其中所述卷积神经网络由残差块的数量、跳跃连接的数量和残差连接的数量参数化。
15.根据权利要求12所述的基于人工智能的系统,其中每组残差块通过处理前述输入产生中间输出,其中所述中间输出的维度是(I-[{(W-1)*D}*A])×N,其中
I是所述前述输入的维度,
W是所述残差块的卷积窗尺寸,
D是所述残差块的空洞卷积速率,
A是所述组中的空洞卷积模块的数量,并且
N是所述残差块中的卷积滤波器的数量。
16.根据权利要求15所述的基于人工智能的系统,其中所述空洞卷积速率从较低残差块组非指数地进展到较高残差块组。
17.根据权利要求16所述的基于人工智能的系统,其中空洞卷积节省了部分卷积计算以在处理相邻碱基时重新使用。
18.根据权利要求13所述的基于人工智能的系统,其中所述卷积窗尺寸在残差块组之间不同。
19.根据权利要求1所述的基于人工智能的系统,其中所述输入碱基序列的维度为(Cu+L+Cd)×4,其中
Cu是所述左端碱基序列中的上游上下文碱基的数量,
Cd是所述右端碱基序列中的下游上下文碱基的数量,并且L是所述靶向碱基序列中的靶向碱基的数量。
20.根据权利要求11所述的基于人工智能的系统,其中所述卷积神经网络还包括维度变更卷积模块,所述维度变更卷积模块重塑前述输入的空间维度和特征维度。
21.根据权利要求12所述的基于人工智能的系统,其中每个残差块还包括至少一个批量归一化模块,至少ReLU模块、至少一个空洞卷积模块和至少一个残差连接。
22.根据权利要求21所述的基于人工智能的系统,其中每个残差块还包括两个批量归一化模块、两个ReLU非线性模块、两个空洞卷积模块和一个残差连接。
23.根据权利要求1所述的基于人工智能的系统,其中用训练数据训练所述序列对序列模型,所述训练数据包括编码碱基和非编码碱基两者。
24.一种基于人工智能的系统,所述基于人工智能的系统包括:
序列对序列模型;
多个每轨处理器,所述多个每轨处理器对应于多个表观遗传轨迹中的相应表观遗传轨迹,
其中每个每轨处理器还包括至少一个处理模块(例如,残差块)和输出模块(例如,线性模块、修正线性单元(ReLU)
模块);
所述序列对序列模型处理输入碱基序列并且生成所述输入碱基序列的替代表示;
每个每轨处理器的处理模块处理所述替代表示并且生成对特定每轨处理器具有特异性的另外替代表示;并且
每个每轨处理器的输出模块处理由所述每轨处理器的对应处理模块生成的所述另外替代表示,并且产生对应表观遗传轨迹和所述输入碱基序列中的每个碱基的信号水平作为输出。
CN202080065003.7A 2019-09-20 2020-09-18 基于人工智能的表观遗传 Pending CN114402393A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962903700P 2019-09-20 2019-09-20
US62/903700 2019-09-20
PCT/US2020/051639 WO2021055857A1 (en) 2019-09-20 2020-09-18 Artificial intelligence-based epigenetics

Publications (1)

Publication Number Publication Date
CN114402393A true CN114402393A (zh) 2022-04-26

Family

ID=72744894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080065003.7A Pending CN114402393A (zh) 2019-09-20 2020-09-18 基于人工智能的表观遗传

Country Status (4)

Country Link
US (1) US20220406411A1 (zh)
EP (2) EP4290524A3 (zh)
CN (1) CN114402393A (zh)
WO (1) WO2021055857A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023158804A1 (en) 2022-02-17 2023-08-24 Illumina, Inc. Ai-driven signal enhancement of sequencing images
US20230260096A1 (en) 2022-02-17 2023-08-17 Illumina, Inc. Ai-driven enhancement of motion blurred sequencing images

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG11201912781TA (en) 2017-10-16 2020-01-30 Illumina Inc Aberrant splicing detection using convolutional neural networks (cnns)

Also Published As

Publication number Publication date
WO2021055857A1 (en) 2021-03-25
EP4032093A1 (en) 2022-07-27
EP4290524A2 (en) 2023-12-13
US20220406411A1 (en) 2022-12-22
EP4290524A3 (en) 2024-03-06
EP4032093B1 (en) 2023-10-25
EP4032093C0 (en) 2023-10-25

Similar Documents

Publication Publication Date Title
US11837324B2 (en) Deep learning-based aberrant splicing detection
Jaafra et al. Reinforcement learning for neural architecture search: A review
US10558915B2 (en) Deep learning-based techniques for training deep convolutional neural networks
Li et al. Learning spatiotemporal embedding with gated convolutional recurrent networks for translation initiation site prediction
LeCun et al. Deep learning
US11861491B2 (en) Deep learning-based pathogenicity classifier for promoter single nucleotide variants (pSNVs)
Tirumala Implementation of evolutionary algorithms for deep architectures
Xie et al. A predictive model of gene expression using a deep learning framework
CN114402393A (zh) 基于人工智能的表观遗传
Ignatov et al. Controlling information capacity of binary neural network
Zhong et al. DNA computing inspired deep networks design
Bhardwaj et al. Computational biology in the lens of CNN
KR20240141249A (ko) 이미지 기반 변이 병원성 결정
Nagae et al. Automatic layer selection for transfer learning and quantitative evaluation of layer effectiveness
El-Tohamy et al. A deep learning approach for viral DNA sequence classification using genetic algorithm
Guo et al. Deep multi-scale Gaussian residual networks for contextual-aware translation initiation site recognition
Shukla et al. Application of deep learning in biological big data analysis
Cao et al. Learning functional embedding of genes governed by pair-wised labels
Javadinia et al. PDR-CapsNet: an Energy-Efficient Parallel Approach to Dynamic Routing in Capsule Networks
Qi et al. A framework of evolutionary optimized convolutional neural network for classification of shang and chow dynasties bronze decorative patterns
Bhalgaonkar et al. Model compression of deep neural network architectures for visual pattern recognition: Current status and future directions
Stapleton et al. NeuroLGP-SM: A Surrogate-assisted Neuroevolution Approach using Linear Genetic Programming
US20240112751A1 (en) Copy number variation (cnv) breakpoint detection
Noel An Investigation of Methods for Improving Spatial Invariance of Convolutional Neural Networks for Image Classification
Mousser et al. Incremental learning of convolutional neural networks in bioinformatics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination