CN116312804A

CN116312804A - 基因表达谱的推断

Info

Publication number: CN116312804A
Application number: CN202211655100.9A
Authority: CN
Inventors: P·塞切特; A·巴尔
Original assignee: Dassault Systemes SE
Current assignee: Dassault Systemes SE
Priority date: 2021-12-21
Filing date: 2022-12-21
Publication date: 2023-06-23
Also published as: EP4202941A1; JP2023092524A; US20230197194A1

Abstract

本发明特别涉及一种用于训练神经网络以推断基因表达谱的计算机实现的方法。该方法包括：获得参考基因组的序列的基因集合中的基因之间的潜在调节矩阵；获得具有节点的输入层和节点的输出层的神经网络，输入层和输出层具有用于表示参考基因组的序列的基因集合中的每个基因的等效节点，输入层的每个节点表示调节基因，并且输出层的每个节点表示被调节基因；将从输入层的节点到输出层的节点的连接添加到神经网络，所添加的连接是从所获得的潜在规则矩阵中提取的；通过使用观察的生物过程的基因表达谱集合来训练神经网络，所训练的神经网络的每个连接被加权；以及移除所训练的神经网络的具有不重要权重值的连接。

Description

基因表达谱的推断

技术领域

本公开内容涉及在生物学中应用的数据科学领域，更具体地，本公开内容涉及与推断基因表达谱相关的方法、数据结构和系统。

背景技术

数据科学在生物学领域越来越重要。关于生物过程的数据越来越可用，并且可以用来越来越准确地推断生物过程。特别是，假设提供了所需的数据，数据科学可以应用于涉及基因表达修改的任何生物过程。

在该背景下，可以预见若干方法来重建转录调节网络。基因调节网络(GRN)是分子调节器集合，它们相互作用并且与细胞中的其它物质相互作用，以控制mRNA和蛋白质的基因表达水平，继而确定细胞的功能。

第一种方法被称为逻辑TRN，并且已经在下文中讨论过：Bin Yan,Daogang Guan,Chao Wang,Junwen Wang,Bing He,Jing Qin,Kenneth RBoheler,Aiping Lu,Ge Zhang和Hailong Zhu，An integrative method to decode regulatory logics in genetranscription,自然通信，8(1):1044,2017。第一种方法使用TF-DNA结合信息(通过染色质数据)和基因表达数据来解读基因转录中的TF调节逻辑。对于给定的靶基因(TG)，假设一组TF能够与其启动子结合。观察和微分方程模拟了基因的不同调节逻辑，并且将该技术扩展到所有基因允许对调节机制的全局视野。这种方法很有趣，但依赖于布尔模拟，而定量模拟可能更好。

第二种方法首先使用逻辑回归模型来预测基因组上的任何位置的每个阶段的转录因子(TF)结合，并且然后使用时变动态贝叶斯网络重新连接不同的时间点。从数据中提取大约100个特征来构建模型。这种方法的主要缺点是它构建了特定于阶段的规则。因此，它可以被看作是简单的观察，而不是动态网络；没有足够的抽象使模型变得有趣。

第三种方法依赖于递归神经网络(RNN)，如在下文中描述的：Abhinandan Khan,Sudip Mandal,Rajat Kumar Pal和Goutam Saha，Construction of gene regulatorynetworks using recurrent neural networks and swarm intelligence，Scientifica,2016。另一基因或一组基因对任何特定基因的表达的调节可以通过递归神经网络(RNN)来表达。RNN是连接主义模型，其经由节点序列中的循环来捕捉序列的动态。RNN由彼此连接的独立单元(神经元)组成，它们非线性地相互作用，并且在结构中至少存在一个循环。神经元通过加权边缘连接。神经元的输出是其输入的非线性组合。在其展开形式中，RNN与经典的人工神经网络相当，对网络的权重具有相等的约束。然而，第三种方法的缺点是，网络是为文献中已知的规则而构建的。这意味着模型是先验地构建的(例如，使用文献知识)。先验的问题是，先验不是穷尽的，并且当前对调节机制的理解也不是完全令人满意的。这些推论仅限于当前的知识。

总之，当前的方法纯粹是描述性的，并且仅描述调节的机制，哪个基因调节哪个其它基因。这是不令人满意的，因为这些方法不允许随着时间的推移进行预测，并且因此不允许在给定基因表达状态的情况下预测基因的未来表达。

在该背景下，仍然需要用于推断基因表达谱的改进的方法。

发明内容

因此，提供了一种用于训练神经网络以推断基因表达谱的计算机实现的方法。所述方法包括：

-获得参考基因组的序列的基因集合中的基因之间的潜在调节矩阵，所述潜在调节矩阵描述调节基因和被调节基因之间的连接，调节基因对调节至少一个被调节基因的至少一个转录因子进行编码，连接表示在涉及所述参考基因组的序列的所述基因集合中的所述基因的观察的生物过程的至少一个时间序列中由所述调节基因对所述被调节基因的至少一个观察的调节；

-获得具有节点的输入层和节点的输出层的神经网络，所述输入层和所述输出层具有用于表示所述参考基因组的序列的所述基因集合中的每个基因的等效节点，所述输入层的每个节点表示调节基因，并且所述输出层的每个节点表示被调节基因；

-将从所述输入层的节点到所述输出层的节点的连接添加到所述神经网络，所添加的连接是从所获得的潜在规则矩阵中提取的；

-通过使用所述观察的生物过程的基因表达谱集合来训练所述神经网络，所训练的神经网络的每个连接被加权；以及

-移除所训练的神经网络的具有不重要权重值的连接。

所述方法可以包括以下各项中的一项或多项：

-所述移除所训练的神经网络的具有不重要权重的所述连接包括：针对所训练的神经网络中的每个连接，执行以下操作：-获得表示在实验误差范围内所述被调节基因的表达的修改的不重要性门限的值；-如果所述权重值小于所述不重要性门限，则移除与所述被调节基因的连接；

-所获得的参考基因组的序列的基因集合中的基因之间的潜在调节矩阵已经通过以下方式计算：-针对所述参考基因组的所述序列中的所述基因集合中的每个基因，识别一个或多个转录因子结合位点以及结合在所述一个或多个转录因子结合位点上的相应转录因子；-针对每个识别的结合转录因子，进行以下操作：--识别一个或多个潜在被调节基因；--识别对所述结合转录因子进行编码的潜在调节基因；以及--连接所述调节基因和所述一个或多个被调节基因。

-所述识别一个或多个潜在被调节基因包括：-根据所述参考基因组的所述序列的所述基因集合中的所述基因的基因位置图来确定一个或多个基因是否在所识别的结合转录因子周围的预定数量的碱基对的框架中；以及-将在所识别的结合转录因子周围的预定数量的碱基对的所述框架中的所述一个或多个基因识别为潜在被调节基因。

-所述预定数量的碱基对小于15000，优选小于10000。

-针对所述参考基因组的所述序列中的所述基因集合中的每个基因，所述识别一个或多个转录因子结合位点包括：在所述参考基因组的所述序列的所述基因集合的染色质可及性数据上进行峰调用操作，从而识别峰；-针对每个识别的峰识别一个或多个空洞，从而在所述参考基因组的所述序列的所述基因集合的所述染色质可及性数据上获得转录因子的过去存在的足迹；-将所获得的足迹与已知转录因子的基序进行比较；以及-作为所述比较的结果，识别哪个转录因子已经与每个足迹相结合。

-所获得的参考基因组的序列的基因集合中的基因之间的潜在调节矩阵已经通过以下方式计算：-针对所述观察的生物过程的每个时间序列获得潜在调节矩阵，从而获得潜在调节矩阵集合；以及-合并所述潜在调节矩阵集合中的所述潜在调节矩阵；

针对所述观察的生物过程的每个时间序列描述的连接等同于针对所述观察的生物过程的所述时间序列中的一个时间序列描述的连接。

还提供了一种使用上述训练的神经网络来推断基因表达谱的计算机实现的方法。使用所述方法包括：

-提供包括用于所述观察的生物过程的时间序列的基因表达的输入数据，所述观察的生物过程涉及所述参考基因组的所述序列的所述基因集合中的所述基因；

-将所训练的神经网络应用于所述输入数据以推断未来基因表达。

还提供了一种用于根据上述方法来获得潜在调节矩阵的计算机实现的方法。所述方法可以包括：获得实验数据并且从所述实验数据中提取参考基因组的序列的基因集合中的基因之间的所述潜在调节矩阵，所述潜在调节矩阵描述调节基因和被调节基因之间的连接，调节基因对调节至少一个被调节基因的至少一个转录因子进行编码、连接表示在涉及所述参考基因组的序列的所述基因集合中的所述基因的观察的生物过程的至少一个时间序列中由所述调节基因对所述被调节基因的至少一个观察的调节。

用于获得潜在调节矩阵的所述方法还可以包括以下各项中的一项或多项：

-所获得的参考基因组的序列的基因集合中的基因之间的潜在调节矩阵通过以下方式计算：-针对所述参考基因组的所述序列中的所述基因集合中的每个基因，识别一个或多个转录因子结合位点以及结合在所述一个或多个转录因子结合位点上的相应转录因子；-针对每个识别的结合转录因子，进行以下操作：--识别一个或多个潜在被调节基因；--识别对所述结合转录因子进行编码的潜在调节基因；以及--连接所述调节基因和所述一个或多个被调节基因。

-所述预定数量的碱基对小于15000，优选小于10000。

-针对所述观察的生物过程的每个时间序列描述的连接等同于针对所述观察的生物过程的所述时间序列中的一个时间序列描述的连接。

还提供了一种数据结构，其包括根据上述方法的训练的神经网络和/或根据用于获得所述潜在调节矩阵的方法形成的数据集，和/或包括用于执行上述方法、上述使用方法和/或用于获得所述潜在调节矩阵的方法的指令的计算机程序。

还提供了一种具有记录在其上的数据结构的计算机可读存储介质。

还提供了一种设备，包括具有记录在其上的数据结构的数据存储介质。

附图说明

现在将通过非限制性示例并且参照附图描述本发明的实施例，其中：

-图1示出了系统的示例

-图2示出了该方法的示例的流程图；

-图3示出了基因表达的示例；

-图4示出了转录因子结合基序的示例；

-图5示出了潜在调节矩阵的原理；

-图6示出了潜在调节的矩阵；以及

-图7示出了该系统的示例。

具体实施方式

参照图1的流程图，提出了一种用于训练神经网络以推断基因表达谱的计算机实现的方法。基因表达谱识别在细胞或组织中制造信使RNA的所有基因。可以推断基因表达谱以发现和/或诊断疾病和/或病症和/或观察身体对治疗的反应。该方法包括获得参考基因组的序列的基因集合中的基因之间的潜在调节矩阵。潜在调节矩阵描述了调节基因和被调节基因之间的连接。调节基因是对至少一种转录因子(称为TF)进行编码的基因。被调节基因是其表达受调节基因控制的基因。调节基因和被调节基因之间的连接表示调节基因对被调节基因的至少一个观察的调节。已经在涉及参考基因组的序列的基因集合中的基因的观察的生物过程的至少一个时间序列中进行了调节的观察。该方法还包括获得神经网络。神经网络具有节点的输入层和节点的输出层。输入层和输出层具有用于表示参考基因组的序列的基因集合中的每个基因的等效节点。输入层的每个节点表示调节基因，并且输出层的每个节点表示被调节基因。该方法还包括将从输入层的节点到输出层的节点的连接添加到神经网络。从已获得的潜在调节矩阵中提取添加的连接。接下来，该方法包括通过使用观察的生物过程的基因表达谱集合来训练具有添加的连接的神经网络。对所训练的神经网络的每个连接进行加权。然后，该方法包括移除所训练的神经网络的具有不重要权重值的连接。

本文给出的方法都是用于执行基因表达谱的推断的全局解决方案的一部分。数据集形成方法允许获得可以在学习方法中使用的数据集。学习方法允许训练可以用于使用方法的神经网络。继而，使用方法允许执行基因表达谱的推断。

所提出的解决方案允许在没有先验的情况下(即，不使用文献知识的情况下)执行基因表达谱的推断。

该数据集提供了参考基因组的序列的基因集合中的基因之间的潜在调节矩阵。因此，数据集可以用于构建和训练适应于使用方法的神经网络，以执行基因表达谱的推断，即，在给定基因表达谱时预测未来基因表达。它还可以用于在给定一个受干扰的基因表达谱时预测未来基因表达。用于学习神经网络的数据是基因表达时间序列：每个基因在不同时间点的表达(对于所有基因都相同)。一旦被训练，它就使用基因表达谱作为输入，并且给出基因表达谱作为输出。

该方法使用数据来找到可能的调节，并且将该信息作为起点提供给神经网络。基因之间的潜在调节是建立的，而不是寻找任何已知的潜在调节的知识。构建模型将本发明从基于经典知识的模型创建中解放出来。构建了知情结构，而不是完全连接的非知情蛮力神经网络。神经网络结构是利用从数据中学习的信息构建的。网络中的每个连接表示可能的调节，例如，通过染色质可及性数据推断。先验问题得到解决，因为数据是创建网络而不是创建文献。该方法还提供学习过程，其中网络的每个节点表示基因。本发明创建了具有与输入中给定的相同数量的基因(基因表达的数量)的模型。数据中考虑的任何基因都可以添加到模型中。该模型的构建是渐进的，也就是说，当在学习数据中发现基因时，就添加基因。网络的训练“学习”基因之间的调节。仅学习先前定义的潜在调节。节点之间的边缘的权重定义了调节的强度。

因此，本发明独立于生物学背景。这允许对细胞衰老过程执行推断，可以理解，只要所需数据作为模型的输入，该方法就可以使用任何生物过程。因此，本发明使用数据而不是知识来构建结构，并且因此能够覆盖/发现未知的基因调节。这一点特别重要，因为基因调节高度依赖于生物学背景。本发明可以在给定表达谱的情况下预测未来基因表达。本发明还可以在给定修改的基因表达谱的情况下预测未来基因表达；因此，本发明可以用于模拟如果一些基因表达被修改会发生什么。本发明提供了关于观察训练模型的基因之间的潜在未知(在文献中)调节的提示；因此，即使没有观察到调节，本发明也提供关于未知调节是可能的提示。

该方法是计算机实现的。这意味着该方法的步骤(或基本上所有步骤)由至少一台计算机或任何类似系统执行。因此，该方法的步骤由可能是全自动或半自动的计算机执行。在示例中，该方法的至少一些步骤的触发可以通过用户-计算机交互来执行。所需的用户-计算机交互水平可能取决于所预见的自动化水平，并且与实现用户愿望的需要保持平衡。在示例中，该水平可以是用户定义的和/或预定义的。

一种方法的计算机实现的典型示例是使用适合于此目的的系统来执行该方法。该系统可以包括耦合到存储器的处理器，该存储器具有记录在其上的包括用于执行该方法的指令的计算机程序。存储器还可以存储数据库。存储器是适用于这种存储的任何硬件，可能包括若干物理不同的部分(例如，一个用于程序，以及可能一个用于数据库)。

图7示出了该系统的示例，其中该系统是客户端计算机系统。

该示例的客户端计算机包括连接到内部通信总线1000的中央处理单元(CPU)1010、也连接到总线的随机存取存储器(RAM)1070。客户端计算机还被提供有图形处理单元(GPU)1110，其与连接到总线的视频随机存取存储器1100相关联。视频RAM 1100在本领域中也称为帧缓冲器。大容量存储设备控制器1020管理对大容量存储器设备(诸如硬盘驱动器1030)的访问。适用于有形地体现计算机程序指令和数据的大容量存储器设备包括所有形式的非易失性存储器，举例而言，包括：半导体存储器设备，诸如EPROM、EEPROM和闪存设备；磁盘，诸如内部硬盘和可移动盘；磁光盘；以及CD-ROM盘1040。上述任何一种都可以由专门设计的ASIC(专用集成电路)补充或并入其中。网络适配器1050管理对网络1060的访问，例如，以便访问远程数据(数据集实际上可以被存储在诸如硬盘驱动器1030之类的本地存储器上和/或诸如云之类的远程存储器上)。客户端计算机还可以包括诸如光标控制设备、键盘等之类的触觉设备1090。在客户端计算机中使用光标控制设备，以允许用户选择性地将光标定位在显示器1080上的任何期望位置。另外，光标控制设备允许用户选择各种命令和输入控制信号。光标控制设备包括用于向系统输入控制信号的多个信号生成设备。典型地，光标控制设备可以是鼠标，其中鼠标的按钮用于生成信号。替代地或另外，客户端计算机系统可以包括敏感垫和/或敏感屏幕。

计算机程序可以包括可由计算机执行的指令，所述指令包括用于使得上述系统执行所述方法的装置。该程序可以被记录在任何数据存储介质上，包括系统的存储器。该程序可以例如在数字电子电路中实现，或者在计算机硬件、固件、软件中实现，或在它们的组合中实现。该程序可以被实现为装置，例如有形地体现在机器可读存储设备中的产品，以供可编程处理器执行。方法步骤可以由执行指令的程序的可编程处理器来执行，以通过对输入数据进行操作并且生成输出来执行方法的功能。因此，处理器可以是可编程的，并且被耦合以从数据存储系统、至少一个输入设备和至少一个输出设备接收数据和指令以及向其发送数据和指令。应用程序可以用高级程序或面向对象编程语言实现，或者如果需要，可以用汇编语言或机器语言实现。在任何情况下，语言都可以是编译或解释语言。该程序可以是完整安装程序或更新程序。在系统上应用程序在任何情况下都会产生用于执行该方法的指令。

所训练的神经网络被配置用于推断基因表达谱。换句话说，所训练的神经网络被配置为通过将基因表达谱作为输入来给出基因表达谱作为输出。

现在讨论图1的流程图。

在S10处，获得潜在调节矩阵。潜在调节矩阵描述了参考基因组的序列的基因集合中的基因之间的潜在调节。参考基因组可以是任何基因组，例如，参考基因组是人类基因组。参考基因组的序列意味着参考基因组的全部或一部分由矩阵潜在调节支持。因此，参考基因组的序列包括基因集合，并且潜在调节矩阵涉及基因集合中的基因。

潜在调节矩阵描述了调节基因与被调节基因之间的连接。调节基因是参与控制基因集合中一个或多个其它基因表达的基因。(基因集合中的)被调节基因是其表达受一个或多个被调节基因控制的基因。

基因表达是这样的过程：通过该过程，来自基因的信息被用于合成功能性基因产物，其使得基因能够产生最终产物、蛋白质或非编码RNA；基因表达最终影响表型，作为最终的影响。基因表达是生物学中众所周知的过程，并且在本公开内容中将不做讨论。

仅为了说明，在图3中示出了真核细胞中的基因表达的原理。基因的DNA序列被转录以制造mRNA分子，并且然后mRNA分子在最终产物(图3中的蛋白质)中被翻译。转录由三种类型的mRNA聚合酶在细胞核中进行，其中的每种mRNA聚合酶都需要一个被称为启动子的特殊DNA序列和DNA结合蛋白转录因子集合来启动该过程(参见下文的转录调节)。转录因子是调节基因的蛋白质。人类基因组具有大约700种不同的转录因子，这些转录因子与一个基因紧密结合(在10000bp的框架内)以对其进行调节。每个转录具有优选DNA“基序”以与之结合。就像拼图一样，它将根据主题结合或不结合。这些基因的两侧通常有若干不同转录因子的转录因子结合位点(TFBS)，并且这些基因中的每个基因的有效表达都需要若干不同转录因子的协同动作。

调节基因对调节至少一个被调节基因的至少一个转录因子(TF)进行编码。调节基因与被调节基因之间的连接表示调节基因对被调节基因的至少一个观察的调节。因此，连接表示由常规基因编码并且调节一个或多个基因的转录因子(TF)。应当理解，基因由至少一个常规基因调节，并且常规基因可以调节一个或若干被调节基因。

调节基因与被调节基因之间的连接的观察是针对涉及参考基因组的序列的基因集合中的基因的观察的生物过程的至少一个时间序列进行。生物过程是对生物体生存至关重要的过程。生物过程包括许多化学反应并且涉及基因表达。例如，细胞衰老过程是一个生物过程。应当理解，本发明可以用于包括至少一种基因表达的任何生物过程。

用于基因产物的基因编码通常在生物过程中以协调的方式调节。因此，基因和基因表达的作用在整个生物过程中都会发生变化。因此，通过一个或多个时间序列(在实验上)观察的生物过程。时间序列的长度可以相同或不同。

如上所述，基因的表达水平取决于其在观察的生物过程的前一时间点的表达，并且基因的表达水平也取决于转录因子(TF)。因此，基因的表达水平取决于前一时间点的转录因子(TF)结合；在S10处获得的潜在调节矩阵表示在观察的生物过程的至少一个时间点的基因表达水平。

获得潜在调节矩阵(数据集)(S10)。通过获得，这意味着潜在调节矩阵是提供给训练神经网络的方法(已经构建)并且由其使用的数据集。替代地，通过该方法构建并且使用潜在调节矩阵。换句话说，为训练神经网络而获得的数据集可以在线构建(即，在训练过程中)或离线构建(即，在训练之前的早期阶段)。

现在讨论获得S10的示例。这些示例可以分别应用于在线或离线模式。在这些示例中，针对参考基因组的序列的每个基因执行对一个或多个转录因子结合位点的识别。还识别与一个或多个转录因子结合位点结合的相应的转录因子。如参照图3所讨论的，这些基因的两侧是用于不同转录因子(TF)的若干转录因子结合位点(TFBS)。因此，对TBFS的识别允许识别潜在地与TBFS结合的一个或多个TF。

在示例中，TBFS及其TF可以通过分析参考基因组的序列的基因集合的染色质可及性数据来识别。染色质是真核细胞中发现的DNA和蛋白质的复合物。染色质的主要功能是将长DNA分子包装成更紧密、更致密的结构，以适合细胞核。染色质结构的变化与DNA复制和基因表达相关联。

在一个示例中，用于识别TBFS及其TF的染色质可及性数据的分析可以通过执行以下三个步骤来执行，即：(i)峰调用，(ii)足印和(iii)基序匹配。这三个步骤允许检测参照图3讨论的现象：转录因子与DNA结合以调节转录和最终基因表达。以下步骤(i)、(ii)和(iii)是用于从染色质可及性数据(例如，DNAse-seq或ATAC-seq)中提取信息以在所研究的生物过程中理解哪些基因可以调节哪些其它基因的实现的示例。

(i)对参考基因组的序列的基因集合的染色质可及性数据执行峰调用操作，从而识别染色质上的峰。

峰调用操作允许在基因组中找到其中任何转录因子都可以结合的“大区域”。根据其形状，染色质可以使转录因子结合或不结合。潜在的TF结合意味着TF可以调节最接近结合位点的基因。潜在TF结合的存在不是基因调节的充分条件，而是必要条件。染色质可及性数据提供了足够开放的大区域的信息，以允许访问TF进行结合。染色质可及性数据分析(峰调用)是一种信号分析，其中可访问的染色质作为峰可见。因此，利用峰调用操作识别染色质上的峰允许从染色质TBFS中进行提取。

峰调用可以利用任何已知的解决方案来执行，例如但不限于利用被称为Homer的工具。Homer是一个用于基序发现和测序分析的软件工具，如在http://homer.ucsd.edu/homer/ngs/peaks.html中公开和讨论的。

(ii)在(i)处针对每个识别的峰识别一个或多个空洞，从而获得参考基因组的序列的基因集合的染色质可及性数据上转录因子的过去存在的足迹。足印的目的是在大区域(利用峰调度操作发现)内找到其中任何转录因子(TF)可以结合的小区域。仔细查看峰，其内部存在一些空洞，其指示转录因子的足迹。每个空洞指示在观察所研究的生物过程时，转录因子肯定(潜在)结合在那里，但唯一的存在并不能提供哪个TF结合的信息。

该足印步骤可以利用任何已知的解决方案来执行，例如但不限于利用被称为RGT(调节基因组学工具箱)的工具。RGT是一种用于分析调节基因组学的软件工具，如在https://www.regulatory-genomics.org/hint/introduction/中公开和讨论的。

(iii)然后，执行基序匹配。将获得的足迹与已知转录因子的基序进行比较。作为比较的结果，转录因子已经与识别的每个足迹结合。基序匹配步骤允许发现优选的基因组序列结合基序，并且找到哪个TF与在(ii)中识别的小区域结合。这依赖于这样一个事实：TF具有或多或少与其结合的特定基因组序列，并且这种或多或少特定的基因组序列被称为基序。将足迹的基因组序列与所有已知转录因子的基序进行比较指示哪个转录因子最可能与基序结合。

基序是已知的(例如，在若干生物过程中观察到的)，并且可以在公共数据库中访问。例如，可以使用被称为JASPAR的公共数据库(可在http://jaspar.genereg.net/访问)。

作为步骤(i)、(ii)和(iii)的结果，获得了涉及参考基因组的序列的基因集合中的基因的观察的生物过程的基因组的图，以及所有潜在结合的转录因子的位置和名称。

现在参照图4，表示了转录因子结合基序的三个示例。字母的大小指示在该结合位置上优选核苷酸的概率。

回到获得S10的示例，在已经识别出潜在地与TBFS结合的一个或多个TF之后，识别潜在地由所述一个或更多个TF中的每个TF调节的一个或多个基因。

在示例中，对所述一个或多个转录因子中的每个转录因子潜在地调节的一个或多个基因的识别可以依赖于参考基因组的序列的基因集合中的基因的基因位置图。基因的位置图可以从公共图库中获得。例如，人类基因组计划描述了人类基因组的基因的位置图：人类基因组计划是2003年完成的一项国际研究工作，其确定了每个人类染色体的碱基对序列。该序列信息允许为许多基因提供比细胞遗传学位置更具体的地址。基因的分子地址按照碱基对精确定位该基因的位置，并且它描述了该基因在染色体上的精确位置，并且指示该基因的大小。已知分子位置还允许精确地确定一个基因与同一染色体上的其它基因的距离。根据参考基因组的序列的基因集合中的基因的基因位置图，人们可以确定一个或多个基因是否在所识别的结合转录因子周围的预定数量的碱基对的框架中。结合转录因子不调节基因组上的每个基因；结合TF通常调节在预定数量的碱基对框架内的基因。

在示例中，预定数量的碱基对可以小于15000，即在0和15000之间。

在另一示例中，预定数量的碱基对可以小于10000，即在0和10000之间。

如果一个或多个基因存在于所识别的结合转录因子周围的预定数量的碱基对的框架中，则该转录因子被认为潜在地调节该基因。因此，在所识别的结合转录因子周围的预定数量的碱基对的框架中的一个或多个基因被识别为潜在的被调节基因。人们理解这是潜在调节，并且网络的训练(在下文中讨论)将有助于选择它是否是有效的调节。

从现在起，获得了具有每个发现的转录因子的调节矩阵，即它调节的基因列表。

取决于DNA的3D结构，转录因子可以比预定的碱基对进一步调节。这种可能性可以被包括在捕获该空间信息的参考基因组的序列的基因集合中的基因的基因位置图中。

在示例中，可以针对若干时间序列内观察到的生物过程来获得参考基因组的序列的基因集合中的基因之间的潜在调节矩阵。通过若干实验(可能在不同条件下)研究生物过程，并且对每个实验执行实验测量。在这样的示例中，针对观察的生物过程的每个时间序列获得潜在调节矩阵，使得获得潜在调节矩阵集合。然后合并潜在调节矩阵(针对每个时间序列获得)，使得获得单个潜在调节矩阵。可以执行合并，使得在获得的单个潜在调节矩阵中，潜在调节矩阵集合中的所有信息都可用。

在示例中，可以通过执行一对一合并来执行合并，其中单个潜在调节矩阵中的观察数量等于潜在调节矩阵集合中的观察数量。

在针对每个识别的结合转录因子识别一个或多个潜在被调节基因之后，识别对结合转录因子进行编码的潜在调节基因。这将允许在调节基因与被调节基因之间建立链接，而不仅仅是转录因子与被调节基因的链接。

在示例中，对一个或多个潜在调节基因的识别可以通过使用文献中已知的信息来执行，例如，对蛋白质进行编码的调节基因是已知的。

在示例中，对一个或多个潜在调节基因的识别可以通过将转录因子视为对其进行编码的基因来执行。转录因子是蛋白质，这意味着存在转录并且然后翻译成蛋白质的基因，并且蛋白质通常具有与转录因子相同的名称。

从现在起，对于每个转录因子，对转录因子进行编码的基因和所有被转录因子调节的基因都被识别。下一步是连接调节基因和一个或多个被调节基因，以便获得潜在调节矩阵。连接意味着构建了调节基因、转录因子和被调节基因之间的对应表。

在一个示例中，针对观察的生物过程的每个时间序列描述的每个连接等同于针对观察的生物过程的时间序列中的一个时间序列描述的连接。这确保尚未丢失连接。因此，调节图意味着在观察的生物过程期间有时观察到潜在调节。

图5是潜在调节矩阵背后的原理的示意性表示。对于对转录因子(标记为TF1)进行编码的每个基因，已知TF1的靶基因。

该矩阵是根据涉及参考基因组的序列的基因集合中的基因的观察的生物过程的至少一个时间序列的实验数据来构建的。例如，在用于构建所获得的矩阵(S10)的实验数据集合中观察观察到的调节。

返回参照图1，在S10之后，提供(获得)神经网络S20。神经网络具有节点的输入层和节点的输出层。输入层和输出层具有用于表示参考基因组的序列的基因集合中的每个基因的等效节点。换句话说，输入层的节点数量等于输出层的节点数量。输入层的每个节点表示调节基因，并且输出层的每个节点表示被调节基因。获得了具有2个层的网络结构。网络结构可以是基于任何已知的神经网络的。

然后，在S30处，将连接添加到神经网络。连接将输入层的节点与输出层的一个或多个节点连接。从获得的潜在调节矩阵中提取添加的连接。因此，对于调节图的每对，创建从表示调节基因的层1中的节点到表示被调节基因的层2中的节点的链接。因此，所得的网络再现了潜在调节矩阵的所有连接。因此，神经网络的每个层中的节点数量取决于基因集合中的基因数量。例如，如果测量了200个基因的表达，则神经网络在每个层中具有相同数量的200个节点，而不会丢失信息。如果测量所有基因的表达，则所获得的神经网络考虑所有基因。二进制信息调节/无规则被转录为网络的两个节点(不属于同一层)之间的链接。

图6是作为S20和S30的结果获得的网络结构的图示。

接下来，对神经网络(在已经执行S30之后获得)进行训练S40。训练步骤包括改变神经网络的连接的权重和/或偏差。神经网络的训练可以迫使连接的权重与(训练)数据集一致。在S30之后获得的神经网络可以具有不具有权重的连接或具有相等权重的连接，并且其中，(训练)数据集提供训练样本/示例，每个样本/示例包括观察的生物过程的基因表达谱的时间序列。(训练)数据集可以包括以下项或者由以下项组成：观察的生物过程的基因表达谱的任何最终或中间结果或这种观察的生物过程的任何后处理。例如，(训练)数据集可以指示(即，直接或间接地表示)基因表达数据，诸如参考基因的列表和与每个基因相关联的相应表达水平，例如，以转录物每千碱基片段每百万映射读数或FPKM表示。(训练)数据集可以采用文本数据和/或从这样的文本数据推导出的数字数据(即，数字和/或数字向量)的形式。(训练)数据集可以包括观察的生物过程的一个或多个时间序列或者由其组成；每个时间序列被视为独立于其它时间序列。

因此，神经网络的训练仅用于通过调整连接的权重来细化网络的结构，使得所训练的网络的输出收敛到(训练)数据集的输出。因此，对训练的神经网络的每个连接进行加权。稀疏网络的训练类似于传统的神经网络训练，只是它没有完全连接。

在发现潜在调节基因时，不可能知道潜在调节是上调还是下调。在生物过程中，下调是细胞响应于外部刺激而减少细胞成分(诸如RNA或蛋白质)数量的过程。涉及此类成分的增加的补充过程被称为上调。网络训练通过模型研究(观察的生物过程)提供该信息。节点之间的链接的权重，考虑到正权重意味着上调，负权重意味着下调，以及权重“接近”0意味着不进行调节。

接下来，S50，如果训练神经网络的加权连接具有不重要的权重值，则将它们移除。换句话说，移除不进行调节的潜在调节除。可以在训练之后或者在执行训练时执行移除。当在训练之后执行时，算法解析所学习的网络的每个连接，并且移除具有低权重的连接。这里，低被定义为在实验误差的范围内的基因表达的修改。执行仅选择重要链接，以便移除向模型添加噪声并且使其不精确的链接。

在示例中，基于与从给定调节基因开始的连接相关联的预定权重值来执行所训练的神经网络的连接的移除。对于从给定调节基因开始的一个或多个(所有)连接，预定值可以是相同的。

在示例中，移除所训练的神经网络的连接可以包括执行对所训练的神经网络的每个连接的重要性的评估。对重要性的评估可以包括获得表示在实验误差范围内被调节基因的表达的修改的不重要性的门限的值。“实验误差”是指一个量的测量值或估计值与其真实值之间的差，并且是所有测量中固有的。例如，当观察的生物过程的时间序列中不涉及潜在调节基因时，可能发生实验错误。如果所训练的神经网络的连接的权重值小于在训练之后计算的不重要性的门限，则移除与被调节基因的连接。每个调节基因的实验误差是已知的(例如，质量分数归因于每个基因表达，并且质量分数越好，实验误差就越低)，并且可以计算权重对预测的影响。如果影响小于实验误差，则移除连接。

在训练之后，推断节点之间的链接(连接)上的每个权重，并且如果链接的权重指示可以在实验误差范围内考虑的调节，则移除调节基因与被调节基因之间的链接。在该过程S50结束时，获得具有较少链接的新结构(除非没有权重值指示在实验误差范围内考虑的调节)。

现在参照图2，讨论了本方法的实现的示例。实现的该示例组合了上文已经讨论和描述的方法的若干示例。

在实现的该示例中，提供了关于染色质可及性、转录因子结合基序、基因位置的图、基因表达谱集合(该集合是基因表达谱的时间序列)和参考基因组的序列的输入数据。

标记为A、B和C的步骤的目标是从染色质可及性数据(例如，DNAse-seq或ATAC-seq)中提取信息，以在所研究的生物过程中理解哪些基因可以调节哪些其它基因。

步骤A找到转录因子结合位点。如图3所示，TF与DNA结合以调节转录并且最终调节基因表达。为了找到转录因子结合的位置，三个外部软件工具用于执行峰调用、足印和基序匹配。这如先前所讨论地执行，并且输出步骤A是TF结合位点的列表，其可以被视为观察的生物过程中涉及的基因组的图以及所有潜在结合转录因子的位置和名称。

步骤B旨在理解哪个转录因子可以调节哪个基因。这是使用如先前讨论的步骤的输出和基因位置图来执行的。B的输出是每个发现的TF结合位点的潜在调节基因列表。

步骤C使用步骤B的潜在调节基因列表和基因位置图中的输入来找到潜在调节基因。C的输出是潜在调节基因列表

在步骤D处，步骤B和步骤C的信息被组合，如图5所示。D的输出是所谓的潜在调节矩阵。

在步骤E处，创建2层网络结构，对于每对调节图，该结构具有从表示调节基因的层1中的节点到表示被调节基因的层2中的节点的链接；图6示出了步骤E的结果。

最终，在步骤F处，使用传统的神经网络训练来训练在步骤E的输出中提供的2层网络结构。执行仅选择重要链接，以便移除向模型添加噪声并且使其不精确的链接。

仍然在步骤F中，通过提供该训练的模型基因表达的输入来预测未来基因表达，还使用具有较少链接的训练的模型来预测未来基因表达。根据本发明的示例的训练模型可以用于推断基因表达谱。提供输入数据，包括涉及参考基因组的序列的基因集合中的基因的观察的生物过程的时间序列的基因表达。所提供的输入在训练的神经网络上应用于输入数据以推断未来基因表达；这是如本领域已知地执行的。

所训练的模型也可以再次训练以供进一步使用。在第一示例中，生物学家经常使用被称为“敲除”的实验来理解如果一个或若干基因表达较少(或较多)会发生什么。这是一个非常昂贵的实验，并且生物学家仔细选择他们进行实验的基因。本发明允许在硅中进行。为了这样做，该算法采用了基因表达谱，人们想知道是什么影响了一个或多个基因的修改并且改变这些基因的表达。例如，可以将一个基因表达修改为其原始值的130％(意味着过度表达)并且将另一基因表达修改为其原始值的30％(抑制)。将修改的基因表达谱作为学习模型的输入给出，并且预测模拟给定修改的未来基因表达谱。

在第二示例中，对节点之间连接的权重的分析允许深入了解一个基因对另一基因的作用，例如，是上调还是下调它，或者什么都不做。

Claims

1.一种用于训练神经网络以推断基因表达谱的计算机实现的方法，所述方法包括：

-获得(S10)参考基因组的序列的基因集合中的基因之间的潜在调节矩阵，所述潜在调节矩阵描述调节基因和被调节基因之间的连接，调节基因对调节至少一个被调节基因的至少一个转录因子进行编码，连接表示在涉及所述参考基因组的序列的所述基因集合中的所述基因的观察的生物过程的至少一个时间序列中由所述调节基因对所述被调节基因的至少一个观察的调节；

-获得(S20)具有节点的输入层和节点的输出层的神经网络，所述输入层和所述输出层具有用于表示所述参考基因组的序列的所述基因集合中的每个基因的等效节点，所述输入层的每个节点表示调节基因，并且所述输出层的每个节点表示被调节基因；

-将从所述输入层的节点到所述输出层的节点的连接添加(S30)到所述神经网络，所添加的连接是从所获得的潜在规则矩阵中提取的；

-通过使用所述观察的生物过程的基因表达谱集合来训练(S40)所述神经网络，所训练的神经网络的每个连接被加权；以及

-移除(S50)所训练的神经网络的具有不重要权重值的连接。

2.根据权利要求1所述的计算机实现的方法，其中，所述移除所训练的神经网络的具有不重要权重的所述连接包括：针对所训练的神经网络中的每个连接，执行以下操作：

-获得表示在实验误差范围内所述被调节基因的表达的修改的不重要性门限的值；

-如果所述权重值小于所述不重要性门限，则移除与所述被调节基因的连接。

3.根据权利要求1到2中任一项所述的计算机实现的方法，其中，所获得的参考基因组的序列的基因集合中的基因之间的潜在调节矩阵已经通过以下方式计算：

-针对所述参考基因组的所述序列中的所述基因集合中的每个基因，识别一个或多个转录因子结合位点以及结合在所述一个或多个转录因子结合位点上的相应转录因子；

-针对每个识别的结合转录因子，进行以下操作：

-识别一个或多个潜在被调节基因；

-识别对所述结合转录因子进行编码的潜在调节基因；以及

-连接所述调节基因和所述一个或多个被调节基因。

4.根据权利要求3所述的计算机实现的方法，其中，所述识别一个或多个潜在被调节基因包括：

-根据所述参考基因组的所述序列的所述基因集合中的所述基因的基因位置图来确定一个或多个基因是否在所识别的结合转录因子周围的预定数量的碱基对的框架中；以及

-将在所识别的结合转录因子周围的预定数量的碱基对的所述框架中的所述一个或多个基因识别为潜在被调节基因。

5.根据权利要求4所述的计算机实现的方法，其中，所述预定数量的碱基对小于15000，优选小于10000。

6.根据权利要求3到5中任一项所述的计算机实现的方法，其中，针对所述参考基因组的所述序列中的所述基因集合中的每个基因，所述识别一个或多个转录因子结合位点包括：

-在所述参考基因组的所述序列的所述基因集合的染色质可及性数据上执行峰调用操作，从而识别峰；

-针对每个识别的峰识别一个或多个空洞，从而在所述参考基因组的所述序列的所述基因集合的所述染色质可及性数据上获得转录因子的过去存在的足迹；

-将所获得的足迹与已知转录因子的基序进行比较；以及

-作为所述比较的结果，识别哪个转录因子已经与每个足迹相结合。

7.根据权利要求3到6中任一项所述的计算机实现的方法，其中，所获得的参考基因组的序列的基因集合中的基因之间的潜在调节矩阵已经通过以下方式计算：

-针对所述观察的生物过程的每个时间序列获得潜在调节矩阵，从而获得潜在调节矩阵集合；以及

-合并所述潜在调节矩阵集合中的所述潜在调节矩阵。

8.根据权利要求7所述的计算机实现的方法，其中，针对所述观察的生物过程的每个时间序列描述的连接等同于针对所述观察的生物过程的所述时间序列中的一个时间序列描述的连接。

9.根据权利要求1到8中任一项所述的使用所训练的神经网络来推断基因表达谱的计算机实现的方法，包括：

10.根据权利要求1到8中任一项所述的用于获得潜在调节矩阵的计算机实现的方法。

11.一种数据结构，包括根据权利要求1到8中任一项所述的训练的神经网络、根据权利要求10形成的数据集、和/或包括用于执行根据权利要求1到8中任一项所述的方法、根据权利要求9所述的方法和/或根据权利要求10所述的方法的指令的计算机程序。

12.一种计算机可读存储介质，具有记录在其上的根据权利要求11所述的数据结构。

13.一种设备，包括具有记录在其上的根据权利要求11所述的数据结构的数据存储介质。