CN113178230A

CN113178230A - 三维基因组Hi-C数据中TAD嵌套结构检测方法及系统

Info

Publication number: CN113178230A
Application number: CN202110390522.7A
Authority: CN
Inventors: 吴昊; 艾兆恒; 董记华
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-07-27

Abstract

本公开提出了三维基因组Hi‑C数据中TAD嵌套结构检测方法及系统，包括：针对获取的低分辨率Hi‑C数据，进行双端测序并各自对比，根据对比结果进行合并并筛选有效配对后，用有效的配对构建接触矩阵；运用深度学习网络模型对低分辨率Hi‑C数据进行增强；利用原始低分辨率Hi‑C数据和增强后不同来源的Hi‑C数据，检测TAD嵌套结构。结合了数据增强和结构检测两部分功能，通过输入不同精度的Hi‑C实验数据，能够得到同样全面细致的TAD及其嵌套结构整体分析，在突破实验条件限制的同时降低了测序成本，提升了本方法可应用的范围。

Description

三维基因组Hi-C数据中TAD嵌套结构检测方法及系统

技术领域

本公开属于计算机数据处理技术领域，尤其涉及三维基因组Hi-C数据中TAD嵌套结构检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

基因与人类生命健康密切关联，人类日常生理活动离不开基因的表达与调控，缺陷或病变基因能够影响相关疾病进程，若能够提早发现基因问题进行预防和控制，才可以有效控制疾病的发展。因此，基因一直是各国学者研究的重要课题。随着时代发展，研究技术不断进步，利用计算机对生物学领域，尤其是基因相关的庞大数据进行统计、模拟和管理的计算生物学给生物研究拓宽了全新的视野。通过数据分析，能够让原本不可见的基因遗传信息变得可被研究；通过模拟数据和建立模型，也能够让对基因的设想转变为可验证的假设，不断加深研究者对基因的认识。

人类等真核生物的DNA不仅仅建立在一条线性链的基础上。DNA在细胞核内经过高度折叠和浓缩，使得染色质在空间上具有一定的复杂结构和构象。研究表明，这种结构和构象在基因表达和调控过程中起到了相当重要的作用。想要彻底了解基因表达、转录、修复等过程，有必要染色质在聚集方式、接触方式、空间分布以及动态结构等各个方面进行探查和了解，进一步加深对基因的认识。如何利用数据技术手段，在庞大的数据中精准确定病变基因，成为基因治疗的关键问题。

当前很多研究者尝试用不同的方法对染色质的三维结构进行重构、复现并试图了解染色质三维结构在空间结构方面对基因表达的各类影响，如荧光标记的原位杂交技术可以用来标记并研究染色质三维结构；染色质构象捕获，简称3C技术关注基因组中一对一位点的相互作用；4C技术在3C分析计数基础之上加入了一对多位点的相互作用研究分析；5C技术通过拷贝，增加3C技术中相互作用位点检测通量，实现了多对多位点的相互作用研究分析。可以看出，以上技术只针对部分位点，并不能对基因组当中所有位点进行整体相互作用的分析。基于3C技术原理发展的高通量染色体构象捕获Hi-C技术结合了高通量测序技术，研究并分析基因组所有位点之间相互作用关系，已成为研究染色体空间组织的有力工具，它测量整个基因组中所有成对相互作用频率。在过去的研究中，Hi-C技术发现了A/B室、拓扑关联域TAD、染色质环和频繁相互作用的区域FIREs等基因组模式，因此极大地扩展了对三维基因组组织和基因调控机制的了解。

基因组中被组织成自相互作用的染色质区域，称为拓扑相关域TAD。大量的TAD边界在多种细胞类型之间共享，并且在不同物种的细胞当中拥有相似的特征，具有很强的保守性。TAD边界的中断可能会影响附近基因的表达和突变，并可能导致多种疾病，是基因疾病产生发展过程当中一个重要的因素。哺乳动物基因组被折叠在一个TAD与子TAD嵌套的循环相互作用中。识别嵌套的、部分重叠的TAD和子TAD基因组范围可广泛应用以研究发育、遗传进化和疾病中的基因组重新配置，具有很高的实用价值，但获取高分辨率TAD数据以生物实验的手段实现较为困难。高分辨率Hi-C数据是涉及3D基因组构象和功能关系，将致病调控元素与其目标基因联系起来的宝贵资源。由于测序成本高，由于分辨率的线性增加需要成倍增加排序读取总数，大多数可用的Hi-C数据集的分辨率相对较低。这些低分辨率Hi-C数据集可用于检测如A/B室或TAD等规模较大基因组模式，但不能用于识别更精细的结构，例如TAD嵌套域或增强子-启动子交互模式的检测需要精度更高的数据。因此，迫切需要通过计算的方法提高Hi-C数据的分辨率，以检测基因组中更精细的结构。Hi-C数据分辨率高低直接影响下游分析的结果。测序深度是决定Hi-C数据分辨率的关键因素，深度越高，分辨率越高。Hi-C高分辨率数据加深对染色质三维结构的了解，检测TAD及子TAD嵌套结构这样精细的模型，高分辨率的Hi-C数据是不可或缺的。然而由于技术条件限制，高分辨率Hi-C数据量非常有限，想要进行更大规模的研究，将现有低分辨率数据通过计算的方式进行提高是必要的。

因此，本申请所主要解决的技术问题为：针对低分辨率Hi-C数据的染色体嵌套结构检测中，如何对低分辨率Hi-C数据进行数据增强以增加可用数据集，以及如何精准检测TAD结构。

发明内容

为克服上述现有技术的不足，本公开提供了三维基因组Hi-C数据中TAD嵌套结构检测方法，通过利用计算方法进行数据增强，增加可用数据集，精准检测TAD结构。

为实现上述目的，本公开的一个或多个实施例提供了如下技术方案：

第一方面，公开了三维基因组Hi-C数据中TAD嵌套结构检测方法，包括：

针对获取的低分辨率Hi-C数据，进行双端测序并各自对比，根据对比结果进行合并并筛选有效配对后，用有效的配对构建接触矩阵；

运用深度学习网络模型对低分辨率Hi-C数据进行增强；

利用原始低分辨率Hi-C数据和增强后不同来源的Hi-C数据，检测TAD嵌套结构。

进一步的技术方案，获取的低分辨率Hi-C数据首先进行统一规范化整理。

进一步的技术方案，所述深度学习网络模型包括：输入层、隐藏层及输出层；

所述输入层主要用于从输入中提取低分辨率Hi-C接触矩阵的特征和模式，以获得低分辨率样本与训练阶段高分辨率样本之间的关系，并预测生产阶段低分辨率样本的高分辨率样本，同时使用内部卷积来增加网络的非线性；

隐藏层附加的主要作用是裁剪输入Hi-C接触矩阵的大小，隐藏层中包括小卷积内核，满足裁剪矩阵需要；

输出层作通过使用从上一个网络中提取的功能来增强Hi-C数据的分辨率，并输出高分辨率Hi-C接触矩阵。

进一步的技术方案，所述高分辨率子矩阵合并到染色体大小Hi-C相互作用矩阵中。

进一步的技术方案，所述深度学习网络模型在训练时，给定训练目标及损失函数，迭代计算并使损耗函数参数值最小，此时损失函数中的映射函数即为实验当中所需求的关系。

进一步的技术方案，训练目标为

其中X_i和

分别对应低分辨率和相应的高分辨率Hi-C接触子矩阵，损失函数定义为

其中F表示X_i和

的映射函数，θ表示参数集。

第二方面，公开了三维基因组Hi-C数据中TAD嵌套结构检测系统，包括：

数据处理模块，被配置为：针对获取的低分辨率Hi-C数据，进行双端测序并各自对比，根据对比结果进行合并并筛选有效配对后，用有效的配对构建接触矩阵；

数据增强模块，被配置为：运用深度学习网络模型对低分辨率Hi-C数据进行增强；

检测模块，被配置为：利用原始低分辨率Hi-C数据和增强后不同来源的Hi-C数据，检测TAD嵌套结构。

以上一个或多个技术方案存在以下有益效果：

本公开结合了数据增强和结构检测两部分功能，通过输入不同精度的Hi-C实验数据，能够得到同样全面细致的TAD及其嵌套结构整体分析，在突破实验条件限制的同时降低了测序成本，提升了本方法可应用的范围，让在设备不先进、条件不完备的实验室中得出的数据能够具有同样的价值，具有广泛的应用前景。同时算法分析得出的TAD特征信息与人类疾病关系密切，通过计算的方法可以降低成本。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例不同采样率各方法遗传距离准确率比较示意图；

图2为本公开实施例采样率1/16各方法衡量指标比较示意图；

图3为本公开实施例TAD检测结果比较示意图；

图4为本公开实施例数据预处理流程图；

图5为本公开实施例HadCNN主要流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

三维基因组中被组织成自相互作用的染色质区域被称为拓扑相关域，简称为TAD，其边界的中断可能会影响附近基因的表达和突变，并可能导致多种疾病。哺乳动物基因组被折叠在一个TAD与子TAD嵌套的循环相互作用中。识别嵌套的、部分重叠的TAD和子TAD基因组范围可广泛应用于研究发育、遗传进化和疾病。

基于3C技术原理发展的高通量染色体构象捕获技术，简称Hi-C技术，结合了高通量测序技术，研究并分析基因组所有位点之间相互作用关系，已成为研究染色体空间组织的有力工具。

本公开技术方案基于现有TAD结构检测领域的最新进展，结合深度学习理论在生物信息交叉学科研究的方法，利用卷积神经网络在数据处理上精确性和泛用性的优势，通过对不同实验精度得到的生物数据进行数据分辨率增强，得到来源广泛、准确度高、可用性强的高精度Hi-C数据。同时利用分辨率提升后的高精度Hi-C数据进行TAD嵌套结构检测分析，不仅提升了检测精度，还得以检测出更加精细的嵌套结构。数据增强突破了生物实验环境限制，更多不同精度的数据得以充分利用，并进一步对TAD嵌套结构作全面细致的分析，深刻揭示其特征，进一步为揭示TAD结构与人类疾病的关系提供帮助。

实施例一

本实施例公开了三维基因组Hi-C数据中TAD嵌套结构检测方法，包括：

TAD嵌套结构检测：输入低分辨率Hi-C数据矩阵，通过数据增强得到对应高分辨率Hi-C数据，利用高分辨率Hi-C数据与CTCF峰值关系还原TAD边界，达到检测TAD嵌套结构的目的。

运用深度学习网络模型对低分辨率Hi-C数据进行增强；

上述先进行双端测序各自对比，然后进行合并，根据合并和结果筛选有效配对，具体为：

单端测序的质量会随着测序进行而下降，所以reads越往后越不准确；双端测序分别测两个方向上的片段，拼接起来们可以大大提高测序准确率；双端测序结果read1和read2具有相同的id，并且有重合的部分，在利用双端测序时需要对重合部分进行合并删除，保证数据的准确性。

之后，用有效的配对构建接触矩阵：

关于全基因组Hi-C数据在表示为矩阵Aij，其中aij表示读取对i与j之间的交互频率。

运用卷积神经网络对低分辨率Hi-C数据进行增强，提高其分辨率，通过提高低分辨率Hi-C数据，可以将检测Hi-C精密结构的可用数据大大增加，并且在本实验当中运用到TAD嵌套结构的检测之中。

在具体实施例子中，还包括：对Hi-C数据进行统一规范化整理：归一化：定义一个概率模型，计算两个片段末端之间的映射可能性；利用分布式计算来计算基因组每个潜在的接触事件的预期覆盖率，并通过将观察到的染色体间接触数除以预期接触数获得归一化的反接触图；将原始一维覆盖率除以模型预期的反接触数，作出归一化接触矩阵。

关于数据增强步骤：取高分辨率Hi-C数据，利用随机采样的方式得到对应低分辨率Hi-C数据；以两者数据进行训练，计算出高低分辨率Hi-C数据之间的映射关系；根据所得映射关系计算出待增强低分辨率Hi-C数据对应的增强Hi-C数据。

关于结构检测步骤：取高分辨率Hi-C数据创建相同分辨率接触矩阵；利用接触矩阵数据和CTCF峰值数据进行训练，计算出矩阵接触频率与CTCF峰值之间的映射关系；根据所得映射关系计算出增强后高分辨率Hi-C数据对应的CTCF峰值还原TAD边界。

利用原始和增强后不同来源的Hi-C数据，检测TAD嵌套结构，通过比较TAD检测结果，可进一步对比并且细致了解不同生物细胞当中TAD精密结构和相同和不同之处。

在数据预处理方面，主要使用来自GEOGSE63525的高分辨率Hi-C数据集，其提供了高分辨率Hi-C对端读取，这些读取映射到八种不同细胞类型的相应参考基因组。

本技术主要使用了四个Hi-C数据集，包括GM12878、GM12878的复制、K562和CH12-LX。这样可以使用GM12878复制的Hi-C数据来评估GM12878的增强型Hi-C数据，并使用GM12878和K562的Hi-C数据来测试实验的计算方法能否通过使用另一个细胞类型的Hi-C数据作为训练数据来有效增强一种细胞类型的Hi-C分辨率。真实高分辨率Hi-C接触矩阵通过计算与染色体相关的所有对端读取生成。

其中，统计与该染色体相关的读取对，生成接触矩阵。

染色体的低分辨率Hi-C接触矩阵通过确定较低的采样比率，并随机选择对端读取部分，配对端读取生成低分辨率Hi-C接触矩阵，参见附图4所示。

本技术利用深度学习的方法，可将低分辨率Hi-C接触矩阵增强为高分辨率Hi-C接触矩阵。模型输入大小为(n，1，40，40)的低分辨率子矩阵，具体的，将低分辨率Hi-C矩阵划分为n个大小相同的矩阵，每个矩阵为原矩阵的子矩阵，若原始低分辨率矩阵无法被既定大小的子矩阵整数划分，则子矩阵之间可以有重叠部分。

其中n表示子矩阵数，1表示输入来自单个通道，(40，40)是子矩阵的大小。实验将这些低分辨率子矩阵输入模型，并通过模型增强。给定训练目标为

其中X_i和

其中F表示X_i和

的映射函数，θ表示参数集。迭代计算并使损失函数参数值最小，此时的映射函数即为实验当中所需求的关系。

模型关于单个样本的预测值与真实值的差称为损失。损失越小，模型越好，如果预测值与真实值相等，就是没有损失。当损失函数参数值最小时，映射函数达到理论最佳训练效果。

用于计算损失的函数称为损失函数。模型每一次预测的好坏用损失函数来度量。

本技术中使用的深度学习网络模型，可以通过利用来源不同的原始高分辨率Hi-C数据训练获得。

主要分为三个部分，其中输入层主要用于从输入中提取低分辨率Hi-C接触矩阵的特征和模式，经过培训以了解低分辨率样本与训练阶段高分辨率样本之间的映射关系，并预测生产阶段低分辨率样本的高分辨率样本，

利用已经高低分辨率Hi-C数据之间的映射关系，可将待提升原始低分辨率Hi-C数据映射得到对应的高分辨率Hi-C数据；高分辨率Hi-C数据将利用于后续TAD嵌套结构检测。

同时使用内部卷积来增加网络的非线性。隐藏层附加的主要作用是裁剪输入Hi-C接触矩阵的大小，输出为(n，1，28，28)，隐藏层中包括四个小卷积内核，满足裁剪矩阵需要。输出层作为预测模块，通过使用从上一个网络中提取的功能来增强Hi-C数据的分辨率，并输出高分辨率Hi-C接触矩阵。预测的高分辨率子矩阵合并到染色体大小Hi-C相互作用矩阵中。由于样本具有在预测期间删除的周围填充区域的特性，因此在将Hi-C交互矩阵划分到输入层中的样本时，需要适当的重叠。

具体的，由于在划分子矩阵时可能有数据重复的部分，在合并子矩阵时需要参照之前的划分方法，将重复部分重叠。

利用生物实验手段获得高精度Hi-C数据成本高，费时长，而利用计算手段则可以解决这部分问题。近年来，深度学习在计算机视觉、自然语言处理等许多领域都取得了很大的成绩，在计算机视觉和自然语言处理方面取得了重大进展，同时根据来自动物视觉皮层组织的灵感启发，在包括计算表观基因组学也表现出了突出的作用。卷积神经网络CNN是一个前馈神经网络，本质上是一种输入和输出的映射，从特征检测层通过数据训练进行学习，只需要用已知的模式对卷积网络加以训练，网络就具有输入输出对之间的映射能力。CNN可以自动从大规模数据中学习特征，并把结果向同类型未知数据泛化，与本研究的任务和目的十分相符。在计算生物学和基因组学领域，CNN已成功实现预测DNA序列、DNA甲基化或基因表达模式的潜在功能。一些开创性的研究使用CNN从低分辨率Hi-C数据预测高分辨率Hi-C接触矩阵。Hi-C矩阵被视为单通道图像，可以简单地理解为灰度图片，并且可以使用单图像超分辨率SISR技术进行处理。增强后的Hi-C数据就可以进行充分利用，并且进行TAD嵌套结构等一系列需要高分辨率数据的精细结构。与现有的方法相比，我们使用的方法HadCNN准确率更高，在不同采样率之下均能够表现出相较优秀的结果，见图1所示。同时在各个方法准确率相对较高的1/16采样率之下，我们的HadCNN方法同样表现出更高的性能，见图2所示。在TAD检测方面，使用的卷积神经网络方法同样优于传统图论方式，见图3所示，从TAD检测可视化热图来看，HadCNN相较于传统方法，TAD结构轮廓更加清晰准确。

与现有方法相比，本公开利用GM12878、K562、CH12-LX等多个Hi-C数据集训练优化卷积层结构，使其在应用不同来源数据时表现出比其他方法更加高的准确性；同时将增强后的Hi-C数据直接用于对TAD嵌套结构的分析中，降低了使用难度，提高了方法的泛用性。

实施例二

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

实施例四

本实施例的目的是提供了三维基因组Hi-C数据中TAD嵌套结构检测系统，包括：

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本公开中的任一方法。

本领域技术人员应该明白，上述本公开的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的硬件和软件的结合。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.三维基因组Hi-C数据中TAD嵌套结构检测方法，其特征是，包括：

运用深度学习网络模型对低分辨率Hi-C数据进行增强；

2.如权利要求1所述的三维基因组Hi-C数据中TAD嵌套结构检测方法，其特征是，获取的低分辨率Hi-C数据首先进行统一规范化整理。

3.如权利要求1所述的三维基因组Hi-C数据中TAD嵌套结构检测方法，其特征是，所述深度学习网络模型包括：输入层、隐藏层及输出层；

4.如权利要求1所述的三维基因组Hi-C数据中TAD嵌套结构检测方法，其特征是，所述高分辨率子矩阵合并到染色体大小Hi-C相互作用矩阵中。

5.如权利要求1所述的三维基因组Hi-C数据中TAD嵌套结构检测方法，其特征是，所述深度学习网络模型在训练时，给定训练目标及损失函数，迭代计算并使损耗函数参数值最小，此时损失函数中的映射函数即为实验当中所需求的关系。

6.如权利要求1所述的三维基因组Hi-C数据中TAD嵌套结构检测方法，其特征是，训练目标为

其中X_i和

分别对应低分辨率和相应的高分辨率Hi-C接触子矩阵。

7.如权利要求6所述的三维基因组Hi-C数据中TAD嵌套结构检测方法，其特征是，损失函数定义为

其中F表示X_i和

的映射函数，θ表示参数集。

8.三维基因组Hi-C数据中TAD嵌套结构检测系统，其特征是，包括：

9.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时执行上述权利要求1-7任一所述的方法的步骤。