CN113178230A - 三维基因组Hi-C数据中TAD嵌套结构检测方法及系统 - Google Patents

三维基因组Hi-C数据中TAD嵌套结构检测方法及系统 Download PDF

Info

Publication number
CN113178230A
CN113178230A CN202110390522.7A CN202110390522A CN113178230A CN 113178230 A CN113178230 A CN 113178230A CN 202110390522 A CN202110390522 A CN 202110390522A CN 113178230 A CN113178230 A CN 113178230A
Authority
CN
China
Prior art keywords
data
resolution
tad
low
nested structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110390522.7A
Other languages
English (en)
Inventor
吴昊
艾兆恒
董记华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202110390522.7A priority Critical patent/CN113178230A/zh
Publication of CN113178230A publication Critical patent/CN113178230A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本公开提出了三维基因组Hi‑C数据中TAD嵌套结构检测方法及系统,包括:针对获取的低分辨率Hi‑C数据,进行双端测序并各自对比,根据对比结果进行合并并筛选有效配对后,用有效的配对构建接触矩阵;运用深度学习网络模型对低分辨率Hi‑C数据进行增强;利用原始低分辨率Hi‑C数据和增强后不同来源的Hi‑C数据,检测TAD嵌套结构。结合了数据增强和结构检测两部分功能,通过输入不同精度的Hi‑C实验数据,能够得到同样全面细致的TAD及其嵌套结构整体分析,在突破实验条件限制的同时降低了测序成本,提升了本方法可应用的范围。

Description

三维基因组Hi-C数据中TAD嵌套结构检测方法及系统
技术领域
本公开属于计算机数据处理技术领域,尤其涉及三维基因组Hi-C数据中TAD嵌套结构检测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
基因与人类生命健康密切关联,人类日常生理活动离不开基因的表达与调控,缺陷或病变基因能够影响相关疾病进程,若能够提早发现基因问题进行预防和控制,才可以有效控制疾病的发展。因此,基因一直是各国学者研究的重要课题。随着时代发展,研究技术不断进步,利用计算机对生物学领域,尤其是基因相关的庞大数据进行统计、模拟和管理的计算生物学给生物研究拓宽了全新的视野。通过数据分析,能够让原本不可见的基因遗传信息变得可被研究;通过模拟数据和建立模型,也能够让对基因的设想转变为可验证的假设,不断加深研究者对基因的认识。
人类等真核生物的DNA不仅仅建立在一条线性链的基础上。DNA在细胞核内经过高度折叠和浓缩,使得染色质在空间上具有一定的复杂结构和构象。研究表明,这种结构和构象在基因表达和调控过程中起到了相当重要的作用。想要彻底了解基因表达、转录、修复等过程,有必要染色质在聚集方式、接触方式、空间分布以及动态结构等各个方面进行探查和了解,进一步加深对基因的认识。如何利用数据技术手段,在庞大的数据中精准确定病变基因,成为基因治疗的关键问题。
当前很多研究者尝试用不同的方法对染色质的三维结构进行重构、复现并试图了解染色质三维结构在空间结构方面对基因表达的各类影响,如荧光标记的原位杂交技术可以用来标记并研究染色质三维结构;染色质构象捕获,简称3C技术关注基因组中一对一位点的相互作用;4C技术在3C分析计数基础之上加入了一对多位点的相互作用研究分析;5C技术通过拷贝,增加3C技术中相互作用位点检测通量,实现了多对多位点的相互作用研究分析。可以看出,以上技术只针对部分位点,并不能对基因组当中所有位点进行整体相互作用的分析。基于3C技术原理发展的高通量染色体构象捕获Hi-C技术结合了高通量测序技术,研究并分析基因组所有位点之间相互作用关系,已成为研究染色体空间组织的有力工具,它测量整个基因组中所有成对相互作用频率。在过去的研究中,Hi-C技术发现了A/B室、拓扑关联域TAD、染色质环和频繁相互作用的区域FIREs等基因组模式,因此极大地扩展了对三维基因组组织和基因调控机制的了解。
基因组中被组织成自相互作用的染色质区域,称为拓扑相关域TAD。大量的TAD边界在多种细胞类型之间共享,并且在不同物种的细胞当中拥有相似的特征,具有很强的保守性。TAD边界的中断可能会影响附近基因的表达和突变,并可能导致多种疾病,是基因疾病产生发展过程当中一个重要的因素。哺乳动物基因组被折叠在一个TAD与子TAD嵌套的循环相互作用中。识别嵌套的、部分重叠的TAD和子TAD基因组范围可广泛应用以研究发育、遗传进化和疾病中的基因组重新配置,具有很高的实用价值,但获取高分辨率TAD数据以生物实验的手段实现较为困难。高分辨率Hi-C数据是涉及3D基因组构象和功能关系,将致病调控元素与其目标基因联系起来的宝贵资源。由于测序成本高,由于分辨率的线性增加需要成倍增加排序读取总数,大多数可用的Hi-C数据集的分辨率相对较低。这些低分辨率Hi-C数据集可用于检测如A/B室或TAD等规模较大基因组模式,但不能用于识别更精细的结构,例如TAD嵌套域或增强子-启动子交互模式的检测需要精度更高的数据。因此,迫切需要通过计算的方法提高Hi-C数据的分辨率,以检测基因组中更精细的结构。Hi-C数据分辨率高低直接影响下游分析的结果。测序深度是决定Hi-C数据分辨率的关键因素,深度越高,分辨率越高。Hi-C高分辨率数据加深对染色质三维结构的了解,检测TAD及子TAD嵌套结构这样精细的模型,高分辨率的Hi-C数据是不可或缺的。然而由于技术条件限制,高分辨率Hi-C数据量非常有限,想要进行更大规模的研究,将现有低分辨率数据通过计算的方式进行提高是必要的。
因此,本申请所主要解决的技术问题为:针对低分辨率Hi-C数据的染色体嵌套结构检测中,如何对低分辨率Hi-C数据进行数据增强以增加可用数据集,以及如何精准检测TAD结构。
发明内容
为克服上述现有技术的不足,本公开提供了三维基因组Hi-C数据中TAD嵌套结构检测方法,通过利用计算方法进行数据增强,增加可用数据集,精准检测TAD结构。
为实现上述目的,本公开的一个或多个实施例提供了如下技术方案:
第一方面,公开了三维基因组Hi-C数据中TAD嵌套结构检测方法,包括:
针对获取的低分辨率Hi-C数据,进行双端测序并各自对比,根据对比结果进行合并并筛选有效配对后,用有效的配对构建接触矩阵;
运用深度学习网络模型对低分辨率Hi-C数据进行增强;
利用原始低分辨率Hi-C数据和增强后不同来源的Hi-C数据,检测TAD嵌套结构。
进一步的技术方案,获取的低分辨率Hi-C数据首先进行统一规范化整理。
进一步的技术方案,所述深度学习网络模型包括:输入层、隐藏层及输出层;
所述输入层主要用于从输入中提取低分辨率Hi-C接触矩阵的特征和模式,以获得低分辨率样本与训练阶段高分辨率样本之间的关系,并预测生产阶段低分辨率样本的高分辨率样本,同时使用内部卷积来增加网络的非线性;
隐藏层附加的主要作用是裁剪输入Hi-C接触矩阵的大小,隐藏层中包括小卷积内核,满足裁剪矩阵需要;
输出层作通过使用从上一个网络中提取的功能来增强Hi-C数据的分辨率,并输出高分辨率Hi-C接触矩阵。
进一步的技术方案,所述高分辨率子矩阵合并到染色体大小Hi-C相互作用矩阵中。
进一步的技术方案,所述深度学习网络模型在训练时,给定训练目标及损失函数,迭代计算并使损耗函数参数值最小,此时损失函数中的映射函数即为实验当中所需求的关系。
进一步的技术方案,训练目标为
Figure BDA0003016544210000041
其中Xi
Figure BDA0003016544210000042
分别对应低分辨率和相应的高分辨率Hi-C接触子矩阵,损失函数定义为
Figure BDA0003016544210000043
其中F表示Xi
Figure BDA0003016544210000044
的映射函数,θ表示参数集。
第二方面,公开了三维基因组Hi-C数据中TAD嵌套结构检测系统,包括:
数据处理模块,被配置为:针对获取的低分辨率Hi-C数据,进行双端测序并各自对比,根据对比结果进行合并并筛选有效配对后,用有效的配对构建接触矩阵;
数据增强模块,被配置为:运用深度学习网络模型对低分辨率Hi-C数据进行增强;
检测模块,被配置为:利用原始低分辨率Hi-C数据和增强后不同来源的Hi-C数据,检测TAD嵌套结构。
以上一个或多个技术方案存在以下有益效果:
本公开结合了数据增强和结构检测两部分功能,通过输入不同精度的Hi-C实验数据,能够得到同样全面细致的TAD及其嵌套结构整体分析,在突破实验条件限制的同时降低了测序成本,提升了本方法可应用的范围,让在设备不先进、条件不完备的实验室中得出的数据能够具有同样的价值,具有广泛的应用前景。同时算法分析得出的TAD特征信息与人类疾病关系密切,通过计算的方法可以降低成本。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例不同采样率各方法遗传距离准确率比较示意图;
图2为本公开实施例采样率1/16各方法衡量指标比较示意图;
图3为本公开实施例TAD检测结果比较示意图;
图4为本公开实施例数据预处理流程图;
图5为本公开实施例HadCNN主要流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
三维基因组中被组织成自相互作用的染色质区域被称为拓扑相关域,简称为TAD,其边界的中断可能会影响附近基因的表达和突变,并可能导致多种疾病。哺乳动物基因组被折叠在一个TAD与子TAD嵌套的循环相互作用中。识别嵌套的、部分重叠的TAD和子TAD基因组范围可广泛应用于研究发育、遗传进化和疾病。
基于3C技术原理发展的高通量染色体构象捕获技术,简称Hi-C技术,结合了高通量测序技术,研究并分析基因组所有位点之间相互作用关系,已成为研究染色体空间组织的有力工具。
本公开技术方案基于现有TAD结构检测领域的最新进展,结合深度学习理论在生物信息交叉学科研究的方法,利用卷积神经网络在数据处理上精确性和泛用性的优势,通过对不同实验精度得到的生物数据进行数据分辨率增强,得到来源广泛、准确度高、可用性强的高精度Hi-C数据。同时利用分辨率提升后的高精度Hi-C数据进行TAD嵌套结构检测分析,不仅提升了检测精度,还得以检测出更加精细的嵌套结构。数据增强突破了生物实验环境限制,更多不同精度的数据得以充分利用,并进一步对TAD嵌套结构作全面细致的分析,深刻揭示其特征,进一步为揭示TAD结构与人类疾病的关系提供帮助。
实施例一
本实施例公开了三维基因组Hi-C数据中TAD嵌套结构检测方法,包括:
TAD嵌套结构检测:输入低分辨率Hi-C数据矩阵,通过数据增强得到对应高分辨率Hi-C数据,利用高分辨率Hi-C数据与CTCF峰值关系还原TAD边界,达到检测TAD嵌套结构的目的。
针对获取的低分辨率Hi-C数据,进行双端测序并各自对比,根据对比结果进行合并并筛选有效配对后,用有效的配对构建接触矩阵;
运用深度学习网络模型对低分辨率Hi-C数据进行增强;
利用原始低分辨率Hi-C数据和增强后不同来源的Hi-C数据,检测TAD嵌套结构。
上述先进行双端测序各自对比,然后进行合并,根据合并和结果筛选有效配对,具体为:
单端测序的质量会随着测序进行而下降,所以reads越往后越不准确;双端测序分别测两个方向上的片段,拼接起来们可以大大提高测序准确率;双端测序结果read1和read2具有相同的id,并且有重合的部分,在利用双端测序时需要对重合部分进行合并删除,保证数据的准确性。
之后,用有效的配对构建接触矩阵:
关于全基因组Hi-C数据在表示为矩阵Aij,其中aij表示读取对i与j之间的交互频率。
运用卷积神经网络对低分辨率Hi-C数据进行增强,提高其分辨率,通过提高低分辨率Hi-C数据,可以将检测Hi-C精密结构的可用数据大大增加,并且在本实验当中运用到TAD嵌套结构的检测之中。
在具体实施例子中,还包括:对Hi-C数据进行统一规范化整理:归一化:定义一个概率模型,计算两个片段末端之间的映射可能性;利用分布式计算来计算基因组每个潜在的接触事件的预期覆盖率,并通过将观察到的染色体间接触数除以预期接触数获得归一化的反接触图;将原始一维覆盖率除以模型预期的反接触数,作出归一化接触矩阵。
关于数据增强步骤:取高分辨率Hi-C数据,利用随机采样的方式得到对应低分辨率Hi-C数据;以两者数据进行训练,计算出高低分辨率Hi-C数据之间的映射关系;根据所得映射关系计算出待增强低分辨率Hi-C数据对应的增强Hi-C数据。
关于结构检测步骤:取高分辨率Hi-C数据创建相同分辨率接触矩阵;利用接触矩阵数据和CTCF峰值数据进行训练,计算出矩阵接触频率与CTCF峰值之间的映射关系;根据所得映射关系计算出增强后高分辨率Hi-C数据对应的CTCF峰值还原TAD边界。
利用原始和增强后不同来源的Hi-C数据,检测TAD嵌套结构,通过比较TAD检测结果,可进一步对比并且细致了解不同生物细胞当中TAD精密结构和相同和不同之处。
在数据预处理方面,主要使用来自GEOGSE63525的高分辨率Hi-C数据集,其提供了高分辨率Hi-C对端读取,这些读取映射到八种不同细胞类型的相应参考基因组。
本技术主要使用了四个Hi-C数据集,包括GM12878、GM12878的复制、K562和CH12-LX。这样可以使用GM12878复制的Hi-C数据来评估GM12878的增强型Hi-C数据,并使用GM12878和K562的Hi-C数据来测试实验的计算方法能否通过使用另一个细胞类型的Hi-C数据作为训练数据来有效增强一种细胞类型的Hi-C分辨率。真实高分辨率Hi-C接触矩阵通过计算与染色体相关的所有对端读取生成。
其中,统计与该染色体相关的读取对,生成接触矩阵。
染色体的低分辨率Hi-C接触矩阵通过确定较低的采样比率,并随机选择对端读取部分,配对端读取生成低分辨率Hi-C接触矩阵,参见附图4所示。
本技术利用深度学习的方法,可将低分辨率Hi-C接触矩阵增强为高分辨率Hi-C接触矩阵。模型输入大小为(n,1,40,40)的低分辨率子矩阵,具体的,将低分辨率Hi-C矩阵划分为n个大小相同的矩阵,每个矩阵为原矩阵的子矩阵,若原始低分辨率矩阵无法被既定大小的子矩阵整数划分,则子矩阵之间可以有重叠部分。
其中n表示子矩阵数,1表示输入来自单个通道,(40,40)是子矩阵的大小。实验将这些低分辨率子矩阵输入模型,并通过模型增强。给定训练目标为
Figure BDA0003016544210000081
其中Xi
Figure BDA0003016544210000082
分别对应低分辨率和相应的高分辨率Hi-C接触子矩阵,损失函数定义为
Figure BDA0003016544210000083
其中F表示Xi
Figure BDA0003016544210000091
的映射函数,θ表示参数集。迭代计算并使损失函数参数值最小,此时的映射函数即为实验当中所需求的关系。
模型关于单个样本的预测值与真实值的差称为损失。损失越小,模型越好,如果预测值与真实值相等,就是没有损失。当损失函数参数值最小时,映射函数达到理论最佳训练效果。
用于计算损失的函数称为损失函数。模型每一次预测的好坏用损失函数来度量。
本技术中使用的深度学习网络模型,可以通过利用来源不同的原始高分辨率Hi-C数据训练获得。
主要分为三个部分,其中输入层主要用于从输入中提取低分辨率Hi-C接触矩阵的特征和模式,经过培训以了解低分辨率样本与训练阶段高分辨率样本之间的映射关系,并预测生产阶段低分辨率样本的高分辨率样本,
利用已经高低分辨率Hi-C数据之间的映射关系,可将待提升原始低分辨率Hi-C数据映射得到对应的高分辨率Hi-C数据;高分辨率Hi-C数据将利用于后续TAD嵌套结构检测。
同时使用内部卷积来增加网络的非线性。隐藏层附加的主要作用是裁剪输入Hi-C接触矩阵的大小,输出为(n,1,28,28),隐藏层中包括四个小卷积内核,满足裁剪矩阵需要。输出层作为预测模块,通过使用从上一个网络中提取的功能来增强Hi-C数据的分辨率,并输出高分辨率Hi-C接触矩阵。预测的高分辨率子矩阵合并到染色体大小Hi-C相互作用矩阵中。由于样本具有在预测期间删除的周围填充区域的特性,因此在将Hi-C交互矩阵划分到输入层中的样本时,需要适当的重叠。
具体的,由于在划分子矩阵时可能有数据重复的部分,在合并子矩阵时需要参照之前的划分方法,将重复部分重叠。
利用生物实验手段获得高精度Hi-C数据成本高,费时长,而利用计算手段则可以解决这部分问题。近年来,深度学习在计算机视觉、自然语言处理等许多领域都取得了很大的成绩,在计算机视觉和自然语言处理方面取得了重大进展,同时根据来自动物视觉皮层组织的灵感启发,在包括计算表观基因组学也表现出了突出的作用。卷积神经网络CNN是一个前馈神经网络,本质上是一种输入和输出的映射,从特征检测层通过数据训练进行学习,只需要用已知的模式对卷积网络加以训练,网络就具有输入输出对之间的映射能力。CNN可以自动从大规模数据中学习特征,并把结果向同类型未知数据泛化,与本研究的任务和目的十分相符。在计算生物学和基因组学领域,CNN已成功实现预测DNA序列、DNA甲基化或基因表达模式的潜在功能。一些开创性的研究使用CNN从低分辨率Hi-C数据预测高分辨率Hi-C接触矩阵。Hi-C矩阵被视为单通道图像,可以简单地理解为灰度图片,并且可以使用单图像超分辨率SISR技术进行处理。增强后的Hi-C数据就可以进行充分利用,并且进行TAD嵌套结构等一系列需要高分辨率数据的精细结构。与现有的方法相比,我们使用的方法HadCNN准确率更高,在不同采样率之下均能够表现出相较优秀的结果,见图1所示。同时在各个方法准确率相对较高的1/16采样率之下,我们的HadCNN方法同样表现出更高的性能,见图2所示。在TAD检测方面,使用的卷积神经网络方法同样优于传统图论方式,见图3所示,从TAD检测可视化热图来看,HadCNN相较于传统方法,TAD结构轮廓更加清晰准确。
与现有方法相比,本公开利用GM12878、K562、CH12-LX等多个Hi-C数据集训练优化卷积层结构,使其在应用不同来源数据时表现出比其他方法更加高的准确性;同时将增强后的Hi-C数据直接用于对TAD嵌套结构的分析中,降低了使用难度,提高了方法的泛用性。
实施例二
本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述方法的步骤。
实施例四
本实施例的目的是提供了三维基因组Hi-C数据中TAD嵌套结构检测系统,包括:
数据处理模块,被配置为:针对获取的低分辨率Hi-C数据,进行双端测序并各自对比,根据对比结果进行合并并筛选有效配对后,用有效的配对构建接触矩阵;
数据增强模块,被配置为:运用深度学习网络模型对低分辨率Hi-C数据进行增强;
检测模块,被配置为:利用原始低分辨率Hi-C数据和增强后不同来源的Hi-C数据,检测TAD嵌套结构。
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本公开中的任一方法。
本领域技术人员应该明白,上述本公开的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的硬件和软件的结合。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (10)

1.三维基因组Hi-C数据中TAD嵌套结构检测方法,其特征是,包括:
针对获取的低分辨率Hi-C数据,进行双端测序并各自对比,根据对比结果进行合并并筛选有效配对后,用有效的配对构建接触矩阵;
运用深度学习网络模型对低分辨率Hi-C数据进行增强;
利用原始低分辨率Hi-C数据和增强后不同来源的Hi-C数据,检测TAD嵌套结构。
2.如权利要求1所述的三维基因组Hi-C数据中TAD嵌套结构检测方法,其特征是,获取的低分辨率Hi-C数据首先进行统一规范化整理。
3.如权利要求1所述的三维基因组Hi-C数据中TAD嵌套结构检测方法,其特征是,所述深度学习网络模型包括:输入层、隐藏层及输出层;
所述输入层主要用于从输入中提取低分辨率Hi-C接触矩阵的特征和模式,以获得低分辨率样本与训练阶段高分辨率样本之间的关系,并预测生产阶段低分辨率样本的高分辨率样本,同时使用内部卷积来增加网络的非线性;
隐藏层附加的主要作用是裁剪输入Hi-C接触矩阵的大小,隐藏层中包括小卷积内核,满足裁剪矩阵需要;
输出层作通过使用从上一个网络中提取的功能来增强Hi-C数据的分辨率,并输出高分辨率Hi-C接触矩阵。
4.如权利要求1所述的三维基因组Hi-C数据中TAD嵌套结构检测方法,其特征是,所述高分辨率子矩阵合并到染色体大小Hi-C相互作用矩阵中。
5.如权利要求1所述的三维基因组Hi-C数据中TAD嵌套结构检测方法,其特征是,所述深度学习网络模型在训练时,给定训练目标及损失函数,迭代计算并使损耗函数参数值最小,此时损失函数中的映射函数即为实验当中所需求的关系。
6.如权利要求1所述的三维基因组Hi-C数据中TAD嵌套结构检测方法,其特征是,训练目标为
Figure FDA0003016544200000021
其中Xi
Figure FDA0003016544200000022
分别对应低分辨率和相应的高分辨率Hi-C接触子矩阵。
7.如权利要求6所述的三维基因组Hi-C数据中TAD嵌套结构检测方法,其特征是,损失函数定义为
Figure FDA0003016544200000023
其中F表示Xi
Figure FDA0003016544200000024
的映射函数,θ表示参数集。
8.三维基因组Hi-C数据中TAD嵌套结构检测系统,其特征是,包括:
数据处理模块,被配置为:针对获取的低分辨率Hi-C数据,进行双端测序并各自对比,根据对比结果进行合并并筛选有效配对后,用有效的配对构建接触矩阵;
数据增强模块,被配置为:运用深度学习网络模型对低分辨率Hi-C数据进行增强;
检测模块,被配置为:利用原始低分辨率Hi-C数据和增强后不同来源的Hi-C数据,检测TAD嵌套结构。
9.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时执行上述权利要求1-7任一所述的方法的步骤。
CN202110390522.7A 2021-04-12 2021-04-12 三维基因组Hi-C数据中TAD嵌套结构检测方法及系统 Pending CN113178230A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110390522.7A CN113178230A (zh) 2021-04-12 2021-04-12 三维基因组Hi-C数据中TAD嵌套结构检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110390522.7A CN113178230A (zh) 2021-04-12 2021-04-12 三维基因组Hi-C数据中TAD嵌套结构检测方法及系统

Publications (1)

Publication Number Publication Date
CN113178230A true CN113178230A (zh) 2021-07-27

Family

ID=76924844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110390522.7A Pending CN113178230A (zh) 2021-04-12 2021-04-12 三维基因组Hi-C数据中TAD嵌套结构检测方法及系统

Country Status (1)

Country Link
CN (1) CN113178230A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808661A (zh) * 2021-09-18 2021-12-17 山东财经大学 染色体三维结构重建方法及装置
WO2023092303A1 (en) * 2021-11-23 2023-06-01 Chromatintech Beijing Co, Ltd Method for generating an enhanced hi-c matrix, non-transitory computer readable medium storing a program for generating an enhanced hi-c matrix, method for identifying a structural chromatin aberration in an enhanced hi-c matrix

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647492A (zh) * 2018-05-02 2018-10-12 中国人民解放军军事科学院军事医学研究院 一种染色质拓扑相关结构域的表征方法及装置
US20190295684A1 (en) * 2018-03-22 2019-09-26 The Regents Of The University Of Michigan Method and apparatus for analysis of chromatin interaction data
CN111223043A (zh) * 2019-10-28 2020-06-02 清华大学 Hi-C数据分辨率增强方法、系统、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190295684A1 (en) * 2018-03-22 2019-09-26 The Regents Of The University Of Michigan Method and apparatus for analysis of chromatin interaction data
CN108647492A (zh) * 2018-05-02 2018-10-12 中国人民解放军军事科学院军事医学研究院 一种染色质拓扑相关结构域的表征方法及装置
CN111223043A (zh) * 2019-10-28 2020-06-02 清华大学 Hi-C数据分辨率增强方法、系统、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAIYAN GONG ET AL.: "Application of Hi-C and other omics data analysis in human cancer and cell differentiation research", 《COMPUTATIONAL AND STRUCTURAL BIOTECHNOLOGY JOURNAL》 *
YAN ZHANG ET AL.: "Enhancing Hi-C data resolution with deep convolutional neural network HiCPlus", 《NATURE COMMUNICATIONS》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808661A (zh) * 2021-09-18 2021-12-17 山东财经大学 染色体三维结构重建方法及装置
CN113808661B (zh) * 2021-09-18 2022-06-10 山东财经大学 染色体三维结构重建方法及装置
WO2023092303A1 (en) * 2021-11-23 2023-06-01 Chromatintech Beijing Co, Ltd Method for generating an enhanced hi-c matrix, non-transitory computer readable medium storing a program for generating an enhanced hi-c matrix, method for identifying a structural chromatin aberration in an enhanced hi-c matrix
CN116583905A (zh) * 2021-11-23 2023-08-11 染色质(北京)科技有限公司 生成增强Hi-C矩阵的方法、识别增强Hi-C矩阵中结构染色质像差的方法及可读介质
CN116583905B (zh) * 2021-11-23 2024-05-10 染色质(北京)科技有限公司 生成增强Hi-C矩阵的方法、识别增强Hi-C矩阵中结构染色质像差的方法及可读介质

Similar Documents

Publication Publication Date Title
AU2017338775B2 (en) Phenotype/disease specific gene ranking using curated, gene library and network based data structures
Fan et al. An assembly and alignment-free method of phylogeny reconstruction from next-generation sequencing data
Can Introduction to bioinformatics
Raza Application of data mining in bioinformatics
Eftimov et al. A novel statistical approach for comparing meta-heuristic stochastic optimization algorithms according to the distribution of solutions in the search space
US20070208516A1 (en) Random forest modeling of cellular phenotypes
Hesami et al. Machine learning: its challenges and opportunities in plant system biology
CN113178230A (zh) 三维基因组Hi-C数据中TAD嵌套结构检测方法及系统
Ghadiri et al. BigFCM: Fast, precise and scalable FCM on hadoop
Highsmith et al. VEHiCLE: a variationally encoded Hi-C loss enhancement algorithm for improving and generating Hi-C data
Rocke et al. Controlling false positive rates in methods for differential gene expression analysis using RNA-seq data
Erfanian et al. Deep learning applications in single-cell omics data analysis
Vodopija et al. Characterization of constrained continuous multiobjective optimization problems: A feature space perspective
Wang et al. Reconstruct high-resolution 3D genome structures for diverse cell-types using FLAMINGO
Zhang et al. Deconvolution algorithms for inference of the cell-type composition of the spatial transcriptome
González-Álvarez et al. Comparing multiobjective swarm intelligence metaheuristics for DNA motif discovery
Zhou et al. IRIS: a method for predicting in vivo RNA secondary structures using PARIS data
Kavran et al. Denoising large-scale biological data using network filters
Koo et al. Interpreting deep neural networks beyond attribution methods: quantifying global importance of genomic features
Zhen et al. A novel framework for single-cell hi-c clustering based on graph-convolution-based imputation and two-phase-based feature extraction
Einipour et al. EinImpute: a local and gene-based approach to imputation of dropout events in ScRNA-seq data
Yuan et al. Simultaneous clustering and variable selection: A novel algorithm and model selection procedure
Lin et al. Atlas-scale single-cell multi-sample multi-condition data integration using scMerge2
Zhu et al. Collaborative completion of transcription factor binding profiles via local sensitive unified embedding
Du et al. Gene Co-expression network analysis and linking modules to phenotyping response in plants

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210727