CN113946730B - 一种基于基因数据的染色质层次结构分析的可视化方法 - Google Patents

一种基于基因数据的染色质层次结构分析的可视化方法 Download PDF

Info

Publication number
CN113946730B
CN113946730B CN202111217034.2A CN202111217034A CN113946730B CN 113946730 B CN113946730 B CN 113946730B CN 202111217034 A CN202111217034 A CN 202111217034A CN 113946730 B CN113946730 B CN 113946730B
Authority
CN
China
Prior art keywords
data
gene
chromatin
mapping
view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111217034.2A
Other languages
English (en)
Other versions
CN113946730A (zh
Inventor
朱敏
陈富秋
龙春林
周怡
王心翌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202111217034.2A priority Critical patent/CN113946730B/zh
Publication of CN113946730A publication Critical patent/CN113946730A/zh
Application granted granted Critical
Publication of CN113946730B publication Critical patent/CN113946730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于基因数据的染色质层次结构分析的可视化方法,从公开数据库采集Hi‑C交互频次数据、富集信息注释数据、基因‑疾病关联数据,复现算法得到染色质TAD边界预测数据和染色质三维空间结构位点数据;设计Hi‑C交互频次数据可视化映射、蛋白质富集信息可视化映射、染色质三维结构可视化映射和基因‑疾病关联网络可视化映射;结合多视图的联动与交互手段,基于可视化映射实现Hi‑C热力视图、蛋白质富集视图、染色质三维空间结构视图、基因‑疾病关联视图的可视化布局。本发明能够为用户提供人类染色质特定空间结构层次的可视化视图,提高用户对基因数据的深入认知与理解。

Description

一种基于基因数据的染色质层次结构分析的可视化方法
技术领域
本发明涉及信息可视化与可视分析领域,具体是一种基于基因数据的染色质层次结构分析的可视化方法。
背景技术
DNA、RNA等生物大分子共同构成了生物体基因组。人类基因组DNA大小在3G左右,其DNA序列的线性展开长度可达2m左右,而存储DNA序列的细胞核,其直径仅有10um。这意味着,人类基因组DNA并不是以线性状态直接存在于细胞核,而是通过高度折叠,借助特定高级空间构象的染色质结构存在。
随着三维基因组学的发展,研究人员借助高通量染色体构象捕获技术(High-through chromosome conformation capture,Hi-C)获取的染色质交互频次数据,为染色质空间层次结构的分析与探索提供了研究基础。这些层次结构在不同的空间尺度上跨越Mb级到Kb级不等,包括:染色体疆域(Chromosome Territory,CT)、染色质区室(ChromatinCompartment A/B)、拓扑关联结构域(Topological Associated Domain,TAD)、染色质环(Chromatin Loop,CL)。深入挖掘人类三维基因组的空间结构特征,有助于辅助研究人员掌握人体基因表达与调控机制,进而揭示与疾病相关的特殊基因,最终为疾病预防、疾病诊疗以及生物医学领域提供新的方法和思路。
为理解染色质层次结构与基因表达的关联关系,有效的研究手段之一就是引入数据可视化与可视分析,帮助研究人员更好地推理染色质不同层次结构中数据的关联性。数据可视化方法引入人的智能,融合人在数据认知中的创造性与灵活性,确保数据挖掘的有效性。与此同时,数据可视化允许人类直接与数据交互,更深入地认识数据并快速得出结论,在减轻数据分析人员认知负担的同时,能建立对信息更直观的认识。不同于传统机器学习的数据挖掘技术,基于可视分析的数据刻画是最直观的,用户无需理解繁琐的数学公式或复杂的统计算法,从而降低了用户的学习成本,也提高了数据探索的可解释性和可信度。
三维基因组学对可视化手段的引入提高了专业人士对数据的分析能力。染色质三维空间结构方面,研究人员开发基于浏览器的交互式染色质可视化工具,在构建染色质三维空间模型的基础上,允许用户在三维空间模型上叠加基因注释、基因表达数据和基因组甲基化数据,但对于生物背景知识相对薄弱的用户,其操作难度较大,理解效果较差。
根据上述研究背景可以总结出目前针对染色质层次结构分析的研究仍有以下不足:
1)三维基因组数据体量大、结构多源,传统的数据处理和模型构建难以从关系复杂的实验数据集中提取关键特征,辅助研究人员对染色质各层级结构的深入探索。
2)采用可视化与可视分析方法的研究较少,已有的三维基因组可视分析平台分析功能和可视化视图较为单一,仅以染色质的某一层级结构作为研究对象,无法全面分析染色质各层次结构。
3)现有的三维基因组可视分析系统不曾考虑对用户使用的友好性,对于缺乏专业知识背景的用户来说,分析效果不够直观,平台操作的复杂性、多样性会极大降低用户的使用效率和体验感,无法帮助用户最大化地理解数据背后的隐藏信息。
发明内容
本发明所要解决的技术问题是提供一种基于基因数据的染色质层次结构分析的可视化方法,为用户提供人类染色质特定空间结构层次的可视化视图,提高用户对基因数据的深入认知与理解。技术方案如下:
一种基于基因数据的染色质层次结构分析的可视化方法,包括以下步骤:
S1:数据采集
获取基因数据和相关生物文献数据,包括:Hi-C交互频次数据、富集信息注释数据和基因-疾病关联数据;
S2:数据处理和存储
对步骤S1中采集的数据进行处理,针对原始的Hi-C交互频次数据,通过Hic-Pro数据处理软件将其转化为可视化的交互频次矩阵,该矩阵的行与列表示划分的染色体片段,行列交叉处的数据表示两条片段之间的交互频次;基于上述矩阵数据,复现TopDom和Cluster TAD算法,获得每条染色体上的TAD边界预测数据;复现miniMDS算法,获得染色质三维空间结构预测数据;最后,将结构化数据进行存储;
S3:可视化映射
通过视觉通道将步骤S2中处理后的数据进行可视化映射:
设计Hi-C交互频次数据可视化映射,用热力图表征染色质内部的交互情况,使用颜色对交互频次高低的数值进行可视化编码,构成Hi-C热力视图可视化映射;
设计蛋白质富集信息可视化映射,用折线图的折线类型和坐标轴数值表示染色体片段上的蛋白质种类及其富集信息,构成蛋白质富集视图可视化映射;
设计染色质三维结构可视化映射,用三维坐标系散点图表示染色质结构投影在三维空间中的坐标位置,呈现整体和局部视角下的三维空间结构,构成染色质三维空间结构视图可视化映射;
设计基因-疾病关联网络可视化映射,对基因类型、疾病类型、关联程度进行可视化编码,表示基因-疾病、疾病-疾病的相互作用关系,构成基因-疾病关联视图可视化映射;
S4:可视化布局
将步骤S3定义好的映射规则进行具体的可视化布局及绘制实现:
对于Hi-C热力视图,根据输入的染色体编号、染色体起始位置与结束位置、实验分辨率,计算热力图横纵坐标的区间范围并绑定至坐标轴数据项中;定义颜色映射条,将交互频次数据利用矩阵颜色进行表征;
对于蛋白质富集视图,遍历数据列表利用折线将各位点的蛋白质含量绘制在折线图中;
对于染色质三维空间结构视图,将位点信息映射到三维坐标系中,并利用不同颜色呈现染色质形态的整体与局部视角;
对于基因-疾病关联视图,采用关联网络布局,将基因类型、疾病类型、关联种类、关联程度利用颜色、形状、大小等视觉通道绘制在视图中。
进一步的,在步骤S1中,数据采集具体为:
S11:从公开数据库Gene Expression Omnibus下载人体细胞株GM12878的染色质内交互频次数据,包含多个实验分辨率下的不同数据;
S12:从ENCODE数据库中下载人体细胞株GM12878的染色体序列数据,包含8种蛋白质的含量信息;
S13:从HMDD基因疾病关联数据库,选取两类关联数据:miRNA-疾病关联数据和疾病-疾病关联数据。
更进一步的,在步骤S3中,所述Hi-C热力视图可视化映射具体为:
染色体片段:使用热力图横轴和纵轴的区间位置坐标编码同一条染色体在不同实验分辨率划分的片段;
染色体交互频次:用热力图纵横交叉处的方形矩阵编码不同位点片段的相互作用频次,用矩阵的填充颜色编码交互频次的高低情况,用颜色的渐变区间表征频次数据的变化范围,用颜色映射条表征颜色编码含义,同时将颜色渐变区间映射为数值区间。
更进一步的,在步骤S3中,所述蛋白质富集视图可视化映射具体为:
染色体片段:使用横轴的区间位置坐标映射同一条染色体上的不同位点片段,与热力图中的横轴坐标的划分范围相一致;
蛋白质含量:使用纵轴数值映射不同位点处的蛋白质富集程度;
蛋白质类型:使用不同颜色的折线表示8种蛋白质类型,且折线图纵坐标轴越往上,表示富集程度越大。
更进一步的,在步骤S3中,所述染色质三维空间结构视图可视化映射具体为:
染色质三维结构:使用3D图X、Y、Z坐标轴的坐标位置映射染色质在三维空间结构中的相对位点信息;
染色质形态:使用颜色的亮暗来体现染色质的整体与局部形态;且三维视图附上具体基因片段中的所有基因信息,包括基因名称、起始位置和结束位置。
更进一步的,在步骤S3中,所述基因-疾病关联视图可视化映射具体为:
基因、疾病:使用节点形状映射基因和疾病,使用节点颜色映射基因和疾病类型;
关联关系:使用连线表示基因-疾病、疾病-疾病关联关系,使用连线类型映射基因对疾病的作用类型,使用连线的长度表征两者的关联大小。
更进一步的,在步骤S4中,所述Hi-C热力视图可视化布局与实现的具体过程如下:
步骤a1:获取用户选择查看的染色体编号、染色体片段的起始位置start、染色体片段的结束位置end、实验分辨率resolution;计算染色体片段的长度属性length:
Figure BDA0003311149570000061
步骤a2:根据染色体片段信息的实际位置和实验分辨率计算热力图坐标轴对应区间范围Hicstart和Hicend
Figure BDA0003311149570000062
Figure BDA0003311149570000063
步骤a3:根据坐标轴区间范围的计算结果获取对应二维矩阵数据,并读取热力图的横、纵轴数据以及矩阵维度大小;
步骤a4:绑定热力图横、纵轴数据项,获取交互频次二维矩阵数据,利用颜色线性映射交互频次数据,绘制矩形方块形成热力图。
更进一步的,在步骤S4中,所述蛋白质富集视图可视化布局实现的具体过程如下:
步骤b1:绑定折线图的横轴坐标数据,获取列表数组用于存放染色体对应区间位点的8种蛋白质含量;
步骤b2:遍历列表数组,并绑定至纵轴坐标的数据项,使用8种不同颜色映射不同类型的蛋白质;
步骤b3:设定视图缩放控件slider的各项属性,结合横纵轴坐标数据,将折线绘制在视图中,并将固定位点的蛋白质含量以小圆圈的形式突出表示。
更进一步的,在步骤S4中,所述染色质三维空间结构视图可视化布局与实现的具体过程如下:
步骤c1:获取用户选择查看的染色体编号、染色体片段的起始位置、染色体片段的结束位置、实验分辨率;计算染色体片段的长度属性;
步骤c2:根据染色体片段的实际位置和实验分辨率获取原始的位点列表数据,遍历原始列表数据,得到后续需要绘制的数据源;
步骤c3:将数据源绑定至X、Y、Z坐标轴上,将三维结构的整体与局部视图映射为相应颜色;结合三维坐标轴数据,将3D散点图绘制在视图中。
更进一步的,在步骤S4中,所述基因-疾病关联视图可视化布局与实现的具体过程如下:
步骤d1:采用力导向布局绘制关联网络,指定绘图数据源为基因-疾病关联数据项;
步骤d2:分别设定关联网络中各条关联数据的节点属性和连线属性;
步骤d3:设定力导向图节点间的斥力,并指定力导向图拖曳属性为可拖动,将可拖拽的节点链接图绘制在视图中。
与现有技术相比,本发明的有益效果是:
1)针对采用可视化与可视分析方法的研究较少,已有的三维基因组可视分析平台分析功能和可视化视图较为单一,仅以染色质的某一层级结构作为研究对象,无法全面分析染色质各层次结构等缺点,本发明通过有效的可视分析方法,构建简洁明了的可视化视图,实现了染色质三维结构的层次化分析,一定程度上提高了分析的有效性和实用性。
2)针对现有三维基因组可视分析系统操作复杂、对用户知识背景要求高等缺点,本发明基于公开数据集,以人类基因数据为例,通过多类视图展示实验数据中的关键特征,并结合视图交互与多视图联动等手段,使用户便捷高效地认识人类染色质特定空间结构层次。系统操作简单,用户学习成本低,能有效提高用户对人类基因数据的深入认知与理解。
附图说明
图1为本发明基于基因数据的染色质层次结构分析的可视化方法框架。
图2为本发明中Hi-C热力视图示意图。
图3为蛋白质富集视图示意图。
图4为染色质三维空间结构视图示意图;(a)为X、Y、Z坐标轴的坐标位置映射;(b)基因片段中的基因信息。
图5为基因-疾病关联视图示意图;(a)为miRNA-疾病关联网络;(b)疾病-疾病关联网络。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细说明。
本发明通过有效的信息可视化方法,结合多视图联动策略以及灵活的交互手段,实现染色质层次结构分析的可视化方法,包括:数据采集、数据处理与存储、可视化映射、可视化布局与实现、交互与联动。本发明基于基因数据的染色质层次结构分析的可视化方法框架如图1所示,具体步骤如下:
一、数据采集
根据各公开数据库,包括:GEO、ENCODE、HMDD、Ensemble和PubMed,筛选有用信息,获取本发明使用的基因数据和相关生物文献数据。
Hi-C交互频次数据:从GEO数据库下载的GSE6325_GM12878_combined_interchromosomal_contact_matrices.tar.gz是面向人体细胞株GM12878的染色质内交互频次数据。基于Hi-C技术分别从9种实验分辨率分析了染色体内各位点间的交互频次,包括:1Kb、5Kb、10Kb、25Kb、50Kb、100Kb、250Kb、500Kb和1Mb。
富集信息注释数据:从ENCODE数据库中下载面向人体细胞株GM12878的染色体序列数据,涉及8种蛋白质的富集信息,包括:CTCF、H3K4me1、H3K4me2、H3K4me3、H3K9ac、H3K9me3、H3K37ac和H3K79me2。
基因-疾病关联数据:从HMDD基因疾病关联数据库,以人类常见疾病作为研究对象,选取两类关联数据:1)疾病-疾病关联数据;2)miRNA-疾病关联数据。从数据库中选择6类人类常见疾病构建基因-疾病关联网络,包括:哮喘、肺癌、胰腺癌、白血病、糖尿病和老年痴呆。
二、数据处理与存储
1、数据处理:
针对原始的Hi-C实验数据,需要通过Hic-Pro数据处理软件将其转化为可视化的交互频次矩阵,最后的文件处理结果为22个npz文件,包含了人体B淋巴细胞株GM12878中22条染色体的交互频次情况。以实验分辨率50Kb为例,文件50Kb_chr1.npz记录了1号常染色体内部,以50Kb作为长度单位统计的交互频次情况。该矩阵的行与列表示划分的染色体片段,行列交叉处的数据表示两条片段之间的交互频次。
复现TopDom和Cluster TAD算法,输入为处理后的人体B淋巴细胞株GM12878的交互频次矩阵(分辨率为50Kb),输出结果为22条染色体上的TAD边界预测结果。复现miniMDS算法,输入为人体B淋巴细胞株GM12878的交互频次矩阵(分辨率为25Kb),输出结果为染色质的三维空间结构预测信息。
2、数据存储:
数据处理过程中得到的TAD边界预测结果存入MySQL数据库,其包含的字段信息包括:染色体片段id(ID)、TAD所属染色体(Chromosome)、TAD在染色序列上的起始位置(Start)、TAD在染色体序列上的结束位置(End)、所使用的预测方法(Method)、输入的Hi-C矩阵分辨率(Resolution)。针对染色体上不同TAD区域,检测不同的基因片段,获取该片段上基因的详细信息转换为结构化数据,存入MySQL数据库,其包含的字段信息包括:基因名称(gene_name)、基因所在染色体(gene_chromosome)、开始位点(gene_start)、结束位点(gene_end)。
染色质三维空间结构预测将染色质的一维序列位点位置信息映射为三维空间坐标值(X、Y、Z),结果以tsv文件格式进行存储,共包含4列信息,包括:一维序列位点(第一列)、三维坐标X值(第二列)、三维坐标Y值(第三列)、三维坐标Z值(第四列)。
基因-疾病关联数据以JSON数据格式存储在本地服务器中,其存储内容包括:基因(疾病)名称、基因(疾病)ID、疾病类型、基因表达类型(上调、下调)、关联权重。
三、可视化映射
1、Hi-C热力视图可视化映射
为了展示染色质内部的交互频次情况,根据边界信息辨别TAD区域,本发明针对反映交互频次的Hi-C数据,设计并实现了一个热力图。热力图使结构复杂的Hi-C数据一目了然,并通过颜色梯度反映各位点交互频次高低。
如图2所示,Hi-C热力视图使用横轴和纵轴的区间位置坐标编码同一条染色体上根据不同实验分辨率划分的片段。热力图中纵横交叉处的方形矩阵编码了不同位点片段的相互作用频次,矩阵的填充颜色编码了交互频次的高低情况。使用颜色的渐变区间表征频次数据的变化范围,红色越深表示对应位点交互频次高,相互作用频繁,反之蓝色越深表示对应为位点片段交互频次低,相互作用不明显。视图左侧的颜色映射条表征颜色编码含义,同时将颜色渐变区间映射为数值区间[0,10],用户通过数值变化可以更加清晰地比较不同位点的交互频次差异。视图下侧设置缩放组件,用户通过移动滑动条可以实现缩放、刷选等数据筛选与过滤功能。
2、蛋白质富集视图可视化映射
为了展示染色质内部某位点上蛋白质富集程度的变化趋势,根据单条染色体上蛋白质的覆盖深度数据,设计并实现了蛋白质富集视图。该视图借助折线图表现时序性数据的优势,充分展示了连续性数据的变化和发展趋势,帮助用户快速识别基因位点密集或者基因位点稀疏的区域,能更加清晰地展示染色体内部结构。
如图3所示,视图使用不同的颜色视觉通道编码了8种不同的蛋白质,例如,使用蓝色编码H3k9ac组蛋白,绿色编码H3k9me3组蛋白,紫色编码H3k79me2组蛋白。视图使用横轴的区间位置坐标映射同一条染色体上的不同位点片段,与热力图中的横轴坐标的划分范围相一致;纵轴数值映射不同位点处的蛋白质富集程度。根据数据信息的直观性,折线图纵坐标轴越往上,表示富集程度越大。为了避免视觉混淆,用户可以通过交互手段,隐藏部分蛋白质的数据展示情况,并高亮某一观察对象的折线变化趋势,以此提高用户的注意力。
3、染色质三维空间结构视图可视化映射
为了展示染色质在三维空间中折叠后的全局构象,并多视角地呈现三维空间中染色质结构,设计并实现了染色质三维空间结构视图。三维空间结构图比二维平面图更直观、生动,立体感强,也更能反映染色质在人体内存在的真实状态。
如图4(a)所示,视图分别使用X、Y、Z坐标轴的坐标位置映射染色质在三维空间结构中的相对位点信息。该视图中,使用颜色的亮暗来体现染色质的整体与局部形态,染色质的整体形态通过灰色阴影进行表征,当用户使用鼠标悬浮至三维结构图中的具体某一区域范围时,会以亮色突出该基因片段。此外,三维视图附上具体基因片段中的所有基因信息,包括基因名称、起始位置和结束位置,如图4(b)所示,用户还可通过鼠标点击获取上述基因的详细文献信息。
4、基因-疾病关联视图可视化映射
由于基因组数据的生物特性,为了探索基因与疾病的关联关系,针对基因-疾病关联数据,设计并实现了一个基因-疾病关联网络。关联网络图去除了原始数据冗余复杂的结构特性,仅保留不同类型实体间的关联关系,使得视图结果一目了然,生动直接。
基因-疾病关联视图的可视化映射分为形状、颜色、位置三个部分。形状方面,图5(a)中菱形表示人类疾病,圆形表示基因,这里指代miRNA。菱形与圆形之间的连线类型表示miRNA对该种疾病的作用类型,直线表示基因的激活表达与该类疾病的发生有关联,虚线表示基因的抑制表达会促使该疾病的发生。菱形之间的连线表明两种疾病是关联疾病,两者存在疾病发展链条。颜色方面,菱形颜色编码了疾病所属类型,例如:橙色表示心血管疾病、黄色表示消化系统疾病、蓝色表示营养和代谢疾病。圆形颜色编码了不同的基因类型,例如:绿色表示miRNA1、紫色表示miRNA2。位置方面,基因-疾病关联网络中,以某一疾病作为网络中心进行扩散,菱形与圆形节点连线的长度表征了两者的关联大小;疾病-疾病关联网络中,选取上述网络中的中心疾病节点作为中心,绘制与该疾病相关联的其余疾病网络,节点间连线的长度仍然表征相关程度。
四、可视化布局与实现
1、Hi-C热力视图可视化布局实现包含以下步骤:
步骤1:获取用户选择查看的染色体编号chromosome、染色体片段的起始位置start、染色体片段的结束位置end、实验分辨率resolution。计算染色体片段的长度属性length,计算方法如下:
Figure BDA0003311149570000131
步骤2:根据染色体片段的实际位置和实验分辨率计算热力图对应坐标轴的区间范围Hicstart和Hicend,计算方法如下:
Figure BDA0003311149570000132
Figure BDA0003311149570000133
步骤3:根据坐标轴区间范围的计算结果获取对应二维矩阵数据heatmapdata,并读取热力图的横、纵轴数据xData、yData以及矩阵维度大小m和n,则交互频次数据data1处理过程为:data1.push([m,n,heatmapdata[m][n]]);
步骤4:将热力图的横轴数据项xAxis绑定为数据源xData,纵轴数据项yAxis绑定为数据源yData;
步骤5:设置热力图左侧的颜色映射条组件visualMap,并指定组件允许的最大数值为max=10,最小数值为min=0,将“10”和“0”分别映射为红色和蓝色表示交互频次高低,映射方法采用线性映射法;
步骤6:设定滑动组件的缩放范围,横轴坐标数据窗口变化范围的起始百分比设为0,结束百分比设为100%;
步骤7:将选中染色体的交互频次数据映射为颜色,再结合上述绑定的横纵轴坐标数据,绘制矩形方块形成热力图。
2、蛋白质富集视图可视化布局实现包含以下步骤:
步骤1:绑定折线图的横轴坐标数据为xData,获取列表数组linedata用于存放染色体对应区间位点的8种蛋白质含量linedata0~linedata7;
步骤2:遍历列表数组linedata,并绑定至纵轴坐标的数据项,使用8种不同颜色映射不同类型的蛋白质;
步骤3:设定视图缩放控件slider的各项属性。将横轴缩放窗口变化范围的起始百分比设为0,结束百分比设为100%;
步骤4:结合横纵轴坐标数据,将折线绘制在视图中,并将固定位点的蛋白质含量以小圆圈的形式突出表示。
3、染色质三维空间结构视图可视化布局实现包含以下步骤:
步骤1:获取用户选择查看的染色体编号chromosome、染色体片段的起始位置start、染色体片段的结束位置end、实验分辨率resolution。计算染色体片段的长度属性length;
步骤2:根据染色体片段的实际位置和实验分辨率获取原始的位点列表数据structure,该列表长度为x。遍历原始列表数据,得到后续需要绘制的数据源structuredata,其处理过程为:structuredata.push([structure[x][1],structure[x][2],structure[x][3],start+x*resolution/2,-1]);
步骤3:三维空间结构视图采用Echarts中的Scatter 3D展现形式,并将数据源structuredata绑定至X、Y、Z坐标轴上;
步骤4:将三维结构的整体与局部视图映射为相应颜色,全局视角下,染色体的空间结构形态呈现为灰色#9eaedd,查看局部形态呈现为亮白色#a50026;
步骤5:结合三维坐标轴数据,将3D散点图绘制在视图中。
4、基因-疾病关联视图可视化布局实现包含以下步骤:
步骤1:引入Echarts中的力导向布局“layout:force”绘制关联网络图,指定绘图数据源为基因-疾病关联数据项relationdata;
步骤2:设定每条关联数据的节点属性,包括:id(节点id)、name(节点名称)、symbolize(节点大小)、x(节点X坐标)、y(节点Y坐标)、value(节点权重)、symbol(节点形状)、category(节点类型);
步骤3:设定每条关联数据的连线属性,包括:source(源节点)、target(目标节点)、lineStyle-color(连线颜色)、lineStyle-type(连线类型);
步骤4:设定力导向图各节点间斥力repulsion:8000,并指定力导向图拖曳属性为可拖动draggable:true,将可拖拽的节点链接图绘制在视图中。
五、交互及联动
1、Hi-C热力视图
鼠标悬浮:用户将鼠标悬浮至视图中的某个矩阵,会借助悬浮框显示对应区间间隔的横纵坐标,以及该矩阵对应的频次数据;在视图左侧的颜色条也会以圆圈的形式标记出具体的频次数值。
鼠标滑动:用户通过滑动视图左侧的颜色映射条,选定特定的频次数值,视图会根据用户的选择结果在热力图中框选特定网格,凸显符合要求的数据点。
坐标轴缩放:用户通过滑动热力图下方设置的缩放组件,可以实缩放、刷选、拖拽、点击快速定位等数据筛选的功能。具体的,当用户通过移动滑动条两端点,可以对热力图呈现的横纵坐标轴实现缩放,以观察具体某段区间内的频次情况。
2、蛋白质富集视图
鼠标悬浮:当鼠标悬浮至某一条折线处时,该条折线的整体变化趋势会被高亮,以此提高用户的注意力。此外,鼠标悬浮至折线上某个结点处时,会弹出悬浮框显示该结点对应的横纵坐标,即区间位置和蛋白质富集程度。
数据过滤:在视图左方展示了所有的图例标签,用户可以有针对性地过滤某些组蛋白类型,即用户点击某图例,该图例表变成灰色,折线图中会隐藏该组蛋白类型所在数据。
坐标轴缩放:用户通过滑动折线图下方设置的缩放组件,可以在滑动条上进行缩放或漫游。具体的,用户通过移动滑动条两端点,可以对折线图呈现的横坐标轴实现缩放。
3、染色质三维空间结构视图
鼠标悬浮:用户将鼠标悬浮至三维结构图中的具体某一个位置点时,视图会突显该点所在的三维坐标。通过鼠标滚轮滑动,还可实现视图的放大或缩小。
视图旋转:当用户通过鼠标在三维结构图上拖曳时,可以实现图像的旋转,用户可以查看三维图像不同方位的具体形态。
4、基因-疾病关联视图
鼠标悬浮:用户将鼠标悬浮至关联节点图中某一个基因或疾病节点时,视图会标记出该节点的名称,并通过悬浮框弹出相关的具体信息。
数据过滤:在视图上方展示了所有节点的图例标签,用户可以根据需要筛选数据,选择性地查看某些基因类型与疾病的关联。即用户点击某图例,该图例表变成灰色,节点图中隐藏该类型的所有节点。
视图拖拽:用户可以通过拖曳某个节点,实现整个关联节点图的位置移动,以此聚焦具体的基因-疾病关联关系。
鼠标点击:针对关联节点图中的基因节点,用户可以通过点击该节点,页面跳转到PubMed数据库中有关该基因对象的文献查询页面,通过阅读医学文献,用户可以了解内在的基因-疾病互作机制。

Claims (10)

1.一种基于基因数据的染色质层次结构分析的可视化方法,其特征在于,包括以下步骤:
S1:数据采集
获取基因数据和相关生物文献数据,包括:Hi-C交互频次数据、富集信息注释数据和基因-疾病关联数据;
S2:数据处理和存储
对步骤S1中采集的数据进行处理,针对原始的Hi-C交互频次数据,通过Hic-Pro数据处理软件将其转化为可视化的交互频次矩阵,该矩阵的行与列表示划分的染色体片段,行列交叉处的数据表示两条片段之间的交互频次;基于上述矩阵数据,复现TopDom和ClusterTAD算法,获得每条染色体上的TAD边界预测数据;复现miniMDS算法,获得染色质三维空间结构预测数据;最后,将结构化数据进行存储;
S3:可视化映射
通过视觉通道将步骤S2中处理后的数据进行可视化映射:
设计Hi-C交互频次数据可视化映射,用热力图表征染色质内部的交互情况,使用颜色对交互频次高低的数值进行可视化编码,构成Hi-C热力视图可视化映射;
设计蛋白质富集信息可视化映射,用折线图的折线类型和坐标轴数值表示染色体片段上的蛋白质种类及其富集信息,构成蛋白质富集视图可视化映射;
设计染色质三维结构可视化映射,用三维坐标系散点图表示染色质结构投影在三维空间中的坐标位置,呈现整体和局部视角下的三维空间结构,构成染色质三维空间结构视图可视化映射;
设计基因-疾病关联网络可视化映射,对基因类型、疾病类型、关联程度进行可视化编码,表示基因-疾病、疾病-疾病的相互作用关系,构成基因-疾病关联视图可视化映射;
S4:可视化布局
将步骤S3定义好的映射规则进行具体的可视化布局及绘制实现:
对于Hi-C热力视图,根据输入的染色体编号、染色体起始位置与结束位置、实验分辨率,计算热力图横纵坐标的区间范围并绑定至坐标轴数据项中;定义颜色映射条,将交互频次数据利用矩阵颜色进行表征;
对于蛋白质富集视图,遍历数据列表利用折线将各位点的蛋白质含量绘制在折线图中;
对于染色质三维空间结构视图,将位点信息映射到三维坐标系中,并利用不同颜色呈现染色质形态的整体与局部视角;
对于基因-疾病关联视图,采用关联网络布局,将基因类型、关联种类、关联程度利用颜色、形状、大小这样的视觉通道绘制在视图中。
2.根据权利要求1所述的基于基因数据的染色质层次结构分析的可视化方法,其特征在于,在步骤S1中,数据采集具体为:
S11:从公开数据库Gene Expression Omnibus下载人体细胞株GM12878的染色质内交互频次数据,包含多个实验分辨率下的不同数据;
S12:从ENCODE数据库中下载人体细胞株GM12878的染色体序列数据,包含8种蛋白质的含量信息;
S13:从HMDD基因疾病关联数据库,选取两类关联数据:miRNA-疾病关联数据和疾病-疾病关联数据。
3.根据权利要求1所述的基于基因数据的染色质层次结构分析的可视化方法,其特征在于,在步骤S3中,所述Hi-C热力视图可视化映射具体为:
染色体片段:使用热力图横轴和纵轴的区间位置坐标编码同一条染色体在不同实验分辨率划分的片段;
染色体交互频次:用热力图纵横交叉处的方形矩阵编码不同位点片段的相互作用频次,用矩阵的填充颜色编码交互频次的高低情况,用颜色的渐变区间表征频次数据的变化范围,用颜色映射条表征颜色编码含义,同时将颜色渐变区间映射为数值区间。
4.根据权利要求1所述的基于基因数据的染色质层次结构分析的可视化方法,其特征在于,在步骤S3中,所述蛋白质富集视图可视化映射具体为:
染色体片段:使用横轴的区间位置坐标映射同一条染色体上的不同位点片段,与热力图中的横轴坐标的划分范围相一致;
蛋白质含量:使用纵轴数值映射不同位点处的蛋白质富集程度;
蛋白质类型:使用不同颜色的折线表示8种蛋白质类型;且折线图纵坐标轴越往上,表示富集程度越大。
5.根据权利要求1所述的基于基因数据的染色质层次结构分析的可视化方法,其特征在于,在步骤S3中,所述染色质三维空间结构视图可视化映射具体为:
染色质三维结构:使用3D图X、Y、Z坐标轴的坐标位置映射染色质在三维空间结构中的相对位点信息;
染色质形态:使用颜色的亮暗来体现染色质的整体与局部形态;且三维视图附上具体基因片段中的所有基因信息,包括基因名称、起始位置和结束位置。
6.根据权利要求1所述的基于基因数据的染色质层次结构分析的可视化方法,其特征在于,在步骤S3中,所述基因-疾病关联视图可视化映射具体为:
基因、疾病:使用节点形状映射基因和疾病,使用节点颜色映射基因和疾病类型;
关联关系:使用连线表示基因-疾病、疾病-疾病关联关系,使用连线类型映射基因对疾病的作用类型,使用连线的长度表征两者的关联大小。
7.根据权利要求1所述的基于基因数据的染色质层次结构分析的可视化方法,其特征在于,在步骤S4中,所述Hi-C热力视图可视化布局与实现的具体过程如下:
步骤a1:获取用户选择查看的染色体编号、染色体片段的起始位置start、染色体片段的结束位置end、实验分辨率resolution;计算染色体片段的长度属性length:
Figure FDA0004070890480000041
步骤a2:根据染色体片段信息的实际位置和实验分辨率计算热力图坐标轴对应区间范围Hicstart和Hicend
Figure FDA0004070890480000042
Figure FDA0004070890480000043
步骤a3:根据坐标轴区间范围的计算结果获取对应二维矩阵数据,并读取热力图的横、纵轴数据以及矩阵维度大小;
步骤a4:绑定热力图横、纵轴数据项,获取交互频次二维矩阵数据,利用颜色线性映射交互频次数据,绘制矩形方块形成热力图。
8.根据权利要求1所述的基于基因数据的染色质层次结构分析的可视化方法,其特征在于,在步骤S4中,所述蛋白质富集视图可视化布局实现的具体过程如下:
步骤b1:绑定折线图的横轴坐标数据,获取列表数组用于存放染色体对应区间位点的8种蛋白质含量;
步骤b2:遍历列表数组,并绑定至纵轴坐标的数据项,使用8种不同颜色映射不同类型的蛋白质;
步骤b3:设定视图缩放控件slider的各项属性,结合横纵轴坐标数据,将折线绘制在视图中,并将固定位点的蛋白质含量以小圆圈的形式突出表示。
9.根据权利要求1所述的基于基因数据的染色质层次结构分析的可视化方法,其特征在于,在步骤S4中,所述染色质三维空间结构视图可视化布局与实现的具体过程如下:
步骤c1:获取用户选择查看的染色体编号、染色体片段的起始位置、染色体片段的结束位置、实验分辨率;计算染色体片段的长度属性;
步骤c2:根据染色体片段的实际位置和实验分辨率获取原始的位点列表数据,遍历原始列表数据,得到后续需要绘制的数据源;
步骤c3:将数据源绑定至X、Y、Z坐标轴上,将三维结构的整体与局部视图映射为相应颜色;结合三维坐标轴数据,将3D散点图绘制在视图中。
10.根据权利要求1所述的基于基因数据的染色质层次结构分析的可视化方法,其特征在于,在步骤S4中,所述基因-疾病关联视图可视化布局与实现的具体过程如下:
步骤d1:采用力导向布局绘制关联网络,指定绘图数据源为基因-疾病关联数据项;
步骤d2:分别设定关联网络中各条关联数据的节点属性和连线属性;
步骤d3:设定力导向图节点间的斥力,并指定力导向图拖曳属性为可拖动,将可拖拽的节点链接图绘制在视图中。
CN202111217034.2A 2021-10-19 2021-10-19 一种基于基因数据的染色质层次结构分析的可视化方法 Active CN113946730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111217034.2A CN113946730B (zh) 2021-10-19 2021-10-19 一种基于基因数据的染色质层次结构分析的可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111217034.2A CN113946730B (zh) 2021-10-19 2021-10-19 一种基于基因数据的染色质层次结构分析的可视化方法

Publications (2)

Publication Number Publication Date
CN113946730A CN113946730A (zh) 2022-01-18
CN113946730B true CN113946730B (zh) 2023-03-17

Family

ID=79331530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111217034.2A Active CN113946730B (zh) 2021-10-19 2021-10-19 一种基于基因数据的染色质层次结构分析的可视化方法

Country Status (1)

Country Link
CN (1) CN113946730B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114944190B (zh) * 2022-05-12 2024-04-19 南开大学 基于Hi-C测序数据的TAD识别方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201320351D0 (en) * 2013-11-18 2014-01-01 Erasmus Universiteit Medisch Ct Method
US20170130247A1 (en) * 2015-09-30 2017-05-11 Whitehead Institute For Biomedical Research Compositions and methods for altering gene expression
CN106566828B (zh) * 2016-11-11 2019-08-20 中国农业科学院农业基因组研究所 一种高效的全基因组染色质构象技术eHi-C
CN107475394B (zh) * 2017-08-31 2021-06-15 中国农业科学院农业基因组研究所 一种基于少量细胞全基因组染色质高分辨率构象技术eHi-C 2.0
CN108710628B (zh) * 2018-03-29 2022-06-17 中国科学院软件研究所 一种基于草图交互的面向多模态数据的可视分析方法和系统
JP2021531790A (ja) * 2018-07-27 2021-11-25 ベンタナ メディカル システムズ, インコーポレイテッド 自動化された原位置ハイブリッド形成分析のためのシステム
WO2020102043A1 (en) * 2018-11-15 2020-05-22 Ampel Biosolutions, Llc Machine learning disease prediction and treatment prioritization

Also Published As

Publication number Publication date
CN113946730A (zh) 2022-01-18

Similar Documents

Publication Publication Date Title
Seo et al. Interactively exploring hierarchical clustering results [gene identification]
US7750908B2 (en) Focus plus context viewing and manipulation of large collections of graphs
EP1388801A2 (en) Methods and system for simultaneous visualization and manipulation of multiple data types
US8131471B2 (en) Methods and system for simultaneous visualization and manipulation of multiple data types
EP1507237A2 (en) Manipulating biological data
Sallaberry et al. Sequential patterns mining and gene sequence visualization to discover novelty from microarray data
CN113946730B (zh) 一种基于基因数据的染色质层次结构分析的可视化方法
Nguyen et al. Interactive visualization for patient-to-patient comparison
Klein et al. Visual analysis of biological activity data with Scaffold Hunter
Warchol et al. Visinity: Visual spatial neighborhood analysis for multiplexed tissue imaging data
Nguyen et al. Visual analytics of clinical and genetic datasets of acute lymphoblastic leukaemia
Howe et al. Data reduction and representation in drug discovery
Klein et al. Scaffold hunter: facilitating drug discovery by visual analysis of chemical space
Manshaei et al. Tangible mtdna: A tangible tabletop system for exploring genetic mutations on mitochondrial dna cancer data
Marx Visualizing epigenomic data
Cerioli et al. Mapping the Colocalization Network: A Wayfinding Approach to Interacting with Complex Network Diagrams
Kincaid VistaClara: an interactive visualization for exploratory analysis of DNA microarrays
Lungu et al. Biomedical information visualization
Rees et al. Automappa: An interactive interface for metagenome-derived genome bins
Langenkämper et al. Towards protein network analysis using tis imaging and exploratory data analysis
US9396304B2 (en) Computer systems for annotation of single molecule fragments
Alzamora et al. A novel 3D interactive visualization for medical data analysis
Ganglberger et al. Iterative Exploration of Big Brain Network Data.
Peeters et al. Case Study: Visualization of annotated DNA sequences.
Muller et al. Connecting genes with diseases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant