CN116583905A - 生成增强Hi-C矩阵的方法、识别增强Hi-C矩阵中结构染色质像差的方法及可读介质 - Google Patents

生成增强Hi-C矩阵的方法、识别增强Hi-C矩阵中结构染色质像差的方法及可读介质 Download PDF

Info

Publication number
CN116583905A
CN116583905A CN202180005159.0A CN202180005159A CN116583905A CN 116583905 A CN116583905 A CN 116583905A CN 202180005159 A CN202180005159 A CN 202180005159A CN 116583905 A CN116583905 A CN 116583905A
Authority
CN
China
Prior art keywords
matrix
disease
enhanced
distance
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202180005159.0A
Other languages
English (en)
Other versions
CN116583905B (zh
Inventor
何玥颖
薛玥
王静瑶
高毅勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chromatin Beijing Technology Co ltd
Original Assignee
Chromatin Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chromatin Beijing Technology Co ltd filed Critical Chromatin Beijing Technology Co ltd
Publication of CN116583905A publication Critical patent/CN116583905A/zh
Application granted granted Critical
Publication of CN116583905B publication Critical patent/CN116583905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明实施例涉及一种用于生成增强的Hi‑C矩阵的方法,一种存储用于生成增强的Hi‑C矩阵的程序的非瞬态计算机可读介质,一种用于识别增强的Hi‑C矩阵中的结构染色质像差的方法,以及用于诊断和治疗医学病症或疾病的方法。用于生成增强的Hi‑C矩阵的方法包括对输入的Hi‑C矩阵进行去噪,获得平衡距离矩阵;对所述平衡距离矩阵进行去噪,获得去噪后的距离矩阵;对所述去噪后的距离矩阵进行整理和排序,获得排序后的距离矩阵;基于所述排序后的矩阵,计算邻接矩阵;以及计算所述邻接矩阵的Laplacian特征映射,获得增强的Hi‑C矩阵。

Description

生成增强Hi-C矩阵的方法、识别增强Hi-C矩阵中结构染色质 像差的方法及可读介质
技术领域
本申请的实施例涉及用于生成增强的Hi-C矩阵的方法、存储用于生成增强的Hi-C矩阵的程序的非瞬态计算机可读介质、用于识别增强的Hi-C矩阵中的结构染色质像差的方法,以及用于诊断和治疗诸如癌症等医学病症或疾病的方法。
背景技术
高通量染色体构象捕获(High-throughput chromosome conformation capture,Hi-C)允许在空间中对染色质相互作用进行全基因组分析,并已被用于研究基因组的全基因组相互作用。众所周知,染色质的空间组织是非随机的,对于解读DNA的三维结构如何影响基因组功能和转录至关重要。通过全面检测基因组区域之间的空间相互作用,Hi-C技术对染色质的三维组织提供了更深入的见解。Hi-C技术通常涉及生成数亿的配对末端测序。该技术可以捕获整个基因组中的染色质相互作用,并构建全基因组的Hi-C接触矩阵(Hi-Ccontact matrix),其中矩阵中的每个元素表示任意两个基因组区域之间的接触强度。
如Lieberman-Aiden等人的美国申请US2017/0362649中所讨论的,“接触”是在读段后仍保留的片段对,读段时排除与基因组并不唯一对齐的,对应于未连接的片段(fragments)的或重复的片段对,该文献在此通过引用并入本文。接触矩阵可以可视化为热图,其元素称为“像素”。“间隔”是指连续位点(locus)的(一维)集合;两个间隔之间的所述接触从而在接触矩阵中形成“矩形”或“正方形”。“矩阵分辨率”被定义为用于构建特定接触矩阵的位点尺寸,“映射分辨率”被定义为最小的位点尺寸,以使位点的某一阈值具有接触的某一阈值。映射分辨率描述了能够可靠地识别数据中的局部特征的最佳比例。例如,图1示出了常规的接触矩阵,其中每个像素表示一1-Mb位点与另一1-Mb位点之间的接触频率。
换句话说,Hi-C技术测量位点之间的相互作用频率,而不是距离本身。通常,甲醛用于引发位点之间的交联。甲醛交联只发生在物理上相互作用的位点之间。因此,两个位点之间的弱Hi-C信号表明相互作用发生在群体的一小部分中。为了确定两个位点之间的距离,必须对相互作用频率如何与物理距离相关的假设进行简化。
包括算法、计算和统计方法在内的生物信息学工具已用于Hi-C数据的勘探和解释。这些流程覆盖了Hi-C分析工作流程的所有当前方面,范围从测序读段的预处理到基因组结构的归一化和推断。预处理流程由读映射,片段分配,滤波和成箱组成,并得到对称的接触矩阵。该矩阵中的每个元素反映了在相应的一对位点(即,箱,bins)之间观察到的相互作用频率。这两个位点通过固定大小的基因组间隔进行分离,作为分辨率。在预处理之后,进行归一化以校正系统偏差,使Hi-C样本更具可比性,下游分析更可靠。然后可以在不同的层次上研究基因组结构的推断,例如拓扑关联域(Topologically associating domains,TAD)。TAD被认为是许多真核基因组的高阶空间基因组组织的功能和结构单元。
在哺乳动物基因组中,在Hi-C矩阵中通常观察到5种类型的图案:(1)顺式/反式相互作用比,(2)距离依赖性相互作用频率,(3)基因组隔室,(4)染色质环和TAD,以及(5)点相互作用。研究人员已经开发了一系列算法来捕获染色质环和TAD,其示例如图2所示。
图3和图4示出了如何分析Hi-C热图以找到染色质环和TAD结构。参见Eagen,K.,“Hi-C揭示的染色体结构原理”,(Principles of Chromosome Architecture Revealed byHi-C,″Trends Biochem Sci.,43(6),pp.469–478,June 2018)Trends Biochem Sci.,第43(6)期,第469-478页,2018年6月,并可从以下网址获得:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4347522/,该文献通过引用并入本文。如图3所示,每个像素的强度指示两个位点的相对的,成对的接触概率。TAD为接触富集的对角箱。环(Rings)或环圈(loops)是接触强度的径向对称峰,通常位于哺乳动物细胞中TAD的角部。非对角箱指示由于区室化而引起的相互作用。图4示出了染色质环和TAD。区室化由同型(活性-活性或非活性-非活性)TAD-TAD相互作用来表示。
未经任何处理的原始Hi-C矩阵将受到系统偏差的影响,包括来自测序和映射的技术偏差,其影响下游解释的可靠性。其他因素,如酶的选择、处理时间和所用的细胞数量都会影响结果,因此不可能直接比较不同生物样本中的Hi-C矩阵。
归一化技术已被开发用于消除不需要的系统偏差,并且是Hi-C数据分析中最重要的流程之一。归一化试图消除不需要的系统偏差,以便尽可能保留反映底层架构的交互频率。常规的Hi-C归一化方法包括顺序组分归一化(sequential component normalization-SCN)、HiCNorm、迭代校正和特征向量分解(iterative correction and eigenvectordecomposition-ICE)、Knight-Ruiz(KR)、chromoR和multiHiCcompare。
通过分析Hi-C数据,研究人员注意到染色质的空间结构因细胞类型而异。但常规的归一化方法难以有效分析,且缺乏可靠性。在这方面,来自类似样本(例如,源自相同癌症类型的样本)的这些方法的校正的Hi-C矩阵仍然显示出不同的特征。例如,图5和图6显示了通过已知方法归一化的相同类型的癌细胞(图5)以及相同类型的正常细胞(图6)的通过ICE归一化的Hi-C矩阵。如图5和图6所示,很难辨别样本之间的相似性。
从历史上看,癌变过程中寻找三维结构变化的主要方法侧重于局部特异性相互作用,即现有方法侧重于寻找由一维序列变化引起的结构变异(structural variations-SVs)位点,包括缺失、易位、复制等。但在癌变过程中,染色质结构发生了全局性变化,因此仅识别局部变化是不完整的,不可转移的。Hi-C技术为更好地全局性识别染色质结构变化提供了一条可能的途径。
准确地找到异常细胞中具有结构变化的位置,对于诊断和治疗诸如癌症等具有遗传基础的医学病症或疾病非常重要。通过寻找仅在癌症中或仅在正常细胞中存在的特异性染色质相互作用,可以确定与癌症相关的潜在位点。因此,在生物信息学中,有一个非常重要的需求,即在识别正常细胞和异常细胞的染色质结构和结构之间的差异方面非常有用的方法。这些和其他问题由以下本发明的实施例来解决。
发明内容
发明人发现,通过使用本发明的实施例寻找更大范围的结构变化和更好限定的热点,可以更可靠和更有效地找到不同类型的细胞之间的染色质结构的差异。还发现,此类方法在诊断和治疗包括但不限于癌症在内的多种医学病症或疾病方面非常有用。根据所本发明的实施例,从不同来源、不同序列深度和不同细胞计数生成的Hi-C矩阵以新颖且惊人的有效方式具有比较性。
在第一实施例中,提供了一种用于生成增强的Hi-C矩阵的方法。该方法包括对输入的Hi-C矩阵进行去噪,获得平衡距离矩阵;对所述平衡距离矩阵进行去噪,获得去噪后的距离矩阵;对所述去噪后的距离矩阵进行整理和排序,获得排序后的距离矩阵;基于所述排序后的矩阵,计算邻接矩阵;以及计算所述邻接矩阵的Laplacian特征映射,获得增强的Hi-C矩阵。
在另一实施例中,提供了一种存储用于生成增强的Hi-C矩阵的程序的非瞬态计算机可读介质。该程序使处理器执行:对输入的Hi-C矩阵进行去噪,获得平衡距离矩阵;对所述平衡距离矩阵进行去噪,获得去噪后的距离矩阵;对所述去噪后的距离矩阵进行整理和排序,获得排序后的距离矩阵;基于所述排序后的矩阵,计算邻接矩阵;以及计算所述邻接矩阵的Laplacian特征映射,获得增强的Hi-C矩阵。
在另一实施例中,提供了一种用于识别增强的Hi-C矩阵中的结构染色质像差的方法。该方法包括提供靶细胞和正常细胞;针对每个所述靶细胞和所述正常细胞,根据权利要求1所述的方法,生成增强的Hi-C矩阵;以及分析所述增强的Hi-C矩阵,确定所述靶细胞中的结构染色质像差。
在另一实施例中,提供了一种用于诊断医学病症或疾病的方法。该方法包括根据本发明的方法识别结构染色质像差;以及将所述结构染色质像差与医学病症或疾病相关联。
在另一实施例中,提供了一种用于治疗医学病症或疾病的方法。该方法包括根据本发明的方法识别结构染色质像差;以及向有需要的受试者施用基因治疗载体。所述结构染色质像差指示医学病症或疾病。
附图说明
为了更清楚地描述本发明实施例或现有技术中的技术方案,以下简要介绍描述实施例或现有技术所需的附图。显然,以下描述中的附图仅示出了本发明的一些实施例,并且本领域的普通技术人员在不付出创造性劳动的前提下,仍可从这些附图得到其他的附图。
图1和图2示出了根据已知方法生成的原始接触Hi-C矩阵热图(图1)以及染色质环和TAD的可视图(图2)。
图3和图4示出了样本Hi-C矩阵分析,其示出了染色质热图(图3)与染色质示意图(图4)的对应关系。
图5和图6示出了通过已知方法归一化的癌细胞(图5)和正常细胞(图6)的归一化接触Hi-C矩阵热图。
图7是根据实施例的用于生成增强的Hi-C矩阵的方法的示意图。
图8是根据实施例的用于生成增强的Hi-C矩阵的方法的子步骤的示意图。
图9是根据实施例的用于生成增强的Hi-C矩阵的方法的子步骤的示意图。
图10是根据实施例的用于生成增强的Hi-C矩阵的方法的子步骤的示意图。
图11是根据实施例的用于生成增强的Hi-C矩阵的方法的子步骤的示意图。
图12和图13示出了通过根据实施例的方法归一化的癌细胞(图12)和正常细胞(图13)的归一化接触Hi-C矩阵热图。
图14和图15示出了通过根据实施例的方法归一化的癌细胞(图14)和正常细胞(图15)的Laplacian特征映射。
具体实施方式
为了使本发明实施例的目的、技术方案和优点更清楚,下面参考本发明实施例中的附图,清楚而全面地描述本发明实施例中的技术方案。显然,所描述的实施例仅仅是本发明的一部分而不是所有实施例。本领域普通技术人员在本发明实施例的基础上未经创造性劳动而获得的所有其他实施例应属于本发明的保护范围。
本发明的实施例增强Hi-C数据分析并表征染色质的三维结构变化,而不受限于局部特征。本发明的实施例对Hi-C数据进行全局嵌入和降维,以可视化染色质结构并提取生物过程中的三维结构特征或变化。本发明的实施例还允许在靶向和治疗诸如癌症等医学病症或疾病中识别可变位点。治疗可以涉及使用所获得的位点的转录或翻译产物作为医学病症或疾病靶点。
用于生成增强的Hi-C矩阵的方法
深度测序产生的Hi-C数据与其他全基因组深度测序数据集类似。数据以传统的FASTQ文件格式(包含DNA读取串和phred质量(QV)得分串)的基因组读取开始。Hi-C数据集的数据存储要求由达到期望分辨率所需的测序深度和FASTQ文件的大小来引导。处理后的Hi-C数据通常比FASTQ文件的大小要小几个数量级。然后根据本领域的已知方法处理FASTQ文件,这些方法包括读取映射、片段分配、片段过滤、成箱、箱级过滤、平衡和分析/解释。
所谓的“矩阵”是在成箱(bining)步骤中形成的。在该步骤中,形成箱(即,行/列),以便数据可以以固定大小的对称矩阵格式存储。通常,在平衡步骤中,人们试图通过任意数量的已知方法来平衡矩阵。该步骤基于以下假设,即由于目标是以无偏差的方式查看整个交互空间,因此每个片段/箱的观察次数应大致相同。通常,再迭代地应用算法,直到收敛。为了确定步骤是否成功,重要的是对偏差校正前后的数据进行目视评估。成功的过滤和偏差校正将使交互矩阵平滑,从而不会保留明显较高的行/列。本发明的实施例涉及用于生成增强的Hi-C矩阵的这些和其他方法的显著进步。
参考图7,在步骤S101中,对Hi-C矩阵进行去噪,获得平衡距离矩阵。在实施例中,去噪步骤采用网络去噪算法。网络去噪算法可包括但不限于扩散状态距离(DiffusionState Distance,DSD)算法。DSD算法是一种基于随机游走理论的网络去噪算法。在生物信息学建模中,DSD是图的顶点上的收敛度量。之前关于DSD收敛到极限度量的结果,依赖于基于图上的对称或可逆随机游走的定义。即使当DSD基于一般的有限不可约的Markov链时,收敛性也被证明是成立的。
根据实施例的去噪步骤S101可包括,在步骤S101a中,通过将矩阵的每一行除以相应的行的和,来归一化Hi-C矩阵,其中矩阵的每一行上的总和等于1,以获得归一化矩阵,如图8所示。或者,Hi-C矩阵可以已经通过本领域已知的方法进行归一化。此类方法包括但不限于SCN、HiCNorm、ICE、KR、chromoR和multiHiCcompare。
在步骤S101b中,可以迭代地计算归一化矩阵的倍数幂,获得收敛矩阵。然后,在步骤S101c中,可以根据下面的公式(I)计算矩阵M:
M=(I-P+D)-1 (I)
其中,I为单位矩阵,P为归一化矩阵,D为收敛矩阵。
接下来,在步骤S101d中,可以将矩阵M的每一行视为坐标向量,并且可以计算每一行的成对L1距离,获得平衡距离矩阵。
在步骤S102中,进一步对平衡距离矩阵进行去噪,获得去噪后的距离矩阵。该步骤可包括在步骤S102a中对平衡距离矩阵实施特征向量分解,如图9所示。特征向量是响应矩阵的向量,就像矩阵是标量系数一样,即进行线性变换所沿着的轴。将第一个特征值(按绝对值排序)设置为零,并计算去噪后的距离矩阵。
在步骤S103中,对去噪后的距离矩阵进行整理,并将每个元素替换为其序号,获得排序后的距离矩阵。该步骤可包括在步骤S103a中,为去噪后的距离矩阵的每一行按照从最小到最大的顺序进行整理,并将每个元素替换为其序号,获得排序后的距离矩阵,如图10所示。在步骤S103b中,可以根据下面的公式(II)对排序后的距离矩阵进行对称化,获得排序后的矩阵Rank:
Rank=(R+RT)/2 (II)
其中,R为排序后的距离矩阵,RT为R的转置。
在步骤S104中,根据下面的公式(III),基于排序后的矩阵,计算邻接矩阵Adj:
Adj=e-Rank/σ (III)
其中,σ可以为任意正数。
在步骤S105中,计算邻接矩阵Adj的Laplacian特征映射。Laplacian特征映射对应于附近点之间的Euclidean距离,这些点被转换为相似性得分(以用作权重)。如图11所示,该步骤可包括,在步骤S105a中,根据以下公式(IV)计算标准化Laplacian矩阵:
Lap=D-1/2AdjD-1/2 (IV)
其中,D为对角矩阵,每个对角元素为对应行的总和。
然后,可在步骤S105b中对标准化Laplacian矩阵进行特征向量分解。在步骤S105c中,可以保留第二和第三特征值以及相应的特征向量。
上述方法的结果是增强的全基因组相互作用矩阵,即增强的Hi-C矩阵,其中每个元素反映了两个基因组位点之间的相互作用频率。增强的Hi-C矩阵允许通过比较例如癌症和正常细胞的对比样本之间的三维染色质结构,来寻找基因组中的可变结构热点(structural hotspots)或热点相互作用(hotspot contact)。
本发明的实施例允许将对应位点的最近n(50<n<500)个染色质位点定义为其邻域(neighbors)。通过比较增强的Hi-C矩阵中癌症和正常样本之间的每个位点的邻域(相邻位点),可以定位邻域中发生重大变化的染色质位点,即结构热点。结构热点或热点相关的接触有助于诊断和治疗包括癌症在内的医学病症或疾病。通过这种方式,发明人发现了与癌症高度相关的特异性基因。这些包括但不限于SPAG9、TOB1和UTP18。
为了进一步理解所本发明的实施例,现在将参照以下样本3x3接触矩阵来描述本发明的用于生成增强的Hi-C矩阵的方法。然而,本发明并不限于3x3接触矩阵或下文所述的特定样本。应当理解,本发明的方法将适于应用于任何Hi-C数据集。
在实施例中,以下操作由下面所示的样本3x3接触Hi-C矩阵举例说明:
对于上述Hi-C矩阵,执行DSD算法,获得距离矩阵Dist。该过程可包括:
(1)通过将每一行除以相应的行的和,来对Hi-C矩阵进行归一化,获得归一化矩阵P,P的每一行的总和等于1:
(2)迭代计算P的倍数幂,直到收敛至D(迭代计算P的多重幂次矩阵直到收敛,记作D):
(3)计算M=(I-P+D)-1
(4)将矩阵M的每一行视为坐标向量,计算每一行的成对L1距离(即像素与类之间的分量差的绝对值),得到距离矩阵Dist:
对于上述平衡矩阵Dist,进行去噪,获得去噪后的距离矩阵Dist1。这一过程可以包括:
(1)对矩阵Dist实施特征向量分解:
(2)将第一个特征值(按绝对值排序)设置为零,去噪后的距离矩阵Dist1=UV’UT
对于上述去噪后的矩阵Dist1,进行整理排序,并将每个元素替换为其序号,获得排序后的距离矩阵Rank。这一过程可以包括:
(1)将Dist1的每一行从最小到最大排序,并将每个元素替换为其序号,得到矩阵R:
(2)将排序后的距离矩阵R进行对称化,获得Rank=(R+RT)/2,其中RT是R的转置:
对于上述排序后的距离矩阵Rank,执行邻接矩阵Adj,Adj=e-Rank/σ,其中,σ可以是任何正数,并且设置为1,如以下示例所示:
对上述邻接矩阵Adj,计算Laplacian特征映射。这一过程可以包括:
(1)计算标准化的Laplacian矩阵Lap=D-1/2AD-1/2,其中,D为对角矩阵,每个对角元素为对应行的总和:
(2)对Lap进行特征向量分解,并保留第二和第三特征值以及相应的特征向量。
用于识别增强的Hi-C矩阵中结构染色质像差的方法
在另一个实施例中,提供了一种用于识别提供靶细胞和正常细胞的增强的Hi-C矩阵中的结构染色质像差的方法。该方法包括根据上述实施例,为每个靶细胞和正常细胞生成增强的Hi-C矩阵。该方法包括分析增强的Hi-C矩阵以识别靶细胞中的结构染色质像差。
该方法还可包括识别与靶细胞中的结构染色质像差相关联的至少一个位点。该至少一个位点可包括但不限于SPAG9、TOB1和UTP18。
用于诊断和治疗医学病症或疾病的方法
在其他实施例中,提供了用于诊断和治疗医学病症或疾病的方法。所述方法包括识别上述结构染色质像差。在诊断疾病的方法中,结构染色质像差指示疾病。在治疗疾病的方法中,该方法包括向有需要的受试者施用基因治疗载体。基因治疗可包括将与靶细胞中的结构染色质像差相关的至少一个位点的转录或翻译产物用作疾病靶。
根据本发明的方法,可以通过这些调控元素和这些开放测序框之间的物理相互作用(紧密空间接近)来识别能够调控开放测序框序列的调控基因或调控元素。调控元素和开放测序框可以沿着线性基因组序列靠近或远离,也可以位于不同的染色体上。开放测序框序列可以与医学病症或疾病相关。
特别是,可以找到在如癌症等医学病症或疾病中容易发生变化的位点,作为疾病诊断和治疗的目标。发明人发现,不同类型的癌症样本显示出高度一致的特征,表明该方法在识别癌细胞结构的共同特征方面具有惊人的有效性,并为癌症诊断和治疗提供了新思路。
本发明的实施例适用于具有遗传基础的任何医学病症或疾病,并可在其上操作。就此而言,医学病症或疾病可包括但不限于癌症、心血管疾病、肾脏疾病、自身免疫疾病、肺部疾病、肝脏疾病、淋巴疾病、骨髓疾病、骨骼疾病、血液疾病等。
非瞬态计算机可读介质与机器学习
本发明的实施例还包括存储用于生成增强的Hi-C矩阵的程序的非瞬态计算机可读介质,该程序使得处理器执行本发明的方法。本发明的实施例还可以包括在专用计算机或计算机系统上实现的用于执行本发明的方法中的任何一个或多个的各种机器学习算法。在这方面,算法可用于使用商业或开源工具自动执行步骤。机器学习算法可用于数学处理大型基因组数据集,也可用于优化计算和提高输出的精度和准确性。
正如生物信息学领域所理解的,机器学习算法涉及建立分类器和训练数据集。分类器在分析复杂的多维系统,如染色质结构和真核生物基因组中起着重要作用。为了开发分类,监督学习技术可以基于决策树、逻辑规则或其他数学技术,例如线性判别方法(包括感知器、支持向量机和相关变体)、最近邻方法、贝叶斯推理、神经网络等。
用于开发所公开的机器学习算法的编程工具不受特别限制,可以包括但不限于开源工具、如的规则引擎、包括/>SQL、R、Matlab和Python等的编程语言,以及各种关系数据库架构。在实施例中,Python是在其中执行本发明的方法的优选编程构造。
可以实现本发明的方法和机器学习算法的专用计算机或处理系统可以是专用处理系统,并且可以与许多其他通用或专用计算系统环境或配置一起操作,如生物信息学从业者所理解的。可以适于与本发明的方法一起使用的已知计算系统、环境和/或配置的示例可包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、厚客户端、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统和包括上述任何系统或设备的分布式云计算环境等。
计算机系统可以在由计算机系统执行的诸如程序模块的计算机系统可执行指令的一般环境中描述。通常,程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统可在分布式云计算环境中实施,其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中,程序模块可以位于包括内存存储设备的本地和远程计算机系统存储介质中。
神经网络可用于执行本发明的方法。神经网络可以是深度卷积神经网络。神经网络可以是深度神经网络,其包括输出层和一个或多个隐藏层。在实施例中,训练神经网络可包括通过最小化给定最优分配集的损失函数来训练输出层,以及通过反向传播算法训练隐藏层。
深层神经网络可以是卷积神经网络(Convolutional Neural Network,CNN)。在基于CNN的模型中,使用一组滤波器通过卷积运算来提取特征。使用训练数据集来完成CNN的训练,该训练数据集确定神经网络参数/权重的训练值。
在一些CNN模型中,CNN层和全连接层的数量可以变化。在一些网络架构中,可以使用残余传递或反馈来避免在训练网络权重时梯度消失的常规问题。该网络可以使用任何合适的计算机语言来构建,例如Python或C++。深度学习工具箱,如TensorFlow、Caffe、Keras、Torch、Theano、CoreML等,可用于实现网络。这些工具箱用于训练网络的权重和参数。在一些实施例中,在具有图形处理单元(GPUs)的专用计算机上CNN和深度学习算法的定制实现用于训练、推理或两者。该推理是指使用经过训练的模型来推断/预测测试样本的阶段。经训练的模型的权重存储在计算机磁盘中,然后用于推理。不同的优化器,如Adam优化算法和梯度下降的不同优化器,可用于训练网络的权重和参数。在训练网络时,可以调整超参数以实现更高的识别和检测精度。在训练阶段,网络可以通过几个时期暴露于训练数据。人工智能训练型样被定义为整个数据集只通过神经网络向前和向后传递一次。
网络可以使用迁移学习机制进行训练。在迁移学习中,首先使用与目标数据集不同的数据集来训练网络的权重,以学习相关特征。然后,进一步使用目标数据库中的特征来重新训练该预先训练的网络。CNN架构可以是三维的,以处理三维染色质结构数据。
示例
对如图5和图6所示的相同样本的细胞进行处理。根据本发明的方法,增强细胞的Hi-C矩阵。这种增强的结果在图12和图13中示出。
如图12和图13所示,类似样本(每行)包含更相似的特征,表明通过本发明的方法从Hi-C数据中提取的结构信息比如图5和图6所示的常规方法更可靠,且更有效。即,通过本发明的方法处理的Hi-C矩阵更具可比较性和保守,通过Hi和C两种不同的方法,并且可以很容易地获得不同类型的细胞之间的染色质结构的差异。
图14和图15示出了与图12和图13中相同样本的Laplacian特征映射,图14和图15中的每个散布图表示40kb的位点。如图14和图15所示,正常样本紧密堆积,而癌症样本不是紧密的。因此,在全局视图中很容易区分癌症样本和正常样本的三维结构。
应当理解,上述公开的特征和功能或其替代方案可以期望地组合成不同的装置、系统和方法。此外,本领域技术人员可以随后做出各种替代、修改、变化或改进,并且也旨在由本发明的实施例涵盖。因此,在不脱离本发明的精神和范围的情况下,可以进行各种更改。

Claims (20)

1.一种用于生成增强的Hi-C矩阵的方法,所述方法包括:
对输入的Hi-C矩阵进行去噪,获得平衡距离矩阵;
对所述平衡距离矩阵进行去噪,获得去噪后的距离矩阵;
对所述去噪后的距离矩阵进行整理和排序,获得排序后的距离矩阵;
基于所述排序后的矩阵,计算邻接矩阵;以及
计算所述邻接矩阵的Laplacian特征映射,获得增强的Hi-C矩阵。
2.根据权利要求1所述的用于生成增强的Hi-C矩阵的方法,其中,所述输入的Hi-C矩阵为原始数据Hi-C矩阵。
3.根据权利要求1所述的用于生成增强的Hi-C矩阵的方法,其中,所述输入的Hi-C矩阵是由SCN、HiCNorm、ICE、KR、chromoR和multiHiCcompare中的至少一种生成的归一化的Hi-C矩阵。
4.根据权利要求1所述的用于生成增强的Hi-C矩阵的方法,其中,对所述Hi-C矩阵进行去噪,获得平衡距离矩阵的步骤,包括采用扩散状态距离算法。
5.根据权利要求1所述的用于生成增强的Hi-C矩阵的方法,其中,对所述Hi-C矩阵进行去噪,获得平衡距离矩阵的步骤包括:
通过将所述矩阵的每一行除以相应的行的和,来归一化所述Hi-C矩阵,获得归一化矩阵,其中所述矩阵的每一行的总和等于1;
迭代计算归一化矩阵的倍数幂,获得收敛矩阵;
根据公式(I)计算矩阵M:
M=(I-P+D)-1 (I)
其中,I为单位矩阵,P为所述归一化矩阵,D为所述收敛矩阵;以及
将所述矩阵M的每一行作为坐标向量,计算每一行的成对距离,获得平衡距离矩阵。
6.根据权利要求1所述的用于生成增强的Hi-C矩阵的方法,其中,对所述平衡距离矩阵进行去噪,获得去噪后的距离矩阵的步骤,包括对所述平衡距离矩阵进行特征向量分解。
7.根据权利要求1所述的用于生成增强的Hi-C矩阵的方法,其中,对所述去噪后的距离矩阵进行整理和排序,获得排序后的距离矩阵包括:
将所述去噪后的距离矩阵的每一行从最小到最大排序,并将每个元素替换为其序号,得到排序后的距离矩阵;以及
根据公式(II)对所述排序后的距离矩阵进行对称化,获得排序后的矩阵Rank:
Rank=(R+RT)/2 (II)
其中,R为所述排序后的距离矩阵,RT为R的转置。
8.根据权利要求1所述的用于生成增强的Hi-C矩阵的方法,其中,所述邻接矩阵根据公式(III)计算:
Adj=e-Rank/σ (III)
其中,σ为正数。
9.根据权利要求1所述的用于生成增强的Hi-C矩阵的方法,其中,计算所述邻接矩阵的Laplacian特征映射,获得增强的Hi-C矩阵包括:
根据公式(IV)计算标准化Laplacian矩阵:
Lap=D-1/2AdjD-1/2 (IV)
其中,D为对角矩阵,每个对角元素为对应行的总和;
对所述标准化Laplacian矩阵进行特征向量分解;以及
保留第二特征值和第三特征值以及相应的特征向量。
10.根据权利要求1所述的用于生成增强的Hi-C矩阵的方法,其中,所述增强的Hi-C矩阵的分辨率使得在50到500个相邻位点的范围内,每个位点都可以观察到。
11.一种非瞬态计算机可读介质,存储用于生成增强的Hi-C矩阵的程序,该程序使处理器执行:
对输入的Hi-C矩阵进行去噪,获得平衡距离矩阵;
对所述平衡距离矩阵进行去噪,获得去噪后的距离矩阵;
对所述去噪后的距离矩阵进行整理和排序,获得排序后的距离矩阵;
基于所述排序后的矩阵,计算邻接矩阵;以及
计算所述邻接矩阵的Laplacian特征映射,获得增强的Hi-C矩阵。
12.一种用于识别增强的Hi-C矩阵中的结构染色质像差的方法,所述方法包括:
提供靶细胞和正常细胞;
针对每个所述靶细胞和所述正常细胞,根据权利要求1所述的方法,生成增强的Hi-C矩阵;以及
分析所述增强的Hi-C矩阵,确定所述靶细胞中的结构染色质像差。
13.根据权利要求12所述的用于识别结构染色质像差的方法,还包括识别与所述靶细胞中的所述结构染色质像差相关联的至少一个位点。
14.根据权利要求13所述的用于识别结构染色质像差的方法,其中,所述至少一个位点选自SPAG9、TOB1和UTP18。
15.一种用于诊断医学病症或疾病的方法,包括:
根据权利要求12所述的方法,识别结构染色质像差;以及
将所述结构染色质像差与医学病症或疾病相关联。
16.根据权利要求15所述的用于诊断医学病症或疾病的方法,其中,所述医学病症或疾病选自癌症、心血管疾病、肾脏疾病、自身免疫疾病、肺部疾病、肝脏疾病、淋巴疾病、骨髓疾病、骨骼疾病和血液疾病。
17.一种用于治疗医学病症或疾病的方法,所述方法包括:
根据权利要求12所述的方法,识别结构染色质像差;以及
向有需要的受试者施用基因治疗载体;
其中,所述结构染色质像差指示医学病症或疾病。
18.根据权利要求17所述的用于治疗医学病症或疾病的方法,其中,所述基因治疗包括,将与所述靶细胞中的所述结构染色质像差相关联的至少一个位点的转录或翻译产物用作医学病症或疾病靶点。
19.根据权利要求17所述的用于治疗医学病症或疾病的方法,其中所述医学病症或疾病选自癌症、心血管疾病、肾脏疾病、自身免疫疾病、肺部疾病、肝脏疾病、淋巴疾病、骨髓疾病、骨骼疾病和血液疾病。
20.根据权利要求19所述的用于治疗医学病症或疾病的方法,其中,所述医学病症或疾病为癌症。
CN202180005159.0A 2021-11-23 2021-11-23 生成增强Hi-C矩阵的方法、识别增强Hi-C矩阵中结构染色质像差的方法及可读介质 Active CN116583905B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/132559 WO2023092303A1 (en) 2021-11-23 2021-11-23 Method for generating an enhanced hi-c matrix, non-transitory computer readable medium storing a program for generating an enhanced hi-c matrix, method for identifying a structural chromatin aberration in an enhanced hi-c matrix

Publications (2)

Publication Number Publication Date
CN116583905A true CN116583905A (zh) 2023-08-11
CN116583905B CN116583905B (zh) 2024-05-10

Family

ID=86538645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180005159.0A Active CN116583905B (zh) 2021-11-23 2021-11-23 生成增强Hi-C矩阵的方法、识别增强Hi-C矩阵中结构染色质像差的方法及可读介质

Country Status (2)

Country Link
CN (1) CN116583905B (zh)
WO (1) WO2023092303A1 (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130090247A1 (en) * 2011-10-11 2013-04-11 Biolauncher Ltd. Methods and systems for identification of binding pharmacophores
CN106795558A (zh) * 2014-05-30 2017-05-31 维里纳塔健康公司 检测胎儿亚染色体非整倍性和拷贝数变异
WO2018152240A1 (en) * 2017-02-14 2018-08-23 The Regents Of The University Of Colorado, A Body Corporate Methods for predicting transcription factor activity
US20190303534A1 (en) * 2018-03-29 2019-10-03 International Business Machines Corporation Biological sequence distance explorer system
CN110767263A (zh) * 2019-10-18 2020-02-07 中国人民解放军陆军军医大学 基于稀疏子空间学习的非编码rna与疾病关联预测方法
WO2020029951A1 (zh) * 2018-08-07 2020-02-13 清华大学 一种染色质拓扑结构域边界的分析方法
CN112052813A (zh) * 2020-09-15 2020-12-08 中国人民解放军军事科学院军事医学研究院 染色体间易位识别方法、装置、电子设备及可读存储介质
CN113178230A (zh) * 2021-04-12 2021-07-27 山东大学 三维基因组Hi-C数据中TAD嵌套结构检测方法及系统
WO2021163630A1 (en) * 2020-02-13 2021-08-19 10X Genomics, Inc. Systems and methods for joint interactive visualization of gene expression and dna chromatin accessibility

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197431B (zh) * 2018-01-24 2022-04-05 清华大学 染色质相互作用差异的分析方法和系统
AU2020248338A1 (en) * 2019-03-28 2021-11-18 Phase Genomics, Inc. Systems and methods for karyotyping by sequencing
CN110097922B (zh) * 2019-04-19 2020-12-08 西安交通大学 基于在线机器学习的Hi-C接触矩阵中层级式TADs差异分析方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130090247A1 (en) * 2011-10-11 2013-04-11 Biolauncher Ltd. Methods and systems for identification of binding pharmacophores
CN106795558A (zh) * 2014-05-30 2017-05-31 维里纳塔健康公司 检测胎儿亚染色体非整倍性和拷贝数变异
WO2018152240A1 (en) * 2017-02-14 2018-08-23 The Regents Of The University Of Colorado, A Body Corporate Methods for predicting transcription factor activity
US20190303534A1 (en) * 2018-03-29 2019-10-03 International Business Machines Corporation Biological sequence distance explorer system
WO2020029951A1 (zh) * 2018-08-07 2020-02-13 清华大学 一种染色质拓扑结构域边界的分析方法
CN110767263A (zh) * 2019-10-18 2020-02-07 中国人民解放军陆军军医大学 基于稀疏子空间学习的非编码rna与疾病关联预测方法
WO2021163630A1 (en) * 2020-02-13 2021-08-19 10X Genomics, Inc. Systems and methods for joint interactive visualization of gene expression and dna chromatin accessibility
CN112052813A (zh) * 2020-09-15 2020-12-08 中国人民解放军军事科学院军事医学研究院 染色体间易位识别方法、装置、电子设备及可读存储介质
CN113178230A (zh) * 2021-04-12 2021-07-27 山东大学 三维基因组Hi-C数据中TAD嵌套结构检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CAO M等: "Going the Distance for Protein Function Prediction: A New Distance Metric for Protein Interaction Networks", PLOS ONE, vol. 8, no. 10, pages 1 - 12 *
刘聪;张治华;: "基于Hi-C技术识别基因组结构变异及其在肿瘤研究中的应用", 中国科学:生命科学, no. 05, pages 46 - 63 *

Also Published As

Publication number Publication date
CN116583905B (zh) 2024-05-10
WO2023092303A1 (en) 2023-06-01

Similar Documents

Publication Publication Date Title
Ray et al. Various dimension reduction techniques for high dimensional data analysis: a review
Guo et al. Feature selection with kernelized multi-class support vector machine
CN110070141B (zh) 一种网络入侵检测方法
Chuang et al. Gene selection and classification using Taguchi chaotic binary particle swarm optimization
Das et al. Feature weighting and selection with a Pareto-optimal trade-off between relevancy and redundancy
Piao et al. A new ensemble method with feature space partitioning for high-dimensional data classification
KR100724104B1 (ko) 멀티플 지지벡터장치를 사용하여 멀티플 데이터세트로부터의 지식발견 강화방법
Wang et al. Feature selection and multi-kernel learning for adaptive graph regularized nonnegative matrix factorization
Drab et al. Clustering in analytical chemistry
Wang et al. An unequal deep learning approach for 3-D point cloud segmentation
Chagas et al. A hybrid heuristic for the overlapping cluster editing problem
Hernández-Lobato et al. Network-based sparse Bayesian classification
Zheng et al. Kernel attention transformer for histopathology whole slide image analysis and assistant cancer diagnosis
Guo et al. Identifying polyadenylation signals with biological embedding via self-attentive gated convolutional highway networks
Gao et al. LinCDE: conditional density estimation via Lindsey's method
Poelmans et al. Text mining with emergent self organizing maps and multi-dimensional scaling: A comparative study on domestic violence
Taşkın et al. An adaptive affinity matrix optimization for locality preserving projection via heuristic methods for hyperspectral image analysis
CN112613391A (zh) 一种基于反向学习二进制水稻育种算法的高光谱图像波段选择方法
CN116583905B (zh) 生成增强Hi-C矩阵的方法、识别增强Hi-C矩阵中结构染色质像差的方法及可读介质
Salman et al. Gene expression analysis via spatial clustering and evaluation indexing
Tahir et al. Protein subcellular localization in human and hamster cell lines: employing local ternary patterns of fluorescence microscopy images
Eshun et al. Histological classification of non-small cell lung cancer with RNA-seq data using machine learning models
Krishnamurthi et al. Importance of feature selection and data visualization towards prediction of breast cancer
Tang et al. A software defect prediction method based on learnable three-line hybrid feature fusion
WO2023150898A1 (en) Method for identifying chromatin structural characteristic from hi-c matrix, non-transitory computer readable medium storing program for identifying chromatin structural characteristic from hi-c matrix

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant