CN114842914B

CN114842914B - 一种基于深度学习的染色质环预测方法及系统

Info

Publication number: CN114842914B
Application number: CN202210454801.XA
Authority: CN
Inventors: 吴昊; 张鹏宇
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2024-04-05
Anticipated expiration: 2042-04-24
Also published as: CN114842914A

Abstract

本发明属于染色质环预测技术领域，提供了一种基于深度学习的染色质环预测方法及系统，包括提取不同类型的染色质环的DNA序列的第一特征值；基于所述第一特征值进行特征融合，得到第二特征值；基于所述第二特征值，利用训练好的深度学习预测模型，得到染色质环的预测结果；本发明提出的预测方法在预测不同细胞系和不同类型的染色质环的方面具有非常强的泛化能力，因此可以仅构建一个模型实现对多种细胞系和多种类型染色质环的预测而无需针对不同细胞系和不同类型的染色质环构建多个预测模型，极大地节约了时间成本并提高了实用性。

Description

一种基于深度学习的染色质环预测方法及系统

技术领域

本发明属于染色质环预测技术领域，具体涉及一种基于深度学习的染色质环预测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

染色质环是一种直接调节基因表达的结构和功能单元，一般由结构蛋白CCCTC结合因子(CTCF)和黏连蛋白通过挤压介导形成，其中CTCF基序在两个位点以会聚方向与特定的非回文基序结合并充当环锚。由于染色质环在基因调控、DNA复制、进化和疾病机制等方面有着关键性的作用，因此染色质环的检测成为一大热点。在早期染色质环检测的研究中，通常使用Hi-C技术等生物方法进行检测，然而这些技术面临着成本昂贵、费时费力等难题。随后，一些预测染色质环的计算方法被提出以解决这些难题。然而，这些计算方法通常需要多种功能基因组信号，这对实际中的应用带来了巨大的不便。因此当前研究中，有一些只使用单一数据预测染色质环的方法被陆续提出。然而，这些方法的性能和泛化性较差，难以满足我们对预测工作的高精度和高泛化性的要求。因此，仅使用单一数据实现染色质环的高精度和高泛化的预测成为了预测染色质环的重要研究方向。

在现实中，染色质环的预测存在数据要求高、预测精度低和泛化性能差的问题。数据要求高的问题导致获取数据的成本高、任务重；预测精度低的问题导致预测结果的可信度较低，难以进行下一步分析；泛化性能差的问题导致对不同细胞系或不同类型中的染色质环的预测能力差异较大，因此针对不同细胞系或不同类型的染色质环需要构建不同的预测模型。

发明内容

为了解决上述问题，本发明提出了一种基于深度学习的染色质环预测方法及系统，本发明提出的预测方法在预测不同细胞系和不同类型的染色质环的方面具有非常强的泛化能力，因此可以仅构建一个模型实现对多种细胞系和多种类型染色质环的预测而无需针对不同细胞系和不同类型的染色质环构建多个预测模型，极大地节约了时间成本并提高了实用性。

根据一些实施例，本发明的第一方案提供了一种基于深度学习的染色质环预测方法，采用如下技术方案：

一种基于深度学习的染色质环预测方法，包括：

提取不同类型的染色质环的DNA序列的第一特征值；

基于所述第一特征值进行特征融合，得到第二特征值；

基于所述第二特征值，利用训练好的深度学习预测模型，得到染色质环的预测结果；

其中，所述深度学习预测模型，包括第一层卷积神经网络层、第二层神经网络层和第三层神经网络层；所述第一层神经网络层和第二卷积神经网络层之间设有第一最大池化层和第一dropout层；第二层卷积神经网络层和第三层卷积神经网络层之间设有第二最大池化层和第二dropout层；

所述第三层卷积神经网络层之后设有双向长短期记忆神经网络层，所述双向长短期记忆神经网络层之后设有第三dropout层。

进一步地，所述第一特征值，包括：

反向互补Kmer特征、组合位置评分函数特征、组合基于单链的位置特异性三核苷酸倾向特征、组合基于双链的位置特异性三核苷酸倾向特征和核苷酸对谱编码特征。

进一步地，所述组合位置评分函数特征、组合基于单链的位置特异性三核苷酸倾向特征和组合基于双链的位置特异性三核苷酸倾向特征是分别将各自特征向量的所有特征值进行求和得到的。

进一步地，基于所述第一特征值进行特征融合，得到第二特征值，包括：

将第一特征值包含的反向互补Kmer特征、组合位置评分函数特征、组合基于单链的位置特异性三核苷酸倾向特征、组合基于双链的位置特异性三核苷酸倾向特征和核苷酸对谱编码特征进行特征融合；

得到五种特征的融合结果，即第二特征值。

进一步地，所述训练深度学习预测模型的过程，包括：

获取DNA序列样本，并将DNA序列样本划分为训练集和测试集；

训练集划分为新的训练集和验证集；

基于新的训练集中的DNA序列样本训练深度学习预测模型；

基于验证集中的DNA序列样本对训练好的深度学习模型进行验证；

基于测试集中的DNA序列样本，利用训练好的深度学习预测模型进行测试并评估模型的性能。

进一步地，每层卷积神经网络层采用relu激活函数增强卷积神经网络层的非线性特征；

所述双向长短期记忆神经网络层用于捕获数据前后的顺序关系。

进一步地，采用sigmoid激活函数将所述深度学习预测模型输出的预测结果映射为最终的预测概率；

如果预测概率超过设定值，则认定预测结果为染色质环，否则认定预测结果为非染色质环。

根据一些实施例，本发明的第二方案提供了一种基于深度学习的染色质环预测系统，采用如下技术方案：

一种基于深度学习的染色质环预测系统，包括：

第一特征提取模块，被配置为提取不同类型的染色质环的DNA序列的第一特征值；

第二特征提取模块，被配置为基于所述第一特征值进行特征融合，得到第二特征值；

染色质预测模块，被配置为基于所述第二特征值，利用训练好的深度学习预测模型，得到染色质环的预测结果；

根据一些实施例，本发明的第三方案提供了一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的一种基于深度学习的染色质环预测方法中的步骤。

根据一些实施例，本发明的第四方案提供了一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的一种基于深度学习的染色质环预测方法中的步骤。

与现有技术相比，本发明的有益效果为：

本发明通过提取DNA序列的多种特征并融合，然后使用构建的深度学习模型预测染色质环，本发明提出的预测模型可以仅使用DNA序列数据通过计算方法实现染色质环的预测而无需费时费力成本高昂的生物实验，同时也避免了多种功能基因组信号难以获得的难题。

本发明提出的预测方法在预测不同细胞系和不同类型的染色质环的方面具有非常强的泛化能力，因此可以仅构建一个模型实现对多种细胞系和多种类型染色质环的预测而无需针对不同细胞系和不同类型的染色质环构建多个预测模型，极大地节约了时间成本并提高了实用性。本技术可以应用于生物医学上对染色质环的检测，在节约大量的金钱和时间成本的同时更好地分析疾病、治疗疾病和预防疾病。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例所述的一种基于深度学习的染色质环预测方法的流程图；

图2是本发明实施例所述的深度学习预测模型预测K562细胞系的四种类型的染色质环的性能图；

图3是本发明实施例所述的深度学习预测模型预测MCF-7细胞系的四种类型的染色质环的性能；

图4是本发明实施例所述的Deep-loop方法的AUC值的热图；

图5是本发明实施例所述的深度学习预测模型的AUC值的热图；

图6是本发明实施例所述的深度学习预测模型的结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1-图6所示，本实施例提供了一种基于深度学习的染色质环预测方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

提取不同类型的染色质环的DNA序列的第一特征值；

基于所述第一特征值进行特征融合，得到第二特征值；

提取染色质环序列的五种特征并融合；

具体地，所述第一特征值，包括：

反向互补Kmer、组合位置评分函数、组合基于单链的位置特异性三核苷酸倾向、组合基于双链的位置特异性三核苷酸倾向和核苷酸对谱编码五种特征；其中组合位置评分函数、组合基于单链的位置特异性三核苷酸倾向和组合基于双链的位置特异性三核苷酸倾向为基于组合之前的特征进行改进之后的特征。

目前的方法泛化性较差，在预测不同细胞系和不同类型的染色质环时性能难以满足要求。而在实际应用中，针对每种细胞系中每种类型的染色质环构建多个预测模型非常费时费力且不现实，因而实用性较差。

本实施例仅使用DNA序列数据一种数据，构建了一个基于深度学习方法预测CTCF介导的染色质环的高精度高泛化性模型有效地解决了现有技术中针对不同细胞系或不同类型的染色质环需要构建不同的预测模型导致的数据要求高、预测精度低和泛化性能差的问题。

因为本实施例提取的的第一特征值可以有效表征不同细胞系和不同类型中的染色质环，所以可以使构建的模型有强壮的鲁棒性和泛化能力，因此可以直接进行跨细胞系和跨类型的预测而无需重新训练模型。

由于染色质环类型的差异，其序列分布在不同的类型中呈现相反的趋势。因此，使用传统的特征提取方法提取的不同类型染色质环的DNA序列的特征值分布呈相反的趋势DNA序列，这会极大地降低模型预测染色质环的精度。

本方法首先基于传统的特征提取方法提出了三种新颖的特征提取方法。具体而言，我们改进了位置评分函数特征(PSF)、基于单链的位置特异性三核苷酸倾向(PSTNPss)和基于双链的位置特异性三核苷酸倾向(PSTNPds)三种特征，通过使用特征值的组合代替原本的特征值。

具体的组合方法就是对于上述每种特征，将特征向量所有特征值进行求和，目的是为了以整个序列的保守得分代替不同位点上子序列的保守得分，可以解决不同类型的染色质环中方向相反造成的特征向量分布相反的问题，因此可以有效提升预测不同类型染色质环的能力，并将改进后的特征分别命名为组合位置评分函数(CPSF)、组合基于单链的位置特异性三核苷酸倾向(CPSTNPss)和组合基于双链的位置特异性三核苷酸倾向(CPSTNPds)。

随后，我们经过同类型染色质环验证和跨类型染色质环验证，这里的验证指的是选择模型使用哪些特征提取算法的过程，具体而言是，例如，对比了31种特征的性能之后确定五种最优的特征即本研究使用的特征，最终选择了信息量最大的五种特征反向互补Kmer(RCKmer)、CPSF、CPSTNPss、CPSTNPds和核苷酸对谱编码(NPSE)，并将它们进行融合作为模型的输入。这个就是本实施例使用的五种特征，具体地说，本实施例一共就是用了这五种特征，其中三种(带组合的三种)是我们改进了原本的并首创提出的，最后将这五种一起融合作为输入，由于改进的特征有效地解决了不同类型染色质环序列方向差异的问题以及融合的特征包含了最大信息量的特征，因此我们的方法从数据层面有效提高了模型的预测精度和泛化性能。

具体地，所述训练深度学习预测模型的过程，包括：

获取DNA序列样本，并将DNA序列样本划分为训练集和测试集；

训练集划分为新的训练集和验证集；

基于新的训练集中的DNA序列样本训练深度学习预测模型；

其中，所述深度学习预测模型包括输入层、三层卷积神经网络层、双向长短期记忆神经网络层以及输出层；每层所述卷积神经网络层采用relu激活函数增强卷积神经网络层的非线性特征；

第一层卷积神经网络层和第二卷积神经网络层之间设有第一最大池化层和第一dropout层；第二层卷积神经网络层和第三层卷积神经网络层之间设有第二最大池化层和第二dropout层；

所述第三层卷积神经网络层还连接双向长短期记忆神经网络层；所述双向长短期记忆神经网络层用于捕获数据前后的顺序关系，之后设有第三dropout层。卷积层、双向长短期记忆神经网络均为深度学习基础原理，卷积层进行卷积计算提取数据的复杂特征，双向长短期记忆神经网络捕获数据的顺序关系。由于神经网络中巨大的参数量，因此无法给出具体计算细节，相对具体来说的话，预测的样本进入模型之前的特征向量矩阵形状为(1222,1)的矩阵张量，通过第一层卷积层之后形状为(1218,32)的矩阵张量，通过第一最大池化层之后形状为(609,32)，通过第一dropout层之后形状为(609,32)，通过第二层卷积层之后形状为(605,32)的矩阵张量，通过第二最大池化层之后形状为(302,32)，通过第二dropout层之后形状为(302,32)，通过第三层卷积层之后形状为(298,32)的矩阵张量，通过双向长短期记忆神经网络之后形状为(298,64)的矩阵张量，然后压平并通过第三dropout层之后变为长度为19072的一维向量，最后通过带有sigmoid激活函数的全连接层之后，输出为1个值，即为预测概率值。

采用带有sigmoid激活函数和1个节点的全连接层将所述深度学习预测模型输出的预测结果映射为最终的预测概率；

如果预测概率超过0.5，则认定预测结果为染色质环，否则认定预测结果为非染色质环。

由于卷积层的堆叠可以有效提取数据的复杂特征以及双向LSTM可以有效捕捉数据前后的顺序关系，我们构建了一个集成了三层CNN和双向LSTM的深度学习模型(CLNN-loop)，如图6所示。

具体而言，每层CNN中我们都使用“relu”激活函数增强神经网络的非线性特性，并在每两层CNN之间都添加了最大池化层用于通过下采样的方式提高模型的鲁棒性，避免过拟合。在这之后我们还添加了双向LSTM层用于捕获数据前后的顺序关系。除此之外，我们还添加了dropout层通过按照概率从网络中临时丢弃一些神经网络单元有效避免过拟合。dropout层原理：每一次迭代时会按照指定概率将神经节点的输出置零，为深度学习基础原理。最后，我们通过使用“sigmoid”作为激活函数的全连接层将输出映射为最终的预测概率，其位于整个模型的最后，仅带有一个节点，该全连接层使用sigmoid激活函数处理输出；全连接层起分类的作用，具体计算过程为深度学习基础原理，如果预测概率超过0.5，则认为预测结果为染色质环，否则认为预测结果为非染色质环。我们通过改进模型的结构，从模型层面进一步提升了预测精度和泛化性能，更全面地满足实际应用的要求。模型的结构如图6所示。

与已有技术相比，本实施例的方法首先改进并提出了一种新的特征提取方法，从而有效提高了模型的泛化能力；之后构建了一个新颖的集成了CNN和双向LSTM的深度学习模型，进一步提高模型的性能。

作为对比，我们首先评估了我们的方法和已有的方法在预测相同细胞系中相同类型的染色质环的性能，如图2、图3所示。其中，图2中A-D分别代表模型预测K562细胞系的四种类型的染色质环的性能，图3中E-H分别代表模型预测MCF-7细胞系的四种类型的染色质环的性能。从图2、图3中可以看出，我们提出的模型(CLNN-loop)与现有模型相比有着更卓越的性能。

随后，我们进一步对比了我们的方法与先前研究的方法的泛化能力，如图4、图5所示。图4为先前研究中的方法(Deep-loop)的AUC值的热图，图5为本方法(CLNN-loop)的AUC值的热图，X轴为训练集的细胞系和类型，Y轴为测试集的细胞系和类型，FF代表正向正向对类型，FR代表正向反向对类型，RF代表反向正向对类型，RR代表反向反向对类型。从图4、图5中我们可以看出，我们的方法与先前的方法相比具有明显的优势，尤其体现在预测不同细胞系或不同类型的染色质环的方面。更直观地讲，Deep-loop的64个结果的平均AUC值为0.9523，而CLNN-loop的64个结果的平均AUC值为0.9937，比前者高了4.35％。因此总体而言，我们提出的方法在预测精度和泛化性能上都有明显的改善，更加符合实际应用的需要。

最后，为确保模型的性能最优，我们通过网格搜索的方法调整了参数。我们调整的参数包括学习率、核的数量、核的大小以及LSTM单元的数量。表1展示了部分参数组合的结果。可以看出，模型的性能受到参数设置的影响，其中学习率为0.001、核的数量为32、核的大小为5、LSTM单元数为32的模型表现最好。因此，我们利用这种参数组合来构建我们的模型。

表1深度学习预测模型部分参数组合的性能

实施例二

本实施例提供了一种基于深度学习的染色质环预测系统，包括：

第一特征提取模块，被配置为提取不同类型的染色质环序列的第一特征值；

第二特征提取模块，被配置为基于所述第一特征值进行染色质环验证，得到第二特征值；

染色质预测模块，被配置为基于所述第二特征值，利用训练好的深度学习预测模型，得到染色质环的预测结果。

上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的一种基于深度学习的染色质环预测方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的一种基于深度学习的染色质环预测方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于深度学习的染色质环预测方法，其特征在于，包括：

提取不同类型的染色质环的DNA序列的第一特征值；

所述第一特征值，包括：

反向互补Kmer特征、组合位置评分函数特征、组合基于单链的位置特异性三核苷酸倾向特征、组合基于双链的位置特异性三核苷酸倾向特征和核苷酸对谱编码特征；

所述组合位置评分函数特征、组合基于单链的位置特异性三核苷酸倾向特征和组合基于双链的位置特异性三核苷酸倾向特征是分别将各自特征向量的所有特征值进行求和得到的；

基于所述第一特征值进行染色质环验证特征融合，得到第二特征值；

2.如权利要求1所述的一种基于深度学习的染色质环预测方法，其特征在于，基于所述第一特征值进行特征融合，得到第二特征值，包括：

得到五种特征的融合结果，即第二特征值。

3.如权利要求1所述的一种基于深度学习的染色质环预测方法，其特征在于，所述训练深度学习预测模型的过程，包括：

获取DNA序列样本，并将DNA序列样本划分为训练集和测试集；

训练集划分为新的训练集和验证集；

基于新的训练集中的DNA序列样本训练深度学习预测模型；

4.如权利要求1所述的一种基于深度学习的染色质环预测方法，其特征在于，每层卷积神经网络层采用relu激活函数增强卷积神经网络层的非线性特征；

5.如权利要求4所述的一种基于深度学习的染色质环预测方法，其特征在于，采用sigmoid激活函数将所述深度学习预测模型输出的预测结果映射为最终的预测概率；

6.一种基于深度学习的染色质环预测系统，其特征在于，包括：

所述第一特征值，包括：

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的一种基于深度学习的染色质环预测方法中的步骤。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一项所述的一种基于深度学习的染色质环预测方法中的步骤。