CN113539358B - 基于Hilbert编码的增强子-启动子相互作用预测方法及装置 - Google Patents
基于Hilbert编码的增强子-启动子相互作用预测方法及装置 Download PDFInfo
- Publication number
- CN113539358B CN113539358B CN202110787057.0A CN202110787057A CN113539358B CN 113539358 B CN113539358 B CN 113539358B CN 202110787057 A CN202110787057 A CN 202110787057A CN 113539358 B CN113539358 B CN 113539358B
- Authority
- CN
- China
- Prior art keywords
- sequence
- enhancer
- promoter
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Bioinformatics & Computational Biology (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Entrepreneurship & Innovation (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Game Theory and Decision Science (AREA)
- Biotechnology (AREA)
- Development Economics (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
Abstract
本发明公开了一种基于Hilbert编码的增强子‑启动子相互作用预测方法及装置,属于生物信息领域。针对现有方法未考虑增强子和启动子空间位置信息的问题,本方法的核心贡献在于提出基于希尔伯特空间曲线的编码方式,它保留增强子序列和启动子序列在三维空间中的位置信息,进而提高模型预测准确率。除此之外,该方法通过迁移学习预训练策略提高模型的泛化能力,学习更多种类特征以提升模型跨细胞系预测精度。最后,在基准数据集上对本发明提出的方法进行评价,在预测精度及模型泛化方面均优于现有技术。
Description
技术领域
本发明涉及生物信息技术领域,具体涉及一种基于Hilbert编码的增强子-启动子相互作用预测方法及装置。
背景技术
随着基因研究的不断深入,研究者发现非编码DNA具有重要的生物学意义,它们与细胞调节、基因功能信号传导等重要生物功能紧密相关。增强子是非常重要的非编码DNA元件之一,在控制基因表达中起到核心作用。启动子是决定转录起点和转录频率的DNA序列。增强子-启动子相互作用(EPIs,Enhancer-Promoter Interactions)指增强子与特定活性蛋白相结合,协同靶启动子以驱动组织特异性基因表达的过程。EPIs不仅对基因表达以及基因调控至关重要,同时它还与人类疾病的发生密切相关。研究人员通过实验证明,EPIs作为一种媒介,会导致前列腺癌、多发性硬化症以及I型糖尿病的发生。因此,鉴定真正的三维基因组结构,尤其是跨越不同细胞系的EPIs尤其重要,它是研究人员了解基因调控、细胞分化和疾病机制的重要环节。
高通量技术的发展促进了增强子-启动子相互作用的基因组研究,例如Hi-C(Hi-C,High-throughput chromosome conformation capture),可提供全基因组范围内片段之间所有可能的成对相互作用。但是该方法实验成本高,实验耗费时间长。同时,实验结果受仪器分辨率的限制,检测结果可能包含大量不相关信息,如与EPIs无关的其他序列,以及除增强子和启动子之外的其他基因元件的序列信息。因此,随着生物信息学中计算预测方法的发展,研究人员通过计算方法更好的指导预测增强子-启动子相互作用的生物实验。
本申请发明人在实施本发明的过程中,发现现有增强子-启动子相互作用的计算方法存在一些不足之处。增强子-启动子相互作用的计算方法可划分为编码和模型阶段。当前编码方式未考虑序列可能的空间位置信息,而增强子和启动子在三维空间中折叠环绕发生相互作用,序列的空间位置在增强子与启动子相互作用中起重要作用。此外,在模型阶段,现有模型泛化能力弱,仅能在特定细胞系上达到较高的预测精度,但应用于其他多数细胞系时预测精度较低。
发明内容
本发明的目的在于克服上述现有技术的缺陷,提供一种基于希尔伯特空间曲线编码的增强子-启动子相互作用预测方法及装置。希尔伯特编码方式考虑序列可能的空间位置信息,这有助于模型学习增强子和启动子间的长距离相互作用关系,进而提高模型预测准确率。此外,该方法使用迁移学习提高预测模型的泛化能力,使该模型学习的更多种类特征以提升模型跨细胞系预测精度。技术方案如下:
一种基于Hilbert编码的增强子-启动子相互作用预测方法,包括以下步骤:
S1:获得人类常见细胞系的增强子序列数据与启动子序列数据,并进行数据预处理;
S2:分别对预处理后的增强子序列数据与启动子序列数据进行希尔伯特空间曲线编码,模拟增强子-启动子相互作用过程中序列的三维空间结构;
S3:基于卷积神经网络强化与增强子-启动子相互作用相关的特定子序列,分别提取增强子序列特征和启动子序列的特征;
S4:将提取到的增强子序列特征和启动子序列特征组合,通过拼接和全连接层得到整体特征映射组合;
S5:利用所述整体特征映射组合,在训练数据集上基于反向传播算法和迁移学习方法进行模型训练,得到增强子-启动子相互作用预测模型。
进一步的,所述S1具体包括:
S11:从Hi-C数据集中提取增强子序列数据和启动子序列数据,将获取的不同长度的序列数据左右扩增或截取以达到固定长度;
S12:采用样本数据平衡方法,平衡正负样本数量。
更进一步的,所述平衡正负样本数量具体为:
采用正样本的过采样方法,从原正样本数据的前端随机截取x个连续子序列,将截取的子序列移动到原序列后端形成新序列,使得正负样本数量平衡;
采用负样本的降采样方法,从原负样本数据中随机选取与正样本等量的增强子和启动子序列,使得正负样本数量平衡。
更进一步的,所述S2具体包括:
S21:对步骤S1预处理后得到的数据进行独热编码,将碱基编码为一维向量,同时根据序列长度确定希尔伯特空间维度;将一条长为n的DNA序列表示为S=(s1,s2,...,sn),所述独热编码后的矩阵M采用如下公式表示:
其中,i是核苷酸的下标,j为对应于矩阵中A,C,G,T四种碱基的下标;N为在原始序列两端填充或截取后达到固定长度的序列,在矩阵中使用[0.25,0.25,0.25,0.25]表示。
S22:对于序列中的每一个碱基,按照希尔伯特空间顺序,依次将一维向量嵌入至希尔伯特曲线中,得到序列的三维向量表示。
更进一步的,所述S3具体包括:
S31:将经过希尔伯特编码的增强子数据依次进行卷积、最大池化、卷积、全局池化,提取出增强子序列特征;
S32:将经过希尔伯特编码的启动子数据依次进行卷积、最大池化、卷积、全局池化,提取出启动子序列特征。
更进一步的,所述S4中全连接层采取随机失活策略对神经元进行处理,其中dropout设置为0.5。
更进一步的,所述S5具体包括:
S51:采用迁移学习方法预训练模型,提高模型的跨细胞系的预测能力;
S52:使用目标细胞系训练步骤S51所得模型,基于反向传播算法,通过Sigmoid激活函数和交叉熵损失进行分类训练,在模型训练过程中,采取梯度下降法最小化模型误差。
更进一步的,所述采用迁移学习方法预训练模型包括:
采用弱迁移学习模式,使用除目标细胞系之外的其它细胞系预训练模型,再使用目标细胞系训练模型,使得模型能够学习除目标细胞系之外的其他细胞系包含的特征;
采用强迁移学习模式,通过融合目标细胞系与其它细胞系预训练模型,冻结卷积层和池化层后,再使用目标细胞系训练模型,在学习更多种类特征的同时保留目标细胞系特征,同时后续训练过程中针对目标细胞系不断进行模型参数优化,以提升预测精度。
一种基于Hilbert编码的增强子-启动子相互作用预测装置,包括数据预处理模块、希尔伯特空间曲线编码模块、基于卷积神经网络的特征提取模块、特征融合模块和迁移学习预训练模块;
所述数据预处理模块将获取到的人类常见细胞系的增强子序列数据与启动子序列数据进行预处理,使序列数据达到固定长度,并使正负样本数量平衡;
所述希尔伯特空间曲线编码模块对预处理后的增强子序列数据与启动子序列数据进行编码,模拟增强子-启动子相互作用过程中序列的三维空间结构;
所述基于卷积神经网络的特征提取模块强化与增强子-启动子相互作用相关的特定子序列,提取增强子序列特征和启动子序列的特征,
所示特征融合模块将提取到的增强子序列特征和启动子序列的特征进行特征组合,通过拼接和全连接层得到整体特征映射组合;
所述迁移学习预训练模块利用所述整体特征映射组合,在训练数据集上基于反向传播算法和迁移学习方法进行模型训练,得到增强子-启动子相互作用预测模型。
一种用于存储增强子-启动子相互作用预测模型存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述预测方法。
与现有技术相比,本发明的有益效果如下:
1)本发明引入希尔伯特空间曲线编码方法,将一维的序列数据转化为具有空间位置信息的三维向量表示,不仅能较好地表示序列可能的空间位置关系,,还能帮助模型更好地考虑增强子和启动子的长距离相互作用;
2)本发明构建的卷积神经网络设置两个分支并行学习增强子信息和启动子信息,避免了两者特征间的混淆,进而充分提取增强子和启动子的潜在特征;
3)本发明引入两种迁移学习策略预训练模型,使得模型学习的特征种类更多,跨细胞系预测效果更优,进而提高模型的泛化能力;
4)本发明提出的希尔伯特空间曲线编码方式不仅能应用于增强子-启动子相互作用预测问题中,还能应用于其他从空间上相互接触发生作用的基因元件之间的预测;
5)本发明提出的基于迁移学习的模型预训练方法具有一定的可移植性,能够应用于数据量较少的问题中以扩展数据集;
6)本发明通过对已知基因序列数据构建神经网络学习,来预测未被验证的数据是否具有相互作用关系以指导生物实验,有效地减少了实验时间与财力损耗。
附图说明
图1是本发明提供的一种基于希尔伯特编码的增强子-启动子相互作用预测方法的流程图。
图2是本发明提出的希尔伯特编码增强子和启动子序列数据的流程图。
图3是本发明实施例中构建的基于希尔伯特空间曲线编码预测增强子-启动子相互作用的卷积神经网络结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细说明。
本发明提出了一种基于希尔伯特空间曲线编码的增强子-启动子相互作用预测方法。该方法提出使用希尔伯特空间曲线编码增强子和启动子序列的空间位置关系,通过卷积神经网络构建增强子-启动子预测模型,引入两类迁移学习思想预训练模型提高模型跨细胞系预测的性能。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图通过对本发明进一步详细说明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供了一种基于希尔伯特编码的增强子-启动子相互作用预测方法,如图1所示,该方法包括:
S1:数据获取与预处理。获得人类常见细胞系的增强子序列数据与启动子序列数据并对其进行固定序列长度和平衡样本数据量的预处理操作;
S2:希尔伯特空间曲线编码。通过希尔伯特(Hilbert curve)空间曲线分别对预处理后的增强子序列数据与启动子序列数据进行编码,模拟增强子-启动子相互作用过程(EPIs)中序列的三维空间结构;
S3:基于卷积神经网络的特征提取。构建卷积神经网络强化与EPIs相关的特定子序列,分别提取增强子序列特征和启动子序列的特征;
S4:特征融合。将提取到的增强子序列特征和启动子序列特征组合,通过拼接和全连接层得到整体特征映射组合;
S5:迁移学习预训练。利用整体特征映射组合,在训练数据集上基于反向传播算法和迁移学习方法进行模型训练,得到增强子-启动子相互作用预测模型。
具体而言,上述五个步骤的详细过程为:
一、数据获取与预处理
从公开数据库和Hi-C技术中分别获取增强子-启动子序列原始数据和正负样本数据,固定序列长度、平衡正负样本。
1、获取数据。获取的增强子和启动子序列数据来源于人类DNA百科全书,经过表观基因组图谱以及染色质状态研究筛选得到,正负样本通过Hi-C技术检测得到。以fasta文件格式存储序列数据和正负样本数据,格式分别为”染色体名:序列位置”,[增强子所在行,启动子所在行,标签(0或1)]。
2、固定序列长度。将序列统一为固定的长度表示,增强子长度3000bp,启动子长度2000bp。
1)若增强子序列长度L不足3000bp,则在序列的前端和后端分别填充长度为(3000-L)/2的序列,若序列前端长度N不足(3000-L)/2,则在前端填充长度为N的序列,后端填充长度为3000-L–N;
2)若增强子序列长度L超过3000bp,舍去长度为L-3000的后端序列。
3、平衡正负样本
由于增强子启动子相互作用的正负样本数量存在类不平衡问题,对模型性能易造成影响。出于该方面的考虑,本方法采用样本数据平衡方法,使得正负样本数量近似相等。
1)正样本的过采样
i.从m个正样本序列的前端或者后端随机选取x个连续序列;
ii.将选取的x个序列移动到原序列的后端或者前端形成新的序列;
iii.将上述的步骤重复20次,使得正负样本数量近似相等。
2)负样本的降采样
i.从n个负样本中随机选取m条序列;
ii.使得正负样本数量相等。
二、希尔伯特空间曲线编码
希尔伯特空间曲线编码通过蜿蜒盘旋的编码方式,使得直线上距离很远的两个点可以在空间上相互靠近(空间距离很近)。其特性适用于表示在空间上相互靠近,但在序列位置中相互远离的增强子和启动子之间的相互作用关系。如图2所示,希尔伯特空间曲线编码主要分为三个步骤。
1、一维独热编码
1)统一增强子和启动子序列的碱基表示形式。将序列的四种碱基进行编码表示,A编码为[1,0,0,0],T编码为[0,1,0,0],C编码为[0,0,1,0],G编码为[0,0,0,1]。
2)确认希尔伯特空间曲线编码的维度。维度为k的希尔伯特曲线最多可以展示长度为2k×2k的序列,根据序列的长度L(增强子3000bp,启动子2000bp),确定希尔伯特空间维度k为6;将一条长为n的DNA序列表示为S=(s1,s2,...,sn),所述独热编码后的矩阵M采用如下公式表示:
其中,i是核苷酸的下标,j为对应于矩阵中A,C,G,T四种碱基的下标;N为在原始序列两端填充或截取后达到固定长度的序列,在矩阵中使用[0.25,0.25,0.25,0.25]表示。
2、序列三维向量表示。对于序列中的每一个碱基,按照希尔伯特空间的顺序,依次编码,得到序列的三维向量表示,即将一维的增强子和启动子序列转化为(64,64,4)的三维向量表示。
三、基于卷积神经网络的特征提取
1、如图3所示,将经过希尔伯特编码的增强子数据依次进行卷积、最大池化、卷积、全局池化,提取出增强子序列特征
1)卷积层一。将过滤器数量设为64,卷积核的大小为5×5,卷积窗口的步长为4。该层从输入数据中提取出64个特征,输出的增强子序列特征映射的维度为16×16×64;
2)最大池化。将上一步输出的特征映射传递到最大池化层进行特征的采样,大池化窗口的大小设为3×3,步长为2,输出的增强子序列特征映射的维度为7×7×64;
3)卷积层二。将上一步输出的特征映射传递到卷积层二再次进行卷积计算,卷积层的过滤器数量为128,卷积核大小为3×3,步长为2,激活函数为ReLU,输出的增强子序列特征映射的维度为4×4×128;
4)全局池化。将上一步输出的特征映射传递到全局池化层进行特征的采样,全局池化层的滑动窗口大小和整张特征图的相同,将每个W×H×C的输入特征图转化为1×1×C的输出,使用keras中的GlobalMaxPooling2D,输出的增强子序列特征映射的维度为1×128;
2、将经过希尔伯特编码的启动子数据依次进行卷积、最大池化、卷积、全局池化,提取出启动子序列特征。
1)卷积层一。将过滤器数量设为64,卷积核的大小为5×5,卷积窗口的步长为4。该层从输入数据中提取出64个特征,输出的启动子序列特征映射的维度为16×16×64;
2)最大池化。将上一步输出的特征映射传递到最大池化层进行特征的采样,大池化窗口的大小设为3×3,步长为2,输出的启动子序列特征映射的维度为7×7×64;
3)卷积层二。将上一步输出的特征映射传递到卷积层二再次进行卷积计算,卷积层的过滤器数量为128,卷积核大小为3×3,步长为2,激活函数为ReLU,输出的启动子序列特征映射的维度为4×4×128;
4)全局池化。将上一步输出的特征映射传递到全局池化层进行特征的采样,全局池化层的滑动窗口大小和整张特征图的相同,将每个W×H×C的输入特征图转化为1×1×C的输出,使用keras中的GlobalMaxPooling2D,输出的启动子序列特征映射的维度为1×128。
四、特征融合
1)对经过池化层之后的增强子序列和启动子序列的每个特征映射对应相加进行融合,在融合过程中,增强子序列数据和启动子序列数据这两者的每一对应位置数据相加,相加后维度为1×256;
2)将融合后的特征映射传递到正则化层进行正则化处理,使用dropout函数实施正则化。该实施例中dropout概率设置为0.5,但也可使用(0,1)区间内其他概率值。将所述的正则化处理后的特征映射传递到全连接层,输出的特征映射的维度为1×256。再使用ReLU激活函数进行激活,得到完整的特征映射组合,维度为1×128。
五、迁移学习预训练
1、采用迁移学习方法预训练模型
1)采用弱迁移学习模式,通过使用其它细胞系预训练模型的方法,学习更多种类的特征。
①使用另外五个细胞系预训练模型,迭代次数大约6到8次;
②使用目标细胞系训练模型,迭代次数在10到15之间;
③使用目标细胞系的测试集评估模型的分类效果。
2)采用强迁移学习模式,通过融合目标细胞系与其它细胞系预训练模型的方法,在学习更多种类特征的同时保留目标细胞系特征。
①使用六个细胞系预训练模型,迭代次数大约为6到8次;
②冻结卷积层和池化层;
③使用目标细胞系训练模型,迭代次数在10到15之间;
④使用目标细胞系的测试集评估模型的分类效果。
2、利用整体特征映射组合,基于反向传播算法进行模型训练,采用ReLU激活函数和交叉熵损失。为了防止过拟合,使用dropout=0.5对神经元进行随机失活处理。
本发明提供的预测方法,在具体实施时,可采用软件方式实现流程的自动运行。运行流程的装置也应当在本发明的保护范围内。
以下通过对比实验来验证本发明的有益效果。
本实验采用的数据从公开数据库中提取而得,该数据一共包括包括红白血病细胞(K562)、人类B淋巴细胞(GM12878)、宫颈癌细胞(HeLa-S3)、人脐静脉表皮细胞(HUVEC)、人表皮角质细胞(NHEK)和人胚肺成纤维细胞(IMR90)这六类细胞系的增强子和启动子序列数据。增强子长度在200bp-1400bp之间,启动子长度在200bp-1200bp之间。分别采用SPEID(方法1),EPIsCNN(方法2)和本发明方法进行预测比较,其中基于两种迁移学习预训练策略,本发明方法有HilbertEPIs(不使用迁移学习策略预训练模型),HilbertEPIs-transOne(使用弱迁移学习粗略预训练模型)和HilbertEPIs-transTwo(使用强迁移学习策略预训练模型)三种。
表1对比实验结果
从表1可见,与现有的深度学习方法(方法1和方法2)相比,本发明方法在实验的六个细胞系数据上都能获得更高的预测精度(AUC)值,表明本发明的方法具有更强的增强子-启动子相互作用预测能力。使用迁移学习思想的模型训练方法从六个细胞系中学习特征,降低了由于目标细胞系中的数据量相对较少,而对模型训练产生的影响,在一定程度上扩展了样本特征的数量。根据表1结果,可以猜测NHEK和IMR90两个细胞系各自特有的特征数量较多,融入迁移学习之后的效果并不理想;而K562、HeLa-S3、HUVEC和GM12878四个细胞系在融合迁移学习方法之后,模型效果有一定地提升,说明这四个细胞系中有许多影响EPIs的特征是六个细胞系所共有的。
由此可得出结论,与已有增强子-启动子相互作用预测方法相比,本发明方法拥有更高的预测精度。
实施例二
在本发明的第二个实施例中,为验证迁移学习的有效性,在实施例一的基础上增加数据重合度探索。重合度指不同细胞系中发生增强子-启动子相互作用的增强子-启动子对的序列相似性,重合度越高则迁移学习预训练策略越有效。本实施例其他步骤,如数据预处理、希尔伯特空间曲线编码、特征提取、特征融合、迁移学习预训练与实施例一相同。
融入迁移学习思想后,模型跨细胞系的作用效果有所提升,这说明不同细胞系间的数据存在联系,即可能存在共同的序列特征。为了进一步验证这种假设,本实施例探索不同细胞系之间增强子-启动子发生相互作用的序列重合度。
本发明提供的预测方法,在具体实施时,可采用软件方式实现流程的自动运行。运行流程的装置也应当在本发明的保护范围内。
以下通过实验结果验证本发明的有益效果。
表2重合度设置为100%时各细胞系增强子-启动子对相似性
表3重合度设置为80%时各细胞系增强子-启动子对相似性
从表2和表3可见,NHEK和IMR90与各个细胞系完全重合的增强子-启动子对数量较少,而另外四个细胞系的重合细胞相对较多。当重合度降低至80%时,NHEK和IMR90细胞系的重合数量提升幅度不大,而另外四个细胞系的涨幅巨大,可以预计当重合度设置不断降低时,除NHEK和IMR90之外的四个细胞系涨幅会更加巨大,从侧面辅助验证了不同细胞系中的发生相互作用的增强子-启动子对存在部分公共特征,因此迁移学习能提高跨细胞系预测性能。
综上所述,本发明设计了一种基于希尔伯特空间曲线编码的增强子-启动子相互作用预测方法,能够有效提高预测增强子-启动子相互作用的性能。本发明的研究成果可应用于生物医学领域,研究人员可以选取发生相互作用可能性较高的增强子-启动子对进行更深入地研究。此外,由于希尔伯特空间编码善于编码序列的空间位置关系,本发明研究成果不仅能应用于增强子-启动子相互作用预测问题中,还能应用于其他从空间上相互接触发生作用的基因元件之间的预测。
Claims (7)
1.一种基于Hilbert编码的增强子-启动子相互作用预测方法,其特征在于,包括以下步骤:
S1:获得人类常见细胞系的增强子序列数据与启动子序列数据,并进行数据预处理;
S2:分别对预处理后的增强子序列数据与启动子序列数据进行希尔伯特空间曲线编码,模拟增强子-启动子相互作用过程中序列的三维空间结构;
S3:基于卷积神经网络强化与增强子-启动子相互作用相关的特定子序列,分别提取增强子序列特征和启动子序列的特征;
S4:将提取到的增强子序列特征和启动子序列特征组合,通过拼接和全连接层得到整体特征映射组合;
S5:利用所述整体特征映射组合,在训练数据集上基于反向传播算法和迁移学习方法进行模型训练,得到增强子-启动子相互作用预测模型;
所述S2具体包括:
S21:对步骤S1预处理后得到的数据进行独热编码,将碱基编码为一维向量,同时根据序列长度确定希尔伯特空间维度;将一条长为n的DNA序列表示为S=(s1,s2,...,sn),所述独热编码后的矩阵M采用如下公式表示:
其中,i是核苷酸的下标,j为对应于矩阵中A,C,G,T四种碱基的下标;N为在原始序列两端填充或截取后达到固定长度的序列,在矩阵中使用[0.25,0.25,0.25,0.25]表示;
S22:对于序列中的每一个碱基,按照希尔伯特空间顺序,依次将一维向量嵌入至希尔伯特曲线中,得到序列的三维向量表示;
所述S5具体包括:
S51:采用迁移学习方法预训练模型,提高模型的跨细胞系的预测能力;
S52:使用目标细胞系训练步骤S51所得模型,基于反向传播算法,通过Sigmoid激活函数和交叉熵损失进行分类训练,在模型训练过程中,采取梯度下降法最小化模型误差;
所述采用迁移学习方法预训练模型包括:
采用弱迁移学习模式,使用除目标细胞系之外的其它细胞系预训练模型,再使用目标细胞系训练模型,使得模型能够学习除目标细胞系之外的其他细胞系包含的特征;
采用强迁移学习模式,通过融合目标细胞系与其它细胞系预训练模型,冻结卷积层和池化层后,再使用目标细胞系训练模型,在学习更多种类特征的同时保留目标细胞系特征,同时后续训练过程中针对目标细胞系不断进行模型参数优化,以提升预测精度。
2.根据权利要求1所述的基于Hilbert编码的增强子-启动子相互作用预测方法,其特征在于,所述S1具体包括:
S11:从Hi-C数据集中提取增强子序列数据和启动子序列数据,将获取的不同长度的序列数据左右扩增或截取以达到固定长度;
S12:采用样本数据平衡方法,平衡正负样本数量。
3.根据权利要求2所述的基于Hilbert编码的增强子-启动子相互作用预测方法,其特征在于,所述平衡正负样本数量具体为:
采用正样本的过采样方法,从原正样本数据的前端随机截取x个连续子序列,将截取的子序列移动到原序列后端形成新序列,使得正负样本数量平衡;
采用负样本的降采样方法,从原负样本数据中随机选取与正样本等量的增强子和启动子序列,使得正负样本数量平衡。
4.根据权利要求1所述的基于Hilbert编码的增强子-启动子相互作用预测方法,其特征在于,所述S3具体包括:
S31:将经过希尔伯特编码的增强子数据依次进行卷积、最大池化、卷积、全局池化,提取出增强子序列特征;
S32:将经过希尔伯特编码的启动子数据依次进行卷积、最大池化、卷积、全局池化,提取出启动子序列特征。
5.根据权利要求1所述的基于Hilbert编码的增强子-启动子相互作用预测方法,其特征在于,所述S4中全连接层采取随机失活策略对神经元进行处理,其中dropout设置为0.5。
6.一种基于Hilbert编码的增强子-启动子相互作用预测装置,其特征在于,包括数据预处理模块、希尔伯特空间曲线编码模块、基于卷积神经网络的特征提取模块、特征融合模块和迁移学习预训练模块;
所述数据预处理模块将获取到的人类常见细胞系的增强子序列数据与启动子序列数据进行预处理,使序列数据达到固定长度,并使正负样本数量平衡;
所述希尔伯特空间曲线编码模块对预处理后的增强子序列数据与启动子序列数据进行编码,模拟增强子-启动子相互作用过程中序列的三维空间结构;
所述希尔伯特空间曲线编码模块的具体处理过程为:
对预处理后得到的数据进行独热编码,将碱基编码为一维向量,同时根据序列长度确定希尔伯特空间维度;将一条长为n的DNA序列表示为S=(s1,s2,...,sn),所述独热编码后的矩阵M采用如下公式表示:
其中,i是核苷酸的下标,j为对应于矩阵中A,C,G,T四种碱基的下标;N为在原始序列两端填充或截取后达到固定长度的序列,在矩阵中使用[0.25,0.25,0.25,0.25]表示;
对于序列中的每一个碱基,按照希尔伯特空间顺序,依次将一维向量嵌入至希尔伯特曲线中,得到序列的三维向量表示;
所述基于卷积神经网络的特征提取模块强化与增强子-启动子相互作用相关的特定子序列,提取增强子序列特征和启动子序列的特征,
所述特征融合模块将提取到的增强子序列特征和启动子序列的特征进行特征组合,通过拼接和全连接层得到整体特征映射组合;
所述迁移学习预训练模块利用所述整体特征映射组合,在训练数据集上基于反向传播算法和迁移学习方法进行模型训练,得到增强子-启动子相互作用预测模型;
所述迁移学习预训练模块的具体处理过程为:
采用迁移学习方法预训练模型,提高模型的跨细胞系的预测能力;
使用目标细胞系训练上述模型,基于反向传播算法,通过Sigmoid激活函数和交叉熵损失进行分类训练,在模型训练过程中,采取梯度下降法最小化模型误差;
所述采用迁移学习方法预训练模型包括:
采用弱迁移学习模式,使用除目标细胞系之外的其它细胞系预训练模型,再使用目标细胞系训练模型,使得模型能够学习除目标细胞系之外的其他细胞系包含的特征;
采用强迁移学习模式,通过融合目标细胞系与其它细胞系预训练模型,冻结卷积层和池化层后,再使用目标细胞系训练模型,在学习更多种类特征的同时保留目标细胞系特征,同时后续训练过程中针对目标细胞系不断进行模型参数优化,以提升预测精度。
7.一种用于存储增强子-启动子相互作用预测模型存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110787057.0A CN113539358B (zh) | 2021-07-13 | 2021-07-13 | 基于Hilbert编码的增强子-启动子相互作用预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110787057.0A CN113539358B (zh) | 2021-07-13 | 2021-07-13 | 基于Hilbert编码的增强子-启动子相互作用预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113539358A CN113539358A (zh) | 2021-10-22 |
CN113539358B true CN113539358B (zh) | 2023-04-25 |
Family
ID=78127601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110787057.0A Active CN113539358B (zh) | 2021-07-13 | 2021-07-13 | 基于Hilbert编码的增强子-启动子相互作用预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113539358B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115762629A (zh) * | 2022-11-30 | 2023-03-07 | 天津大学 | 一种增强子-启动子相互作用的识别方法 |
CN117766027B (zh) * | 2023-12-28 | 2024-06-18 | 北京科技大学 | 一种dna序列增强子-启动子交互作用识别方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115762629A (zh) * | 2022-11-30 | 2023-03-07 | 天津大学 | 一种增强子-启动子相互作用的识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170130247A1 (en) * | 2015-09-30 | 2017-05-11 | Whitehead Institute For Biomedical Research | Compositions and methods for altering gene expression |
-
2021
- 2021-07-13 CN CN202110787057.0A patent/CN113539358B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115762629A (zh) * | 2022-11-30 | 2023-03-07 | 天津大学 | 一种增强子-启动子相互作用的识别方法 |
Non-Patent Citations (2)
Title |
---|
Yujia Hu 等.HilbertEPIs: Enhancer-Promoter Interactions Prediction with Hilbert Curve and CNN Model.2021 IEEE 9th International Conference on Bioinformatics and Computational Biology.2021,全文. * |
孟祥虎.基因表达预测模型研究.中国优秀硕士学位论文全文数据库 (基础科学辑).2016,A002-758. * |
Also Published As
Publication number | Publication date |
---|---|
CN113539358A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tampuu et al. | ViraMiner: Deep learning on raw DNA sequences for identifying viral genomes in human samples | |
Washburn et al. | Evolutionarily informed deep learning methods for predicting relative transcript abundance from DNA sequence | |
CN113539358B (zh) | 基于Hilbert编码的增强子-启动子相互作用预测方法及装置 | |
CN112382338B (zh) | 基于自注意力残差网络的dna-蛋白质结合位点预测方法 | |
WO2023217290A1 (zh) | 基于图神经网络的基因表型预测 | |
CN109637579B (zh) | 一种基于张量随机游走的关键蛋白质识别方法 | |
CN114023376B (zh) | 基于自注意力机制的rna-蛋白质结合位点预测方法和系统 | |
CN114420211A (zh) | 一种基于注意力机制的rna-蛋白质结合位点预测方法 | |
Kao et al. | naiveBayesCall: an efficient model-based base-calling algorithm for high-throughput sequencing | |
CN116312748A (zh) | 基于多头注意力机制的增强子-启动子相互作用预测模型构建方法 | |
CN115472221A (zh) | 一种基于深度学习的蛋白质适应度预测方法 | |
CN114283878B (zh) | 训练匹配模型、预测氨基酸序列和设计药物的方法与装置 | |
Yan et al. | A review about RNA–protein-binding sites prediction based on deep learning | |
CN113450870B (zh) | 一种药物与靶点蛋白的匹配方法及系统 | |
CN112270950A (zh) | 一种基于网络增强和图正则的融合网络药物靶标关系预测方法 | |
CN114758721B (zh) | 一种基于深度学习的转录因子结合位点定位方法 | |
CN112085245A (zh) | 一种基于深度残差神经网络的蛋白质残基接触预测方法 | |
Jing et al. | Prediction of the transcription factor binding sites with meta-learning | |
CN114566215B (zh) | 一种双端成对的剪接位点预测方法 | |
US20240006017A1 (en) | Protein Structure Prediction | |
CN110705704A (zh) | 一种基于相关性分析的神经网络自组织遗传进化算法 | |
CN115019876A (zh) | 一种基因表达预测方法及装置 | |
JP2023534220A (ja) | 新生抗原の提示尤度を決定するための方法、システム及びコンピュータプログラム製品 | |
CN114864002A (zh) | 一种基于深度学习的转录因子结合位点识别方法 | |
Gupta et al. | DAVI: Deep learning-based tool for alignment and single nucleotide variant identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |