CN113096733A - 一种基于序列和形状信息深度融合的模体挖掘方法 - Google Patents

一种基于序列和形状信息深度融合的模体挖掘方法 Download PDF

Info

Publication number
CN113096733A
CN113096733A CN202110509316.3A CN202110509316A CN113096733A CN 113096733 A CN113096733 A CN 113096733A CN 202110509316 A CN202110509316 A CN 202110509316A CN 113096733 A CN113096733 A CN 113096733A
Authority
CN
China
Prior art keywords
sequence
deep
shape information
neural network
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110509316.3A
Other languages
English (en)
Other versions
CN113096733B (zh
Inventor
黄德双
张寅东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202110509316.3A priority Critical patent/CN113096733B/zh
Publication of CN113096733A publication Critical patent/CN113096733A/zh
Application granted granted Critical
Publication of CN113096733B publication Critical patent/CN113096733B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于序列和形状信息深度融合的模体挖掘方法,包括:S1、构建深度嵌入卷积神经网络模型,并对DNA序列和形状信息进行空间对齐混合,作为所述神经网络模型的输入;S2、对所述深度嵌入卷积神经网络模型进行训练,得到模体绑定强度预测值;S3、基于预测值与实际绑定强度之间的回归系数R2对所述构建的深度嵌入卷积神经网络模型性能进行评估。本发明方法利用了卷积神经网络在特征提取方面的优势,实现了序列和形状特征的深度融合。

Description

一种基于序列和形状信息深度融合的模体挖掘方法
技术领域
本发明涉及计算机识别与深度学习技术领域,特别是涉及一种基 于序列和形状信息深度融合的模体挖掘方法。
背景技术
转录因子绑定行为对于调控基因表达有着重要作用,识别转录因 子绑定位点对于理解绑定机制和相关的细胞活动有着重要意义。然而 ,转录因子绑定是个精密的生物物理过程,影响因素多,建模难度大 。为此,科研人员开发了多种类的绑定位点预测模型。位置权重矩阵 通过概率统计模型对转录因子绑定的序列特异性偏好进行建模,矩阵 中的每列元素值代表对应位置的四种核苷酸{A,C,G和T}的概率分布 ,是对绑定位点建模的一种简单有效的方式。然而,位置权重矩阵假 设绑定位点的核苷酸各自独立地对绑定预测的发生影响,忽略了邻近 核苷酸之间的关联。进一步的研究工作通过对核苷酸序列进行K-mer编码,整体考虑邻近的k个核苷酸,弥补核苷酸之间关联关系的缺失 ,在构造序列特征后送入机器学习模型进行分类。然而,这类传统方 法往往忽略了K-mer之间的序列关系,同时机器学习模型受到计算性 能和优化方法的限制,无法充分利用海量测序数据。
随着研究的深入,科研人员开始重视DNA序列之外其他生物物 理特性对转录因子绑定的影响,因此提出了一种基于序列和形状信息 深度融合的模体挖掘方法。
发明内容
本发明提出一种基于序列和形状信息深度融合的模体挖掘方法, 使用两个独立卷积层提取DNA序列和形状的局部模式特征,其中一 个卷积层处理DNA序列输入,另一个处理形状输入,在对序列和形状 特征数组进行对齐后设计一定的混合策略,实现DNA序列和形状信息 的空间对齐混合。
为实现上述目的,本发明提供了如下方案:
一种基于序列和形状信息深度融合的模体挖掘方法,包括以下步 骤:
S1、构建深度嵌入卷积神经网络模型,并对DNA序列和形状信息 进行空间对齐混合,作为所述神经网络模型的输入;
S2、对所述深度嵌入卷积神经网络模型进行训练,得到模体绑定 强度预测值;
S3、基于所述预测值与实际绑定强度之间的回归系数R2对所述 构建的深度嵌入卷积神经网络模型性能进行评估。
优选地,所述深度嵌入卷积神经网络模型中,包括两个独立的卷 积层,分别为第一卷积层和第二卷积层,所述第一卷积层用于处理DNA 序列的输入,所述第二卷积层用于处理形状信息的输入。
优选地,所述S1中,通过拼接模式和加和模式,对所述DNA序 列和形状信息进行空间对齐混合。
优选地,在所述拼接模式下,若输入的DNA序列形式不同,则命 名不同;在所述加和模式下,输入编码的形式不同,则命名也不同。
优选地,所述S2中,在训练过程中,通过Glorot均匀初始化策 略对所述深度嵌入卷积神经网络模型进行初始化,并使用Adam学习 器优化模型参数,基于网格搜索策略寻找最优值。
优选地,在所述深度嵌入卷积神经网络中增加丢失层,用于对抗 模型训练过程中的过拟合问题。
优选地,所述S3中,基于预测值与实际绑定强度之间的回归系 数R2对所述构建的深度嵌入卷积神经网络模型性能进行评估,并采 用五折交叉验证策略进行验证。
优选地,其特征在于,所述回归系数R2的计算公式为:
Figure BDA0003059693820000031
其中,yi代表样本i的标签值(label),
Figure BDA0003059693820000032
代表标签值的平均数,
Figure BDA0003059693820000033
代表样本i的预测值。
本发明的有益效果为:
(1)本发明方法利用了卷积神经网络在特征提取方面的优势, 实现了序列和形状特征的深度融合。
(2)本发明使用连续嵌入向量作为DNA序列中核苷酸的新颖 表示,与多层卷积神经网络结合作为模体挖掘的模型主干,提出使用 独立的卷积层分别提取DNA序列和形状的局部模式特征,以适应两者 独特的数据分布。为了充分利用序列和形状模体的位置对应关系,避 免丢失两者的位置信息,我们对两种特征进行位置对齐混合。
(3)本发明通过对模型结构的精细设计,能够很好地适应序列 和形状两种异质信息不同的数据分布,对序列和形状特征进行深入挖 掘。同时,本发明保留了序列和形状模体的位置信息,并对两种特征 进行位置对齐混合,实现了对两种特征的高效融合。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面 将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描 述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来 讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他 的附图。
图1为本发明方法流程图;
图2为本发明中深度嵌入卷积神经网络模型流程图;
图3为本发明实施例中AddShape eDeepCNN模型、HybridShape eDeepCNN模型与eDeepCNN模型实验比较示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方 案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部 分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普 通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结 合附图和具体实施方式对本发明作进一步详细的说明。
本发明提出一种基于序列和形状信息深度融合的模体挖掘方法, 流程如附图1所示,具体包括:
S1、构建深度嵌入卷积神经网络模型,并对DNA序列和形状信息 进行空间对齐混合,作为所述神经网络模型的输入;
转录因子的序列模体和对应的支持性形状模式可能存在一定的 空间位置关系,并且在很多情况下,DNA序列模体与所谓的形状模 体互有重叠。因此,在模型设计的过程中,序列模体和形状模体的位 置信息必不可少。通过适当的模型结构设计,保留序列和形状特征的 位置信息,并对两者进行空间对齐融合,从而充分挖掘DNA序列和 形状特征在绑定过程中的相互作用,实现序列和形状信息的高效融合。
神经网络模型具有很强的拟合能力,本实施例利用神经网络模型 融合DNA序列和形状信息。为了有效利用深度嵌入卷积网络 eDeepCNN在处理序列输入时的优势,尝试在eDeepCNN基础上对模 型进行改进,实现序列和形状信息的高效融合,在eDeepCNN模型基础上,构建双端输入卷积网络分别处理序列和形状特征,并对DNA序 列和形状特征进行空间对齐融合。首先,DNA核苷酸序列被编码为一 维有序数组并通过嵌入向量层转化为一组嵌入向量序列,另一方面, 利用DNAShape方法计算核苷酸序列对应的DNA形状特征,得到一组与核苷酸序列长度相同的形状数组。第二步,设计两个独立的一维 卷积层分别接受DNA序列和形状输入,提取序列和形状特征的局部模 式,这两个一维卷积层具有相同的卷积核宽度。然后,对提取到的序 列和形状特征进行空间对齐混合来融合DNA序列和形状信息,建模二 者之间的相互作用,设计加和(Add)和拼接(concatenate)两种具 体的融合策略。最后,混合特征数组被输入一个两层卷积网络进行进 一步的处理并得出最终的预测值,模型流程如附图2所示。
S2、对所述深度嵌入卷积神经网络模型进行训练,得到模体绑定 强度的预测值;
首先,序列和形状特征混合发生在网络的浅层部分,并且在全局 池化层之前,此时,数值在数组中的相对位置反映了对应特征的位置 信息,因此,可以在对序列和形状特征数组进行对齐后设计一定的混 合策略,实现DNA序列和形状信息的空间对齐混合。此外,需要注意 的是,异质特征往往具有迥异的数据分布,这会给模型的训练过程带 来困难。因此,需要采取额外的手段缓解DNA序列和形状特征的数据 分布差异,将其容纳在一个统一的模型中。嵌入向量层可以将核苷酸 序列转变为由连续数值向量组成的数组,而形状特征同样由每个核苷 酸位点对应的形状向量组成,可以直接将DNA序列的嵌入向量数组与 形状数组进行空间对齐拼接,实现序列和形状特征的融合。然而,直 接拼接并没有考虑到两种特征在数据分布上的差异。本实施例中,使 用两个独立卷积层提取DNA序列和形状的局部模式特征,其中一个卷 积层处理DNA序列输入,另一个处理形状输入。两个独立的卷积层能 够适应序列和形状特征各自独特的数据分布,并通过数学变换减小他 们之间的差异。
为了空间对齐的要求,处理序列和形状特征输入的两个卷积层具 有相同的卷积核宽度,这样,序列和形状输出数组同一位置的特征对 应输入序列的同一局部区间。在这之后,本实施例采用两种方式对序 列和形状特征进行混合,拼接和加和模式。
在拼接模式中,卷积层初步处理后的DNA序列和形状特征分别为 (B,L,16)和(B,L,8),我们将两者在最后一维进行拼接得到数组 (B,L,24),拼接数组然后被送入一个全连接层进行序列和形状信息的 混合,得到一个维度为(B,L,16)的混合特征数组。在拼接模式中,全 连接层对序列和形状特征进行位置对齐的混合,可以对两者在绑定行 为中的相互作用进行建模。如果输入DNA序列是独热编码形式,我们 将拼接模式的形状混合模型命名为HybridShape DeepCNN。如果是嵌 入向量形式,则命名为HybridShape eDeepCNN。
在加和模式中,经过初步处理后的DNA形状特征(B,L,16)直接 与序列特征相加,得到混合特征数组(B,L,16)。独热编码输入和嵌入 向量编码输入的加和模型分别被命名为AddShape DeepCNN和 AddShape eDeepCNN。在拼接和加和模式中,序列和形状混合特征被 送入接下来的两层卷积网络进行进一步处理。需要注意的是,拼接和 加和模式输出的混合特征的数组形状均为(B,L,16),与DeepCNN模 型中第一卷积层之后的输出形状相同,这保证了形状混合模型中处理 序列输入的主干网络参数量与只有序列输入的DeepCNN模型相同, 从而控制DNA序列输入对模型的影响相同,有效展现增加DNA形状 输入对模型性能的影响,实现公平比较。如下表1、表2详细列出了 加和模块和混合模块的参数设置。
表1
Figure BDA0003059693820000081
表2
Figure BDA0003059693820000091
Figure BDA0003059693820000101
在训练过程,使用Glorot均匀初始化策略对深度嵌入卷积神经网 络进行初始化,并使用的Adam学习器优化模型参数,针对一些对实 验结果影响较大的超参数,使用网格搜索策略寻找最优值,例如丢失 率,L2正则化强度和学习率。为了对抗模型训练过程中的过拟合问 题,除了增加丢失层和L2正则化等手段,还实现并采用了早停(early stopping)机制,超参数搜索的设置细节见表3。
表3
Figure BDA0003059693820000102
S3、基于对比方法,对所述预测值与实际绑定强度进行评估。
本实施例基于核的机器学习模型—频谱-形状核和二值不匹配- 形状核的方法,随机采样5000条DNA序列数据作为训练数据,其他 的基于深度学习的模型则使用了全量数据。使用预测值与实际绑定强 度之间的决定系数R2对模型性能进行评估,回归系数R2这一指标已 经被多篇论文采纳用于评估模型对体外PBM数据集的拟合水平。回 归系数的计算公式如下:
Figure BDA0003059693820000103
其中,yi代表样本i的标签值(label),
Figure BDA0003059693820000104
代表标签值的平均数,
Figure BDA0003059693820000111
代表样本i的预测值。
采用五折交叉验证策略,并使用五次实验中测试集评估指标的平 均值作为模型的最终表现。
对仅接收序列输入的eDeepCNN模型与序列和形状双端输入的 hybridShape模型进行比较。如附图3所示,分别对比了eDeepCNN 模型与hybridShape eDeepCNN以及addShape eDeepCNN模型在20 个PBM数据集上的表现。通过观察可以发现,所有数据集对应的样本 点都位于对角线上面,意味着在所有数据集中,融合形状的 HybridShape/AddShape eDeepCNN模型指标均高于仅有序列输入的 eDeepCNN模型,实验结果指出,融入形状特征普遍提高了模型指标。 将eDeepCNN与两种形状混合模型平均指标进行比较。AddShape模 型平均R2达到0.616,高于eDeepCNN模型的0.590。HybridShape 模型取得了更好的结果,平均R2达到0.626,相较于eDeepCNN指标 增幅达到6.1%,通过使用空间对齐融合的形状信息,模型的预测性能 取得了明显提升。结果表明,DNA形状特征对转录因子绑定行为有 重要作用。
本发明的有益效果为:
(1)本发明方法利用了卷积神经网络在特征提取方面的优势, 实现了序列和形状特征的深度融合。
(2)本发明使用连续嵌入向量作为DNA序列中核苷酸的新颖 表示,与多层卷积神经网络结合作为模体挖掘的模型主干,提出使用 独立的卷积层分别提取DNA序列和形状的局部模式特征,以适应两者 独特的数据分布。为了充分利用序列和形状模体的位置对应关系,避 免丢失两者的位置信息,我们对两种特征进行位置对齐混合。
(3)本发明通过对模型结构的精细设计,能够很好地适应序列 和形状两种异质信息不同的数据分布,对序列和形状特征进行深入挖 掘。同时,本发明保留了序列和形状模体的位置信息,并对两种特征 进行位置对齐混合,实现了对两种特征的高效融合。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本 发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普 通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本 发明权利要求书确定的保护范围内。

Claims (8)

1.一种基于序列和形状信息深度融合的模体挖掘方法,其特征在于,包括以下步骤:
S1、构建深度嵌入卷积神经网络模型,并对DNA序列和形状信息进行空间对齐混合,作为所述神经网络模型的输入;
S2、对所述深度嵌入卷积神经网络模型进行训练,得到模体绑定强度预测值;
S3、基于所述预测值与实际绑定强度之间的回归系数R2对所述构建的深度嵌入卷积神经网络模型性能进行评估。
2.根据权利要求1所述的基于序列和形状信息深度融合的模体挖掘方法,其特征在于,所述深度嵌入卷积神经网络模型中,包括两个独立的卷积层,分别为第一卷积层和第二卷积层,所述第一卷积层用于处理DNA序列的输入,所述第二卷积层用于处理形状信息的输入。
3.根据权利要求1所述的基于序列和形状信息深度融合的模体挖掘方法,其特征在于,所述S1中,通过拼接模式和加和模式,对所述DNA序列和形状信息进行空间对齐混合。
4.根据权利要求3所述的基于序列和形状信息深度融合的模体挖掘方法,其特征在于,在所述拼接模式下,若输入的DNA序列形式不同,则命名不同;在所述加和模式下,输入编码的形式不同,则命名也不同。
5.根据权利要求1所述的基于序列和形状信息深度融合的模体挖掘方法,其特征在于,所述S2中,在训练过程中,通过Glorot均匀初始化策略对所述深度嵌入卷积神经网络模型进行初始化,并使用Adam学习器优化模型参数,基于网格搜索策略寻找最优值。
6.根据权利要求1所述的基于序列和形状信息深度融合的模体挖掘方法,其特征在于,在所述深度嵌入卷积神经网络中增加丢失层,用于对抗模型训练过程中的过拟合问题。
7.根据权利要求1所述的基于序列和形状信息深度融合的模体挖掘方法,其特征在于,所述S3中,基于预测值与实际绑定强度之间的回归系数R2对所述构建的深度嵌入卷积神经网络模型性能进行评估,并采用五折交叉验证策略进行验证。
8.根据权利要求7所述的基于序列和形状信息深度融合的模体挖掘方法,其特征在于,所述回归系数R2的计算公式为:
Figure FDA0003059693810000021
其中,yi代表样本i的标签值(label),
Figure FDA0003059693810000022
代表标签值的平均数,
Figure FDA0003059693810000023
代表样本i的预测值。
CN202110509316.3A 2021-05-11 2021-05-11 一种基于序列和形状信息深度融合的模体挖掘方法 Expired - Fee Related CN113096733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110509316.3A CN113096733B (zh) 2021-05-11 2021-05-11 一种基于序列和形状信息深度融合的模体挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110509316.3A CN113096733B (zh) 2021-05-11 2021-05-11 一种基于序列和形状信息深度融合的模体挖掘方法

Publications (2)

Publication Number Publication Date
CN113096733A true CN113096733A (zh) 2021-07-09
CN113096733B CN113096733B (zh) 2022-09-30

Family

ID=76665149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110509316.3A Expired - Fee Related CN113096733B (zh) 2021-05-11 2021-05-11 一种基于序列和形状信息深度融合的模体挖掘方法

Country Status (1)

Country Link
CN (1) CN113096733B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593634A (zh) * 2021-08-06 2021-11-02 中国海洋大学 一种融合dna形状特征的转录因子结合位点预测方法
CN116343908A (zh) * 2023-03-07 2023-06-27 中国海洋大学 融合dna形状特征的蛋白质编码区域预测方法、介质和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN111696624A (zh) * 2020-06-08 2020-09-22 天津大学 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法
CN111785321A (zh) * 2020-06-12 2020-10-16 浙江工业大学 一种基于深度卷积神经网络的dna绑定残基预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696624A (zh) * 2020-06-08 2020-09-22 天津大学 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法
CN111667884A (zh) * 2020-06-12 2020-09-15 天津大学 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN111785321A (zh) * 2020-06-12 2020-10-16 浙江工业大学 一种基于深度卷积神经网络的dna绑定残基预测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
MATTHEW T WEIRAUCH等: "Evaluation of methods for modeling transcription factor sequence specificity", 《NATURE BIOTECHNOLOGY》 *
QINHU ZHANG等: "Predicting in-vitro transcription factor binding sites using DNA sequence + shape", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 *
SIGUO WANG等: "A New Method Combining DNA Shape Features to Improve the Prediction Accuracy of Transcription Factor Binding Sites", 《INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTING》 *
SIGUO WANG等: "Predicting Transcription Factor Binding Sites using DNA Shape Features Based on Shared Hybrid Deep Learning Architecture", 《MOLECULAR THERAPY: NUCLEIC ACID》 *
YINDONG ZHANG等: "Predicting in-Vitro Transcription Factor Binding Sites with Deep Embedding Convolution Network", 《ICIC 2020: INTELLIGENT COMPUTING THEORIES AND APPLICATION》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593634A (zh) * 2021-08-06 2021-11-02 中国海洋大学 一种融合dna形状特征的转录因子结合位点预测方法
CN113593634B (zh) * 2021-08-06 2022-03-11 中国海洋大学 一种融合dna形状特征的转录因子结合位点预测方法
CN116343908A (zh) * 2023-03-07 2023-06-27 中国海洋大学 融合dna形状特征的蛋白质编码区域预测方法、介质和装置
CN116343908B (zh) * 2023-03-07 2023-10-17 中国海洋大学 融合dna形状特征的蛋白质编码区域预测方法、介质和装置

Also Published As

Publication number Publication date
CN113096733B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
Dai et al. Retrosynthesis prediction with conditional graph logic network
CN113096733B (zh) 一种基于序列和形状信息深度融合的模体挖掘方法
Lee et al. Adaptive multi-task lasso: with application to eQTL detection
CN113936735A (zh) 一种药物分子与靶标蛋白的结合亲和力预测方法
CN112435720B (zh) 一种基于自注意力机制与多药物特征组合的预测方法
CN112599187B (zh) 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法
CN110993113B (zh) 基于MF-SDAE的lncRNA-疾病关系预测方法及系统
CN114023376B (zh) 基于自注意力机制的rna-蛋白质结合位点预测方法和系统
CN110826635A (zh) 基于整合非负矩阵分解的样本聚类和特征识别方法
CN115527605A (zh) 基于深度图模型的抗体结构预测方法
CN114582420B (zh) 一种基于容错编码及多尺度密集连接网络的转录因子结合位点预测方法及系统
CN113257359A (zh) 一种基于CNN-SVR的CRISPR/Cas9向导RNA编辑效率预测方法
CN118072815A (zh) 一种基于PfgPDI的蛋白质-配体相互作用预测方法
Li et al. A multitasking multi-objective differential evolution gene selection algorithm enhanced with new elite and guidance strategies for tumor identification
CN117334252A (zh) 一种基于异亲图信息最大化的癌症驱动基因识别方法
CN114783507B (zh) 基于二级结构特征编码的药物-蛋白亲和力预测方法及装置
WO2020234666A1 (en) Deep learning based system and method for prediction of alternative polyadenylation site
Maulik et al. Finding multiple coherent biclusters in microarray data using variable string length multiobjective genetic algorithm
CN114864002B (zh) 一种基于深度学习的转录因子结合位点识别方法
CN116343908A (zh) 融合dna形状特征的蛋白质编码区域预测方法、介质和装置
CN111599412B (zh) 基于词向量与卷积神经网络的dna复制起始区域识别方法
CN111951889B (zh) 一种rna序列中m5c位点的识别预测方法及系统
CN115295156A (zh) 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法
CN113936741A (zh) 一种基于上下文感知计算的rna溶剂可及性预测方法
Balamurugan et al. Biclustering microarray gene expression data using modified Nelder-Mead method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220930