CN113744805A

CN113744805A - 基于bert框架的dna甲基化预测方法及系统

Info

Publication number: CN113744805A
Application number: CN202111162271.3A
Authority: CN
Inventors: 魏乐义; 郁莹莹
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2021-12-03

Abstract

本发明公开了基于BERT框架的DNA甲基化预测方法及系统，包括：获取待预测的DNA序列数据，将所述数据输入到使用直推式的信息最大化损失的训练好的基于BERT框架的神经网络模型，输出DNA甲基化的预测概率，并进行最终的预测；其中，所述直推式的信息最大化损失的训练好的基于BERT框架的神经网络模型首先将原始DNA序列进行输入处理，基于BERT架构提取特征；利用全连接神经网络对特征进行预测，在输出概率的基础上进行DNA甲基化的判断；通过直推式的信息最大化损失进行约束，增加置信度。本发明对原始DNA序列可以自动提取特征，从而避免由预测工具所带来的问题。

Description

基于BERT框架的DNA甲基化预测方法及系统

技术领域

本发明涉及生物信息技术领域，特别是涉及基于BERT框架的DNA甲基化预测方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

DNA甲基化在调节转录的表观遗传修饰中发挥着重要作用，从而影响基因表达。此外，由于环境、疾病、年龄和性别因素的影响，DNA甲基化是动态变化的。因此，DNA甲基化含量和模式的异常变化是癌症等疾病发生发展的重要因素。目前，有三种DNA甲基化类型，分别包括n6-甲基腺烯(6mA)、5-羟甲基胞嘧啶(5hmC)和n4-甲基胞嘧啶(4mC)。4mC在控制中有不同的任务包括DNA复制，区分自我和非自我DNA，细胞周期，纠正DNA复制错误和基因表达水平。值得注意的是，它保护其自身DNA免受限制性内切酶-m的影响，改良降解。5hmC在5mC去甲基化过程中产生，被发现与神经系统发育和肿瘤发生有关。6mA是一种广泛存在于原核生物中的甲基化修饰碱基，主要在宿主防御系统中发挥作用。许多研究表明，它在基因的水平上起着关键的作用，主要包括基因表达调控、染色质构象重构。因此，DNA甲基化位点的识别是至关重要的，以获得更好的理解和揭示它们的功能机制。

与传统的成本和耗时的湿实验室实验技术相比，机器学习和深度学习方法最近似乎是一种有效和有效的方法来用于DNA甲基化的鉴定。到目前为止，在这一领域有一些计算工作。对于6mA的预测，一个具有代表性的预测因子即i6mA-Pred利用具有核苷酸化学性质(NCP)和核苷酸频率编码DNA序列，并训练一种基于支持向量机(SVM)的方法来识别6mA位点。SNNRice6mA的模型是一个简单的利用卷积层构建的轻量级深度学习模型，识别水稻基因组中的DNA的6mA位点。对于4mC预测，4mCpred-EL集成四种不同的ML算法，并输入7个概率特征编码到集成学习中。4mCCNN提出了一个有效的一维卷积神经网络模型。DIRECTION用波束搜索驱动的特征选择算法识别最具区别的预测变量，并使用单一的预测模型(SVM或RF)来预测5hmC状态。

然而，无论是传统的机器学习方法还是深度学习方法，大多数仍然高度依赖手工特征作为分类器的输入来训练预测模型，依赖于研究人员的先验知识。因此，它很难普遍适用于所有的物种。另一方面，上述方法仅针对一种甲基化类型，甚至一些方法只适用于一个特定的物种。

发明内容

为了解决现有技术的不足，本发明提供了基于BERT框架的DNA甲基化预测方法及系统；iDNA-MS(首先制定了通过三种序列编码特征，然后利用随机森林识别三个常见的DNA甲基化物-5hmC、6mA和4mC上的DNA甲基化位点。然而，它使用了手工完成的方法和传统的机器学习，还有很大的改进空间。基于BERT框架的深度学习模型，且引入了直推式的信息最大化损失函数，可以最大化预测和特征之间接的信息熵，从而提升预测的置信度。

第一方面，本发明提供了基于BERT框架的DNA甲基化预测方法；

基于BERT框架的DNA甲基化预测方法，包括：

获取待预测的DNA序列；

将待预测的DNA序列，输入到训练后的预测DNA甲基化的深度学习模型中，得到待预测的DNA序列甲基化的预测概率，并根据预测概率得到最终的甲基化预测结果；

其中，所述训练后的预测DNA甲基化的深度学习模型，是基于BERT模型，且将交叉熵损失函数与经验加权互信息相结合应用到深度学习模型训练过程得到的。

第二方面，本发明提供了基于BERT框架的DNA甲基化预测系统；

基于BERT框架的DNA甲基化预测系统，包括：

获取模块，其被配置为：获取待预测的DNA序列；

预测模块，其被配置为：将待预测的DNA序列，输入到训练后的预测DNA甲基化的深度学习模型中，得到待预测的DNA序列甲基化的预测概率，并根据预测概率得到最终的甲基化预测结果；

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

与现有技术相比，本发明的有益效果是：

1.本发明提出了一种基于自适应特征和信息最大化的检测DNA甲基化方法，该方法在许多评价指标方面优于最新的DNA甲基化检测方法。

2.本发明使用使用一种基于BERT网络结构的特征嵌入模型，该模型能够在多个物种中自动、自适应地学习生物序列中的鉴别特征。

3.本发明使用直推式的信息最大化损失函数来最大化训练集特征和标签之间的互信息，带来进一步的性能改进。

本发明附加方面的优点将在下面的描述中部分给出，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例中基于BERT框架和转化信息最大化的端到端的深度神经网络结构示意图；

图2(a)～图2(f)为本发明实施例中与现有方法对比的结果图；

图3(a)～图3(f)为本发明实施例中与传统特征编码的t-SNE可视化图；

图4(a)～图4(c)为本发明实施例中跨物种DNA甲基化预测有效性的绘制图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

实施例一

本实施例提供了基于BERT框架的DNA甲基化预测方法；

如图1所示，基于BERT框架的DNA甲基化预测方法，包括：

S101：获取待预测的DNA序列；

S102：将待预测的DNA序列，输入到训练后的预测DNA甲基化的深度学习模型中，得到待预测的DNA序列甲基化的预测概率，并根据预测概率得到最终的甲基化预测结果；

其中，所述训练后的预测DNA甲基化的深度学习模型，是基于Pre-training ofDeep Bidirectional Transformers for Language Understanding(BERT)预训练的深度双向Transformer语言模型中模型架构，且将交叉熵损失函数与经验加权互信息相结合应用到深度学习模型训练过程得到的。

进一步地，所述预测DNA甲基化的深度学习模型，具体网络模型结构包括：

依次连接的输入模块、特征提取模块和分类模块。

进一步地，所述输入模块，对待预测的DNA序列，把四种核苷酸按照从小到大顺序进行编号，把待预测的DNA序列的编号输入pytorch框架的embedding函数得到嵌入向量，根据待预测的DNA序列顺序将嵌入向量进行合并，得到编码矩阵。

进一步地，所述特征提取模块，采用BERT模型实现。

进一步地，所述特征提取模块，包括：依次连接的序列嵌入模块、多头注意力机制模块和前馈神经网络，所述多头注意力机制模块与前馈神经网络之间采用残差连接的方式进行连接。

所述序列嵌入模块，将输入模块输出的编码矩阵，和待预测的DNA序列核苷酸处于序列中的位置编号通过pytorch框架的embedding函数得到位置的嵌入向量，两者进行拼接得到最终嵌入表示，作为待预测DNA序列的序列特征；

所述多头注意力机制模块，由多个独立的自注意力模块并联组成，用于学习上下文表示的DNA特征。

其中，自注意力机制描述如下：

其中，

待预测DNA序列的序列特征，分别通过W^Q,W^K,

对X进行线性变换，转化为Q、K、

分别是查询矩阵，键矩阵和值矩阵。其中L是输入DNA序列的长度，d_m是输入特征维度,d_k是通过查询矩阵，键矩阵和值矩阵得到的特征维度。

多头注意力机制基于上述的自注意力机制，可表述为如下：

head_i＝Self-Attention(Q_i,K_i,V_i),i＝1,…,h#(4)

MultiHead-Attention(Q,K,V)＝Concact(head₁,…,head_h)W^O#(5)

其中，X为待预测DNA序列的序列特征，

分别是第i个head的查询矩阵、键矩阵和值矩阵对应的线性变换层，h表示head的数目。W^O是一个线性转换层，可以将多头注意力的输出维度映射到特征维度，以方便进行残差连接技术。

进一步地，所述特征提取模块，工作原理包括：

对编码矩阵，提取待检测DNA序列特征和待检测DNA序列的上下文特征。

进一步地，所述分类模块，采用全连接神经网络来实现。

应理解的，所述特征提取模块所提取的多尺度特征维数仍然很高。因此，为了避免维度的冗余，使用FNN(全连接神经网络)来更好地提取输入DNA序列的特征的表示，同时降低维度并输出最后的DNA甲基化的预测结果。最后，判断是否发生甲基化。

从原始DNA序列中生成的特征表示向量被送入连接前馈神经网络，将特征向量转换为类别输出；并使用直推式的信息最大化损失函数来对上述过程进行训练。

进一步地，所述训练后的预测DNA甲基化的深度学习模型，训练步骤包括：

构建训练集和测试集；所述训练集和测试集，均包括已知甲基化与非甲基化分类标签的DNA序列；

将训练集，输入到预测DNA甲基化的深度学习模型中，对模型进行训练，当总损失函数达到最小值时，停止训练；

将测试集，输入到预测DNA甲基化的深度学习模型中，对模型进行测试，当测试结果的准确率达到设定要求时，当前的预测DNA甲基化的深度学习模型，即为训练后的预测DNA甲基化的深度学习模型；

其中，总损失函数，是将交叉熵损失函数与经验加权互信息相互结合得到的。

总损失函数是定义：

其中，p_ik是第i条序列隶属于第k个类别的概率，Q是全部训练集，K＝2是总共的是否甲基化的两种情况，λ是可以调整的超参数。

经验加权互信息定义如下：

其中，p_ik是第i条序列隶属于第k个类别的概率，Q是全部训练集，K＝2是总共的是否甲基化的两种情况，α是可以调整的超参数。

总损失函数最大化输入和标预测签之间的互信息，以产生置信高的预测。具体来说直推式的信息最大化损失将标准交叉熵(CE)与经验加权互信息相结合。

所述进行优化时，通过构建直推式的信息最大化损失进行约束，具体包括：利用条件熵通过最小化未标记序列的后验不确定性，增强预测的置信度，还通过边际熵鼓励标签的边际分布均匀。

本实施例中，为了更好地评估本实施例提出的方法的整体性能，选择使用分类任务中常用的六个基于标签经典指标，包括准确率(Accuracy)、灵敏度(SN)、特异性(SP),马修斯相关系数(MCC)，曲线下面积(AUC)和F1得分(F1)。它们的计算公式如下：

其中TP(真阳性)和TN(真阴性)表示正确预测的正样本和负样本数量，FP(假阳性)和FN(假阴性)表示错误预测的正样本和负样本的数量。在AUC公式中，rank_i表示从小到大排序第i个正样本的位置，n_pos和n_neg分别代表正样本数量和负样本数量。

选取标签级别和样例级别的评估指标准确率、灵敏度、特异性，修相关系数，曲线下面积和F1得分作为所述基于BERT框架的端到端神经网络模型的评价指标，对神经网络模型进行评价。

下面通过实验验证本实施例方法的性能

为了评估本实施例方法的性能，首先采取了以前的方法广泛使用的数据集，并运用构建的基于BERT框架的端到端神经网络模型进行实验。

具体的数据集如下：

数据集由17个数据集组成，对应于17个物种，可归类为3种甲基化类型，包括5hmC、6mA和4mC。其中，5hmC来自NCBI Gene Expression Omnibus(GEO)数据库，6mA分别来自MethSMRT数据，MDR数据库，GEO数据库和NCBI基因组数据库，4mC来自MDR数据库和MethSMRT数据库。在17个物种中,H.sapiens(5hmC_H.sapiens),M.musculus(5hmC_M.musculus)属于5hmC。6mA中含有Arabidopsis thaliana(6mA_A.thaliana),Caenorhabditis elegans(6mA_C.elegans),Casuarina equisetifolia(6mA_C.equisetifolia),Drosophilamelanogaster(6mA_D.melanogaster),Fragaria vesca(6mA_F.vesca),H.sapiens(6mA_H.sapiens),Rosa chinensis(6mA_R.chinensis),Saccharomyces cerevisiae(6mA_S.cerevisiae),Tolypocladium sp SUP5-1(6mA_Tolypocladium),Tetrahymenathermophile(6mA_T.thermophile)and Xanthomonas oryzae PV.Oryzicola(Xoc)BLS256(6mA_Xoc.BLS256)。此外，4mC数据集，包括C.equisetifolia(4mC_C.equisetifolia),F.vesca(4mC_F.vesca),S.cerevisiae(4mC_S.cerevisiae),and Ts.SUP5-1(4mC_Ts.SUP5-1)。需要注意的是，阳性序列和阴性序列均为41个碱基对(bp)长，数据集的序列通过CD-HIT程序保证同一性均小于80％。

在上述获取的数据集的基础上，我们进行了全面的实验来测试所提出的方法对预测DNA甲基化的有效性。图2(a)～图2(f)给出了、iDNA_AB的预测结果。

1)直推式的信息最大化损失的有效性:该方法的一个优点是通过最小化未标记序列的后验不确定性，鼓励模型产生置信高的预测。从图2(a)～图2(f)中可以明显看出，有了直推式的信息最大化，在所有指标上都能取得更好的性能，这说明了利用直推式的信息最大化损失训练模型的重要性。

为了进一步直观的观察本实施例神经网络模型的优势，本实施例方法与包括传统机器学习方法和最新方法在内的现有方法进行了比较。如图2(a)～图2(f)中所示，得到了最后的测试集上预测评价结果。

图3(a)～图3(f)为的特征空间分布的PCA可视化图。其中，图3(a)表示提取的特征和图3(b)～图3(f)表示经典的传统特征。图3(a)～图3(f)所示结果表明，本实施例使用的提取特征框架学习了高质量的表示并提高了预测性能。

此外，图4(a)～图4(c)为被应用于跨物种的DNA甲基化判断，利用跨种验证来探索物种间的相互关系。在17个物种的训练集上训练模型，随后分别对5hmC/4mC/6mA的其他类别进行预测。

本实施例把直推式的信息最大化损失和基于BERT框架构建模型应用到预测DNA甲基化的问题上，在测试集上取得了不错的结果。同时，巧妙的设计了多个对比实验，有效的验证了方法的综合性能。

本发明获取待预测的DNA序列数据，将所述数据输入到使用直推式的信息最大化损失的训练好的基于BERT框架的神经网络模型，输出DNA甲基化的预测概率，并进行最终的预测；其中，所述直推式的信息最大化损失的训练好的基于BERT框架的神经网络模型首先将原始DNA序列进行输入处理，基于BERT架构提取特征；利用全连接神经网络对特征进行预测，在输出概率的基础上进行DNA甲基化的判断；通过直推式的信息最大化损失进行约束，增加置信度。本发明对原始DNA序列可以自动提取特征，从而避免由预测工具所带来的问题。

实施例二

本实施例提供了基于BERT框架的DNA甲基化预测系统；

基于BERT框架的DNA甲基化预测系统，包括：

获取模块，其被配置为：获取待预测的DNA序列；

所述预测DNA甲基化的深度学习模型，具体网络模型结构包括：依次连接的输入模块、特征提取模块和分类模块。

所述输入模块，对待预测的DNA序列，把四种核苷酸按照从小到大顺序进行编号，把待预测的DNA序列的编号输入pytorch框架的embedding函数得到嵌入向量，根据待预测的DNA序列顺序将嵌入向量进行合并，得到编码矩阵。

所述特征提取模块，包括：依次连接的序列嵌入模块、多头注意力机制模块和前馈神经网络，所述多头注意力机制模块与前馈神经网络之间采用残差连接的方式进行连接。

所述特征提取模块，工作原理包括：

所述训练后的预测DNA甲基化的深度学习模型，训练步骤包括：

此处需要说明的是，上述获取模块和预测模块对应于实施例一中的步骤S101至S102，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于BERT框架的DNA甲基化预测方法，其特征是，包括：

获取待预测的DNA序列；

2.如权利要求1所述的基于BERT框架的DNA甲基化预测方法，其特征是，所述预测DNA甲基化的深度学习模型，具体网络模型结构包括：依次连接的输入模块、特征提取模块和分类模块。

3.如权利要求2所述的基于BERT框架的DNA甲基化预测方法，其特征是，所述输入模块，对待预测的DNA序列，把四种核苷酸按照从小到大顺序进行编号，把待预测的DNA序列的编号输入pytorch框架的embedding函数得到嵌入向量，根据待预测的DNA序列顺序将嵌入向量进行合并，得到编码矩阵。

4.如权利要求2所述的基于BERT框架的DNA甲基化预测方法，其特征是，所述特征提取模块，包括：依次连接的序列嵌入模块、多头注意力机制模块和前馈神经网络，所述多头注意力机制模块与前馈神经网络之间采用残差连接的方式进行连接。

5.如权利要求4所述的基于BERT框架的DNA甲基化预测方法，其特征是，所述序列嵌入模块，将输入模块输出的编码矩阵，和待预测的DNA序列核苷酸处于序列中的位置编号通过pytorch框架的embedding函数得到位置的嵌入向量，两者进行拼接得到最终嵌入表示，作为待预测DNA序列的序列特征；

6.如权利要求2所述的基于BERT框架的DNA甲基化预测方法，其特征是，所述特征提取模块，工作原理包括：

7.如权利要求1所述的基于BERT框架的DNA甲基化预测方法，其特征是，所述训练后的预测DNA甲基化的深度学习模型，训练步骤包括：

8.基于BERT框架的DNA甲基化预测系统，其特征是，包括：

获取模块，其被配置为：获取待预测的DNA序列；

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。