CN113744805A - 基于bert框架的dna甲基化预测方法及系统 - Google Patents
基于bert框架的dna甲基化预测方法及系统 Download PDFInfo
- Publication number
- CN113744805A CN113744805A CN202111162271.3A CN202111162271A CN113744805A CN 113744805 A CN113744805 A CN 113744805A CN 202111162271 A CN202111162271 A CN 202111162271A CN 113744805 A CN113744805 A CN 113744805A
- Authority
- CN
- China
- Prior art keywords
- bert
- methylation
- dna methylation
- dna
- framework
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007067 DNA methylation Effects 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 53
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 53
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 238000013136 deep learning model Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 31
- 230000011987 methylation Effects 0.000 claims description 24
- 238000007069 methylation reaction Methods 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 108020004414 DNA Proteins 0.000 claims description 8
- 239000002773 nucleotide Substances 0.000 claims description 8
- 125000003729 nucleotide group Chemical group 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 abstract description 8
- 239000000284 extract Substances 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 3
- 241000894007 species Species 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 244000307700 Fragaria vesca Species 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- RYVNIFSIEDRLSJ-UHFFFAOYSA-N 5-(hydroxymethyl)cytosine Chemical compound NC=1NC(=O)N=CC=1CO RYVNIFSIEDRLSJ-UHFFFAOYSA-N 0.000 description 2
- 241000219503 Casuarina equisetifolia Species 0.000 description 2
- 230000004543 DNA replication Effects 0.000 description 2
- 241000639535 Megalobulimus oblongus musculus Species 0.000 description 2
- 240000008254 Rosa chinensis Species 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 229920001817 Agar Polymers 0.000 description 1
- 241000219195 Arabidopsis thaliana Species 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 108010077544 Chromatin Proteins 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 241000255601 Drosophila melanogaster Species 0.000 description 1
- 235000016623 Fragaria vesca Nutrition 0.000 description 1
- 241001599018 Melanogaster Species 0.000 description 1
- PJKKQFAEFWCNAQ-UHFFFAOYSA-N N(4)-methylcytosine Chemical compound CNC=1C=CNC(=O)N=1 PJKKQFAEFWCNAQ-UHFFFAOYSA-N 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 235000000664 Rosa chinensis Nutrition 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 235000014680 Saccharomyces cerevisiae Nutrition 0.000 description 1
- 241000041231 Thermanaeromonas burensis Species 0.000 description 1
- 241001249784 Thermomonas Species 0.000 description 1
- 241001149964 Tolypocladium Species 0.000 description 1
- 241001079967 Tolypocladium sp. Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000008272 agar Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000022131 cell cycle Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000003483 chromatin Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000017858 demethylation Effects 0.000 description 1
- 238000010520 demethylation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004049 epigenetic modification Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 230000007472 neurodevelopment Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了基于BERT框架的DNA甲基化预测方法及系统,包括:获取待预测的DNA序列数据,将所述数据输入到使用直推式的信息最大化损失的训练好的基于BERT框架的神经网络模型,输出DNA甲基化的预测概率,并进行最终的预测;其中,所述直推式的信息最大化损失的训练好的基于BERT框架的神经网络模型首先将原始DNA序列进行输入处理,基于BERT架构提取特征;利用全连接神经网络对特征进行预测,在输出概率的基础上进行DNA甲基化的判断;通过直推式的信息最大化损失进行约束,增加置信度。本发明对原始DNA序列可以自动提取特征,从而避免由预测工具所带来的问题。
Description
技术领域
本发明涉及生物信息技术领域,特别是涉及基于BERT框架的DNA甲基化预测方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
DNA甲基化在调节转录的表观遗传修饰中发挥着重要作用,从而影响基因表达。此外,由于环境、疾病、年龄和性别因素的影响,DNA甲基化是动态变化的。因此,DNA甲基化含量和模式的异常变化是癌症等疾病发生发展的重要因素。目前,有三种DNA甲基化类型,分别包括n6-甲基腺烯(6mA)、5-羟甲基胞嘧啶(5hmC)和n4-甲基胞嘧啶(4mC)。4mC在控制中有不同的任务包括DNA复制,区分自我和非自我DNA,细胞周期,纠正DNA复制错误和基因表达水平。值得注意的是,它保护其自身DNA免受限制性内切酶-m的影响,改良降解。5hmC在5mC去甲基化过程中产生,被发现与神经系统发育和肿瘤发生有关。6mA是一种广泛存在于原核生物中的甲基化修饰碱基,主要在宿主防御系统中发挥作用。许多研究表明,它在基因的水平上起着关键的作用,主要包括基因表达调控、染色质构象重构。因此,DNA甲基化位点的识别是至关重要的,以获得更好的理解和揭示它们的功能机制。
与传统的成本和耗时的湿实验室实验技术相比,机器学习和深度学习方法最近似乎是一种有效和有效的方法来用于DNA甲基化的鉴定。到目前为止,在这一领域有一些计算工作。对于6mA的预测,一个具有代表性的预测因子即i6mA-Pred利用具有核苷酸化学性质(NCP)和核苷酸频率编码DNA序列,并训练一种基于支持向量机(SVM)的方法来识别6mA位点。SNNRice6mA的模型是一个简单的利用卷积层构建的轻量级深度学习模型,识别水稻基因组中的DNA的6mA位点。对于4mC预测,4mCpred-EL集成四种不同的ML算法,并输入7个概率特征编码到集成学习中。4mCCNN提出了一个有效的一维卷积神经网络模型。DIRECTION用波束搜索驱动的特征选择算法识别最具区别的预测变量,并使用单一的预测模型(SVM或RF)来预测5hmC状态。
然而,无论是传统的机器学习方法还是深度学习方法,大多数仍然高度依赖手工特征作为分类器的输入来训练预测模型,依赖于研究人员的先验知识。因此,它很难普遍适用于所有的物种。另一方面,上述方法仅针对一种甲基化类型,甚至一些方法只适用于一个特定的物种。
发明内容
为了解决现有技术的不足,本发明提供了基于BERT框架的DNA甲基化预测方法及系统;iDNA-MS(首先制定了通过三种序列编码特征,然后利用随机森林识别三个常见的DNA甲基化物-5hmC、6mA和4mC上的DNA甲基化位点。然而,它使用了手工完成的方法和传统的机器学习,还有很大的改进空间。基于BERT框架的深度学习模型,且引入了直推式的信息最大化损失函数,可以最大化预测和特征之间接的信息熵,从而提升预测的置信度。
第一方面,本发明提供了基于BERT框架的DNA甲基化预测方法;
基于BERT框架的DNA甲基化预测方法,包括:
获取待预测的DNA序列;
将待预测的DNA序列,输入到训练后的预测DNA甲基化的深度学习模型中,得到待预测的DNA序列甲基化的预测概率,并根据预测概率得到最终的甲基化预测结果;
其中,所述训练后的预测DNA甲基化的深度学习模型,是基于BERT模型,且将交叉熵损失函数与经验加权互信息相结合应用到深度学习模型训练过程得到的。
第二方面,本发明提供了基于BERT框架的DNA甲基化预测系统;
基于BERT框架的DNA甲基化预测系统,包括:
获取模块,其被配置为:获取待预测的DNA序列;
预测模块,其被配置为:将待预测的DNA序列,输入到训练后的预测DNA甲基化的深度学习模型中,得到待预测的DNA序列甲基化的预测概率,并根据预测概率得到最终的甲基化预测结果;
其中,所述训练后的预测DNA甲基化的深度学习模型,是基于BERT模型,且将交叉熵损失函数与经验加权互信息相结合应用到深度学习模型训练过程得到的。
第三方面,本发明还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
第四方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
与现有技术相比,本发明的有益效果是:
1.本发明提出了一种基于自适应特征和信息最大化的检测DNA甲基化方法,该方法在许多评价指标方面优于最新的DNA甲基化检测方法。
2.本发明使用使用一种基于BERT网络结构的特征嵌入模型,该模型能够在多个物种中自动、自适应地学习生物序列中的鉴别特征。
3.本发明使用直推式的信息最大化损失函数来最大化训练集特征和标签之间的互信息,带来进一步的性能改进。
本发明附加方面的优点将在下面的描述中部分给出,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例中基于BERT框架和转化信息最大化的端到端的深度神经网络结构示意图;
图2(a)~图2(f)为本发明实施例中与现有方法对比的结果图;
图3(a)~图3(f)为本发明实施例中与传统特征编码的t-SNE可视化图;
图4(a)~图4(c)为本发明实施例中跨物种DNA甲基化预测有效性的绘制图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
实施例一
本实施例提供了基于BERT框架的DNA甲基化预测方法;
如图1所示,基于BERT框架的DNA甲基化预测方法,包括:
S101:获取待预测的DNA序列;
S102:将待预测的DNA序列,输入到训练后的预测DNA甲基化的深度学习模型中,得到待预测的DNA序列甲基化的预测概率,并根据预测概率得到最终的甲基化预测结果;
其中,所述训练后的预测DNA甲基化的深度学习模型,是基于Pre-training ofDeep Bidirectional Transformers for Language Understanding(BERT)预训练的深度双向Transformer语言模型中模型架构,且将交叉熵损失函数与经验加权互信息相结合应用到深度学习模型训练过程得到的。
进一步地,所述预测DNA甲基化的深度学习模型,具体网络模型结构包括:
依次连接的输入模块、特征提取模块和分类模块。
进一步地,所述输入模块,对待预测的DNA序列,把四种核苷酸按照从小到大顺序进行编号,把待预测的DNA序列的编号输入pytorch框架的embedding函数得到嵌入向量,根据待预测的DNA序列顺序将嵌入向量进行合并,得到编码矩阵。
进一步地,所述特征提取模块,采用BERT模型实现。
进一步地,所述特征提取模块,包括:依次连接的序列嵌入模块、多头注意力机制模块和前馈神经网络,所述多头注意力机制模块与前馈神经网络之间采用残差连接的方式进行连接。
所述序列嵌入模块,将输入模块输出的编码矩阵,和待预测的DNA序列核苷酸处于序列中的位置编号通过pytorch框架的embedding函数得到位置的嵌入向量,两者进行拼接得到最终嵌入表示,作为待预测DNA序列的序列特征;
所述多头注意力机制模块,由多个独立的自注意力模块并联组成,用于学习上下文表示的DNA特征。
其中,自注意力机制描述如下:
其中,待预测DNA序列的序列特征,分别通过WQ,WK, 对X进行线性变换,转化为Q、K、分别是查询矩阵,键矩阵和值矩阵。其中L是输入DNA序列的长度,dm是输入特征维度,dk是通过查询矩阵,键矩阵和值矩阵得到的特征维度。
多头注意力机制基于上述的自注意力机制,可表述为如下:
headi=Self-Attention(Qi,Ki,Vi),i=1,…,h#(4)
MultiHead-Attention(Q,K,V)=Concact(head1,…,headh)WO#(5)
其中,X为待预测DNA序列的序列特征,分别是第i个head的查询矩阵、键矩阵和值矩阵对应的线性变换层,h表示head的数目。WO是一个线性转换层,可以将多头注意力的输出维度映射到特征维度,以方便进行残差连接技术。
进一步地,所述特征提取模块,工作原理包括:
对编码矩阵,提取待检测DNA序列特征和待检测DNA序列的上下文特征。
进一步地,所述分类模块,采用全连接神经网络来实现。
应理解的,所述特征提取模块所提取的多尺度特征维数仍然很高。因此,为了避免维度的冗余,使用FNN(全连接神经网络)来更好地提取输入DNA序列的特征的表示,同时降低维度并输出最后的DNA甲基化的预测结果。最后,判断是否发生甲基化。
从原始DNA序列中生成的特征表示向量被送入连接前馈神经网络,将特征向量转换为类别输出;并使用直推式的信息最大化损失函数来对上述过程进行训练。
进一步地,所述训练后的预测DNA甲基化的深度学习模型,训练步骤包括:
构建训练集和测试集;所述训练集和测试集,均包括已知甲基化与非甲基化分类标签的DNA序列;
将训练集,输入到预测DNA甲基化的深度学习模型中,对模型进行训练,当总损失函数达到最小值时,停止训练;
将测试集,输入到预测DNA甲基化的深度学习模型中,对模型进行测试,当测试结果的准确率达到设定要求时,当前的预测DNA甲基化的深度学习模型,即为训练后的预测DNA甲基化的深度学习模型;
其中,总损失函数,是将交叉熵损失函数与经验加权互信息相互结合得到的。
总损失函数是定义:
其中,pik是第i条序列隶属于第k个类别的概率,Q是全部训练集,K=2是总共的是否甲基化的两种情况,λ是可以调整的超参数。
经验加权互信息定义如下:
其中,pik是第i条序列隶属于第k个类别的概率,Q是全部训练集,K=2是总共的是否甲基化的两种情况,α是可以调整的超参数。
总损失函数最大化输入和标预测签之间的互信息,以产生置信高的预测。具体来说直推式的信息最大化损失将标准交叉熵(CE)与经验加权互信息相结合。
所述进行优化时,通过构建直推式的信息最大化损失进行约束,具体包括:利用条件熵通过最小化未标记序列的后验不确定性,增强预测的置信度,还通过边际熵鼓励标签的边际分布均匀。
本实施例中,为了更好地评估本实施例提出的方法的整体性能,选择使用分类任务中常用的六个基于标签经典指标,包括准确率(Accuracy)、灵敏度(SN)、特异性(SP),马修斯相关系数(MCC),曲线下面积(AUC)和F1得分(F1)。它们的计算公式如下:
其中TP(真阳性)和TN(真阴性)表示正确预测的正样本和负样本数量,FP(假阳性)和FN(假阴性)表示错误预测的正样本和负样本的数量。在AUC公式中,ranki表示从小到大排序第i个正样本的位置,npos和nneg分别代表正样本数量和负样本数量。
选取标签级别和样例级别的评估指标准确率、灵敏度、特异性,修相关系数,曲线下面积和F1得分作为所述基于BERT框架的端到端神经网络模型的评价指标,对神经网络模型进行评价。
下面通过实验验证本实施例方法的性能
为了评估本实施例方法的性能,首先采取了以前的方法广泛使用的数据集,并运用构建的基于BERT框架的端到端神经网络模型进行实验。
具体的数据集如下:
数据集由17个数据集组成,对应于17个物种,可归类为3种甲基化类型,包括5hmC、6mA和4mC。其中,5hmC来自NCBI Gene Expression Omnibus(GEO)数据库,6mA分别来自MethSMRT数据,MDR数据库,GEO数据库和NCBI基因组数据库,4mC来自MDR数据库和MethSMRT数据库。在17个物种中,H.sapiens(5hmC_H.sapiens),M.musculus(5hmC_M.musculus)属于5hmC。6mA中含有Arabidopsis thaliana(6mA_A.thaliana),Caenorhabditis elegans(6mA_C.elegans),Casuarina equisetifolia(6mA_C.equisetifolia),Drosophilamelanogaster(6mA_D.melanogaster),Fragaria vesca(6mA_F.vesca),H.sapiens(6mA_H.sapiens),Rosa chinensis(6mA_R.chinensis),Saccharomyces cerevisiae(6mA_S.cerevisiae),Tolypocladium sp SUP5-1(6mA_Tolypocladium),Tetrahymenathermophile(6mA_T.thermophile)and Xanthomonas oryzae PV.Oryzicola(Xoc)BLS256(6mA_Xoc.BLS256)。此外,4mC数据集,包括C.equisetifolia(4mC_C.equisetifolia),F.vesca(4mC_F.vesca),S.cerevisiae(4mC_S.cerevisiae),and Ts.SUP5-1(4mC_Ts.SUP5-1)。需要注意的是,阳性序列和阴性序列均为41个碱基对(bp)长,数据集的序列通过CD-HIT程序保证同一性均小于80%。
在上述获取的数据集的基础上,我们进行了全面的实验来测试所提出的方法对预测DNA甲基化的有效性。图2(a)~图2(f)给出了、iDNA_AB的预测结果。
1)直推式的信息最大化损失的有效性:该方法的一个优点是通过最小化未标记序列的后验不确定性,鼓励模型产生置信高的预测。从图2(a)~图2(f)中可以明显看出,有了直推式的信息最大化,在所有指标上都能取得更好的性能,这说明了利用直推式的信息最大化损失训练模型的重要性。
为了进一步直观的观察本实施例神经网络模型的优势,本实施例方法与包括传统机器学习方法和最新方法在内的现有方法进行了比较。如图2(a)~图2(f)中所示,得到了最后的测试集上预测评价结果。
图3(a)~图3(f)为的特征空间分布的PCA可视化图。其中,图3(a)表示提取的特征和图3(b)~图3(f)表示经典的传统特征。图3(a)~图3(f)所示结果表明,本实施例使用的提取特征框架学习了高质量的表示并提高了预测性能。
此外,图4(a)~图4(c)为被应用于跨物种的DNA甲基化判断,利用跨种验证来探索物种间的相互关系。在17个物种的训练集上训练模型,随后分别对5hmC/4mC/6mA的其他类别进行预测。
本实施例把直推式的信息最大化损失和基于BERT框架构建模型应用到预测DNA甲基化的问题上,在测试集上取得了不错的结果。同时,巧妙的设计了多个对比实验,有效的验证了方法的综合性能。
本发明获取待预测的DNA序列数据,将所述数据输入到使用直推式的信息最大化损失的训练好的基于BERT框架的神经网络模型,输出DNA甲基化的预测概率,并进行最终的预测;其中,所述直推式的信息最大化损失的训练好的基于BERT框架的神经网络模型首先将原始DNA序列进行输入处理,基于BERT架构提取特征;利用全连接神经网络对特征进行预测,在输出概率的基础上进行DNA甲基化的判断;通过直推式的信息最大化损失进行约束,增加置信度。本发明对原始DNA序列可以自动提取特征,从而避免由预测工具所带来的问题。
实施例二
本实施例提供了基于BERT框架的DNA甲基化预测系统;
基于BERT框架的DNA甲基化预测系统,包括:
获取模块,其被配置为:获取待预测的DNA序列;
预测模块,其被配置为:将待预测的DNA序列,输入到训练后的预测DNA甲基化的深度学习模型中,得到待预测的DNA序列甲基化的预测概率,并根据预测概率得到最终的甲基化预测结果;
其中,所述训练后的预测DNA甲基化的深度学习模型,是基于BERT模型,且将交叉熵损失函数与经验加权互信息相结合应用到深度学习模型训练过程得到的。
所述预测DNA甲基化的深度学习模型,具体网络模型结构包括:依次连接的输入模块、特征提取模块和分类模块。
所述输入模块,对待预测的DNA序列,把四种核苷酸按照从小到大顺序进行编号,把待预测的DNA序列的编号输入pytorch框架的embedding函数得到嵌入向量,根据待预测的DNA序列顺序将嵌入向量进行合并,得到编码矩阵。
所述特征提取模块,包括:依次连接的序列嵌入模块、多头注意力机制模块和前馈神经网络,所述多头注意力机制模块与前馈神经网络之间采用残差连接的方式进行连接。
所述序列嵌入模块,将输入模块输出的编码矩阵,和待预测的DNA序列核苷酸处于序列中的位置编号通过pytorch框架的embedding函数得到位置的嵌入向量,两者进行拼接得到最终嵌入表示,作为待预测DNA序列的序列特征;
所述多头注意力机制模块,由多个独立的自注意力模块并联组成,用于学习上下文表示的DNA特征。
所述特征提取模块,工作原理包括:
对编码矩阵,提取待检测DNA序列特征和待检测DNA序列的上下文特征。
所述训练后的预测DNA甲基化的深度学习模型,训练步骤包括:
构建训练集和测试集;所述训练集和测试集,均包括已知甲基化与非甲基化分类标签的DNA序列;
将训练集,输入到预测DNA甲基化的深度学习模型中,对模型进行训练,当总损失函数达到最小值时,停止训练;
将测试集,输入到预测DNA甲基化的深度学习模型中,对模型进行测试,当测试结果的准确率达到设定要求时,当前的预测DNA甲基化的深度学习模型,即为训练后的预测DNA甲基化的深度学习模型;
其中,总损失函数,是将交叉熵损失函数与经验加权互信息相互结合得到的。
此处需要说明的是,上述获取模块和预测模块对应于实施例一中的步骤S101至S102,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于BERT框架的DNA甲基化预测方法,其特征是,包括:
获取待预测的DNA序列;
将待预测的DNA序列,输入到训练后的预测DNA甲基化的深度学习模型中,得到待预测的DNA序列甲基化的预测概率,并根据预测概率得到最终的甲基化预测结果;
其中,所述训练后的预测DNA甲基化的深度学习模型,是基于BERT模型,且将交叉熵损失函数与经验加权互信息相结合应用到深度学习模型训练过程得到的。
2.如权利要求1所述的基于BERT框架的DNA甲基化预测方法,其特征是,所述预测DNA甲基化的深度学习模型,具体网络模型结构包括:依次连接的输入模块、特征提取模块和分类模块。
3.如权利要求2所述的基于BERT框架的DNA甲基化预测方法,其特征是,所述输入模块,对待预测的DNA序列,把四种核苷酸按照从小到大顺序进行编号,把待预测的DNA序列的编号输入pytorch框架的embedding函数得到嵌入向量,根据待预测的DNA序列顺序将嵌入向量进行合并,得到编码矩阵。
4.如权利要求2所述的基于BERT框架的DNA甲基化预测方法,其特征是,所述特征提取模块,包括:依次连接的序列嵌入模块、多头注意力机制模块和前馈神经网络,所述多头注意力机制模块与前馈神经网络之间采用残差连接的方式进行连接。
5.如权利要求4所述的基于BERT框架的DNA甲基化预测方法,其特征是,所述序列嵌入模块,将输入模块输出的编码矩阵,和待预测的DNA序列核苷酸处于序列中的位置编号通过pytorch框架的embedding函数得到位置的嵌入向量,两者进行拼接得到最终嵌入表示,作为待预测DNA序列的序列特征;
所述多头注意力机制模块,由多个独立的自注意力模块并联组成,用于学习上下文表示的DNA特征。
6.如权利要求2所述的基于BERT框架的DNA甲基化预测方法,其特征是,所述特征提取模块,工作原理包括:
对编码矩阵,提取待检测DNA序列特征和待检测DNA序列的上下文特征。
7.如权利要求1所述的基于BERT框架的DNA甲基化预测方法,其特征是,所述训练后的预测DNA甲基化的深度学习模型,训练步骤包括:
构建训练集和测试集;所述训练集和测试集,均包括已知甲基化与非甲基化分类标签的DNA序列;
将训练集,输入到预测DNA甲基化的深度学习模型中,对模型进行训练,当总损失函数达到最小值时,停止训练;
将测试集,输入到预测DNA甲基化的深度学习模型中,对模型进行测试,当测试结果的准确率达到设定要求时,当前的预测DNA甲基化的深度学习模型,即为训练后的预测DNA甲基化的深度学习模型;
其中,总损失函数,是将交叉熵损失函数与经验加权互信息相互结合得到的。
8.基于BERT框架的DNA甲基化预测系统,其特征是,包括:
获取模块,其被配置为:获取待预测的DNA序列;
预测模块,其被配置为:将待预测的DNA序列,输入到训练后的预测DNA甲基化的深度学习模型中,得到待预测的DNA序列甲基化的预测概率,并根据预测概率得到最终的甲基化预测结果;
其中,所述训练后的预测DNA甲基化的深度学习模型,是基于BERT模型,且将交叉熵损失函数与经验加权互信息相结合应用到深度学习模型训练过程得到的。
9.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111162271.3A CN113744805A (zh) | 2021-09-30 | 2021-09-30 | 基于bert框架的dna甲基化预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111162271.3A CN113744805A (zh) | 2021-09-30 | 2021-09-30 | 基于bert框架的dna甲基化预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113744805A true CN113744805A (zh) | 2021-12-03 |
Family
ID=78725908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111162271.3A Pending CN113744805A (zh) | 2021-09-30 | 2021-09-30 | 基于bert框架的dna甲基化预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113744805A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114283888A (zh) * | 2021-12-22 | 2022-04-05 | 山东大学 | 基于分层自注意力机制的差异表达基因预测系统 |
CN114898805A (zh) * | 2022-04-02 | 2022-08-12 | 山东大学 | 一种跨多物种的启动子预测方法及系统 |
CN115424663A (zh) * | 2022-10-14 | 2022-12-02 | 徐州工业职业技术学院 | 一种基于attention的双向表示模型的RNA修饰位点预测方法 |
CN116010805A (zh) * | 2023-03-24 | 2023-04-25 | 昆明理工大学 | 基于卷积神经网络的滚动轴承故障特征提取方法、装置 |
CN117894452A (zh) * | 2024-01-16 | 2024-04-16 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法及系统 |
CN117935909A (zh) * | 2024-01-26 | 2024-04-26 | 哈尔滨工业大学 | 基于电信号与序列融合的第三代测序dna甲基化检测方法 |
CN118016158A (zh) * | 2024-02-05 | 2024-05-10 | 常州大学 | 一种基于迁移学习的tcr-表位结合预测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112633503A (zh) * | 2020-12-16 | 2021-04-09 | 浙江大学 | 基于神经网络的工具变量生成与反事实推理方法及装置 |
CN112733541A (zh) * | 2021-01-06 | 2021-04-30 | 重庆邮电大学 | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 |
CN113449802A (zh) * | 2021-07-09 | 2021-09-28 | 中国人民解放军国防科技大学 | 基于多粒度互信息最大化的图分类方法及装置 |
-
2021
- 2021-09-30 CN CN202111162271.3A patent/CN113744805A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112633503A (zh) * | 2020-12-16 | 2021-04-09 | 浙江大学 | 基于神经网络的工具变量生成与反事实推理方法及装置 |
CN112733541A (zh) * | 2021-01-06 | 2021-04-30 | 重庆邮电大学 | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 |
CN113449802A (zh) * | 2021-07-09 | 2021-09-28 | 中国人民解放军国防科技大学 | 基于多粒度互信息最大化的图分类方法及装置 |
Non-Patent Citations (2)
Title |
---|
MALIK BOUDIAF ET AL.: "Transductive Information Maximization For Few-Shot Learning", 《34TH CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》, 31 December 2020 (2020-12-31), pages 3 - 4 * |
RAO ZENG ET AL.: "4mCPred-MTL: Accurate Identification of DNA 4mC Sites in Multiple Species Using Multi-Task Deep Learning Based on Multi-Head Attention Mechanism", 《FRONTIERS IN CELL AND DEVELOPMENTAL BIOLOGY》, 10 May 2021 (2021-05-10), pages 1 - 12 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114283888A (zh) * | 2021-12-22 | 2022-04-05 | 山东大学 | 基于分层自注意力机制的差异表达基因预测系统 |
CN114898805A (zh) * | 2022-04-02 | 2022-08-12 | 山东大学 | 一种跨多物种的启动子预测方法及系统 |
CN114898805B (zh) * | 2022-04-02 | 2024-06-18 | 山东大学 | 一种跨多物种的启动子预测方法及系统 |
CN115424663A (zh) * | 2022-10-14 | 2022-12-02 | 徐州工业职业技术学院 | 一种基于attention的双向表示模型的RNA修饰位点预测方法 |
CN115424663B (zh) * | 2022-10-14 | 2024-04-12 | 徐州工业职业技术学院 | 一种基于attention的双向表示模型的RNA修饰位点预测方法 |
CN116010805A (zh) * | 2023-03-24 | 2023-04-25 | 昆明理工大学 | 基于卷积神经网络的滚动轴承故障特征提取方法、装置 |
CN117894452A (zh) * | 2024-01-16 | 2024-04-16 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法及系统 |
CN117894452B (zh) * | 2024-01-16 | 2024-07-30 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 一种基于DenseFormer模型的不明原发肿瘤的原发灶预测方法及系统 |
CN117935909A (zh) * | 2024-01-26 | 2024-04-26 | 哈尔滨工业大学 | 基于电信号与序列融合的第三代测序dna甲基化检测方法 |
CN117935909B (zh) * | 2024-01-26 | 2024-10-01 | 哈尔滨工业大学 | 基于电信号与序列融合的第三代测序dna甲基化检测方法 |
CN118016158A (zh) * | 2024-02-05 | 2024-05-10 | 常州大学 | 一种基于迁移学习的tcr-表位结合预测方法及系统 |
CN118016158B (zh) * | 2024-02-05 | 2024-08-23 | 常州大学 | 一种基于迁移学习的tcr-表位结合预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113744805A (zh) | 基于bert框架的dna甲基化预测方法及系统 | |
Jin et al. | iDNA-ABF: multi-scale deep biological language learning model for the interpretable prediction of DNA methylations | |
CN110705607B (zh) | 一种基于循环重标注自助法的行业多标签降噪方法 | |
CN116705150A (zh) | 基因表达效率的确定方法、装置、设备及介质 | |
US20230108241A1 (en) | Predicting variant pathogenicity from evolutionary conservation using three-dimensional (3d) protein structure voxels | |
US20220336056A1 (en) | Multi-channel protein voxelization to predict variant pathogenicity using deep convolutional neural networks | |
US20220336055A1 (en) | Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures | |
CA3215520A1 (en) | Efficient voxelization for deep learning | |
KR20230171930A (ko) | 3차원(3d) 단백질 구조들을 사용하여 변이체 병원성을 예측하기 위한 심층 콘볼루션 신경망들 | |
CN118212983B (zh) | 一种结合神经网络模型的核酸修饰位点识别方法 | |
CN111933217B (zh) | 一种基于深度学习的dna模体长度预测方法及预测系统 | |
Liu et al. | DeepChrom: A Diffusion-Based Framework for Long-Tailed Chromatin State Prediction | |
CN118335201B (zh) | 基于可变形卷积神经网络和趋同相似性原理的预测方法 | |
US20230047347A1 (en) | Deep neural network-based variant pathogenicity prediction | |
CN114139606B (zh) | 基于l2,1范数和拉普拉斯流形的rlsdspca降维方法 | |
US20230343413A1 (en) | Protein structure-based protein language models | |
Zhang et al. | DeepBSI: a multimodal deep learning framework for predicting the transcription factor binding site and intensity | |
Zhou | EnhancerDBN: An enhancer prediction method based on deep belief network | |
CN118570998A (zh) | 交通事故处理方法及装置 | |
Wang et al. | BBATProt: A Framework Predicting Biological Function with Enhanced Feature Extraction via Explainable Deep Learning | |
Jamali | A Deep Few-Shot Network for Protein Family Classification | |
Nabi | Discovering coding LNCRNAS using deep learning training dynamics | |
KR20230165089A (ko) | 후성유전학적 변형 식별 방법 및 시스템 | |
Han et al. | Deep learning based method for predicting DNA N6-methyladenosine sites | |
Shoukat | Integrating Epigenetic Priors For Improving Computational Identification of Transcription Factor Binding Sites |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |