CN117542419A - 一种基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法 - Google Patents
一种基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法 Download PDFInfo
- Publication number
- CN117542419A CN117542419A CN202311305640.9A CN202311305640A CN117542419A CN 117542419 A CN117542419 A CN 117542419A CN 202311305640 A CN202311305640 A CN 202311305640A CN 117542419 A CN117542419 A CN 117542419A
- Authority
- CN
- China
- Prior art keywords
- roberta
- model
- antibacterial peptide
- word embedding
- peptide
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000003910 polypeptide antibiotic agent Substances 0.000 title claims abstract description 43
- 230000007246 mechanism Effects 0.000 title claims abstract description 39
- 238000005516 engineering process Methods 0.000 title claims abstract description 13
- 108090000765 processed proteins & peptides Proteins 0.000 claims abstract description 24
- 238000011156 evaluation Methods 0.000 claims abstract description 14
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 8
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 8
- 230000000844 anti-bacterial effect Effects 0.000 claims abstract description 6
- 238000010276 construction Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 102000044503 Antimicrobial Peptides Human genes 0.000 claims description 9
- 108700042778 Antimicrobial Peptides Proteins 0.000 claims description 9
- 150000001413 amino acids Chemical class 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 101100379209 Arabidopsis thaliana APD3 gene Proteins 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000002068 genetic effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 108010016626 Dipeptides Proteins 0.000 claims description 2
- 238000002347 injection Methods 0.000 abstract description 3
- 239000007924 injection Substances 0.000 abstract description 3
- 230000003115 biocidal effect Effects 0.000 abstract description 2
- 239000003814 drug Substances 0.000 abstract description 2
- 229940079593 drug Drugs 0.000 abstract description 2
- 238000009509 drug development Methods 0.000 abstract description 2
- 238000012362 drug development process Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 239000002547 new drug Substances 0.000 abstract description 2
- 238000002360 preparation method Methods 0.000 abstract description 2
- 102000004196 processed proteins & peptides Human genes 0.000 abstract description 2
- 125000003275 alpha amino acid group Chemical group 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000283073 Equus caballus Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013537 high throughput screening Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于生物医学和药物开发技术领域,具体涉及一种使用RoBERTa词嵌入技术和图注意力机制组合模型来对抗菌肽进行识别的方法。本发明通过从国际上已知的一些抗菌肽数据库中采集正样本和从蛋白质数据库采集残基长度范围在5到255之间的蛋白质序列组合作为负样本,并建立样本集;然后进行数据预处理和构建异构图操作,为组合模型输入做准备;接着利用RoBERTa模型来进行词嵌入,为引入更丰富的语义信息;再建立由RoBERTa模型和图注意力机制组成的组合模型并进行评估、参数调优处理;最后利用调优过的模型对肽序列预测其是抗菌肽还是非抗菌肽。本发明不仅将自然语言处理领域的RoBERTa模型用以对肽序列进行词嵌入操作,还将其与图注意力机制结合构建组合模型用以学习更易辨别的抗菌肽特征,从而达到更准确的抗菌肽性能预测目标,有望帮助生物医学领域的研究人员更快地找到潜在的抗菌肽候选药物,加速新药开发过程和解决抗生素耐药性等问题。
Description
技术领域
本发明属于生物医学和药物开发技术领域,具体涉及一种使用RoBERTa词嵌入技术和图注意力机制组合模型来对抗菌肽进行识别的方法。
背景技术
传统的抗菌肽识别技术主要依赖于生物实验方法,如体外细菌抑制实验、生物活性测试和质谱分析,这些方法通常涉及昂贵、耗时和复杂的实验室操作。这种依赖性限制了抗菌肽研究的规模和速度,并且使得在大规模样本或高通量筛选中变得不切实际。而目前关于抗菌肽识别方法主要依赖于基于规则的方法、传统机器学习技术和深度学习模型,前两种技术通常依赖于手工制定的规则或特征,无法充分捕捉抗菌肽的复杂特性。此外,它们对于大规模的氨基酸序列数据集处理效率低下。而第三种技术可以从大规模的氨基酸序列数据中自动提取特征和模式,无需手工定义的规则。关于抗菌肽识别的现有深度学习模型有卷积神经网络、长短时记忆网络、图卷积神经网络等,这些模型在某些情况下能够提供更高的抗菌肽识别准确性,但每一种都有一些局限性。比如卷积神经网络在处理氨基酸序列数据时能够有效捕获局部特征,但它们可能忽略了序列中的长程依赖关系;长短时记忆网络能够处理氨基酸序列中的时间依赖性,但它们在序列长度较长时可能存在梯度消失问题;图卷积神经网络适用于处理具有图结构的数据,但在抗菌肽的情况下,图的构建可能会受到不完整或不准确的相似性信息的影响。因此,关于抗菌肽识别方法,还存在改进的空间。
发明内容
为解决上述问题,本发明提供了一种高效、准确且适应性强的抗菌肽识别方法,该方法基于RoBERTa预训练模型来对肽序列中的氨基酸组合进行词嵌入操作,并使用一个由RoBERTa模型和图注意力机制组成的组合模型以更准确地辨别抗菌肽与非抗菌肽。本发明提出的新型识别方法不仅可应用于生物技术领域中肽序列抗菌活性的鉴别,还可以为其他生物学领域的序列数据的预测识别研究提供有力的参考。具体包括以下步骤:
一种基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法,按照如下步骤进行:
步骤1、肽序列数据采集
从国际上诸如AntiCP、APD3、ADAM、MLACP、ParaPep、AVPdb、CancerPPD、AntiFP和DRAMP等的知名抗菌肽数据库中采集抗菌肽序列作为正样本,从国际上诸如UniProt的知名蛋白质数据库采集残基长度范围在5到255之间的蛋白质序列组合作为负样本,然后对负样本进行过滤去除非天然氨基酸操作和对正负样本进行去除同源性序列操作,最后得到正负样本集。
步骤2、数据预处理
将正负样本集的每个肽序列视为文本分类中的一个文档,其中每个肽序列中的氨基酸组合视为单词,来对文档进行分词处理。
步骤3、构建异构图
数据预处理后,构建一个由节点和边组成的异构图,其中前面提到的单词和文档被视为节点,单词和单词、单词与文档通过边连接形成异构图。单词之间边的权重通过点互信息(PMI)来计算,单词与文档之间边的权重通过词频-逆向文件频率算法(TF-IDF)来计算,这些权重构成了邻接矩阵。
步骤4、利用RoBERTa模型进行词嵌入
将所有单词节点都初始化为0,所有文档节点都被用RoBERTa词嵌入技术来初始化。初始化完成后,得到所需的节点特征矩阵X。
步骤5、构建图注意力机制组合模型
节点特征矩阵X输入到由RoBERTa模型和图注意力机制组成的组合模型中来对肽序列进行协调训练和测试。RoBERTa模块和图注意力机制模块的计算过程,以及组合模型的构建过程如下式:
其中A表示邻接矩阵,g表示计算注意力分数的函数,m是RoBERTa模块和图注意力机制模块之间的一个协调因子,它的值的范围在0到1之间。
步骤6、图注意力机制组合模型评估与参数调优
基于评估指标来调整图注意力机制组合模型的参数,以使其在评估指标方面表现最佳。
步骤7、抗菌肽预测
使用优化后的模型来对肽序列进行分类或预测,以确定其是否具有抗菌活性。
优选的,步骤2中,氨基酸组合包括但不仅限于二肽、三肽、四肽。
优选的,步骤5中,m的最终值的确定包括但不仅限于使用交叉验证技术来评估不同m值下模型的性能和使用自动调优算法,如贝叶斯优化或遗传算法,来找到最佳的m值。
优选的,步骤5中,RoBERTa模型的具体处理过程如下:
步骤5.1,利用Transformer内部的编码器层对由RoBERTa词嵌入技术生成的文档特征表示进行处理。
步骤5.2,选择[CLS]标记相关联的输出特征表示。
步骤5.3,馈送到具有softmax激活函数的完全连接层,以获取识别结果。
优选的,步骤6中,评估指标包括但不仅限于准确率、马修相关系数、特异度、灵敏度、精确度、ROC曲线下的面积。
本发明的有益效果为:
(1)结合RoBERTa的强大文本表示能力和和图注意力机制的关系建模能力,本发明可以提高抗菌肽的识别准确性。其中RoBERTa模型和图注意力机制协同工作,从肽序列中提取更丰富的特征信息,有助于更好地捕捉抗菌肽的关键特性。
(2)针对大规模氨基酸序列数据集,本发明提出的识别方法具有较高的处理效率,能够快速而准确地识别抗菌肽,从而有助于加速研究和应用的进程。
(3)通过使用深度学习模型的图注意力机制,本发明提出的识别方法可以在不同类型的抗菌肽序列和变化情况下具有较强的适应性。
(4)本发明的独特之处是不仅将自然语言处理领域的RoBERTa模型用以对肽序列进行词嵌入操作,还将其与图注意力机制结合构建组合模型用以学习更易辨别的抗菌肽特征,从而达到更准确的抗菌肽性能预测目标,有望帮助生物医学领域的研究人员更快地找到潜在的抗菌肽候选药物,加速新药开发过程和解决抗生素耐药性等问题。
附图说明
图1为本发明实施例的抗菌肽识别流程示意图。
具体实施方式
以下结合附图和实施例对本发明提出的技术方案作进一步说明。
如图1所示,一种基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法,主要可以分为肽序列数据采集、构建异构图、利用RoBERTa模型进行词嵌入、构建图注意力机制组合模型、模型评估和模型预测六部分。
具体地,可以细分为以下步骤:
步骤1,肽序列数据采集
从国际上诸如AntiCP、APD3、ADAM、MLACP、ParaPep、AVPdb、CancerPPD、AntiFP和DRAMP等的知名抗菌肽数据库中采集抗菌肽序列作为正样本,从国际上诸如UniProt的知名蛋白质数据库采集残基长度范围在5到255之间的蛋白质序列组合作为负样本,然后从负样本中过滤去除那些非天然氨基酸B、J、O、U、X和Z,再将CD-HIT和CD-HIT-2D程序的阈值设置为50%来对正负样本进行去除同源性序列操作,最后得到正负样本集。模型基于样本集采用10折交叉验证方法进行评估。
步骤2、数据预处理
将正负样本集的每个肽序列视为文本分类中的一个文档,其中每个肽序列中的氨基酸组合视为单词,来对文档进行分词处理。此外,通过计算词频来过滤低频词,并将高频词写入文件以生成预处理语料库。
步骤3、构建异构图
构建一个由节点和边组成的异构图,为接下来的组合模型的输入做准备,其中前面提到的单词和文档被视为节点,单词和单词、单词与文档通过边连接形成异构图。单词之间边的权重通过点互信息(PMI)来计算,单词与文档之间边的权重通过词频-逆向文件频率算法(TF-IDF)来计算,这些权重构成了邻接矩阵,如公式(1)所示:
具体的PMI算法和TF-IDF算法的计算过程如公式(2)和(3)所示:
其中#W(i)是语料库中包含i的滑动窗口的数量,#W(i,j)是包含i和j的窗口,#W是语料库中滑动窗口的总数。ni,j是单词在文档dj中出现的次数,|D|是语料库文档的总数,{j:ti∈dj}表示包含单词ti的文档数量。
步骤4、利用RoBERTa模型进行词嵌入
将所有单词节点都初始化为0,所有文档节点都被用RoBERTa词嵌入技术来初始化。具体的嵌入过程为:首先RoBERTa模型利用其预训练的tokenizer将文档分割成一系列标记,然后每个标记被通过嵌入层来映射到高维嵌入向量空间,最后将包含[CLS]标记的输出嵌入特征作为RoBERTa嵌入后的文档节点的输入表示。初始化完成后,得到所需的节点特征矩阵X,如公式(4)所示:
其中,ndoc表示文档节点数和nword表示单词节点数,d表示RoBERTa嵌入的维度。
步骤5、构建图注意力机制组合模型
节点特征矩阵X输入到由RoBERTa模型和图注意力机制组成的组合模型中来对肽序列进行协调训练和测试。图注意力机制模块的具体计算过程如公式(5)所示:
其中eij是每对节点的计算注意力分数,a是可学习的注意力权重,W是可学习的权重矩阵,hi和hj是节点vi和vj的特征表示,αij是节点vi分配给vj的注意力权重,Ni是节点vi的邻居节点集合。
RoBERTa模块具体处理过程如下:首先利用Transformer内部的编码器层对由RoBERTa词嵌入技术生成的文档特征表示进行处理;其次选择[CLS]标记相关联的输出特征表示;最后馈送到具有softmax激活函数的完全连接层,以获取识别结果。
最关键的过程是通过结合RoBERTa和图注意力机制模型来共同训练AMP来获得最终的分类目标。如何协同训练RoBERTa和图注意力机制模型由公式(6)决定:
其中A表示邻接矩阵,g表示上面指代的计算注意力分数的函数,m是RoBERTa模块和图注意力机制模块之间的一个协调因子,它的值的范围在0到1之间,可以通过使用交叉验证技术来评估不同m值下模型的性能来确定m的值或者使用自动调优算法,如贝叶斯优化或遗传算法,来找到最佳的m值。
步骤6、图注意力机制组合模型评估与参数调优
基于评估指标来对图注意力机制组合模型进行评估与参数调优,评估指标包括准确率、马修相关系数、特异度、灵敏度、精确度、ROC曲线下的面积和F-分数,下面的公式(7)是评估指标的计算方法。
其中TP和TN分别指示由模型正确识别的抗菌肽和非抗菌肽的数量,FP和FN表示模型不能正确识别的抗菌肽和非抗菌肽的数量,ROC是指接收器工作特性曲线。
步骤7、抗菌肽预测
使用优化后的模型来对肽序列进行分类或预测,以确定其是否具有抗菌活性。
Claims (5)
1.一种基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法,其特征在于,包括以下步骤:
步骤1、肽序列数据采集
从国际上诸如AntiCP、APD3、ADAM、MLACP、ParaPep、AVPdb、CancerPPD、AntiFP和DRAMP等的知名抗菌肽数据库中采集抗菌肽序列作为正样本,从国际上诸如UniProt的知名蛋白质数据库采集残基长度范围在5到255之间的蛋白质序列组合作为负样本,然后对负样本进行过滤去除非天然氨基酸操作和对正负样本进行去除同源性序列操作,最后得到正负样本集。
步骤2、数据预处理
将正负样本集的每个肽序列视为文本分类中的一个文档,其中每个肽序列中的氨基酸组合视为单词,来对文档进行分词处理。
步骤3、构建异构图
数据预处理后,构建一个由节点和边组成的异构图,其中前面提到的单词和文档被视为节点,单词和单词、单词与文档通过边连接形成异构图。单词之间边的权重通过点互信息(PMI)来计算,单词与文档之间边的权重通过词频-逆向文件频率算法来计算,这些权重构成了邻接矩阵。
步骤4、利用RoBERTa模型进行词嵌入
将所有单词节点都初始化为0,所有文档节点都被用RoBERTa词嵌入技术来初始化。初始化完成后,得到所需的节点特征矩阵X。
步骤5、构建图注意力机制组合模型
节点特征矩阵X输入到由RoBERTa模型和图注意力机制组成的组合模型中来对肽序列进行协调训练和测试。RoBERTa模块和图注意力机制模块的计算过程,以及组合模型的构建过程如下式:
其中A表示邻接矩阵,g表示计算注意力分数的函数,m是RoBERTa模块和图注意力机制模块之间的一个协调因子,它的值的范围在0到1之间。
步骤6、图注意力机制组合模型评估与参数调优
基于评估指标来调整图注意力机制组合模型的参数,以使其在评估指标方面表现最佳。
步骤7、抗菌肽预测
使用优化后的模型来对肽序列进行分类或预测,以确定其是否具有抗菌活性。
2.根据权利要求1所述的基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法,其特征在于,所述步骤2中的氨基酸组合包括但不仅限于二肽、三肽、四肽。
3.根据权利要求1所述的基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法,其特征在于,所述步骤5中的m的最终值的确定包括但不仅限于使用交叉验证技术来评估不同m值下模型的性能和使用自动调优算法,如贝叶斯优化或遗传算法,来找到最佳的m值。
4.根据权利要求1所述的基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法,其特征在于,所述步骤5中的RoBERTa模型的具体处理过程如下:
步骤5.1,利用Transformer内部的编码器层对由RoBERTa词嵌入技术生成的文档特征表示进行处理。
步骤5.2,选择[CLS]标记相关联的输出特征表示。
步骤5.3,馈送到具有softmax激活函数的完全连接层,以获取识别结果。
5.根据权利要求1所述的基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法,其特征在于,所述步骤6中的评估指标包括但不仅限于准确率、马修相关系数、特异度、灵敏度、精确度、ROC曲线下的面积。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311305640.9A CN117542419A (zh) | 2023-10-10 | 2023-10-10 | 一种基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311305640.9A CN117542419A (zh) | 2023-10-10 | 2023-10-10 | 一种基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117542419A true CN117542419A (zh) | 2024-02-09 |
Family
ID=89781389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311305640.9A Pending CN117542419A (zh) | 2023-10-10 | 2023-10-10 | 一种基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117542419A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118471346A (zh) * | 2024-07-11 | 2024-08-09 | 北京悦康科创医药科技股份有限公司 | 多肽毒性确定方法、装置、设备及存储介质 |
-
2023
- 2023-10-10 CN CN202311305640.9A patent/CN117542419A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118471346A (zh) * | 2024-07-11 | 2024-08-09 | 北京悦康科创医药科技股份有限公司 | 多肽毒性确定方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | Generative adversarial learning towards fast weakly supervised detection | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN108960342B (zh) | 基于改进Soft-Max损失函数的图像相似度计算方法 | |
CN117542419A (zh) | 一种基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法 | |
CN114816497B (zh) | 基于bert预训练模型的链接生成方法 | |
Ragib et al. | Pakhichini: Automatic bird species identification using deep learning | |
CN115862747B (zh) | 一种序列-结构-功能耦合的蛋白质预训练模型构建方法 | |
CN110826624A (zh) | 一种基于深度强化学习的时间序列分类方法 | |
Gohar et al. | Terrorist group prediction using data classification | |
CN117292749A (zh) | 一种基于bert特征编码技术和深度学习组合模型的抗菌肽预测方法 | |
CN114756678A (zh) | 一种未知意图文本的识别方法及装置 | |
CN118013038A (zh) | 一种基于原型聚类的文本增量关系抽取方法 | |
CN117672380A (zh) | 一种蛋白质KEGG Orthology编号预测方法及装置 | |
Ceroni et al. | Predicting the disulfide bonding state of cysteines with combinations of kernel machines | |
CN117034110A (zh) | 一种基于深度学习的干细胞外泌体检测方法 | |
CN114998731B (zh) | 智能终端导航场景感知识别的方法 | |
Mahatma et al. | Prediction and functional characterization of transcriptional activation domains | |
Chen et al. | Consistency-based semi-supervised learning for point cloud classification | |
CN115511798A (zh) | 一种基于人工智能技术的肺炎分类方法及装置 | |
CN115472229A (zh) | 一种嗜热蛋白预测方法及装置 | |
CN114898776A (zh) | 一种多尺度特征联合多任务cnn决策树的语音情感识别方法 | |
Yao | Application of Optimized SVM in Sample Classification | |
Marakkar et al. | Performance comparison of convolutional neural network-based model using gradient descent optimization algorithms for the classification of low quality underwater images | |
Kouzani | Subcellular localisation of proteins in fluorescent microscope images using a random forest | |
CN117746997B (zh) | 一种基于多模态先验信息的顺式调控模体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |