CN115394355A - 一种基于多头注意力的蛋白质翻译后修饰预测方法 - Google Patents

一种基于多头注意力的蛋白质翻译后修饰预测方法 Download PDF

Info

Publication number
CN115394355A
CN115394355A CN202210989623.0A CN202210989623A CN115394355A CN 115394355 A CN115394355 A CN 115394355A CN 202210989623 A CN202210989623 A CN 202210989623A CN 115394355 A CN115394355 A CN 115394355A
Authority
CN
China
Prior art keywords
protein sequence
sample
amino acid
protein
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210989623.0A
Other languages
English (en)
Inventor
闫科
高辉
康昭
何跃武
徐辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210989623.0A priority Critical patent/CN115394355A/zh
Publication of CN115394355A publication Critical patent/CN115394355A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Public Health (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明公开了一种基于多头注意力的蛋白质翻译后修饰预测方法,属于生物信息技术领域,包括如下步骤:预处理带有翻译后修饰标注信息的蛋白质序列,得到合法字符集、第二蛋白质序列数据集和基准数据集;基于合法字符集得到三种词汇表;对第二蛋白质序列数据集中的蛋白质序列样本进行多尺度划分,得到单个氨基酸尺度数据集、二肽尺度数据集和三肽尺度数据集;利用Skip‑gram模型结构对语料库进行训练,得到三种词向量模型;对基准数据集的蛋白质序列片段进行多头注意力模型的标签预测,得到蛋白质序列片段预测结果;本发明通过多尺度词向量全面利用原始蛋白质序列中的多肽组成信息,并降低了对于生物学特征工程的依赖。

Description

一种基于多头注意力的蛋白质翻译后修饰预测方法
技术领域
本发明属于生物信息技术领域,尤其涉及一种基于多头注意力的蛋白质翻译后修饰预测方法。
背景技术
通过生物理化实验预测蛋白质序列上氨基酸是否发生了翻译后修饰,需要在对实验样本预处理之后进行蛋白质提取以及分级分离,对待检测肽段进行富集,然后对富集之后的肽段进行质谱分析。这种方式时间成本和经济成本都较大,不适用于繁多的修饰翻译后预测。
尽管现有的一些预测蛋白质序列上氨基酸翻译后修饰方法通过计算的方法实现蛋白质序列的预测,在效率和成本开销方面相对于通过生物学实验方法来确定酰化位点是一个格外出众的优点,但这些计算方法往往需要较为丰富的生物学背景知识,来从原始的蛋白质序列中按照生物学特征提取方法构造特征。
采用现有的蛋白质序列中氨基酸翻译后修饰预测方法存在以下问题:对蛋白质序列的处理严重依赖于生物学背景的特征工程,也忽视了蛋白质序列中的多肽组成信息。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于多头注意力的蛋白质翻译后修饰预测方法,通过多尺度词向量全面利用原始蛋白质序列中的多肽组成信息,并降低了对于生物学特征工程的依赖。
为了达到上述发明目的,本发明采用的技术方案为:
本发明提供一种基于多头注意力的蛋白质翻译后修饰预测方法,包括如下步骤:
S1、预处理带有翻译后修饰标注信息的蛋白质序列,得到合法字符集Daa、第二蛋白质序列数据集D′protein和基准数据集D;
S2、基于合法字符集Daa得到第一词汇表W1、第二词汇表W2和第三词汇表W3
S3、基于第一词汇表W1、第二词汇表W2和第三词汇表W3分别对第二蛋白质序列数据集D′protein中的蛋白质序列样本进行多尺度划分,得到单个氨基酸尺度数据集
Figure BDA0003803370500000021
二肽尺度数据集
Figure BDA0003803370500000022
和三肽尺度数据集
Figure BDA0003803370500000023
S4、利用Skip-gram模型结构分别对由单个氨基酸尺度数据集
Figure BDA0003803370500000024
二肽尺度数据集
Figure BDA0003803370500000025
和三肽尺度数据集
Figure BDA0003803370500000026
构成的语料库进行训练,得到第一词向量模型、第二词向量模型和第三词向量模型;
S5、基于第一词汇表W1、第二词汇表W2和第三词汇表W3,分别利用第一词向量模型、第二词向量模型和第三词向量模型对基准数据集D中的蛋白质序列片段进行多头注意力模型的标签预测,得到蛋白质序列片段预测结果。
本发明的有益效果为:本发明提供的一种基于多头注意力的蛋白质翻译后修饰预测方法提取了蛋白序列中的单个氨基酸、二肽和三肽的多个尺度的信息,并通过三个通道提取各个尺度下的词向量中的特征,并结合通道注意力机制输出多个通道融合后的特征,提高了对蛋白上氨基酸翻译后修饰的预测效果;本方案从采集到的原始蛋白序列数据集中,按照三个尺度构造出,单氨基酸、二肽和三肽的三个尺度的数据集作为语料库,训练了多尺度词向量,只通过词向量作为原始序列的特征,不再依赖于传统生物学特征提取方法。
进一步地,所述步骤S1包括如下步骤:
S11、获取带有翻译后修饰标注信息的蛋白质序列集合;
S12、定义蛋白质序列集合中蛋白质序列样本的标注信息Label的表达式:
Label={pos1,pos2,…,posi,…,posL}
其中,posi表示蛋白质序列样本的标注信息中第i个位点处发生了某种翻译后修饰,其中,i=1,2,…,L,L表示蛋白质序列样本中发生了某种翻译后修饰的位点总数;
S13、将蛋白质序列集合中包括不属于合法字符集Daa中氨基酸简称字符的蛋白质序列样本清除,得到第一蛋白质序列数据集Dprotein
S14、通过CD-HIT对蛋白质序列数据集Dprotein去冗余,得到第二蛋白质序列数据集D′protein
S15、对第二蛋白质序列数据集D′protein中各蛋白质序列样本设置窗口半径为K′的滑动窗口,并利用滑动窗口将各蛋白质序列样本裁剪,得到若干长度均为2K′+1的蛋白质序列片段;
S16、根据蛋白质序列集合中各蛋白质序列样本的标注信息Label,得到发生翻译后修饰的氨基酸位点集合,并判断各蛋白质序列片段中心处氨基酸是否处于发生翻译后修饰的氨基酸位点集合,若是则将对应蛋白质序列片段置于正样本数据集中,否则将对应蛋白质序列片段置于负样本数据集中;
S17、通过随机采样从负样本数据集中获取与正样本数据集中蛋白质序列片段数量一致的蛋白质序列片段,并将获取得到的蛋白质序列片段与正样本数据集合并,得到基准数据集D。
采用上述进一步方案的有益效果为:提供对原始蛋白序列预处理的方法,得到合法字符集Daa、第二蛋白质序列数据集D′protein和基准数据集D,为得到词汇表和尺度数据集提供基础。
进一步地,所述蛋白质序列集合中的蛋白质序列样本由组成该序列的氨基酸的字母简称表示,并以生物体内二十种常见的氨基酸简称字符G、A、V、L、I、P、F、Y、W、S、T、C、M、R和H的集合作为合法字符集Daa
采用上述进一步方案的有益效果为:提供合法字符集的范围以及蛋白质序列样本的表示方法。
进一步地,所述步骤S15包括如下步骤:
S151、对第二蛋白质序列数据集D′protein中各蛋白质序列样本设置窗口半径为K′的滑动窗口;
S152、将滑动窗口在对应的蛋白质序列样本上滑动;
S153、选取窗口内中心点处氨基酸两侧长度为K′的序列进行裁剪,得到若干长度均为2K′+1的蛋白质序列片段。
采用上述进一步方案的有益效果为:提供滑动窗口裁剪等长蛋白质序列片段的方法,为得到基准数据集D提供基础。
进一步地,所述步骤S2包括如下步骤:
S21、分别构建第一词汇表W1、第二词汇表W2和第三词汇表W3,并将第一词汇表W1、第二词汇表W2和第三词汇表W3均初始化为空集;
S22、基于合法字符集Daa中的二十种氨基酸,分别以单个氨基酸、二肽和三肽三个尺度进行构词;
S23、将单个氨基酸构成的词置于第一词汇表W1中;
S24、将两个氨基酸组成的二肽构成的词置于第二词汇表W2中;
S25、将三个氨基酸组成的三肽构成的词置于第三词汇表W3中。
采用上述进一步方案的有益效果为:提供第一词汇表W1、第二词汇表W2和第三词汇表W3具体的构建方法,为得到尺度数据集和实现蛋白质序列片段预测提供基础。
进一步地,所述步骤S3包括如下步骤:
S31、将第二蛋白质序列数据集D′protein中的各蛋白质序列样本通过氨基酸组成进行表示,得到氨基酸组成表示的蛋白质序列样本Seq:
Seq=[aa1,aa2,…,aaii′,…,aan]
Seq∈D′protein,aai′∈Daa
其中,aai′表示氨基酸组成表示的蛋白质序列样本Seq中第i′个位置处的氨基酸,其中,i′=1,2,3,…,n,n表示氨基酸组成表示的蛋白质序列样本Seq的氨基酸总数;
S32、分别以单个氨基酸、二肤和三肤三个尺度对氨基酸组成表示的蛋白质序列样本Seq进行划分,得到分别由第一词汇表W1、第二词汇表W2和第三词汇表W3中的词构成的单氨基酸序列Seq1、二肤序列Seq2和三肤序列Seq3
Seq1=[aa1,aa2,…,aai′,…,aan]=Seq
Seq2=[(aa1aa2),(aa2aa3),…,(aai′aai′+1),…,(aan-1aan)]
Seq3=[(aa1aa2aa3),(aa2aa3aa4),…,(aai′aai′+1aai′+2),…,(aan-2aan-1aan)]
aai′∈W1,aai′aai′+1∈W2,aai′aai′+1aai′+2∈W3
其中,aa′i′表示通过第一词汇表W1中的词表示的单氨基酸序列Seq1中第i′个位置处的氨基酸,aai′aai′+1表示通过第二词汇表W2中的词表示的二肽序列Seq2中第i′个位置处的二肽,aai′aai′+1aai′+2表示通过第三词汇表W3中的词表示的三肽序列Seq3中第i′个位置处的三肽,其中,i′=1,2,3,…,n;
S33、依次对第二蛋白质序列数据集D′protein中的蛋白质序列样本Seq分别进行单个氨基酸、二肽和三肽三个尺度的划分,得到单个氨基酸尺度数据集
Figure BDA0003803370500000051
二肽尺度数据集
Figure BDA0003803370500000052
和三肽尺度数据集
Figure BDA0003803370500000053
采用上述进一步方案的有益效果为:提供对第二蛋白质序列数据集D′protein中的蛋白质序列样本进行多尺度划分,得到单个氨基酸尺度数据集
Figure BDA0003803370500000061
二肽尺度数据集
Figure BDA0003803370500000062
和三肽尺度数据集
Figure BDA0003803370500000063
的方法,为得到词向量模型和进行蛋白质序列片段预测提供基础。
进一步地,所述步骤S5包括如下步骤:
S51、将基准数据集D中各蛋白质序列片段分别进行单个氨基酸、二肽和三肽三个尺度的划分;
S52、分别利用第一词汇表W1、第二词汇表W2和第三词汇表W3中的词对三个尺度划分后的蛋白质序列片段重构,得到若干氨基酸样本片段序列
Figure BDA0003803370500000064
若干二肽样本片段序列
Figure BDA0003803370500000065
和若干三肽样本片段序列
Figure BDA0003803370500000066
其中,i″表示基准数据集中第i″个蛋白质序列片段;
S53、利用第一词向量模型将各氨基酸样本片段序列
Figure BDA0003803370500000067
转换为氨基酸样本片段词向量,利用第二词向量模型将各二肽样本片段序列
Figure BDA0003803370500000068
转换为二肽样本片段词向量,利用第三词向量模型将各三肽样本片段序列
Figure BDA0003803370500000069
转换为三肽样本片段词向量;
S54、基于氨基酸样本片段词向量构建氨基酸样本片段词向量矩阵
Figure BDA00038033705000000610
基于二肽样本片段词向量构建二肽样本片段词向量矩阵
Figure BDA00038033705000000611
基于三肽样本片段词向量构建三肽样本片段词向量矩阵
Figure BDA00038033705000000612
S55、利用旋转位置编码模块RoPE分别对各氨基酸样本片段词向量、各二肽样本片段词向量和各三肽样本片段词向量添加位置编码信息,得到添加位置编码后的氨基酸样本片段词向量矩阵
Figure BDA00038033705000000613
二肽样本片段词向量矩阵
Figure BDA00038033705000000614
和三肽样本片段词向量矩阵
Figure BDA00038033705000000615
S56、将添加位置编码后的氨基酸样本片段词向量矩阵
Figure BDA00038033705000000616
输入单个氨基酸序列通道的多头注意力模块Multi-Att中,将二肽样本片段词向量矩阵
Figure BDA0003803370500000071
输入二肽序列通道的多头注意力模块Multi-Att中,将三肽样本片段词向量矩阵
Figure BDA0003803370500000072
输入三肽序列通道的多头注意力模块Multi-Att中,并通过各通道中的多头注意力模块学习得到三种尺度下的词向量矩阵特征:
Figure BDA0003803370500000073
其中,
Figure BDA0003803370500000074
表示j通道中对第i″个蛋白质序列片段提取到的词向量矩阵特征,其中,j=1时表示单个氨基酸序列通道,j=2时表示二肽序列通道,j=3时表示三肽序列通道;
S57、将单个氨基酸序列通道对第i″个蛋白质序列片段提取到的词向量矩阵特征、二肽序列通道对第i″个蛋白质序列片段提取到的词向量矩阵特征和三肽序列通道对第i″个蛋白质序列片段提取到的词向量矩阵特征进行拼接,并将拼接结果输入注意力模块Chanel-Att中学习三肽序列通道的注意力权重,得到通道注意力权重调整后的第i″个蛋白质序列片段特征:
Figure BDA0003803370500000075
其中,Oi″表示通道注意力权重调整后的第i″个蛋白质序列片段特征;
S58、将通道注意力权重调整后的第i″个蛋白质序列片段特征输入全连接层,得到蛋白质序列片段预测结果:
Labeli″=soft max(w·Oi″+b)
其中,Labeli″表示第i″个蛋白质序列片段的预测标签,w和b分别表示最后一层线性层网络的神经元权重矩阵和偏置,其中,当第i″个蛋白质序列片段为正样本数据时其预测标签为1,当第i″个蛋白质序列片段为负样本数据时其预测标签为0。
采用上述进一步方案的有益效果为:提供对各蛋白质序列片段进行氨基酸翻译后修饰预测的方法,并通过多尺度词向量全面利用原始蛋白质序列中的多肽组成信息,并降低了对于生物学特征工程的依赖。
附图说明
图1为本发明实施例中一种基于多头注意力的蛋白质翻译后修饰预测方法的步骤图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,在本发明的一个实施例中,本发明提供一种基于多头注意力的蛋白质翻译后修饰预测方法,包括如下步骤:
目前提供有蛋白质上氨基酸翻译后修饰问题的数据开源平台有PTM Viewer,但其中只有数量不多的样本不能满足需求;因此,本实施例还从已发表的实验论文中采集到存在翻译后修饰现象的蛋白质Uniport id,以及该蛋白质上发生PTM的氨基酸的坐标信息;然后通过蛋白质Uniport id在Uniport数据库中检索到该蛋白质完整的氨基酸序列;结合氨基酸序列以及其上发生的PTM位置,便构成了一条存在着一个或多个PTM位点的原始样本集合A;将从开源数据平台PTM Viewer中获得的数据作为原始样本集合B;为了确保数据集中样本的正确性,方案按照合法字符集Daa将原始样本集合A和原始样本集合B中的错误样本进行了筛选;筛选之后将原始样本集合A和原始样本集合B中的合法样本合并在一起,构成原始数据集Draw
S1、预处理带有翻译后修饰标注信息的蛋白质序列,得到合法字符集Daa、第二蛋白质序列数据集D′protein和基准数据集D;
所述步骤S1包括如下步骤:
S11、基于原始数据集Draw获取带有翻译后修饰标注信息的蛋白质序列集合;
S12、定义蛋白质序列集合中蛋白质序列样本的标注信息Label的表达式:
Label={pos1,pos2,…,posi,…,posL}
其中,posi表示蛋白质序列样本的标注信息中第i个位点处发生了某种翻译后修饰,其中,i=1,2,…,L,L表示蛋白质序列样本中发生了某种翻译后修饰的位点总数;
S13、将蛋白质序列集合中包括不属于合法字符集Daa中氨基酸简称字符的蛋白质序列样本清除,得到第一蛋白质序列数据集Dprotein
所述蛋白质序列集合中的蛋白质序列样本由组成该序列的氨基酸的字母简称表示,并以生物体内二十种常见的氨基酸简称字符G(甘氨酸)、A(丙氨酸)、V(缬氨酸)、L(亮氨酸)、I(异亮氨酸)、P(脯氨酸)、F(苯丙氨酸)、Y(酪氨酸)、W(色氨酸)、S(丝氨酸)、T(苏氨酸)、C(半胱氨酸)、M(蛋氨酸)、N(天冬酰胺)、Q(谷氨酰胺)、D(天冬氨酸)、E(谷氨酸)、K(赖氨酸)、R(精氨酸)和H(组氨酸)的集合作为合法字符集Daa
S14、通过CD-HIT对蛋白质序列数据集Dprotein去冗余,得到第二蛋白质序列数据集D′protein,本实施例中使用CD-HIT选择的去冗余参数为0.3;
S15、对第二蛋白质序列数据集D′protein中各蛋白质序列样本设置窗口半径为K′的滑动窗口,并利用滑动窗口将各蛋白质序列样本裁剪,得到若干长度均为2K′+1的蛋白质序列片段,本实施例中设滑动窗口半径为K′=25,则蛋白质序列片段长度为51;
所述步骤S15包括如下步骤:
S151、对第二蛋白质序列数据集D′protein中各蛋白质序列样本设置窗口半径为K′的滑动窗口;
S152、将滑动窗口在对应的蛋白质序列样本上滑动;
S153、选取窗口内中心点处氨基酸两侧长度为K′的序列进行裁剪,得到若干长度均为2K′+1的蛋白质序列片段;
S16、根据蛋白质序列集合中各蛋白质序列样本的标注信息Label,得到发生翻译后修饰的氨基酸位点集合,并判断各蛋白质序列片段中心处氨基酸是否处于发生翻译后修饰的氨基酸位点集合,若是则将对应蛋白质序列片段置于正样本数据集中,否则将对应蛋白质序列片段置于负样本数据集中;
S17、通过随机采样从负样本数据集中获取与正样本数据集中蛋白质序列片段数量一致的蛋白质序列片段,并将获取得到的蛋白质序列片段与正样本数据集合并,得到基准数据集D;本实施例通过随机抽样,使数据集中的正负样本数据达到均衡;
S2、基于合法字符集Daa得到第一词汇表W1、第二词汇表W2和第三词汇表W3
所述步骤S2包括如下步骤:
S21、分别构建第一词汇表W1、第二词汇表W2和第三词汇表W3,并将第一词汇表W1、第二词汇表W2和第三词汇表W3均初始化为空集;
S22、基于合法字符集Daa中的二十种氨基酸,分别以单个氨基酸、二肽和三肽三个尺度进行构词;
S23、将单个氨基酸构成的词置于第一词汇表W1中,其词汇表大小为20;
S24、将两个氨基酸组成的二肽构成的词置于第二词汇表W2中,其词汇表大小为400;
S25、将三个氨基酸组成的三肽构成的词置于第三词汇表W3中,其词汇表大小为8000;
S3、基于第一词汇表W1、第二词汇表W2和第三词汇表W3分别对第二蛋白质序列数据集D′protein中的蛋白质序列样本进行多尺度划分,得到单个氨基酸尺度数据集
Figure BDA0003803370500000111
二肽尺度数据集
Figure BDA0003803370500000112
和三肽尺度数据集
Figure BDA0003803370500000113
所述步骤S3包括如下步骤:
S31、将第二蛋白质序列数据集D′protein中的各蛋白质序列样本通过氨基酸组成进行表示,得到氨基酸组成表示的蛋白质序列样本Seq:
Seq=[aa1,aa2,…,aai′,…,aan]
Seq∈D′protein,aai′∈Daa
其中,aai′表示氨基酸组成表示的蛋白质序列样本Seq中第i′个位置处的氨基酸,其中,i′=1,2,3,…,n,n表示氨基酸组成表示的蛋白质序列样本Seq的氨基酸总数;
S32、分别以单个氨基酸、二肽和三肽三个尺度对氨基酸组成表示的蛋白质序列样本Seq进行划分,得到分别由第一词汇表W1、第二词汇表W2和第三词汇表W3中的词构成的单氨基酸序列Seq1、二肽序列Seq2和三肽序列Seq3
Seq1=[aa1,aa2,…,aai′,…,aan]=Seq
Seq2=[(aa1aa2),(aa2aa3),…,(aai′aai′+1),…,(aan-1aan)]
Seq3=[(aa1aa2aa3),(aa2aa3aa4),…,(aai′aai′+1aai′+2),…,(aan-2aan-1aan)]
aai′∈W1,aai′aai′+1∈W2,aai′aai′+1aai′+2∈W3
其中,aa′i′表示通过第一词汇表W1中的词表示的单氨基酸序列Seq1中第i′个位置处的氨基酸,aai′aai′+1表示通过第二词汇表W2中的词表示的二肽序列Seq2中第i′个位置处的二肽,aai′aai′+1aai′+2表示通过第三词汇表W3中的词表示的三肽序列Seq3中第i′个位置处的三肽,其中,i′=1,2,3,…,n;
对于经过上述多尺度划分之后均可得到三份序列Seq1、Seq2和Seq3,长度分别为n、n-1和n-2,经过填充,将这些序列长度均调整为n,这些序列可以组成三份由不同尺度词汇表构成的新数据集,分别为单个氨基酸尺度数据集
Figure BDA0003803370500000121
二肽尺度数据集
Figure BDA0003803370500000122
和三肽尺度数据集
Figure BDA0003803370500000123
且三个新数据集的规模均等同于原数据集规模|Dprotein|;
S33、依次对第二蛋白质序列数据集D′protein中的蛋白质序列样本Seq分别进行单个氨基酸、二肽和三肽三个尺度的划分,得到单个氨基酸尺度数据集
Figure BDA0003803370500000124
二肽尺度数据集
Figure BDA0003803370500000125
和三肽尺度数据集
Figure BDA0003803370500000126
S4、利用Skip-gram模型结构分别对由单个氨基酸尺度数据集
Figure BDA0003803370500000127
二肽尺度数据集
Figure BDA0003803370500000128
和三肽尺度数据集
Figure BDA0003803370500000129
构成的语料库进行训练,得到第一词向量模型、第二词向量模型和第三词向量模型;本实施例中训练出的三个尺度的氨基酸词向量维度均别为100;将训练得到的词向量用于第一词汇表W1、第二词汇表W2和第三词汇表W3中对应的多尺度氨基酸词,只有在语料库中出现的多尺度氨基酸词才能够学习到词向量,其他未在语料库中出现的词汇默认初始化为100维的0向量,不过在模型的氨基酸词embedding中并不会用到那些默认初始化的氨基酸词向量,因此本实施例中这样初始化并不会影响到对词向量的使用;
S5、基于第一词汇表W1、第二词汇表W2和第三词汇表W3,分别利用第一词向量模型、第二词向量模型和第三词向量模型对基准数据集D中的蛋白质序列片段进行多头注意力模型的标签预测,得到蛋白质序列片段预测结果;
所述步骤S5包括如下步骤:
S51、将基准数据集D中各蛋白质序列片段分别进行单个氨基酸、二肽和三肽三个尺度的划分;
S52、分别利用第一词汇表W1、第二词汇表W2和第三词汇表W3中的词对三个尺度划分后的蛋白质序列片段重构,得到若干氨基酸样本片段序列
Figure BDA0003803370500000131
若干二肽样本片段序列
Figure BDA0003803370500000132
和若干三肽样本片段序列
Figure BDA0003803370500000133
其中,i″表示基准数据集中第i″个蛋白质序列片段;
本实施例中氨基酸样本片段序列
Figure BDA0003803370500000134
二肽样本片段序列
Figure BDA0003803370500000135
和三肽样本片段序列
Figure BDA0003803370500000136
的维度分别为1×51、1×50和1×49并将三者padding为1×51的序列,然后按照词汇表第一词汇表W1、第二词汇表W2和第三词汇表W3中词向量表达;
S53、利用第一词向量模型将各氨基酸样本片段序列
Figure BDA0003803370500000137
转换为氨基酸样本片段词向量,利用第二词向量模型将各二肽样本片段序列
Figure BDA0003803370500000138
转换为二肽样本片段词向量,利用第三词向量模型将各三肽样本片段序列
Figure BDA0003803370500000139
转换为三肽样本片段词向量;
S54、基于氨基酸样本片段词向量构建氨基酸样本片段词向量矩阵
Figure BDA00038033705000001310
基于二肽样本片段词向量构建二肽样本片段词向量矩阵
Figure BDA00038033705000001311
基于三肽样本片段词向量构建三肽样本片段词向量矩阵
Figure BDA00038033705000001312
S55、利用旋转位置编码模块RoPE分别对各氨基酸样本片段词向量、各二肽样本片段词向量和各三肽样本片段词向量添加位置编码信息,得到添加位置编码后的氨基酸样本片段词向量矩阵
Figure BDA00038033705000001313
二肽样本片段词向量矩阵
Figure BDA00038033705000001314
和三肽样本片段词向量矩阵
Figure BDA00038033705000001315
所述氨基酸样本片段词向量矩阵
Figure BDA00038033705000001316
二肽样本片段词向量矩阵
Figure BDA00038033705000001317
和三肽样本片段词向量矩阵
Figure BDA00038033705000001318
的维度均为1×51×100;
S56、将添加位置编码后的氨基酸样本片段词向量矩阵
Figure BDA00038033705000001319
输入单个氨基酸序列通道的多头注意力模块Multi-Att中,将二肽样本片段词向量矩阵
Figure BDA00038033705000001320
输入二肽序列通道的多头注意力模块Multi-Att中,将三肽样本片段词向量矩阵
Figure BDA0003803370500000141
输入三肽序列通道的多头注意力模块Multi-Att中,并通过各通道中的多头注意力模块学习得到三种尺度下的词向量矩阵特征:
Figure BDA0003803370500000142
其中,
Figure BDA0003803370500000143
表示j通道中对第i″个蛋白质序列片段提取到的特征,其维度为1×51×100,其中,j=1时表示单个氨基酸序列通道,j=2时表示二肽序列通道,j=3时表示三肽序列通道;
S57、将单个氨基酸序列通道对第i″个蛋白质序列片段提取到的特征、二肽序列通道对第i″个蛋白质序列片段提取到的特征和三肽序列通道对第i″个蛋白质序列片段提取到的特征拼接后输入注意力模块Chanel-Att中学习三肽序列通道的注意力权重,得到通道注意力权重调整后的第i″个蛋白质序列片段特征:
Figure BDA0003803370500000144
其中,Oi″表示通道注意力权重调整后的第i″个蛋白质序列片段特征,其维度均为1×51×100;
S58、将通道注意力权重调整后的第i″个蛋白质序列片段特征输入全连接层,得到蛋白质序列片段预测结果:
Labeli″=soft max(w·Oi″+b)
其中,Labeli″表示第i″个蛋白质序列片段的预测标签,w和b分别表示最后一层线性层网络的神经元权重矩阵和偏置,其中,当第i″个蛋白质序列片段为正样本数据时其预测标签为1,当第i″个蛋白质序列片段为负样本数据时其预测标签为0。
为了验证本发明的蛋白质上氨基酸翻译后修饰问题的预测准确率的优越性,我们对本发明方法与基于卷积神经网络(CNN)的方法进行了对比试验;实验数据集共有754个正样本和随机抽样的等量正样本,共有1508条,试验情况如表1所示:
表1
Figure BDA0003803370500000151
由表1可得,本专利方法的预测性能比现有方法提升了13%左右,取得了较大的提高。
本发明分成单氨基酸、二肽和三肽三个尺度从蛋白质序列中获得多尺度词向量,然后经过旋转位置编码添加位置信息之后,分为三个通道基于多头注意力从中三个尺度的词向量中提取特征;再经过通道注意力对三个通道特征的权重进行调整,最后将三个通道的融合后的特征通过一层线性层实现对输入序列的标签预测,从而实现了结合蛋白质序列中氨基酸、二肽和三肽的多个尺度序列组成信息的结合,提高了对蛋白上氨基酸翻译后修饰的预测性能。
本发明的有益效果为:
(1)、本发明提取了蛋白序列中的单个氨基酸、二肽和三肽的多个尺度的信息,通过三个通道提取各个尺度下的词向量中的特征,并结合通道注意力机制输出多个通道融合后的特征,提高了对蛋白上氨基酸翻译后修饰的预测效果。
(2)、本发明从采集到的原始蛋白序列数据集中,按照三个尺度构造出,单氨基酸、二肽和三肽的三个尺度的数据集作为语料库,训练了多尺度词向量,只通过词向量作为原始序列的特征,不再依赖于传统生物学特征提取方法,解决了现有方法实现对水蛋白质上氨基酸翻译后修饰问题预测时对生物学特征提取方法的依赖性。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (7)

1.一种基于多头注意力的蛋白质翻译后修饰预测方法,其特征在于,包括如下步骤:
S1、预处理带有翻译后修饰标注信息的蛋白质序列,得到合法字符集Daa、第二蛋白质序列数据集D′protein和基准数据集D;
S2、基于合法字符集Daa得到第一词汇表W1、第二词汇表W2和第三词汇表W3
S3、基于第一词汇表W1、第二词汇表W2和第三词汇表W3分别对第二蛋白质序列数据集D′protein中的蛋白质序列样本进行多尺度划分,得到单个氨基酸尺度数据集
Figure FDA0003803370490000016
二肽尺度数据集
Figure FDA0003803370490000011
和三肽尺度数据集
Figure FDA0003803370490000012
S4、利用Skip-gram模型结构分别对由单个氨基酸尺度数据集
Figure FDA0003803370490000013
二肽尺度数据集
Figure FDA0003803370490000014
和三肽尺度数据集
Figure FDA0003803370490000015
构成的语料库进行训练,得到第一词向量模型、第二词向量模型和第三词向量模型;
S5、基于第一词汇表W1、第二词汇表W2和第三词汇表W3,分别利用第一词向量模型、第二词向量模型和第三词向量模型对基准数据集D中的蛋白质序列片段进行多头注意力模型的标签预测,得到蛋白质序列片段预测结果。
2.根据权利要求1所述的基于多头注意力的蛋白质翻译后修饰预测方法,其特征在于,所述步骤S1包括如下步骤:
S11、获取带有翻译后修饰标注信息的蛋白质序列集合;
S12、定义蛋白质序列集合中蛋白质序列样本的标注信息Label的表达式:
Label={pos1,pos2,…,posi,…,posL}
其中,posi表示蛋白质序列样本的标注信息中第i个位点处发生了某种翻译后修饰,其中,i=1,2,…,L,L表示蛋白质序列样本中发生了某种翻译后修饰的位点总数;
S13、将蛋白质序列集合中包括不属于合法字符集Daa中氨基酸简称字符的蛋白质序列样本清除,得到第一蛋白质序列数据集Dprotein
S14、通过CD-HIT对蛋白质序列数据集Dprotein去冗余,得到第二蛋白质序列数据集D′protein
S15、对第二蛋白质序列数据集D′protein中各蛋白质序列样本设置窗口半径为K′的滑动窗口,并利用滑动窗口将各蛋白质序列样本裁剪,得到若干长度均为2K′+1的蛋白质序列片段;
S16、根据蛋白质序列集合中各蛋白质序列样本的标注信息Label,得到发生翻译后修饰的氨基酸位点集合,并判断各蛋白质序列片段中心处氨基酸是否处于发生翻译后修饰的氨基酸位点集合,若是则将对应蛋白质序列片段置于正样本数据集中,否则将对应蛋白质序列片段置于负样本数据集中;
S17、通过随机采样从负样本数据集中获取与正样本数据集中蛋白质序列片段数量一致的蛋白质序列片段,并将获取得到的蛋白质序列片段与正样本数据集合并,得到基准数据集D。
3.根据权利要求2所述的基于多头注意力的蛋白质翻译后修饰预测方法,其特征在于,所述蛋白质序列集合中的蛋白质序列样本由组成该序列的氨基酸的字母简称表示,并以生物体内二十种常见的氨基酸简称字符G、A、V、L、I、P、F、Y、W、S、T、C、M、R和H的集合作为合法字符集Daa
4.根据权利要求3所述的基于多头注意力的蛋白质翻译后修饰预测方法,其特征在于,所述步骤S15包括如下步骤:
S151、对第二蛋白质序列数据集D′protein中各蛋白质序列样本设置窗口半径为K′的滑动窗口;
S152、将滑动窗口在对应的蛋白质序列样本上滑动;
S153、选取窗口内中心点处氨基酸两侧长度为K′的序列进行裁剪,得到若干长度均为2K′+1的蛋白质序列片段。
5.根据权利要求4所述的基于多头注意力的蛋白质翻译后修饰预测方法,其特征在于,所述步骤S2包括如下步骤:
S21、分别构建第一词汇表W1、第二词汇表W2和第三词汇表W3,并将第一词汇表W1、第二词汇表W2和第三词汇表W3均初始化为空集;
S22、基于合法字符集Daa中的二十种氨基酸,分别以单个氨基酸、二肽和三肽三个尺度进行构词;
S23、将单个氨基酸构成的词置于第一词汇表W1中;
S24、将两个氨基酸组成的二肽构成的词置于第二词汇表W2中;
S25、将三个氨基酸组成的三肽构成的词置于第三词汇表W3中。
6.根据权利要求5所述的基于多头注意力的蛋白质翻译后修饰预测方法,其特征在于,所述步骤S3包括如下步骤:
S31、将第二蛋白质序列数据集D′protein中的各蛋白质序列样本通过氨基酸组成进行表示,得到氨基酸组成表示的蛋白质序列样本Seq:
Seq=[aa1,aa2,…,aai′,…,aan]
Seq∈D′protein,aai′∈Daa
其中,aai′表示氨基酸组成表示的蛋白质序列样本Seq中第i′个位置处的氨基酸,其中,i′=1,2,3,…,n,n表示氨基酸组成表示的蛋白质序列样本Seq的氨基酸总数;
S32、分别以单个氨基酸、二肽和三肽三个尺度对氨基酸组成表示的蛋白质序列样本Seq进行划分,得到分别由第一词汇表W1、第二词汇表W2和第三词汇表W3中的词构成的单氨基酸序列Seq1、二肽序列Seq2和三肽序列Seq3
Seq1=[aa1,aa2,…,aai′,…,aan]=Seq
Seq2=[(aa1aa2),(aa2aa3),…,(aai′aai′+1),…,(aan-1aan)]
Seq3=[(aa1aa2aa3),(aa2aa3aa4),…,(aai′aai′+1aai′+2),…,(aan-2aan-1aan)]
aai′∈W1,aai′aai′+1∈W2,aai′aai′+1aai′+2∈W3
其中,aa′i′表示通过第一词汇表W1中的词表示的单氨基酸序列Seq1中第i′个位置处的氨基酸,aai′aai′+1表示通过第二词汇表W2中的词表示的二肽序列Seq2中第i′个位置处的二肽,aai′aai′+1aai′+2表示通过第三词汇表W3中的词表示的三肽序列Seq3中第i′个位置处的三肽,其中,i′=1,2,3,…,n;
S33、依次对第二蛋白质序列数据集D′protein中的蛋白质序列样本Seq分别进行单个氨基酸、二肽和三肽三个尺度的划分,得到单个氨基酸尺度数据集
Figure FDA0003803370490000041
二肽尺度数据集
Figure FDA0003803370490000042
和三肽尺度数据集
Figure FDA0003803370490000043
7.根据权利要求6所述的基于多头注意力的蛋白质翻译后修饰预测方法,其特征在于,所述步骤S5包括如下步骤:
S51、将基准数据集D中各蛋白质序列片段分别进行单个氨基酸、二肽和三肽三个尺度的划分;
S52、分别利用第一词汇表W1、第二词汇表W2和第三词汇表W3中的词对三个尺度划分后的蛋白质序列片段重构,得到若干氨基酸样本片段序列
Figure FDA0003803370490000044
若干二肽样本片段序列
Figure FDA0003803370490000045
和若干三肽样本片段序列
Figure FDA0003803370490000046
其中,i″表示基准数据集中第i″个蛋白质序列片段;
S53、利用第一词向量模型将各氨基酸样本片段序列
Figure FDA0003803370490000047
转换为氨基酸样本片段词向量,利用第二词向量模型将各二肽样本片段序列
Figure FDA0003803370490000048
转换为二肽样本片段词向量,利用第三词向量模型将各三肽样本片段序列
Figure FDA0003803370490000049
转换为三肽样本片段词向量;
S54、基于氨基酸样本片段词向量构建氨基酸样本片段词向量矩阵
Figure FDA00038033704900000410
基于二肽样本片段词向量构建二肽样本片段词向量矩阵
Figure FDA0003803370490000051
基于三肽样本片段词向量构建三肽样本片段词向量矩阵
Figure FDA0003803370490000052
S55、利用旋转位置编码模块RoPE分别对各氨基酸样本片段词向量、各二肽样本片段词向量和各三肽样本片段词向量添加位置编码信息,得到添加位置编码后的氨基酸样本片段词向量矩阵
Figure FDA0003803370490000053
二肽样本片段词向量矩阵
Figure FDA0003803370490000054
和三肽样本片段词向量矩阵
Figure FDA0003803370490000055
S56、将添加位置编码后的氨基酸样本片段词向量矩阵
Figure FDA0003803370490000056
输入单个氨基酸序列通道的多头注意力模块Multi-Att中,将二肽样本片段词向量矩阵
Figure FDA0003803370490000057
输入二肽序列通道的多头注意力模块Multi-Att中,将三肽样本片段词向量矩阵
Figure FDA0003803370490000058
输入三肽序列通道的多头注意力模块Multi-Att中,并通过各通道中的多头注意力模块学习得到三种尺度下的词向量矩阵特征:
Figure FDA0003803370490000059
其中,
Figure FDA00038033704900000510
表示j通道中对第i″个蛋白质序列片段提取到的词向量矩阵特征,其中,j=1时表示单个氨基酸序列通道,j=2时表示二肽序列通道,j=3时表示三肽序列通道;
S57、将单个氨基酸序列通道对第i″个蛋白质序列片段提取到的词向量矩阵特征、二肽序列通道对第i″个蛋白质序列片段提取到的词向量矩阵特征和三肽序列通道对第i″个蛋白质序列片段提取到的词向量矩阵特征进行拼接,并将拼接结果输入注意力模块Chanel-Att中学习三肽序列通道的注意力权重,得到通道注意力权重调整后的第i″个蛋白质序列片段特征:
Figure FDA00038033704900000511
其中,Oi″表示通道注意力权重调整后的第i″个蛋白质序列片段特征;
S58、将通道注意力权重调整后的第i″个蛋白质序列片段特征输入全连接层,得到蛋白质序列片段预测结果:
Labeli″=softmax(w·Oi″+b)
其中,Labeli″表示第i″个蛋白质序列片段的预测标签,w和b分别表示最后一层线性层网络的神经元权重矩阵和偏置,其中,当第i″个蛋白质序列片段为正样本数据时其预测标签为1,当第i″个蛋白质序列片段为负样本数据时其预测标签为0。
CN202210989623.0A 2022-08-18 2022-08-18 一种基于多头注意力的蛋白质翻译后修饰预测方法 Pending CN115394355A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210989623.0A CN115394355A (zh) 2022-08-18 2022-08-18 一种基于多头注意力的蛋白质翻译后修饰预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210989623.0A CN115394355A (zh) 2022-08-18 2022-08-18 一种基于多头注意力的蛋白质翻译后修饰预测方法

Publications (1)

Publication Number Publication Date
CN115394355A true CN115394355A (zh) 2022-11-25

Family

ID=84121410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210989623.0A Pending CN115394355A (zh) 2022-08-18 2022-08-18 一种基于多头注意力的蛋白质翻译后修饰预测方法

Country Status (1)

Country Link
CN (1) CN115394355A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825198A (zh) * 2023-07-14 2023-09-29 湖南工商大学 基于图注意机制的肽序列标签鉴定方法
CN117854601A (zh) * 2024-03-04 2024-04-09 鲁东大学 一种基于基因类型和氨基酸序列的决定性互补区分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825198A (zh) * 2023-07-14 2023-09-29 湖南工商大学 基于图注意机制的肽序列标签鉴定方法
CN116825198B (zh) * 2023-07-14 2024-05-10 湖南工商大学 基于图注意机制的肽序列标签鉴定方法
CN117854601A (zh) * 2024-03-04 2024-04-09 鲁东大学 一种基于基因类型和氨基酸序列的决定性互补区分类方法
CN117854601B (zh) * 2024-03-04 2024-05-14 鲁东大学 一种基于基因类型和氨基酸序列的决定性互补区分类方法

Similar Documents

Publication Publication Date Title
CN115394355A (zh) 一种基于多头注意力的蛋白质翻译后修饰预测方法
CN113707235B (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
CN110245685B (zh) 基因组单位点变异致病性的预测方法、系统及存储介质
CN113011202B (zh) 基于多任务训练的端到端图像文本翻译方法、系统、装置
Linial et al. Global self-organization of all known protein sequences reveals inherent biological signatures
CN112950170B (zh) 审核方法以及装置
Baró et al. Handwritten historical music recognition by sequence-to-sequence with attention mechanism
CN111816255A (zh) 融合多视角和最优多标签链式学习的rna结合蛋白识别
CN112149603A (zh) 一种基于跨模态数据增广的连续手语识别方法
CN114093415B (zh) 肽段可检测性预测方法及系统
Yilmaz et al. Sequence-to-sequence translation from mass spectra to peptides with a transformer model
CN116229482A (zh) 网络舆情分析中视觉多模态文字检测识别及纠错方法
CN115761764A (zh) 一种基于视觉语言联合推理的中文手写文本行识别方法
Huang et al. An attention-based neural network basecaller for Oxford Nanopore sequencing data
Rama et al. LSTM autoencoders for dialect analysis
US20230298692A1 (en) Method, System and Computer Program Product for Determining Presentation Likelihoods of Neoantigens
CN111985397B (zh) 一种基于深度学习的小学生口算题文本图片内容识别方法
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN110970090B (zh) 一种用于判断待处理多肽与阳性数据集肽段相似度的方法
CN112908421A (zh) 肿瘤新生抗原预测方法、装置、设备及介质
CN114282537A (zh) 一种面向社交文本的级联直线型实体关系抽取方法
Lingner et al. Experimental and statistical post-validation of positive example EST sequences carrying peroxisome targeting signals type 1 (PTS1)
CN112599195A (zh) 一种基因序列拼接方法及应用
US20230395194A1 (en) Detection of deletions in oligonucleotide sequences
CN112951337A (zh) 一种分子指纹生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination