CN116913383B - 一种基于多模态的t细胞受体序列分类方法 - Google Patents
一种基于多模态的t细胞受体序列分类方法 Download PDFInfo
- Publication number
- CN116913383B CN116913383B CN202311174331.2A CN202311174331A CN116913383B CN 116913383 B CN116913383 B CN 116913383B CN 202311174331 A CN202311174331 A CN 202311174331A CN 116913383 B CN116913383 B CN 116913383B
- Authority
- CN
- China
- Prior art keywords
- cell receptor
- sequence
- extraction module
- feature extraction
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 title claims abstract description 96
- 108091008874 T cell receptors Proteins 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 55
- 238000013527 convolutional neural network Methods 0.000 claims description 36
- 239000013598 vector Substances 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 24
- 150000001413 amino acids Chemical class 0.000 claims description 11
- 235000001014 amino acid Nutrition 0.000 claims description 10
- 108020003175 receptors Proteins 0.000 claims description 10
- 102000005962 receptors Human genes 0.000 claims description 10
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 claims description 8
- 235000018417 cysteine Nutrition 0.000 claims description 8
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 claims description 8
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000011282 treatment Methods 0.000 abstract description 3
- 201000010099 disease Diseases 0.000 abstract description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 2
- 238000004393 prognosis Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 abstract 1
- 125000004429 atom Chemical group 0.000 description 14
- 230000004913 activation Effects 0.000 description 6
- 102000004169 proteins and genes Human genes 0.000 description 6
- 108090000623 proteins and genes Proteins 0.000 description 6
- 210000004027 cell Anatomy 0.000 description 5
- 235000018102 proteins Nutrition 0.000 description 5
- 210000001744 T-lymphocyte Anatomy 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 3
- 230000009849 deactivation Effects 0.000 description 3
- 210000000987 immune system Anatomy 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 239000000427 antigen Substances 0.000 description 2
- 102000036639 antigens Human genes 0.000 description 2
- 108091007433 antigens Proteins 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- XUJNEKJLAYXESH-REOHCLBHSA-N L-Cysteine Chemical compound SC[C@H](N)C(O)=O XUJNEKJLAYXESH-REOHCLBHSA-N 0.000 description 1
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000000890 antigenic effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 125000000151 cysteine group Chemical group N[C@@H](CS)C(=O)* 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000028993 immune response Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 125000004433 nitrogen atom Chemical group N* 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- 239000011593 sulfur Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Epidemiology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioethics (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明属于生物信息学领域,涉及一种基于多模态的T细胞受体序列分类方法,将T细胞受体的空间结构特征与序列特征融合在一起,旨在提高T细胞受体序列的分类能力。该方法使用了一种新型的编码方式将T细胞受体序列的原子空间结构与序列特征进行结合,并在联合训练前进行预训练。在预训练结束后,将空间特征提取模块与序列特征提取模块进行联合训练并取得预测结果。该方法的步骤包括:T细胞受体空间结构预处理、T细胞受体序列预处理、空间特征提取模块预训练、空间特征提取模块与序列特征提取模块联合训练四个步骤。该方法可有效融合T细胞受体的空间结构特征和序列特征,并得到更优的效果,对疾病的检测、治疗、预后具有重要意义。
Description
技术领域
本发明属于生物信息学领域,涉及一种基于多模态的T细胞受体序列分类方法。
背景技术
T细胞受体是一种存在于T淋巴细胞(T细胞)表面的蛋白质结构,它在免疫系统中发挥着关键的作用。T细胞是免疫系统中的一类白细胞,主要负责识别和攻击体内异常细胞、病毒感染细胞以及癌细胞等。
T细胞受体的主要功能是识别抗原分子。抗原是一种能够触发免疫系统产生应答的分子,可以是外来物质(如细菌、病毒等)或体内异常细胞(如癌细胞)。T细胞受体能够与抗原分子结合,从而使T细胞产生特异性的免疫应答。因此准确识别T细胞受体的种类,对于疾病的诊断、治疗、预后具有重要的意义。
现如今的T细胞受体分类技术大多基于T细胞受体的序列,这些方法仅关注到T细胞受体序列的时间序列特征。但是T细胞受体序列的本质属于蛋白质序列,而蛋白质的功能则与它的空间结构息息相关,但受体序列的空间结构与序列特征难以融合。因此如何将T细胞受体序列的空间结构和序列特征进行有效融合并分类成为了一大困难。
发明内容
为了克服上述困难,本发明提出了一种基于多模态的T细胞受体序列分类方法,本方法将T细胞受体序列的空间结构与序列有效的融合在一起,提高了分类性能。
一种基于多模态的T细胞受体序列分类方法,包括T细胞受体空间结构预处理、T细胞受体序列预处理、空间特征提取模块预训练、空间特征提取模块与序列特征提取模块联合训练四个步骤,其具体步骤如下:
步骤 1、将T细胞受体序列的原子序列中的每一个原子的独热编码与它的三维空间坐标相结合得到该原子的坐标热度编码,将所有原子序列的坐标热度编码拼接在一起得到T细胞受体序列的坐标热度编码矩阵;
步骤2、将T细胞受体序列的氨基酸序列中首端的半胱氨酸与尾端苯丙氨酸剪切掉,并将剩下的氨基酸替换为对应的词向量,使用无意义的词向量对受体序列进行填充,最终得到了受体序列的词向量矩阵;
步骤3、构建一个由三个卷积神经网络和两个全连接层组成的残差网络作为空间特征提取模块,并以步骤1产生的坐标热度编码矩阵作为空间特征提取模块的输入来进行预训练;
步骤4、构建一个由六个并行且卷积核大小不同的卷积神经网络和两个全连接层组成的序列特征提取模块。将步骤2产生的词向量矩阵作为序列特征提取模块的输入。构建一个由一个全连接层组成的联合训练模块,将空间特征提取模块和序列特征提取模块的输出作为联合训练模块的输入,联合训练模块的输出为该受体序列的分类结果,并以此结构对三个模块进行联合训练。
一种基于多模态的T细胞受体序列分类方法,步骤1实现过程如下:
使用esmfold等蛋白质二级结构预测工具处理T细胞受体序列,得到该序列中每一位原子的三维空间坐标。将T细胞受体序列转化为对应的原子序列,并为每一种原子设置一个独热编码,将原子序列中的每一位原子的三维空间坐标与其原子种类对应的独热编码相结合得到其坐标热度编码,将每一位原子的坐标热度编码拼接在一起并填充到最大长度得到坐标热度编码矩阵。
一种基于多模态的T细胞受体序列分类方法,步骤2实现过程如下:
每一条T细胞受体序列的首端都为半胱氨酸,尾端都为苯丙氨酸,将每一条T细胞受体序列首端的半胱氨酸和尾端的苯丙氨酸剪切掉,以提高模型对于T细胞受体序列的理解能力。使用pytorch深度学习框架的nn.Embedding函数为所有种类的氨基酸设置一个词向量,并额外设置两个无意义的词向量用于填充。将T细胞受体序列中的氨基酸替换为对应的词向量,使用第一个无意义的词向量在受体序列的首端填充,使用第二个无意义的词向量将长度为12至16的受体序列填充到最大长度17。最终得到受体序列的词向量矩阵。
一种基于多模态的T细胞受体序列分类方法,步骤3实现过程如下:
在构建空间特征提取模块时,使用pytorch深度学习框架的nn.Conv2d函数构建第一个卷积神经网络,使用nn.Conv1d函数构建第二、第三个卷积神经网络,这三个卷积神经网络使用相同的卷积核,其中第三个卷积的输入为第一个和第二个卷积神经网络的输出,以此来构建残差结构。使用nn.Linear构建两层的全连接层,输入为第三个卷积神经网络的输出,全连接层的输出维度为T细胞受体序列的类别数。以步骤1产生的坐标热度编码矩阵作为空间特征提取模块的输入,以坐标热度编码矩阵所对应的T细胞受体序列的类型标签作为训练的真实值进行有监督的预训练,预训练结束后保存空间结构特征提取模块。
一种基于多模态的T细胞受体序列分类方法,步骤4实现过程如下:
在构建序列特征提取模块时,使用pytorch深度学习框架的nn.Conv2d函数构建六个卷积核大小不同的卷积神经网络,这六个卷积神经网络采用并列结构。使用nn.Linear构建两层的全连接层,输入为六个卷积神经网络的输出。使用nn.Linear构建一层的全连接层作为联合训练模块,联合训练模块的输入为空间特征提取模块和序列特征提取模块的输出,联合训练模块的输出为分类结果。构建完成序列特征提取模块、联合训练模块后,加载步骤3保存的空间特征提取模块,将三者组成完整的模型,将步骤1产生的坐标热度编码矩阵作为空间特征提取模块的输入,将步骤2的词向量矩阵作为序列特征提取模块的输入,并以对应的T细胞受体序列的类型标签作为训练的真实值进行训练。
附图说明
图1是一种基于多模态的T细胞受体序列分类方法流程图。
图2是T细胞受体空间结构预处理流程图。
图3是T细胞受体序列预处理流程图。
图4是空间特征提取模块流程图。
图5是序列特征提取模块流程图。
具体实施方式
以下结合附图和实例对本发明进行详细说明。
本发明提出一种基于多模态的T细胞受体序列分类方法,特别地,用于T细胞受体序列的分类。
一种基于多模态的T细胞受体序列分类方法,图1是一种基于多模态的T细胞受体序列分类方法流程图, 包括T细胞受体空间结构预处理、T细胞受体序列预处理、空间特征提取模块预训练、空间特征提取模块与序列特征提取模块联合训练四个步骤,其具体实施方式如下:
步骤1:T细胞受体空间结构预处理,图 2为T细胞受体空间结构预处理流程图,包括以下内容:
每一条T细胞受体序列都是由多个氨基酸组成的蛋白质链,每一个氨基酸是由多个原子构成的,一条T细胞受体序列中所有原子在三维空间中的坐标为该T细胞受体序列的空间结构。为了将受体序列的空间结构和序列特征进行有效结合,本发明提出一种坐标热度编码方法将T细胞受体序列的空间坐标与原子序列进行了充分的融合。为使坐标热度编码还能包含原子的种类信息,为T细胞受体序列中所含有的四种原子设置了独热编码:碳(C)的独热编码为[0,0,0,1]、氮(N)的独热编码为[0,0,1,0]、氧(O)的独热编码为[0,0,1,0]、硫(S)的独热编码为[1,0,0,0],将每一个原子的三维空间坐标和该原子种类的独热编码相结合得到其坐标热度编码。如图2所示,该T细胞受体序列的第一个原子为N原子,其三维空间坐标为2、6、8,其独热编码为[0,0,1,0],使用三维中每个维度的值替换其独热编码中的1,便得到了其坐标热度编码:[[0,0,2,0], [0,0,6,0], [0,0,8,0]]。 将T细胞受体序列的原子序列中的每一个原子都替换为坐标热度编码,并使用0填充至最大长度154,便得到了该T细胞受体序列的坐标独热编码矩阵。坐标独热编码包含了T细胞受体序列的空间结构信息和序列信息,可以帮助模型更好的提取T细胞受体序列的多模态信息。
步骤2:T细胞受体序列预处理,图3为T细胞受体序列预处理流程图,包括以下内容:
所有的T细胞受体序列都是以半胱氨酸首端以苯丙氨酸尾端,这种结构在模型训练时可能会阻碍模型对于半胱氨酸和苯丙氨酸的理解,因此裁剪掉首端的半胱氨酸和尾端的苯丙氨酸,如图3所示,序列为CSAKDSSYGYTF的T细胞受体经过裁剪后变为SAKDSSYGYT。使用nn.Embedding初始化22个维度为1024的词向量,其中索引值为0,1的词向量为无意义词向量,索引值为2到22的二十个词向量分别代表T细胞受体序列中的二十种氨基酸。将裁剪后的T细胞受体序列中的氨基酸替换为其对应的词向量索引,如SAKDSSYGYT变为[11,4,16,19,11,11,10,3,10,12],使用两个索引值为1的无意义词向量填充在上一步产生的索引数组的前部,这样可使模型更专注于提取有意义的序列特征,使用索引值为0的无意义词向量填充T细胞受体序列到最大长度17,这样可以使不同长度的T细胞受体序列在同一模型下训练,[11,4,16,19,11,11,10,3,10,12]经过填充后变为[1,1,4,11,11,7,5,7,11,20,16,7,2,0,0,0,0]。根据得到的索引数组替换为对应的词向量便得到了T细胞受体序列的词向量矩阵。
步骤3:空间特征提取模块预训练,图4为空间特征提取模块流程图,包括以下内容:
使用nn.Conv2D构建第一个卷积神经网络,卷积核大小为11×4,在输入时将坐标热度矩阵的空间维度数3视为通道数,第一个卷积的输入通道数为3,输出通道数为30。坐标热度矩阵经第一个卷积处理后依次输入到由nn.ReLU生成的激活函数、nn.BatchNorm2d生成的归一化函数、nn.Dropout2d生成的随机失活函数。经过第一个卷积神经网络的特征提取后,输入的三维坐标热度矩阵将会变为二维。使用nn.Conv1D构建第二个卷积神经网络,该卷积神经网络的卷积核大小为11,输入通道数为30,输出通道数为30,为使输出的数据维度与第一个卷积的输出维度一致而设置填充数量为10。将第二个卷积神经网络的输出依次输入到由nn.ReLU生成的激活函数、nn.BatchNorm1d生成的归一化函数、nn.Dropout1d生成的随机失活函数。
使用nn.Conv1D构建第三个卷积神经网络,该卷积神经网络的卷积核大小为11,输入通道数为60,输出通道数为60,将第一个卷积神经网络和第二个卷积神经网络的输出在通道数维度上进行拼接后作为第三个卷积神经网络的输入。第三个卷积神经网络的输出依次输入到激活函数、归一化函数、随机失活函数中。使用nn.Linear构建第一个全连接层,输入维度为8520,输出维度为1024,将第三个卷积神经网络经过线性展开后输入到第一个全连接层中。将第一个全连接层的输出输入到激活函数中。使用nn.Linear构建第二个全连接层,输入维度为1024,输出维度为T细胞受体序列的类别数。第二个全连接层的输出作为空间特征提取模块的输出。以T细胞受体序列的标签作为真实值,AdamW作为优化器对空间特征提取模块进行600次预训练并保存。
步骤4:空间特征提取模块与序列特征提取模块联合训练,图5为序列特征提取模块流程图,包括以下内容:
使用nn.Conv2D构建六个卷积神经网络,这六个卷积神经网络的输入通道数都为1,输出通道数为3,卷积核大小分别为17×3、17×5、17×7、17×9、17×11、17×13。将步骤2产生的词向量矩阵分别输入到六个卷积神经网络中,六个卷积神经网络的输出分别输入到nn.ReLU生成的激活函数、nn.BatchNorm2d生成的归一化函数、nn.Dropout2d生成的随机失活函数。使用nn.Linear构建第一个全连接层,输入维度为11457,输出维度为4500,将六个卷积神经网络的输出依次拼接在一起作为第一个全连接层的输入。将第一个全连接层的输出输入到激活函数中。使用nn.Linear构建第二个全连接层,输入维度为4500,输出维度为T细胞受体序列的类别数。第二个全连接层的输出作为序列特征提取模块的输出。加载步骤3保存的空间特征提取模块,并将步骤2得到的坐标热度矩阵输入到该模块中得到空间特征提取模块的输出。使用nn.Linear构建一个全连接层作为联合训练模块,输入维度为4,输出维度为T细胞受体序列的类别数,将空间特征提取模块和序列特征提取模块的输出拼接后作为联合训练模块的输入。联合训练模块的输出为整个模型的输出结果,以T细胞受体序列的标签作为真实值,SGD作为优化器对整个模型进行联合训练。
将本发明所提出方法应用到癌症相关T细胞受体序列分类时,在DeepCat所提供的数据集上测试得到的Accuracy、AUC分别为0.817、0.872优于DeepCat、DeepLion、AttendCaIdX在本数据集上的表现,其中DeepCat的Accuracy、AUC分别为0.70、0.74,DeepLion的Accuracy、AUC分别为0.74、0.76, AttendCaIdX的Accuracy、AUC分别为0.77、0.81。本发明将T细胞受体序列的空间结构特征和序列特征进行了有效的融合和分类,因此性能高于其它现有方法。
最优模型参数如表1所示。
表1 最优模型参数
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (2)
1.一种基于多模态的T细胞受体序列分类方法,其特征在于,使用了一种新型的编码方式将T细胞受体序列的原子空间结构与序列特征进行结合,并提出相应的多模态数据预测模型,将T细胞受体的空间结构特征与序列特征放在同一模型下进行训练,包含T细胞受体空间结构预处理、T细胞受体序列预处理、空间特征提取模块预训练、空间特征提取模块与序列特征提取模块联合训练四个步骤,其具体步骤如下:
步骤 1、将T细胞受体序列的原子序列中的每一个原子的独热编码与它的三维空间坐标相结合得到该原子的坐标热度编码,将所有原子的坐标热度编码拼接在一起得到T细胞受体序列的坐标热度编码矩阵;
步骤2、每一条T细胞受体序列的首端都为半胱氨酸,尾端都为苯丙氨酸,将每一条T细胞受体序列首端的半胱氨酸和尾端的苯丙氨酸剪切掉,以提高模型对于T细胞受体序列的理解能力,使用pytorch深度学习框架的nn.Embedding函数为所有种类的氨基酸设置一个词向量,并额外设置两个无意义的词向量用于填充, 将T细胞受体序列中的氨基酸替换为对应的词向量,使用第一个无意义的词向量在受体序列的首端填充,使用第二个无意义的词向量将长度为12至16的受体序列填充到最大长度17,将每一个氨基酸都替换为其对应的词向量后,就得到了受体序列的词向量矩阵;
步骤3、在构建空间特征提取模块时,使用pytorch深度学习框架的nn.Conv2d函数构建第一个卷积神经网络,使用nn.Conv1d函数构建第二、第三个卷积神经网络,这三个卷积神经网络使用相同的卷积核,其中第三个卷积的输入为第一个和第二个卷积神经网络的输出,以此来构建残差结构,使用nn.Linear构建两层的全连接层,输入为第三个卷积神经网络的输出,全连接层的输出维度为T细胞受体序列的类别数,以步骤1产生的坐标热度编码矩阵作为空间特征提取模块的输入,以坐标热度编码矩阵所对应的T细胞受体序列的类型标签作为训练的真实值进行有监督的预训练,预训练结束后保存空间结构特征提取模块;
步骤4、在构建序列特征提取模块时,使用pytorch深度学习框架的nn.Conv2d函数构建六个卷积核大小不同的卷积神经网络,这六个卷积神经网络采用并列结构,使用nn.Linear构建两层的全连接层,输入为六个卷积神经网络的输出,使用nn.Linear构建一层的全连接层作为联合训练模块,联合训练模块的输入为空间特征提取模块和序列特征提取模块的输出,联合训练模块的输出为分类结果,构建完成序列特征提取模块、联合训练模块后,加载步骤3保存的空间特征提取模块,将三者组成完整的模型,将步骤1产生的坐标热度编码矩阵作为空间特征提取模块的输入,将步骤2的词向量矩阵作为序列特征提取模块的输入,并以对应的T细胞受体序列的类型标签作为训练的真实值进行训练。
2.根据权利要求1所述的一种基于多模态的T细胞受体序列分类方法,其特征在于,将原子序列中的每一个原子的独热编码与它的三维空间坐标相结合得到该原子的坐标热度编码,将所有原子的坐标热度编码拼接在一起得到坐标热度编码矩阵,T细胞受体空间结构预处理的实现过程如下:
将T细胞受体序列转化为对应的原子序列,并为每一种原子设置一个独热编码,将原子序列中的每一位原子的三维空间坐标中每个维度的值替换其独热编码中的1,便得到了其坐标热度编码,将每一位原子的坐标热度编码拼接在一起得到坐标热度编码矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311174331.2A CN116913383B (zh) | 2023-09-13 | 2023-09-13 | 一种基于多模态的t细胞受体序列分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311174331.2A CN116913383B (zh) | 2023-09-13 | 2023-09-13 | 一种基于多模态的t细胞受体序列分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116913383A CN116913383A (zh) | 2023-10-20 |
CN116913383B true CN116913383B (zh) | 2023-11-28 |
Family
ID=88363377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311174331.2A Active CN116913383B (zh) | 2023-09-13 | 2023-09-13 | 一种基于多模态的t细胞受体序列分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116913383B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117854601B (zh) * | 2024-03-04 | 2024-05-14 | 鲁东大学 | 一种基于基因类型和氨基酸序列的决定性互补区分类方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489792A (zh) * | 2020-04-14 | 2020-08-04 | 西安交通大学 | 一种基于半监督学习框架的t细胞受体序列分类方法 |
CN111816255A (zh) * | 2020-07-09 | 2020-10-23 | 江南大学 | 融合多视角和最优多标签链式学习的rna结合蛋白识别 |
CN112071361A (zh) * | 2020-04-11 | 2020-12-11 | 信华生物药业(广州)有限公司 | 基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法 |
WO2021000362A1 (zh) * | 2019-07-04 | 2021-01-07 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN114360644A (zh) * | 2021-12-30 | 2022-04-15 | 山东师范大学 | T细胞受体与抗原表位的结合预测方法及系统 |
CN114388064A (zh) * | 2021-12-15 | 2022-04-22 | 深圳先进技术研究院 | 用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质 |
CN115171787A (zh) * | 2022-07-08 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 抗原预测方法、装置、设备以及存储介质 |
CN115762643A (zh) * | 2022-09-30 | 2023-03-07 | 辽宁大学 | 一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法 |
CN116013404A (zh) * | 2022-12-28 | 2023-04-25 | 云南大学 | 一种多模态融合深度学习模型及多功能生物活性肽预测方法 |
JP2023062080A (ja) * | 2022-06-21 | 2023-05-02 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | アミノ酸における原子座標の決定、トレーニング方法、装置、機器及び媒体 |
CN116304889A (zh) * | 2023-05-22 | 2023-06-23 | 鲁东大学 | 一种基于卷积与Transformer的受体分类方法 |
CN116597903A (zh) * | 2023-05-26 | 2023-08-15 | 四川芸释新医学检验实验室有限公司 | 人源TCR/HLA-I/Peptide三元复合物交互识别预测方法及系统 |
CN116705146A (zh) * | 2023-04-24 | 2023-09-05 | 江南大学 | 兼顾分子结构与序列挖掘的多视角酶功能预测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7443401B2 (ja) * | 2019-06-07 | 2024-03-05 | ライカ マイクロシステムズ シーエムエス ゲゼルシャフト ミット ベシュレンクテル ハフツング | 生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするためのシステムおよび方法、顕微鏡ならびにトレーニングされた機械学習アルゴリズム |
CN111951887B (zh) * | 2020-07-27 | 2024-06-28 | 深圳市新合生物医疗科技有限公司 | 基于深度学习的白细胞抗原与多肽结合亲和力预测方法 |
US20230253068A1 (en) * | 2022-02-09 | 2023-08-10 | Nec Laboratories America, Inc. | T-cell receptor optimization with reinforcement learning and mutation policies for precision immunotherapy |
-
2023
- 2023-09-13 CN CN202311174331.2A patent/CN116913383B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021000362A1 (zh) * | 2019-07-04 | 2021-01-07 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN112071361A (zh) * | 2020-04-11 | 2020-12-11 | 信华生物药业(广州)有限公司 | 基于Bi-LSTM与Self-Attention的多肽TCR免疫原性预测方法 |
CN111489792A (zh) * | 2020-04-14 | 2020-08-04 | 西安交通大学 | 一种基于半监督学习框架的t细胞受体序列分类方法 |
CN111816255A (zh) * | 2020-07-09 | 2020-10-23 | 江南大学 | 融合多视角和最优多标签链式学习的rna结合蛋白识别 |
CN114388064A (zh) * | 2021-12-15 | 2022-04-22 | 深圳先进技术研究院 | 用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质 |
WO2023109714A1 (zh) * | 2021-12-15 | 2023-06-22 | 深圳先进技术研究院 | 用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质 |
CN114360644A (zh) * | 2021-12-30 | 2022-04-15 | 山东师范大学 | T细胞受体与抗原表位的结合预测方法及系统 |
JP2023062080A (ja) * | 2022-06-21 | 2023-05-02 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | アミノ酸における原子座標の決定、トレーニング方法、装置、機器及び媒体 |
CN115171787A (zh) * | 2022-07-08 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 抗原预测方法、装置、设备以及存储介质 |
CN115762643A (zh) * | 2022-09-30 | 2023-03-07 | 辽宁大学 | 一种基于密集连接卷积网络的病毒与宿主间蛋白质相互作用预测方法 |
CN116013404A (zh) * | 2022-12-28 | 2023-04-25 | 云南大学 | 一种多模态融合深度学习模型及多功能生物活性肽预测方法 |
CN116705146A (zh) * | 2023-04-24 | 2023-09-05 | 江南大学 | 兼顾分子结构与序列挖掘的多视角酶功能预测方法 |
CN116304889A (zh) * | 2023-05-22 | 2023-06-23 | 鲁东大学 | 一种基于卷积与Transformer的受体分类方法 |
CN116597903A (zh) * | 2023-05-26 | 2023-08-15 | 四川芸释新医学检验实验室有限公司 | 人源TCR/HLA-I/Peptide三元复合物交互识别预测方法及系统 |
Non-Patent Citations (6)
Title |
---|
MultiPredGO: Deep Multi-Modal Protein Function Prediction by Amalgamating Protein Structure, Sequence, and Interaction Information;Swagarika Jaharlal Giri;IEEE Journal of Biomedical and Health Informatics;全文 * |
基于Attention Bi-LSTM模型构建蛋白质诱饵序列库;曾祥利;马洁;朱云平;舒坤贤;;重庆邮电大学学报(自然科学版)(第04期);全文 * |
基于Convolutional-LSTM的蛋白质亚细胞定位研究;王春宇;徐珊珊;郭茂祖;车凯;刘晓燕;;计算机科学与探索(第06期);全文 * |
基于多尺度卷积和循环神经网络的蛋白质二级结构预测;包晨;董洪伟;钱军浩;;基因组学与应用生物学(第07期);全文 * |
基于多时长特征融合的人体行为识别方法;宣琦;李甫宪;;浙江工业大学学报(第04期);全文 * |
基于长短期记忆网络的抗癌肽的预测;方春;孙福振;李彩虹;宋莉;;山东理工大学学报(自然科学版)(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116913383A (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111667884B (zh) | 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN116913383B (zh) | 一种基于多模态的t细胞受体序列分类方法 | |
Wu et al. | Neural networks for full-scale protein sequence classification: Sequence encoding with singular value decomposition | |
CN113221687B (zh) | 一种压板状态识别模型的训练方法及压板状态识别方法 | |
CN114519120B (zh) | 基于多模态算法的图像搜索方法及装置 | |
CN110955745B (zh) | 一种基于深度学习的文本哈希检索方法 | |
CN114420211A (zh) | 一种基于注意力机制的rna-蛋白质结合位点预测方法 | |
CN110070914B (zh) | 一种基因序列识别方法、系统和计算机可读存储介质 | |
EP4302300A1 (en) | Natural language processing to predict properties of proteins | |
Chouaib et al. | Feature selection combining genetic algorithm and adaboost classifiers | |
CN114612748A (zh) | 一种基于特征解耦的跨模态视频片段检索方法 | |
CN114360644A (zh) | T细胞受体与抗原表位的结合预测方法及系统 | |
CN111291169B (zh) | 模板编辑回复的方法、装置、设备及存储介质 | |
CN117012281A (zh) | 抗原特异性确定方法、装置、设备及存储介质 | |
Suquilanda-Pesántez et al. | NIFtHool: an informatics program for identification of NifH proteins using deep neural networks | |
CN105930687A (zh) | 一种可在细菌全基因组水平预测外膜蛋白质的方法 | |
CN117332788A (zh) | 一种基于英语口语文本的语义分析方法 | |
CN114510561A (zh) | 答案选择方法、装置、设备及存储介质 | |
CN115424663B (zh) | 一种基于attention的双向表示模型的RNA修饰位点预测方法 | |
CN113724780B (zh) | 基于深度学习的蛋白质卷曲螺旋结构特征预测实现方法 | |
CN115497564A (zh) | 一种鉴定抗原模型建立方法及鉴定抗原方法 | |
CN112002374B (zh) | 基于深度学习的mhc-i表位亲和力预测方法 | |
CN115188410A (zh) | 一种建立人源αβTCR和pMHC结合概率预测模型的方法 | |
CN113282753A (zh) | 标题文本数据分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240927 Address after: Across from Zhujiang Township Central Primary School, Anfu County, Ji'an City, Jiangxi Province 343223 Patentee after: Jiangxi Qixin Raincoat Manufacturing Co.,Ltd. Country or region after: China Address before: 264025 No. 186 Hongqi Middle Road, Zhifu District, Shandong, Yantai Patentee before: LUDONG University Country or region before: China |