CN116913383B

CN116913383B - 一种基于多模态的t细胞受体序列分类方法

Info

Publication number: CN116913383B
Application number: CN202311174331.2A
Authority: CN
Inventors: 刘峻江; 周树森; 王庆军; 臧睦君; 柳婵娟; 刘通
Original assignee: Ludong University
Current assignee: Jiangxi Qixin Raincoat Manufacturing Co ltd
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-11-28
Anticipated expiration: 2043-09-13
Also published as: CN116913383A

Abstract

本发明属于生物信息学领域，涉及一种基于多模态的T细胞受体序列分类方法，将T细胞受体的空间结构特征与序列特征融合在一起，旨在提高T细胞受体序列的分类能力。该方法使用了一种新型的编码方式将T细胞受体序列的原子空间结构与序列特征进行结合，并在联合训练前进行预训练。在预训练结束后，将空间特征提取模块与序列特征提取模块进行联合训练并取得预测结果。该方法的步骤包括：T细胞受体空间结构预处理、T细胞受体序列预处理、空间特征提取模块预训练、空间特征提取模块与序列特征提取模块联合训练四个步骤。该方法可有效融合T细胞受体的空间结构特征和序列特征，并得到更优的效果，对疾病的检测、治疗、预后具有重要意义。

Description

一种基于多模态的T细胞受体序列分类方法

技术领域

本发明属于生物信息学领域，涉及一种基于多模态的T细胞受体序列分类方法。

背景技术

T细胞受体是一种存在于T淋巴细胞（T细胞）表面的蛋白质结构，它在免疫系统中发挥着关键的作用。T细胞是免疫系统中的一类白细胞，主要负责识别和攻击体内异常细胞、病毒感染细胞以及癌细胞等。

T细胞受体的主要功能是识别抗原分子。抗原是一种能够触发免疫系统产生应答的分子，可以是外来物质（如细菌、病毒等）或体内异常细胞（如癌细胞）。T细胞受体能够与抗原分子结合，从而使T细胞产生特异性的免疫应答。因此准确识别T细胞受体的种类，对于疾病的诊断、治疗、预后具有重要的意义。

现如今的T细胞受体分类技术大多基于T细胞受体的序列，这些方法仅关注到T细胞受体序列的时间序列特征。但是T细胞受体序列的本质属于蛋白质序列，而蛋白质的功能则与它的空间结构息息相关，但受体序列的空间结构与序列特征难以融合。因此如何将T细胞受体序列的空间结构和序列特征进行有效融合并分类成为了一大困难。

发明内容

为了克服上述困难，本发明提出了一种基于多模态的T细胞受体序列分类方法，本方法将T细胞受体序列的空间结构与序列有效的融合在一起，提高了分类性能。

一种基于多模态的T细胞受体序列分类方法，包括T细胞受体空间结构预处理、T细胞受体序列预处理、空间特征提取模块预训练、空间特征提取模块与序列特征提取模块联合训练四个步骤，其具体步骤如下：

步骤 1、将T细胞受体序列的原子序列中的每一个原子的独热编码与它的三维空间坐标相结合得到该原子的坐标热度编码，将所有原子序列的坐标热度编码拼接在一起得到T细胞受体序列的坐标热度编码矩阵；

步骤2、将T细胞受体序列的氨基酸序列中首端的半胱氨酸与尾端苯丙氨酸剪切掉，并将剩下的氨基酸替换为对应的词向量，使用无意义的词向量对受体序列进行填充，最终得到了受体序列的词向量矩阵；

步骤3、构建一个由三个卷积神经网络和两个全连接层组成的残差网络作为空间特征提取模块，并以步骤1产生的坐标热度编码矩阵作为空间特征提取模块的输入来进行预训练；

步骤4、构建一个由六个并行且卷积核大小不同的卷积神经网络和两个全连接层组成的序列特征提取模块。将步骤2产生的词向量矩阵作为序列特征提取模块的输入。构建一个由一个全连接层组成的联合训练模块，将空间特征提取模块和序列特征提取模块的输出作为联合训练模块的输入，联合训练模块的输出为该受体序列的分类结果，并以此结构对三个模块进行联合训练。

一种基于多模态的T细胞受体序列分类方法，步骤1实现过程如下：

使用esmfold等蛋白质二级结构预测工具处理T细胞受体序列，得到该序列中每一位原子的三维空间坐标。将T细胞受体序列转化为对应的原子序列，并为每一种原子设置一个独热编码，将原子序列中的每一位原子的三维空间坐标与其原子种类对应的独热编码相结合得到其坐标热度编码，将每一位原子的坐标热度编码拼接在一起并填充到最大长度得到坐标热度编码矩阵。

一种基于多模态的T细胞受体序列分类方法，步骤2实现过程如下：

每一条T细胞受体序列的首端都为半胱氨酸，尾端都为苯丙氨酸，将每一条T细胞受体序列首端的半胱氨酸和尾端的苯丙氨酸剪切掉，以提高模型对于T细胞受体序列的理解能力。使用pytorch深度学习框架的nn.Embedding函数为所有种类的氨基酸设置一个词向量，并额外设置两个无意义的词向量用于填充。将T细胞受体序列中的氨基酸替换为对应的词向量，使用第一个无意义的词向量在受体序列的首端填充，使用第二个无意义的词向量将长度为12至16的受体序列填充到最大长度17。最终得到受体序列的词向量矩阵。

一种基于多模态的T细胞受体序列分类方法，步骤3实现过程如下：

在构建空间特征提取模块时，使用pytorch深度学习框架的nn.Conv2d函数构建第一个卷积神经网络，使用nn.Conv1d函数构建第二、第三个卷积神经网络，这三个卷积神经网络使用相同的卷积核，其中第三个卷积的输入为第一个和第二个卷积神经网络的输出，以此来构建残差结构。使用nn.Linear构建两层的全连接层，输入为第三个卷积神经网络的输出，全连接层的输出维度为T细胞受体序列的类别数。以步骤1产生的坐标热度编码矩阵作为空间特征提取模块的输入，以坐标热度编码矩阵所对应的T细胞受体序列的类型标签作为训练的真实值进行有监督的预训练，预训练结束后保存空间结构特征提取模块。

一种基于多模态的T细胞受体序列分类方法，步骤4实现过程如下：

在构建序列特征提取模块时，使用pytorch深度学习框架的nn.Conv2d函数构建六个卷积核大小不同的卷积神经网络，这六个卷积神经网络采用并列结构。使用nn.Linear构建两层的全连接层，输入为六个卷积神经网络的输出。使用nn.Linear构建一层的全连接层作为联合训练模块，联合训练模块的输入为空间特征提取模块和序列特征提取模块的输出，联合训练模块的输出为分类结果。构建完成序列特征提取模块、联合训练模块后，加载步骤3保存的空间特征提取模块，将三者组成完整的模型，将步骤1产生的坐标热度编码矩阵作为空间特征提取模块的输入，将步骤2的词向量矩阵作为序列特征提取模块的输入，并以对应的T细胞受体序列的类型标签作为训练的真实值进行训练。

附图说明

图1是一种基于多模态的T细胞受体序列分类方法流程图。

图2是T细胞受体空间结构预处理流程图。

图3是T细胞受体序列预处理流程图。

图4是空间特征提取模块流程图。

图5是序列特征提取模块流程图。

具体实施方式

以下结合附图和实例对本发明进行详细说明。

本发明提出一种基于多模态的T细胞受体序列分类方法，特别地，用于T细胞受体序列的分类。

一种基于多模态的T细胞受体序列分类方法，图1是一种基于多模态的T细胞受体序列分类方法流程图，包括T细胞受体空间结构预处理、T细胞受体序列预处理、空间特征提取模块预训练、空间特征提取模块与序列特征提取模块联合训练四个步骤，其具体实施方式如下：

步骤1：T细胞受体空间结构预处理，图 2为T细胞受体空间结构预处理流程图，包括以下内容：

每一条T细胞受体序列都是由多个氨基酸组成的蛋白质链，每一个氨基酸是由多个原子构成的，一条T细胞受体序列中所有原子在三维空间中的坐标为该T细胞受体序列的空间结构。为了将受体序列的空间结构和序列特征进行有效结合，本发明提出一种坐标热度编码方法将T细胞受体序列的空间坐标与原子序列进行了充分的融合。为使坐标热度编码还能包含原子的种类信息，为T细胞受体序列中所含有的四种原子设置了独热编码：碳（C）的独热编码为[0，0，0，1]、氮（N）的独热编码为[0，0，1，0]、氧（O）的独热编码为[0，0，1，0]、硫（S）的独热编码为[1，0，0，0]，将每一个原子的三维空间坐标和该原子种类的独热编码相结合得到其坐标热度编码。如图2所示，该T细胞受体序列的第一个原子为N原子，其三维空间坐标为2、6、8，其独热编码为[0，0，1，0]，使用三维中每个维度的值替换其独热编码中的1，便得到了其坐标热度编码：[[0，0，2，0]， [0，0，6，0]， [0，0，8，0]]。将T细胞受体序列的原子序列中的每一个原子都替换为坐标热度编码，并使用0填充至最大长度154，便得到了该T细胞受体序列的坐标独热编码矩阵。坐标独热编码包含了T细胞受体序列的空间结构信息和序列信息，可以帮助模型更好的提取T细胞受体序列的多模态信息。

步骤2：T细胞受体序列预处理，图3为T细胞受体序列预处理流程图，包括以下内容：

所有的T细胞受体序列都是以半胱氨酸首端以苯丙氨酸尾端，这种结构在模型训练时可能会阻碍模型对于半胱氨酸和苯丙氨酸的理解，因此裁剪掉首端的半胱氨酸和尾端的苯丙氨酸，如图3所示，序列为CSAKDSSYGYTF的T细胞受体经过裁剪后变为SAKDSSYGYT。使用nn.Embedding初始化22个维度为1024的词向量，其中索引值为0，1的词向量为无意义词向量，索引值为2到22的二十个词向量分别代表T细胞受体序列中的二十种氨基酸。将裁剪后的T细胞受体序列中的氨基酸替换为其对应的词向量索引，如SAKDSSYGYT变为[11，4，16，19，11，11，10，3，10，12]，使用两个索引值为1的无意义词向量填充在上一步产生的索引数组的前部，这样可使模型更专注于提取有意义的序列特征，使用索引值为0的无意义词向量填充T细胞受体序列到最大长度17，这样可以使不同长度的T细胞受体序列在同一模型下训练，[11，4，16，19，11，11，10，3，10，12]经过填充后变为[1，1，4，11，11，7，5，7，11，20，16，7，2，0，0，0，0]。根据得到的索引数组替换为对应的词向量便得到了T细胞受体序列的词向量矩阵。

步骤3：空间特征提取模块预训练，图4为空间特征提取模块流程图，包括以下内容：

使用nn.Conv2D构建第一个卷积神经网络，卷积核大小为11×4，在输入时将坐标热度矩阵的空间维度数3视为通道数，第一个卷积的输入通道数为3，输出通道数为30。坐标热度矩阵经第一个卷积处理后依次输入到由nn.ReLU生成的激活函数、nn.BatchNorm2d生成的归一化函数、nn.Dropout2d生成的随机失活函数。经过第一个卷积神经网络的特征提取后，输入的三维坐标热度矩阵将会变为二维。使用nn.Conv1D构建第二个卷积神经网络，该卷积神经网络的卷积核大小为11，输入通道数为30，输出通道数为30，为使输出的数据维度与第一个卷积的输出维度一致而设置填充数量为10。将第二个卷积神经网络的输出依次输入到由nn.ReLU生成的激活函数、nn.BatchNorm1d生成的归一化函数、nn.Dropout1d生成的随机失活函数。

使用nn.Conv1D构建第三个卷积神经网络，该卷积神经网络的卷积核大小为11，输入通道数为60，输出通道数为60，将第一个卷积神经网络和第二个卷积神经网络的输出在通道数维度上进行拼接后作为第三个卷积神经网络的输入。第三个卷积神经网络的输出依次输入到激活函数、归一化函数、随机失活函数中。使用nn.Linear构建第一个全连接层，输入维度为8520，输出维度为1024，将第三个卷积神经网络经过线性展开后输入到第一个全连接层中。将第一个全连接层的输出输入到激活函数中。使用nn.Linear构建第二个全连接层，输入维度为1024，输出维度为T细胞受体序列的类别数。第二个全连接层的输出作为空间特征提取模块的输出。以T细胞受体序列的标签作为真实值，AdamW作为优化器对空间特征提取模块进行600次预训练并保存。

步骤4：空间特征提取模块与序列特征提取模块联合训练，图5为序列特征提取模块流程图，包括以下内容：

使用nn.Conv2D构建六个卷积神经网络，这六个卷积神经网络的输入通道数都为1，输出通道数为3，卷积核大小分别为17×3、17×5、17×7、17×9、17×11、17×13。将步骤2产生的词向量矩阵分别输入到六个卷积神经网络中，六个卷积神经网络的输出分别输入到nn.ReLU生成的激活函数、nn.BatchNorm2d生成的归一化函数、nn.Dropout2d生成的随机失活函数。使用nn.Linear构建第一个全连接层，输入维度为11457，输出维度为4500，将六个卷积神经网络的输出依次拼接在一起作为第一个全连接层的输入。将第一个全连接层的输出输入到激活函数中。使用nn.Linear构建第二个全连接层，输入维度为4500，输出维度为T细胞受体序列的类别数。第二个全连接层的输出作为序列特征提取模块的输出。加载步骤3保存的空间特征提取模块，并将步骤2得到的坐标热度矩阵输入到该模块中得到空间特征提取模块的输出。使用nn.Linear构建一个全连接层作为联合训练模块，输入维度为4，输出维度为T细胞受体序列的类别数，将空间特征提取模块和序列特征提取模块的输出拼接后作为联合训练模块的输入。联合训练模块的输出为整个模型的输出结果，以T细胞受体序列的标签作为真实值，SGD作为优化器对整个模型进行联合训练。

将本发明所提出方法应用到癌症相关T细胞受体序列分类时，在DeepCat所提供的数据集上测试得到的Accuracy、AUC分别为0.817、0.872优于DeepCat、DeepLion、AttendCaIdX在本数据集上的表现，其中DeepCat的Accuracy、AUC分别为0.70、0.74，DeepLion的Accuracy、AUC分别为0.74、0.76， AttendCaIdX的Accuracy、AUC分别为0.77、0.81。本发明将T细胞受体序列的空间结构特征和序列特征进行了有效的融合和分类，因此性能高于其它现有方法。

最优模型参数如表1所示。

表1 最优模型参数

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于多模态的T细胞受体序列分类方法，其特征在于，使用了一种新型的编码方式将T细胞受体序列的原子空间结构与序列特征进行结合，并提出相应的多模态数据预测模型，将T细胞受体的空间结构特征与序列特征放在同一模型下进行训练，包含T细胞受体空间结构预处理、T细胞受体序列预处理、空间特征提取模块预训练、空间特征提取模块与序列特征提取模块联合训练四个步骤，其具体步骤如下：

步骤 1、将T细胞受体序列的原子序列中的每一个原子的独热编码与它的三维空间坐标相结合得到该原子的坐标热度编码，将所有原子的坐标热度编码拼接在一起得到T细胞受体序列的坐标热度编码矩阵；

步骤2、每一条T细胞受体序列的首端都为半胱氨酸，尾端都为苯丙氨酸，将每一条T细胞受体序列首端的半胱氨酸和尾端的苯丙氨酸剪切掉，以提高模型对于T细胞受体序列的理解能力,使用pytorch深度学习框架的nn.Embedding函数为所有种类的氨基酸设置一个词向量，并额外设置两个无意义的词向量用于填充, 将T细胞受体序列中的氨基酸替换为对应的词向量，使用第一个无意义的词向量在受体序列的首端填充，使用第二个无意义的词向量将长度为12至16的受体序列填充到最大长度17，将每一个氨基酸都替换为其对应的词向量后，就得到了受体序列的词向量矩阵;

步骤3、在构建空间特征提取模块时，使用pytorch深度学习框架的nn.Conv2d函数构建第一个卷积神经网络，使用nn.Conv1d函数构建第二、第三个卷积神经网络，这三个卷积神经网络使用相同的卷积核，其中第三个卷积的输入为第一个和第二个卷积神经网络的输出，以此来构建残差结构，使用nn.Linear构建两层的全连接层，输入为第三个卷积神经网络的输出，全连接层的输出维度为T细胞受体序列的类别数，以步骤1产生的坐标热度编码矩阵作为空间特征提取模块的输入，以坐标热度编码矩阵所对应的T细胞受体序列的类型标签作为训练的真实值进行有监督的预训练，预训练结束后保存空间结构特征提取模块；

步骤4、在构建序列特征提取模块时，使用pytorch深度学习框架的nn.Conv2d函数构建六个卷积核大小不同的卷积神经网络，这六个卷积神经网络采用并列结构，使用nn.Linear构建两层的全连接层，输入为六个卷积神经网络的输出，使用nn.Linear构建一层的全连接层作为联合训练模块，联合训练模块的输入为空间特征提取模块和序列特征提取模块的输出，联合训练模块的输出为分类结果，构建完成序列特征提取模块、联合训练模块后，加载步骤3保存的空间特征提取模块，将三者组成完整的模型，将步骤1产生的坐标热度编码矩阵作为空间特征提取模块的输入，将步骤2的词向量矩阵作为序列特征提取模块的输入，并以对应的T细胞受体序列的类型标签作为训练的真实值进行训练。

2.根据权利要求1所述的一种基于多模态的T细胞受体序列分类方法，其特征在于，将原子序列中的每一个原子的独热编码与它的三维空间坐标相结合得到该原子的坐标热度编码，将所有原子的坐标热度编码拼接在一起得到坐标热度编码矩阵，T细胞受体空间结构预处理的实现过程如下：

将T细胞受体序列转化为对应的原子序列，并为每一种原子设置一个独热编码，将原子序列中的每一位原子的三维空间坐标中每个维度的值替换其独热编码中的1，便得到了其坐标热度编码，将每一位原子的坐标热度编码拼接在一起得到坐标热度编码矩阵。