CN111489792A

CN111489792A - 一种基于半监督学习框架的t细胞受体序列分类方法

Info

Publication number: CN111489792A
Application number: CN202010291254.9A
Authority: CN
Inventors: 王嘉寅; 边浩东; 易鑫; 张选平; 王科; 刘涛
Original assignee: Beijing Jiyingjia Technology Co ltd; Xian Jiaotong University
Current assignee: Beijing Jiyingjia Technology Co ltd; Xian Jiaotong University
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2020-08-04
Anticipated expiration: 2040-04-14
Also published as: CN111489792B

Abstract

本发明公开了一种基于半监督学习框架的T细胞受体序列分类方法，选取CDR3β区域作为输入数据，对T细胞受体数据进行特征编码；根据得到的数据，选择支持向量机、随机森林和决策树的监督学习算法分别构造初始分类器C₁、C₂、C₃；对初始分类器C₁、C₂、C₃进行训练得到扩充的新训练集，产生的训练集进行可重复取样获得三个有标记训练集，然后从每个新训练集产生一个分类器，对分类器进行迭代更新；训练完成后，将三个分类器C₁、C₂、C₃通过投票机制作为一个分类器集成进行使用。本发明适用于T细胞受体序列数据难以获得的情况，性能显著优于现有方法。

Description

一种基于半监督学习框架的T细胞受体序列分类方法

技术领域

本发明属于数据科学技术领域，具体涉及一种基于半监督学习框架的T细胞受体序列分类方法。

背景技术

T细胞受体(英文名称：T cell receptor，英文缩写：TCR)指携带在T细胞表面的蛋白质复合物，能够与宿主细胞上主要组织相容性复合物(英文名称：Majorhistocompatibility complex，英文缩写：MHC)分子呈递的抗原表位——抗原肽-MHC分子复合物(英文名称：Peptide-MHC，英文缩写：pMHC)相结合，将T细胞表面发生识别的信号传递至T细胞核内，从而激活T细胞。T细胞受体对给定抗原表位的亲和力和结合的特异性大多数情况下仅用β链即可确定。T细胞受体与抗原肽-MHC分子复合物结合的主要区域则是第三互补决定(CDR3)区域。现有技术通过获得特异性识别肿瘤抗原的T细胞受体序列，可以将编码抗原特异性的T细胞受体基因序列导入患者自身T细胞中，获得特异性识别肿瘤抗原的T细胞，称为T细胞受体改造的T细胞(TCR-T)，可用于治疗癌症。因此，了解T细胞受体与表位抗原之间的关系极为重要。

既有方法主要采用机器学习模型预测T细胞受体的结合表位。这些方法根据学习机制的不同，可以分为监督学习方法和无监督学习方法。无监督方法如John等人提出的DeepTCR方法，对T细胞受体序列进行编码，使用变分自编码器学习高维空间中T细胞受体序列数据的基本分布以聚类相同抗原的T细胞受体序列。然而，对于深度学习这种需要大量数据的模型来说，受制于T细胞受体和表位数据的数量，发现T细胞受体序列下的数据分布仍然是一项艰巨的任务。监督学习方法如随机森林分类T细胞受体方法，利用整个CDR3区域上平均物理化学性质、序列长度、统计氨基酸个数、以及V基因和J基因等共计632个特征，使用随机森林方法对两个表位进行了一对一分类和一对多分类，其中V基因是可变区，J基因是连接点。受制于训练样本数据，又没有考虑到正例和负例之间的平衡，该方法的假阴性较高。

制约上述方法的原因之一是标注数据量非常有限，导致机器学习模型存在欠拟合、过拟合问题。但是，标注数据的量短时间内难以提高，原因主要包括：

1、获得T细胞受体对应的抗原表位需要进行复杂的实验；

2、在VDJdb公开数据库中，除几个人类白细胞抗原(英文名称：human leukocyteantigen，英文缩写：HLA)基因如HLA-A*02:01等，主要组织相容性复合物分子对应的人类白细胞抗原基因往往和表位是一一对应的。

采用监督学习框架会浪费大量无标注数据，因此，考虑采用无监督学习框架，更为充分的利用有限的标注数据。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于半监督学习框架的T细胞受体序列分类方法，解决面向T细胞受体序列数据，当序列数据较少、训练数据规模小的情况下，使用机器学习策略有分类T细胞受体序列数据与其抗原表位的问题。

本发明采用以下技术方案：

一种基于半监督学习框架的T细胞受体序列分类方法，包括以下步骤：

S1、分别选取已分类和待分类CDR3β区域的T细胞受体数据作为输入数据，对两类数据按相同的规则进行特征编码；

S2、分别选择支持向量机、随机森林和决策树的监督学习算法作为监督学习模型；将步骤S1得到的已分类数据作为初始训练集，分别代入3个监督学习模型进行训练，构造3个对应的初始分类器C₁、C₂、C₃；

S3、将步骤S1得到的未分类数据作为初始测试集，对步骤S2中的初始分类器C₁、C₂、C₃进行测试；每1轮测试后，对于每个分类器，用一致选择策略整合另外两个分类器的测试结果，对分类器的训练集进行扩充；逐个分析未分类数据的每一个样本，扩充3个分类器的训练集；进入下一轮测试前，使用本轮扩充后的3个训练集分别对应的训练C₁、C₂、C₃，完成对分类器的更新；当扩充后的3个训练集分别和上一轮扩充后的3个训练集完全相同时，停止迭代；

S4、步骤S3停止迭代后，获得训练完成的三个分类器C₁、C₂、C₃；再将未分类数据分别代入C₁、C₂、C₃，使用投票机制获得集成结果，实现T细胞受体序列的分类。

具体的，步骤S1具体为：

S101、已分类数据通过读取公开数据集Dash和VDJdb中的数据获取，未分类数据由使用者提供；根据氨基酸的理化特性和疏水性对这两类数据进行特征编码；

S102、对于步骤S101中的VDJdb数据集，只提取其中可信度大于1且T细胞受体库中对应的记录超过50条的表位数据。

具体的，步骤S3中，对于未分类数据中的每一个样本，将样本分别代入三个分类器进行测试，每个分类器生成1个分类结果，称为伪标记；进入下一轮测试前，使用扩充后的3个训练集分别对应的训练三个分类器；逐轮迭代直至满足迭代终止条件，即在一轮扩充完成后，C₁、C₂、C₃的扩充后的训练集与扩充前的训练集没有变化。

进一步的，当3个伪标记相同时，将样本和对应的伪标记同时加入三个分类器的训练集中；当2个伪标记相同且与另1个伪标记不同时，判断是否满足准确率条件；若满足准确率条件，则将样本和对应的伪标记加入伪标记不同的分类器的训练集中；若不满足准确率条件，则跳过样本；逐个分析未分类数据的每个样本，完成一轮训练集扩充。

更进一步的，若2个伪标记相同且与另1个伪标记不同，判断是否满足准确率条件具体为：

S301、计算C₁的分类器在第t轮扩充和训练后的准确率：将步骤S1得到的已分类数据作为验证测试集，隐去分类标签；对于其中的任意一个样本x，若将x代入分类器C₁进行分类，C₁则会输出对x的分类结果C₁(x)；遍历已分类数据中的所有样本，计算分类正确的样本数占总样本数的比例，即为分类器C₁在第t轮扩充和训练后的准确性，记为

；

S302、用步骤S301中的方法依次作用于分类器C₂和C₃，分别计算得出分类器C₂和C₃在第t轮扩充和训练后的准确性，分别记为

和

；

S303、若2个伪标记相同且与另1个伪标记不同，可以形式化表示为C_i(x)与C_j(x)相同且与C_k(x)不同，i、j、k∈{1,2,3}且i、j、k互不相同；比较第t轮和第t-1轮的分类器正确率。

更进一步的，步骤S301中，当C₁(x)与隐去的已知分类标签相同，判断C₁分类正确；当C₁(x)与隐去的已知分类标签不同，判断C₁分类错误。

更进一步的，步骤S303中，第t轮和第t-1轮的分类器存在以下情况：

若

且

则满足准确性条件；

若

且

同时

则不满足准确性条件；

若

且

同时

则满足准确性条件；

若

且

同时

则不满足准确性条件；

若

且

同时

则满足准确性条件；

若

且

同时

则不满足准确性条件；

若

且

同时

则不满足准确性条件。

具体的，步骤S4中，采用加权投票的方法对分类结果进行集成，具体为：计算最后一轮扩充和训练后三个分类器C₁、C₂、C₃的分类器准确率；对于未分类数据中的每一个样本，将该样本分别代入三个分类器进行计算，则每个分类器都会生成1个分类结果；用分类器准确率对样本的分类结果进行加权，以加权后得分最高的类别作为最终结果。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于半监督学习框架的T细胞受体序列分类方法，基于T细胞受体序列数据与其抗原表位，针对其中存在数据量少的问题，引用半监督学习模型；模型提取T细胞受体的氨基酸理化特性和疏水性作为特征，对特征进行二分类半监督学习(区分表位与不是表位)；训练完成后，使用经过训练的模型分类T细胞受体与抗原表位；本方法利用了半监督学习模型的优势，较好的解决了小规模训练数据下难以有效使用机器学习分类模型的难题。

进一步的，氨基酸疏水性等性质是学界比较公认的特征属性；各个T细胞受体序列的长短不一致，本发明的编码方法能够对齐序列，有助于特征提取；只提取其中可信度大于1且T细胞受体库中对应的记录超过50条的表位数据能够避免低质量数据对模型精度的影响。

进一步的，步骤S3的训练集来自于每次迭代训练过程中的未分类数据。未分类数据既是模型的求解目标，也是有助于改进模型精度的潜在训练集。因此，逐步扩充训练集有助于模型基于更多的数据开展学习。

进一步的，在迭代训练过程中，当单分类器的分类性能较差时，分类器可能将错误的分类结果引入到其余两个分类器中，但根据噪声理论，满足步骤S303的条件时，分类错误有更大的概率被正确标记的训练集抵消，使得模型在迭代过程中保证了分类器的分类错误越来越少。

综上所述，本发明提出了一种基于半监督学习框架的T细胞受体序列分类方法；该方法属于一类机器学习分类策略，设计和使用了一种半监督学习框架。针对监督机器学习策略的缺点——需要大规模训练数据，通过半监督学习模型予以解决：第一，半监督学习模型相比于已有方法，所需的样本量显著减少，适用于T细胞受体序列训练数据难以获得的现状；第二，本发明的模型设计中，将待测数据与学习过程中的未标记样本相统一，也就是半监督学习中的直推学习，在未标记样本上获得较优的泛化性能。实验数据证明，本发明的性能显著优于已有方法。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为特征矩阵建立的过程；

图2为Tri-training框架流程图；

图3为SemiTCR与TCRGP的小提琴比较图；

图4为表位pp65与对照表(none)均值变化图；

图5为表位pp65与BMLF的ROC曲线图。

具体实施方式

本发明提供了一种基于半监督学习框架的T细胞受体序列分类方法，使用支持向量机、随机森林和决策树的监督学习算法构建三重学习法框架解决前述的数据量少的难题。支持向量机、随机森林以及决策树都有各自的优缺点。首先，支持向量机在小样本集上具有良好的性能(表位数据集在不同比例划分时，数据量会减少)，因此在方法中可以提高初始分类器预测的准确性，这有助于模型的迭代提高最终模型的预测精度。随机森林不易过拟合，并且在异常值和噪声方面具有很高的容忍度，对于不平衡的数据具有较强的鲁棒性。决策树适合高维数据以及适合处理有缺失属性的样本，使用决策树可以减少缺少值的影响(特征序列存在0值)。

请参阅图2，本发明一种基于半监督学习框架的T细胞受体序列分类方法，包括以下步骤：

S1、对T细胞受体数据进行特征编码

S103、仅选取CDR3β区域作为输入数据，选择氨基酸理化特性和疏水性的编码方法；

请参阅图1，以数据集中最长的序列长度为基准，中间对齐的方式进行其余序列的特征编码，并考虑每种氨基酸的在序列中的位置；将原始特征矩阵表示为X＝{x₁,x₂,…,x_N}，Y＝{y₁,y₂,...,y_N}，其中，x_i∈R^M表示一个CDR3序列样本，y_i∈R表示CDR3序列样本的一个表位类别，N表示为训练集样本数，M表示为维度数。

S2、构造初始分类器

将步骤S1得到的已分类数据作为初始训练集，分别代入上述3个监督学习模型进行训练，构造出3个对应的初始分类器，用C₁、C₂、C₃表示；

S3、训练集和模型的更新

S301、对于未分类数据中的每一个样本，将该样本分别代入三个分类器进行测试，则每个分类器都会生成1个分类结果，称为伪标记；

S302、若3个伪标记相同，则将该样本和对应的伪标记同时加入三个分类器的训练集中；

S303、若2个伪标记相同且与另1个伪标记不同，则判断是否满足准确率条件；

S30301、计算C₁的分类器在第t轮扩充和训练后的准确率：将步骤S1得到的已分类数据作为验证测试集，隐去分类标签；对于其中的任意一个样本x，若将x代入分类器C₁进行分类，C₁则会输出对x的分类结果C₁(x)；此时，存在两种情况：其一，C₁(x)与隐去的已知分类标签相同，说明C₁分类正确；其二，C₁(x)与隐去的已知分类标签不同，说明C₁分类错误；遍历已分类数据中的所有样本，计算分类正确的样本数占总样本数的比例，即为分类器C₁在第t轮扩充和训练后的准确性，记为

S30302、用步骤S301中的方法依次作用于分类器C₂和C₃，分别计算得出分类器C₂和C₃在第t轮扩充和训练后的准确性，分别记为

和

S30303、若2个伪标记相同且与另1个伪标记不同，可以形式化表示为C_i(x)与C_j(x)相同且与C_k(x)不同，其中i、j、k∈{1,2,3}且i、j、k互不相同；比较第t轮和第t-1轮的分类器正确率，存在以下7种情况：

1、若

且

则满足准确性条件；

2、若

且

同时

则不满足准确性条件；

3、若

且

同时

则满足准确性条件；

4、若

且

同时

则不满足准确性条件；

5、若

且

同时

则满足准确性条件；

6、若

且

同时

则不满足准确性条件；

7、若

且

同时

则不满足准确性条件。

S30304、若满足准确率条件，则将该样本和对应的伪标记加入那个伪标记不同的分类器的训练集中；若不满足准确率条件，则跳过该样本；

S304、迭代步骤S302～S303，直至完成对未分类数据的每个样本的分析，完成一轮训练集扩充；

S305、使用扩充后的3个训练集分别对应的训练三个分类器；

S306、迭代步骤S301-S305，直至满足迭代终止条件，即在一轮扩充完成后，C₁、C₂、C₃的扩充后的训练集与扩充前的训练集没有变化。

S4、三个分类器通过加权投票机制作为一个分类器集成进行使用。

计算最后一轮扩充和训练后三个分类器C₁、C₂、C₃的分类器准确率；对于未分类数据中的每一个样本，将该样本分别代入三个分类器进行计算，则每个分类器都会生成1个分类结果；用分类器准确率对样本的分类结果进行加权，以加权后得分最高的类别作为最终结果。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

数据集

使用Dash和VDJdb两个知名的公开数据集。Dash数据集从10个类别中收集了带注释的T细胞受体序列，共有2336个序列，包括3种人类表位来源于HLA-A*02:01基因(pp65、M1、VDJDB)、7种小鼠表位来源于Db基因(NP、PA、F2、M45)、Kb基因(PB1、M38、m139)。VDJdb数据集包含具有已知抗原特异性的T细胞受体序列。

实验数据

针对Dash和VDJdb两个数据集中的32个表位数据，以测试集比例为0.2、0.4、0.5、0.6、0.7、0.8、0.9进行划分数据集。采用5折分层交叉验证。保证训练集和测试集的正例和负例数量保持一致。以数据集比例为0.9左右为例，10％左右的数据作为训练集，90％左右的数据作为测试集，在训练时，将这90％左右的测试集作为无标签数据加入半监督学习中，训练结束后经过5折交叉验证预测90％左右的测试集。以此研究半监督学习较于监督学习的性能。5折交叉验证即将数据分为5个部分，每次取其中一个部分，剩余部分用来做测试，共需要进行5次。

(1)对SemiTCR的性能评估：

Dash数据集中人类和老鼠的32表位数据集不同划分比例下，从表1和表2中可以看出，各个表位体现了在测试集划分下，测试集占比越低，准确率曲线持续上升，符合正常现象。并且通过特征分析比较了两个表位BMLF和pp65，发现从特征分析即可说明pp65数据的表现较低，请参阅表1、图4和图5。针对pp65是最多样化的表位，因此，高度多样性是pp65数据难以区分的一个原因。

表1 Dash数据集人类和老鼠各个表位数据集不同划分比例

表2 VDJdb各个表位数据集不同划分比例

(2)将最新技术TCRGP与SemiTCR进行对比

结果分别如表3和图3所示，以及从在各个划分比例下的小提琴图显示，SemiTCR的结果分布更加集中，在不同划分比例下，SemiTCR对22个表位的平均准确率均高于TCRGP，并且测试集划分的越大，SemiTCR性能越明显。

表3 SemiTCR与TCRGP在Dash和VDJ数据集上的平均准确率对比结果

综上所述，本发明提出了一种基于半监督学习框架的T细胞受体序列分类方法；该方法属于一类机器学习分类策略，设计和使用了一种半监督学习模型，具备机器学习分类的优势。同时，针对机器学习策略的缺点——需要大规模训练数据，通过半监督学习模型予以解决：第一，半监督学习模型相比于已有方法使用的监督学习模型，所需的样本量显著减少，适用于T细胞受体序列数据难以获得的情况；第二，本发明的模型设计中，将待测数据与学习过程中的未标记样本相统一，也就是半监督学习中的直推学习，在未标记样本上获得最优的泛化性能。实验数据证明，本发明模型性能显著优于已有方法。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于半监督学习框架的T细胞受体序列分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于半监督学习框架的T细胞受体序列分类方法，其特征在于，步骤S1具体为：

S102、对于步骤S101中的VDJdb数据集，提取其中可信度大于1且T细胞受体库中对应的记录超过50条的表位数据。

3.根据权利要求1所述的基于半监督学习框架的T细胞受体序列分类方法，其特征在于，步骤S3中，对于未分类数据中的每一个样本，将样本分别代入三个分类器进行测试，每个分类器生成1个分类结果作为伪标记；进入下一轮测试前，使用扩充后的3个训练集分别对应的训练三个分类器；逐轮迭代直至满足迭代终止条件，即在一轮扩充完成后，C₁、C₂、C₃的扩充后的训练集与扩充前的训练集没有变化。

4.根据权利要求3所述的基于半监督学习框架的T细胞受体序列分类方法，其特征在于，当3个伪标记相同时，将样本和对应的伪标记同时加入三个分类器的训练集中；当2个伪标记相同且与另1个伪标记不同时，判断是否满足准确率条件；若满足准确率条件，则将样本和对应的伪标记加入伪标记不同的分类器的训练集中；若不满足准确率条件，则跳过样本；逐个分析未分类数据的每个样本，完成一轮训练集扩充。

5.根据权利要求4所述的基于半监督学习框架的T细胞受体序列分类方法，其特征在于，若2个伪标记相同且与另1个伪标记不同，判断是否满足准确率条件具体为：

和

6.根据权利要求5所述的基于半监督学习框架的T细胞受体序列分类方法，其特征在于，步骤S301中，当C₁(x)与隐去的已知分类标签相同，判断C₁分类正确；当C₁(x)与隐去的已知分类标签不同，判断C₁分类错误。

7.根据权利要求5所述的基于半监督学习框架的T细胞受体序列分类方法，其特征在于，步骤S303中，第t轮和第t-1轮的分类器存在以下情况：

若

且

则满足准确性条件；

若

且

同时

则不满足准确性条件；

若

且

同时

则满足准确性条件；

若

且

同时

则不满足准确性条件；

若

且

同时

则满足准确性条件；

若

且

同时

则不满足准确性条件；

若

且

同时

则不满足准确性条件。

8.根据权利要求1所述的基于半监督学习框架的T细胞受体序列分类方法，其特征在于，步骤S4中，采用加权投票的方法对分类结果进行集成，具体为：计算最后一轮扩充和训练后三个分类器C₁、C₂、C₃的分类器准确率；对于未分类数据中的每一个样本，将该样本分别代入三个分类器进行计算，则每个分类器都会生成1个分类结果；用分类器准确率对样本的分类结果进行加权，以加权后得分最高的类别作为最终结果。