CN111489792A - 一种基于半监督学习框架的t细胞受体序列分类方法 - Google Patents

一种基于半监督学习框架的t细胞受体序列分类方法 Download PDF

Info

Publication number
CN111489792A
CN111489792A CN202010291254.9A CN202010291254A CN111489792A CN 111489792 A CN111489792 A CN 111489792A CN 202010291254 A CN202010291254 A CN 202010291254A CN 111489792 A CN111489792 A CN 111489792A
Authority
CN
China
Prior art keywords
data
classifier
training
accuracy
cell receptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010291254.9A
Other languages
English (en)
Other versions
CN111489792B (zh
Inventor
王嘉寅
边浩东
易鑫
张选平
王科
刘涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiyingjia Technology Co ltd
Xian Jiaotong University
Original Assignee
Beijing Jiyingjia Technology Co ltd
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiyingjia Technology Co ltd, Xian Jiaotong University filed Critical Beijing Jiyingjia Technology Co ltd
Priority to CN202010291254.9A priority Critical patent/CN111489792B/zh
Publication of CN111489792A publication Critical patent/CN111489792A/zh
Application granted granted Critical
Publication of CN111489792B publication Critical patent/CN111489792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于半监督学习框架的T细胞受体序列分类方法,选取CDR3β区域作为输入数据,对T细胞受体数据进行特征编码;根据得到的数据,选择支持向量机、随机森林和决策树的监督学习算法分别构造初始分类器C1、C2、C3;对初始分类器C1、C2、C3进行训练得到扩充的新训练集,产生的训练集进行可重复取样获得三个有标记训练集,然后从每个新训练集产生一个分类器,对分类器进行迭代更新;训练完成后,将三个分类器C1、C2、C3通过投票机制作为一个分类器集成进行使用。本发明适用于T细胞受体序列数据难以获得的情况,性能显著优于现有方法。

Description

一种基于半监督学习框架的T细胞受体序列分类方法
技术领域
本发明属于数据科学技术领域,具体涉及一种基于半监督学习框架的T细胞受体序列分类方法。
背景技术
T细胞受体(英文名称:T cell receptor,英文缩写:TCR)指携带在T细胞表面的蛋白质复合物,能够与宿主细胞上主要组织相容性复合物(英文名称:Majorhistocompatibility complex,英文缩写:MHC)分子呈递的抗原表位——抗原肽-MHC分子复合物(英文名称:Peptide-MHC,英文缩写:pMHC)相结合,将T细胞表面发生识别的信号传递至T细胞核内,从而激活T细胞。T细胞受体对给定抗原表位的亲和力和结合的特异性大多数情况下仅用β链即可确定。T细胞受体与抗原肽-MHC分子复合物结合的主要区域则是第三互补决定(CDR3)区域。现有技术通过获得特异性识别肿瘤抗原的T细胞受体序列,可以将编码抗原特异性的T细胞受体基因序列导入患者自身T细胞中,获得特异性识别肿瘤抗原的T细胞,称为T细胞受体改造的T细胞(TCR-T),可用于治疗癌症。因此,了解T细胞受体与表位抗原之间的关系极为重要。
既有方法主要采用机器学习模型预测T细胞受体的结合表位。这些方法根据学习机制的不同,可以分为监督学习方法和无监督学习方法。无监督方法如John等人提出的DeepTCR方法,对T细胞受体序列进行编码,使用变分自编码器学习高维空间中T细胞受体序列数据的基本分布以聚类相同抗原的T细胞受体序列。然而,对于深度学习这种需要大量数据的模型来说,受制于T细胞受体和表位数据的数量,发现T细胞受体序列下的数据分布仍然是一项艰巨的任务。监督学习方法如随机森林分类T细胞受体方法,利用整个CDR3区域上平均物理化学性质、序列长度、统计氨基酸个数、以及V基因和J基因等共计632个特征,使用随机森林方法对两个表位进行了一对一分类和一对多分类,其中V基因是可变区,J基因是连接点。受制于训练样本数据,又没有考虑到正例和负例之间的平衡,该方法的假阴性较高。
制约上述方法的原因之一是标注数据量非常有限,导致机器学习模型存在欠拟合、过拟合问题。但是,标注数据的量短时间内难以提高,原因主要包括:
1、获得T细胞受体对应的抗原表位需要进行复杂的实验;
2、在VDJdb公开数据库中,除几个人类白细胞抗原(英文名称:human leukocyteantigen,英文缩写:HLA)基因如HLA-A*02:01等,主要组织相容性复合物分子对应的人类白细胞抗原基因往往和表位是一一对应的。
采用监督学习框架会浪费大量无标注数据,因此,考虑采用无监督学习框架,更为充分的利用有限的标注数据。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于半监督学习框架的T细胞受体序列分类方法,解决面向T细胞受体序列数据,当序列数据较少、训练数据规模小的情况下,使用机器学习策略有分类T细胞受体序列数据与其抗原表位的问题。
本发明采用以下技术方案:
一种基于半监督学习框架的T细胞受体序列分类方法,包括以下步骤:
S1、分别选取已分类和待分类CDR3β区域的T细胞受体数据作为输入数据,对两类数据按相同的规则进行特征编码;
S2、分别选择支持向量机、随机森林和决策树的监督学习算法作为监督学习模型;将步骤S1得到的已分类数据作为初始训练集,分别代入3个监督学习模型进行训练,构造3个对应的初始分类器C1、C2、C3
S3、将步骤S1得到的未分类数据作为初始测试集,对步骤S2中的初始分类器C1、C2、C3进行测试;每1轮测试后,对于每个分类器,用一致选择策略整合另外两个分类器的测试结果,对分类器的训练集进行扩充;逐个分析未分类数据的每一个样本,扩充3个分类器的训练集;进入下一轮测试前,使用本轮扩充后的3个训练集分别对应的训练C1、C2、C3,完成对分类器的更新;当扩充后的3个训练集分别和上一轮扩充后的3个训练集完全相同时,停止迭代;
S4、步骤S3停止迭代后,获得训练完成的三个分类器C1、C2、C3;再将未分类数据分别代入C1、C2、C3,使用投票机制获得集成结果,实现T细胞受体序列的分类。
具体的,步骤S1具体为:
S101、已分类数据通过读取公开数据集Dash和VDJdb中的数据获取,未分类数据由使用者提供;根据氨基酸的理化特性和疏水性对这两类数据进行特征编码;
S102、对于步骤S101中的VDJdb数据集,只提取其中可信度大于1且T细胞受体库中对应的记录超过50条的表位数据。
具体的,步骤S3中,对于未分类数据中的每一个样本,将样本分别代入三个分类器进行测试,每个分类器生成1个分类结果,称为伪标记;进入下一轮测试前,使用扩充后的3个训练集分别对应的训练三个分类器;逐轮迭代直至满足迭代终止条件,即在一轮扩充完成后,C1、C2、C3的扩充后的训练集与扩充前的训练集没有变化。
进一步的,当3个伪标记相同时,将样本和对应的伪标记同时加入三个分类器的训练集中;当2个伪标记相同且与另1个伪标记不同时,判断是否满足准确率条件;若满足准确率条件,则将样本和对应的伪标记加入伪标记不同的分类器的训练集中;若不满足准确率条件,则跳过样本;逐个分析未分类数据的每个样本,完成一轮训练集扩充。
更进一步的,若2个伪标记相同且与另1个伪标记不同,判断是否满足准确率条件具体为:
S301、计算C1的分类器在第t轮扩充和训练后的准确率:将步骤S1得到的已分类数据作为验证测试集,隐去分类标签;对于其中的任意一个样本x,若将x代入分类器C1进行分类,C1则会输出对x的分类结果C1(x);遍历已分类数据中的所有样本,计算分类正确的样本数占总样本数的比例,即为分类器C1在第t轮扩充和训练后的准确性,记为
Figure BDA0002450476310000041
S302、用步骤S301中的方法依次作用于分类器C2和C3,分别计算得出分类器C2和C3在第t轮扩充和训练后的准确性,分别记为
Figure BDA0002450476310000042
Figure BDA0002450476310000043
S303、若2个伪标记相同且与另1个伪标记不同,可以形式化表示为Ci(x)与Cj(x)相同且与Ck(x)不同,i、j、k∈{1,2,3}且i、j、k互不相同;比较第t轮和第t-1轮的分类器正确率。
更进一步的,步骤S301中,当C1(x)与隐去的已知分类标签相同,判断C1分类正确;当C1(x)与隐去的已知分类标签不同,判断C1分类错误。
更进一步的,步骤S303中,第t轮和第t-1轮的分类器存在以下情况:
Figure BDA0002450476310000051
Figure BDA0002450476310000052
则满足准确性条件;
Figure BDA0002450476310000053
Figure BDA0002450476310000054
同时
Figure BDA0002450476310000055
则不满足准确性条件;
Figure BDA0002450476310000056
Figure BDA0002450476310000057
同时
Figure BDA0002450476310000058
则满足准确性条件;
Figure BDA0002450476310000059
Figure BDA00024504763100000510
同时
Figure BDA00024504763100000511
则不满足准确性条件;
Figure BDA00024504763100000512
Figure BDA00024504763100000513
同时
Figure BDA00024504763100000514
则满足准确性条件;
Figure BDA00024504763100000515
Figure BDA00024504763100000516
同时
Figure BDA00024504763100000517
则不满足准确性条件;
Figure BDA00024504763100000518
Figure BDA00024504763100000519
同时
Figure BDA00024504763100000520
则不满足准确性条件。
具体的,步骤S4中,采用加权投票的方法对分类结果进行集成,具体为:计算最后一轮扩充和训练后三个分类器C1、C2、C3的分类器准确率;对于未分类数据中的每一个样本,将该样本分别代入三个分类器进行计算,则每个分类器都会生成1个分类结果;用分类器准确率对样本的分类结果进行加权,以加权后得分最高的类别作为最终结果。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种基于半监督学习框架的T细胞受体序列分类方法,基于T细胞受体序列数据与其抗原表位,针对其中存在数据量少的问题,引用半监督学习模型;模型提取T细胞受体的氨基酸理化特性和疏水性作为特征,对特征进行二分类半监督学习(区分表位与不是表位);训练完成后,使用经过训练的模型分类T细胞受体与抗原表位;本方法利用了半监督学习模型的优势,较好的解决了小规模训练数据下难以有效使用机器学习分类模型的难题。
进一步的,氨基酸疏水性等性质是学界比较公认的特征属性;各个T细胞受体序列的长短不一致,本发明的编码方法能够对齐序列,有助于特征提取;只提取其中可信度大于1且T细胞受体库中对应的记录超过50条的表位数据能够避免低质量数据对模型精度的影响。
进一步的,步骤S3的训练集来自于每次迭代训练过程中的未分类数据。未分类数据既是模型的求解目标,也是有助于改进模型精度的潜在训练集。因此,逐步扩充训练集有助于模型基于更多的数据开展学习。
进一步的,在迭代训练过程中,当单分类器的分类性能较差时,分类器可能将错误的分类结果引入到其余两个分类器中,但根据噪声理论,满足步骤S303的条件时,分类错误有更大的概率被正确标记的训练集抵消,使得模型在迭代过程中保证了分类器的分类错误越来越少。
综上所述,本发明提出了一种基于半监督学习框架的T细胞受体序列分类方法;该方法属于一类机器学习分类策略,设计和使用了一种半监督学习框架。针对监督机器学习策略的缺点——需要大规模训练数据,通过半监督学习模型予以解决:第一,半监督学习模型相比于已有方法,所需的样本量显著减少,适用于T细胞受体序列训练数据难以获得的现状;第二,本发明的模型设计中,将待测数据与学习过程中的未标记样本相统一,也就是半监督学习中的直推学习,在未标记样本上获得较优的泛化性能。实验数据证明,本发明的性能显著优于已有方法。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为特征矩阵建立的过程;
图2为Tri-training框架流程图;
图3为SemiTCR与TCRGP的小提琴比较图;
图4为表位pp65与对照表(none)均值变化图;
图5为表位pp65与BMLF的ROC曲线图。
具体实施方式
本发明提供了一种基于半监督学习框架的T细胞受体序列分类方法,使用支持向量机、随机森林和决策树的监督学习算法构建三重学习法框架解决前述的数据量少的难题。支持向量机、随机森林以及决策树都有各自的优缺点。首先,支持向量机在小样本集上具有良好的性能(表位数据集在不同比例划分时,数据量会减少),因此在方法中可以提高初始分类器预测的准确性,这有助于模型的迭代提高最终模型的预测精度。随机森林不易过拟合,并且在异常值和噪声方面具有很高的容忍度,对于不平衡的数据具有较强的鲁棒性。决策树适合高维数据以及适合处理有缺失属性的样本,使用决策树可以减少缺少值的影响(特征序列存在0值)。
请参阅图2,本发明一种基于半监督学习框架的T细胞受体序列分类方法,包括以下步骤:
S1、对T细胞受体数据进行特征编码
S101、已分类数据通过读取公开数据集Dash和VDJdb中的数据获取,未分类数据由使用者提供;根据氨基酸的理化特性和疏水性对这两类数据进行特征编码;
S102、对于步骤S101中的VDJdb数据集,只提取其中可信度大于1且T细胞受体库中对应的记录超过50条的表位数据。
S103、仅选取CDR3β区域作为输入数据,选择氨基酸理化特性和疏水性的编码方法;
请参阅图1,以数据集中最长的序列长度为基准,中间对齐的方式进行其余序列的特征编码,并考虑每种氨基酸的在序列中的位置;将原始特征矩阵表示为X={x1,x2,…,xN},Y={y1,y2,...,yN},其中,xi∈RM表示一个CDR3序列样本,yi∈R表示CDR3序列样本的一个表位类别,N表示为训练集样本数,M表示为维度数。
S2、构造初始分类器
将步骤S1得到的已分类数据作为初始训练集,分别代入上述3个监督学习模型进行训练,构造出3个对应的初始分类器,用C1、C2、C3表示;
S3、训练集和模型的更新
S301、对于未分类数据中的每一个样本,将该样本分别代入三个分类器进行测试,则每个分类器都会生成1个分类结果,称为伪标记;
S302、若3个伪标记相同,则将该样本和对应的伪标记同时加入三个分类器的训练集中;
S303、若2个伪标记相同且与另1个伪标记不同,则判断是否满足准确率条件;
S30301、计算C1的分类器在第t轮扩充和训练后的准确率:将步骤S1得到的已分类数据作为验证测试集,隐去分类标签;对于其中的任意一个样本x,若将x代入分类器C1进行分类,C1则会输出对x的分类结果C1(x);此时,存在两种情况:其一,C1(x)与隐去的已知分类标签相同,说明C1分类正确;其二,C1(x)与隐去的已知分类标签不同,说明C1分类错误;遍历已分类数据中的所有样本,计算分类正确的样本数占总样本数的比例,即为分类器C1在第t轮扩充和训练后的准确性,记为
Figure BDA0002450476310000081
S30302、用步骤S301中的方法依次作用于分类器C2和C3,分别计算得出分类器C2和C3在第t轮扩充和训练后的准确性,分别记为
Figure BDA0002450476310000082
Figure BDA0002450476310000083
S30303、若2个伪标记相同且与另1个伪标记不同,可以形式化表示为Ci(x)与Cj(x)相同且与Ck(x)不同,其中i、j、k∈{1,2,3}且i、j、k互不相同;比较第t轮和第t-1轮的分类器正确率,存在以下7种情况:
1、若
Figure BDA0002450476310000091
Figure BDA0002450476310000092
则满足准确性条件;
2、若
Figure BDA0002450476310000093
Figure BDA0002450476310000094
同时
Figure BDA0002450476310000095
则不满足准确性条件;
3、若
Figure BDA0002450476310000096
Figure BDA0002450476310000097
同时
Figure BDA0002450476310000098
则满足准确性条件;
4、若
Figure BDA0002450476310000099
Figure BDA00024504763100000910
同时
Figure BDA00024504763100000911
则不满足准确性条件;
5、若
Figure BDA00024504763100000912
Figure BDA00024504763100000913
同时
Figure BDA00024504763100000914
则满足准确性条件;
6、若
Figure BDA00024504763100000915
Figure BDA00024504763100000916
同时
Figure BDA00024504763100000917
则不满足准确性条件;
7、若
Figure BDA00024504763100000918
Figure BDA00024504763100000919
同时
Figure BDA00024504763100000920
则不满足准确性条件。
S30304、若满足准确率条件,则将该样本和对应的伪标记加入那个伪标记不同的分类器的训练集中;若不满足准确率条件,则跳过该样本;
S304、迭代步骤S302~S303,直至完成对未分类数据的每个样本的分析,完成一轮训练集扩充;
S305、使用扩充后的3个训练集分别对应的训练三个分类器;
S306、迭代步骤S301-S305,直至满足迭代终止条件,即在一轮扩充完成后,C1、C2、C3的扩充后的训练集与扩充前的训练集没有变化。
S4、三个分类器通过加权投票机制作为一个分类器集成进行使用。
计算最后一轮扩充和训练后三个分类器C1、C2、C3的分类器准确率;对于未分类数据中的每一个样本,将该样本分别代入三个分类器进行计算,则每个分类器都会生成1个分类结果;用分类器准确率对样本的分类结果进行加权,以加权后得分最高的类别作为最终结果。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
数据集
使用Dash和VDJdb两个知名的公开数据集。Dash数据集从10个类别中收集了带注释的T细胞受体序列,共有2336个序列,包括3种人类表位来源于HLA-A*02:01基因(pp65、M1、VDJDB)、7种小鼠表位来源于Db基因(NP、PA、F2、M45)、Kb基因(PB1、M38、m139)。VDJdb数据集包含具有已知抗原特异性的T细胞受体序列。
实验数据
针对Dash和VDJdb两个数据集中的32个表位数据,以测试集比例为0.2、0.4、0.5、0.6、0.7、0.8、0.9进行划分数据集。采用5折分层交叉验证。保证训练集和测试集的正例和负例数量保持一致。以数据集比例为0.9左右为例,10%左右的数据作为训练集,90%左右的数据作为测试集,在训练时,将这90%左右的测试集作为无标签数据加入半监督学习中,训练结束后经过5折交叉验证预测90%左右的测试集。以此研究半监督学习较于监督学习的性能。5折交叉验证即将数据分为5个部分,每次取其中一个部分,剩余部分用来做测试,共需要进行5次。
(1)对SemiTCR的性能评估:
Dash数据集中人类和老鼠的32表位数据集不同划分比例下,从表1和表2中可以看出,各个表位体现了在测试集划分下,测试集占比越低,准确率曲线持续上升,符合正常现象。并且通过特征分析比较了两个表位BMLF和pp65,发现从特征分析即可说明pp65数据的表现较低,请参阅表1、图4和图5。针对pp65是最多样化的表位,因此,高度多样性是pp65数据难以区分的一个原因。
表1 Dash数据集人类和老鼠各个表位数据集不同划分比例
Figure BDA0002450476310000111
表2 VDJdb各个表位数据集不同划分比例
Figure BDA0002450476310000121
Figure BDA0002450476310000131
(2)将最新技术TCRGP与SemiTCR进行对比
结果分别如表3和图3所示,以及从在各个划分比例下的小提琴图显示,SemiTCR的结果分布更加集中,在不同划分比例下,SemiTCR对22个表位的平均准确率均高于TCRGP,并且测试集划分的越大,SemiTCR性能越明显。
表3 SemiTCR与TCRGP在Dash和VDJ数据集上的平均准确率对比结果
Figure BDA0002450476310000132
综上所述,本发明提出了一种基于半监督学习框架的T细胞受体序列分类方法;该方法属于一类机器学习分类策略,设计和使用了一种半监督学习模型,具备机器学习分类的优势。同时,针对机器学习策略的缺点——需要大规模训练数据,通过半监督学习模型予以解决:第一,半监督学习模型相比于已有方法使用的监督学习模型,所需的样本量显著减少,适用于T细胞受体序列数据难以获得的情况;第二,本发明的模型设计中,将待测数据与学习过程中的未标记样本相统一,也就是半监督学习中的直推学习,在未标记样本上获得最优的泛化性能。实验数据证明,本发明模型性能显著优于已有方法。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (8)

1.一种基于半监督学习框架的T细胞受体序列分类方法,其特征在于,包括以下步骤:
S1、分别选取已分类和待分类CDR3β区域的T细胞受体数据作为输入数据,对两类数据按相同的规则进行特征编码;
S2、分别选择支持向量机、随机森林和决策树的监督学习算法作为监督学习模型;将步骤S1得到的已分类数据作为初始训练集,分别代入3个监督学习模型进行训练,构造3个对应的初始分类器C1、C2、C3
S3、将步骤S1得到的未分类数据作为初始测试集,对步骤S2中的初始分类器C1、C2、C3进行测试;每1轮测试后,对于每个分类器,用一致选择策略整合另外两个分类器的测试结果,对分类器的训练集进行扩充;逐个分析未分类数据的每一个样本,扩充3个分类器的训练集;进入下一轮测试前,使用本轮扩充后的3个训练集分别对应的训练C1、C2、C3,完成对分类器的更新;当扩充后的3个训练集分别和上一轮扩充后的3个训练集完全相同时,停止迭代;
S4、步骤S3停止迭代后,获得训练完成的三个分类器C1、C2、C3;再将未分类数据分别代入C1、C2、C3,使用投票机制获得集成结果,实现T细胞受体序列的分类。
2.根据权利要求1所述的基于半监督学习框架的T细胞受体序列分类方法,其特征在于,步骤S1具体为:
S101、已分类数据通过读取公开数据集Dash和VDJdb中的数据获取,未分类数据由使用者提供;根据氨基酸的理化特性和疏水性对这两类数据进行特征编码;
S102、对于步骤S101中的VDJdb数据集,提取其中可信度大于1且T细胞受体库中对应的记录超过50条的表位数据。
3.根据权利要求1所述的基于半监督学习框架的T细胞受体序列分类方法,其特征在于,步骤S3中,对于未分类数据中的每一个样本,将样本分别代入三个分类器进行测试,每个分类器生成1个分类结果作为伪标记;进入下一轮测试前,使用扩充后的3个训练集分别对应的训练三个分类器;逐轮迭代直至满足迭代终止条件,即在一轮扩充完成后,C1、C2、C3的扩充后的训练集与扩充前的训练集没有变化。
4.根据权利要求3所述的基于半监督学习框架的T细胞受体序列分类方法,其特征在于,当3个伪标记相同时,将样本和对应的伪标记同时加入三个分类器的训练集中;当2个伪标记相同且与另1个伪标记不同时,判断是否满足准确率条件;若满足准确率条件,则将样本和对应的伪标记加入伪标记不同的分类器的训练集中;若不满足准确率条件,则跳过样本;逐个分析未分类数据的每个样本,完成一轮训练集扩充。
5.根据权利要求4所述的基于半监督学习框架的T细胞受体序列分类方法,其特征在于,若2个伪标记相同且与另1个伪标记不同,判断是否满足准确率条件具体为:
S301、计算C1的分类器在第t轮扩充和训练后的准确率:将步骤S1得到的已分类数据作为验证测试集,隐去分类标签;对于其中的任意一个样本x,若将x代入分类器C1进行分类,C1则会输出对x的分类结果C1(x);遍历已分类数据中的所有样本,计算分类正确的样本数占总样本数的比例,即为分类器C1在第t轮扩充和训练后的准确性,记为
Figure FDA0002450476300000021
S302、用步骤S301中的方法依次作用于分类器C2和C3,分别计算得出分类器C2和C3在第t轮扩充和训练后的准确性,分别记为
Figure FDA00024504763000000321
Figure FDA00024504763000000322
S303、若2个伪标记相同且与另1个伪标记不同,可以形式化表示为Ci(x)与Cj(x)相同且与Ck(x)不同,i、j、k∈{1,2,3}且i、j、k互不相同;比较第t轮和第t-1轮的分类器正确率。
6.根据权利要求5所述的基于半监督学习框架的T细胞受体序列分类方法,其特征在于,步骤S301中,当C1(x)与隐去的已知分类标签相同,判断C1分类正确;当C1(x)与隐去的已知分类标签不同,判断C1分类错误。
7.根据权利要求5所述的基于半监督学习框架的T细胞受体序列分类方法,其特征在于,步骤S303中,第t轮和第t-1轮的分类器存在以下情况:
Figure FDA0002450476300000031
Figure FDA0002450476300000032
则满足准确性条件;
Figure FDA0002450476300000033
Figure FDA0002450476300000034
同时
Figure FDA0002450476300000035
则不满足准确性条件;
Figure FDA0002450476300000036
Figure FDA0002450476300000037
同时
Figure FDA0002450476300000038
则满足准确性条件;
Figure FDA0002450476300000039
Figure FDA00024504763000000310
同时
Figure FDA00024504763000000311
则不满足准确性条件;
Figure FDA00024504763000000312
Figure FDA00024504763000000313
同时
Figure FDA00024504763000000314
则满足准确性条件;
Figure FDA00024504763000000315
Figure FDA00024504763000000316
同时
Figure FDA00024504763000000317
则不满足准确性条件;
Figure FDA00024504763000000318
Figure FDA00024504763000000319
同时
Figure FDA00024504763000000320
则不满足准确性条件。
8.根据权利要求1所述的基于半监督学习框架的T细胞受体序列分类方法,其特征在于,步骤S4中,采用加权投票的方法对分类结果进行集成,具体为:计算最后一轮扩充和训练后三个分类器C1、C2、C3的分类器准确率;对于未分类数据中的每一个样本,将该样本分别代入三个分类器进行计算,则每个分类器都会生成1个分类结果;用分类器准确率对样本的分类结果进行加权,以加权后得分最高的类别作为最终结果。
CN202010291254.9A 2020-04-14 2020-04-14 一种基于半监督学习框架的t细胞受体序列分类方法 Active CN111489792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010291254.9A CN111489792B (zh) 2020-04-14 2020-04-14 一种基于半监督学习框架的t细胞受体序列分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010291254.9A CN111489792B (zh) 2020-04-14 2020-04-14 一种基于半监督学习框架的t细胞受体序列分类方法

Publications (2)

Publication Number Publication Date
CN111489792A true CN111489792A (zh) 2020-08-04
CN111489792B CN111489792B (zh) 2022-12-09

Family

ID=71798234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010291254.9A Active CN111489792B (zh) 2020-04-14 2020-04-14 一种基于半监督学习框架的t细胞受体序列分类方法

Country Status (1)

Country Link
CN (1) CN111489792B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792814A (zh) * 2021-09-23 2021-12-14 齐鲁工业大学 一种细胞自动分类方法
CN116913383A (zh) * 2023-09-13 2023-10-20 鲁东大学 一种基于多模态的t细胞受体序列分类方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324046A (zh) * 2011-09-01 2012-01-18 西安电子科技大学 结合主动学习的四分类器协同训练方法
CN107644235A (zh) * 2017-10-24 2018-01-30 广西师范大学 基于半监督学习的图像自动标注方法
US20180114142A1 (en) * 2016-10-26 2018-04-26 Swiss Reinsurance Company Ltd. Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof
CN108171280A (zh) * 2018-01-31 2018-06-15 国信优易数据有限公司 一种分类器构建方法及预测分类的方法
CN108364016A (zh) * 2018-01-12 2018-08-03 华南理工大学 基于多分类器的渐进式半监督分类方法
CN109117957A (zh) * 2018-08-08 2019-01-01 南京航空航天大学 一种基于民航维修质量评估和异构集成学习的敏感性分析方法
CN110084314A (zh) * 2019-05-06 2019-08-02 西安交通大学 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法
CN110399805A (zh) * 2019-07-02 2019-11-01 成都信息工程大学 半监督学习优化svm的运动想象脑电信号分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324046A (zh) * 2011-09-01 2012-01-18 西安电子科技大学 结合主动学习的四分类器协同训练方法
US20180114142A1 (en) * 2016-10-26 2018-04-26 Swiss Reinsurance Company Ltd. Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof
CN107644235A (zh) * 2017-10-24 2018-01-30 广西师范大学 基于半监督学习的图像自动标注方法
CN108364016A (zh) * 2018-01-12 2018-08-03 华南理工大学 基于多分类器的渐进式半监督分类方法
CN108171280A (zh) * 2018-01-31 2018-06-15 国信优易数据有限公司 一种分类器构建方法及预测分类的方法
CN109117957A (zh) * 2018-08-08 2019-01-01 南京航空航天大学 一种基于民航维修质量评估和异构集成学习的敏感性分析方法
CN110084314A (zh) * 2019-05-06 2019-08-02 西安交通大学 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法
CN110399805A (zh) * 2019-07-02 2019-11-01 成都信息工程大学 半监督学习优化svm的运动想象脑电信号分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TIEYUN QIAN 等: "Tri-Training for authorship attribution with limited training data: a comprehensive study", 《NEUROCOMPUTING》 *
张涛 等: "一种基于非负低秩稀疏图的半监督学习改进算法", 《电子与信息学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792814A (zh) * 2021-09-23 2021-12-14 齐鲁工业大学 一种细胞自动分类方法
CN116913383A (zh) * 2023-09-13 2023-10-20 鲁东大学 一种基于多模态的t细胞受体序列分类方法
CN116913383B (zh) * 2023-09-13 2023-11-28 鲁东大学 一种基于多模态的t细胞受体序列分类方法

Also Published As

Publication number Publication date
CN111489792B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
JP7247258B2 (ja) コンピュータシステム、方法及びプログラム
Zhang et al. Discovering new intents with deep aligned clustering
CN111400180B (zh) 一种基于特征集划分和集成学习的软件缺陷预测方法
CN107346328B (zh) 一种基于多粒度层级网络的跨模态关联学习方法
Momeni et al. A survey on single and multi omics data mining methods in cancer data classification
CN114169442B (zh) 基于双原型网络的遥感图像小样本场景分类方法
CN111726349B (zh) 基于ga优化的gru并行网络流量异常检测方法
CN103258147B (zh) 一种基于gpu的并行演化超网络dna微阵列基因数据分类系统及方法
JP2018181290A (ja) 改良した情報測定とgaに基づくフィルター式特徴選択アルゴリズム
CN111489792B (zh) 一种基于半监督学习框架的t细胞受体序列分类方法
CN108877947B (zh) 基于迭代均值聚类的深度样本学习方法
CN114093515A (zh) 一种基于肠道菌群预测模型集成学习的年龄预测方法
CN113140254A (zh) 元学习药物-靶点相互作用预测系统及预测方法
Wang et al. Predicting Protein Interactions Using a Deep Learning Method‐Stacked Sparse Autoencoder Combined with a Probabilistic Classification Vector Machine
CN107480441B (zh) 一种儿童脓毒性休克预后预测的建模方法及系统
Muthukumaran et al. Feature Selection with Optimal Variational Auto Encoder for Financial Crisis Prediction.
Choi et al. Cell subtype classification via representation learning based on a denoising autoencoder for single-cell RNA sequencing
KR102212310B1 (ko) 오류 트리플 검출 시스템 및 방법
CN113810333B (zh) 基于半监督谱聚类和集成svm的流量检测方法及系统
CN113539479A (zh) 一种基于相似性约束的miRNA-疾病关联预测方法及系统
CN113379037A (zh) 一种基于补标记协同训练的偏多标记学习方法
Zong et al. Peripheral instance augmentation for end-to-end anomaly detection using weighted adversarial learning
CN113177604B (zh) 一种基于改进l1正则化和聚类的高维数据特征选择方法
Liu et al. Prediction of piRNA-mRNA interactions based on an interactive inference network
CN116185843B (zh) 基于神经元覆盖率引导的两阶段神经网络测试方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant