CN111276252B

CN111276252B - 一种肿瘤良恶性鉴别模型的构建方法及装置

Info

Publication number: CN111276252B
Application number: CN202010043127.7A
Authority: CN
Inventors: 黄毅; 易鑫; 杨玲; 张超; 何欣诺; 王长希
Original assignee: Geneplus-Beijing
Current assignee: Geneplus-Beijing
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2023-03-28
Anticipated expiration: 2040-01-15
Also published as: CN111276252A

Abstract

本发明提供的一种肿瘤良恶性鉴别模型的构建方法及装置，包括：取已知良性肿瘤样本和恶性肿瘤样本若干作为训练集，获得训练集中样本的TCR克隆种类和CDR3区段；统计并计算所述CDR3区段出现的频次，然后将所述CDR3区段通过Kmer打断进行重编码；将CDR3重编码后获得的Kmer频率数据进行数据降维处理；将训练集中的已知肿瘤样本的良恶性信息与数据降维后的Kmer数据关联，利用机器学习算法进行模型的训练，得到肿瘤良恶性鉴别模型；上述构建方法构建得到肿瘤良恶性鉴别模型，用于对未知肿瘤样本进行良恶性鉴定，且能够对不同种类的肿瘤样本的良恶性进行鉴定，满足广谱性和特异性的需求。

Description

一种肿瘤良恶性鉴别模型的构建方法及装置

技术领域

本发明涉及基因检测领域，具体涉及一种肿瘤良恶性鉴别模型的构建方法及装置。

背景技术

肿瘤的良恶性鉴定是减少癌症过度诊断和过度治疗的有效手段。传统的肿瘤良恶性筛查方法如影像学检查，穿刺细胞学检查等，这些方法在临床上具有一定的灵敏度和适用性。然而，仍然有相当一部分的肿瘤病例不能够判断出准确的结果，同时由于观察者的经验，仪器设备的性能等各方面的影响都会影响肿瘤良恶性的最终判定。

随着分子生物学的发展，分子诊断技术在肿瘤良恶性鉴定中，逐渐受到人们的关注。近来，一种基于二代测序技术(NGS)工具Thyro-seq，由于包含了点突变，插入，缺失，基因融合，拷贝数变异和基因表达等检测，使得其在甲状腺肿瘤良恶性鉴定中发挥了重要作用。然而，由于NGS panel需要根据不同癌症的特点去设计探针以捕获不同癌症特有的突变或拷贝数变异等，很难兼顾广谱性和准确性。如中国专利文献CN109971848A中公开的一种用于检测食道肿瘤和/或胃肿瘤良恶性程度的分级模型及其应用，上述技术方案中只能用于检测食道肿瘤和/或胃肿瘤，难以兼顾其他癌种。因此，能够兼容不同肿瘤类型，且具有一定灵敏度和特异性的肿瘤良恶性鉴定工具，在临床上有着巨大的应用潜力。

T细胞受体(T cell receptor,TCR)是细胞识别抗原的媒介。大多数TCR是由α和β链组成的异二聚体。TCRα链的可变区由V(可变)基因和J(连接)基因编码，而TCRβ链包括D(多样性)基因。另外，TCRβ链包含的三个可变区称为互补决定区(CDR1～3)，其中CDR3可直接与抗原复合物相互作用，该抗原结合区域由V，D和J基因的连接区编码。因此，CDR3是高度可变的，经常用于确定T细胞克隆类型。一个人的全部TCR称为T细胞免疫组库，浸润到肿瘤组织的T细胞免疫组库信息，可反映肿瘤的发病原因，肿瘤进展和免疫应答情况。然而，目前还未有基于二代测序技术利用浸润到肿瘤组织的T细胞免疫组库信息构建肿瘤良恶性鉴别模型的相关报道。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中肿瘤良恶性鉴别难以满足广谱性和特异性需求，进而提供一种基于TCR测序数据的肿瘤良恶性鉴别模型的构建方法及装置，所构建的模型可以用于对未知肿瘤样本进行良恶性鉴定，可以广谱和特异地满足对不同种类肿瘤样本的良恶性状态鉴定的需求。

为此，本发明提供了如下的技术方案：

一种肿瘤良恶性鉴别模型的构建方法，包括：

取已知良性肿瘤样本和恶性肿瘤样本若干作为训练集，获得训练集中样本的TCR克隆种类和CDR3区段；

统计并计算所述CDR3区段出现的频次，然后将所述CDR3区段通过Kmer打断进行重编码，得到CDR3区段Kmer频率数据；

将CDR3重编码后获得的Kmer频率数据进行数据降维处理；

将训练集中的已知肿瘤样本的良恶性信息与数据降维后的Kmer频率数据关联，利用机器学习算法进行模型的训练，得到肿瘤良恶性鉴别模型。

所述Kmer打断进行重编码的方式包括：沿着长度为N的CDR3区段的氨基酸序列移动，截取长度为K≤N个氨基酸的序列，每次移动1个氨基酸，得到N-K+1个长度为K的氨基酸序列，统计所得氨基酸序列的频次，得到CDR3区段Kmer频率数据。

在所述的构建方法中，所述数据降维的方法包括特征选择和特征提取；

所述特征选择的方法包括方差过滤、卡方过滤、F检验、互信息过滤、递归式特征消除、启发式搜索、随机搜索、完全搜索、基于惩罚项的特征选择或基于树模型的特征选择中的至少一种；

所述特征提取的方法包括主成分分析(PCA)、奇异值分解(SVD)、非负矩阵分解(NMF)、线性判别分析(LDA)或因子分析(FA)中的至少一种。

进一步的，在所述的构建方法，所述机器学习算法包括K近邻、朴素贝叶斯分类器、逻辑回归、决策树、随机森林、支持向量机、神经网络或adaBoost中的至少一种。

进一步的，在所述的构建方法，在获得训练集的TCR克隆种类和CDR3区段的步骤中，包括扩增训练集样本的CDR3区段，并进行建库和测序。

进一步的，扩增训练集样本的CDR3区段的方法包括基于肿瘤组织和外周血基因组DNA的CDR3区段。

进一步的，在所述的构建方法，将测序后的数据进行序列质控，包括去除测序接头序列和/或过滤低质量测序序列。

进一步的，在所述的构建方法，所述过滤低质量测序序列，包括Q20、Q30、GC含量、N含量、平均读长长度和/或有效碱基比例的筛选，选择符合以下设定阈值的数据：Q20>90％、Q30>85％、GC含量>40％并且<60％、N含量<10.00％、平均读长长度＞90bp并且≤110bp和/或有效碱基比例(Clean_base_ratio)>80％。

进一步的，在所述的构建方法，还包括将质控后的序列进行V基因和J基因序列比对，鉴定出TCR克隆种类和CDR3区段。

一种肿瘤良恶性鉴别装置，包括：

TCR克隆鉴定单元，用于鉴定出训练集样本的TCR克隆种类和CDR3区段；

CDR3统计单元，用于统计并计算所述CDR3区段出现的频次；

Kmer打断单元，用于将所述CDR3区段通过Kmer打断进行重编码；

数据降维单元，用于将CDR3重编码后的Kmer频率数据进行数据降维；

机器学习模型训练单元，用于将训练集中已知肿瘤样本的良恶性信息与数据降维后的Kmer频率数据关联，利用机器学习算法进行模型的训练，得到肿瘤良恶性鉴别模型。

进一步的，在所述的装置中，所述数据降维单元包括：特征选择单元，用于对CDR3重编码后的Kmer频率数据进行特征选择；

特征提取单元，用于将特征选择后的Kmer频率数据进行特征提取。

进一步的，在所述的装置中，所述特征选择单元包括方差过滤单元、卡方过滤单元、F检验单元、互信息过滤单元、递归式特征消除单元、启发式搜索单元、随机搜索单元、完全搜索单元、基于惩罚项的特征选择单元或基于树模型的特征选择单元中的至少一种。

进一步的，在所述的装置中，所述特征提取单元包括：主成分分析单元、奇异值分解单元、非负矩阵分解单元、线性判别分析单元或因子分析单元中的至少一种。

进一步的，在所述的装置中，所述机器学习模型训练单元包括K近邻单元、朴素贝叶斯分类器单元、逻辑回归单元、决策树单元、随机森林单元、支持向量机单元、神经网络单元或adaBoost单元中的至少一种。

进一步的，在所述的装置中，所述TCR克隆鉴定单元包括：

建库测序单元，用于扩增训练集样本的CDR3区段，并进行建库和测序；

序列质控单元，用于将测序数据进行序列质控；

序列比对单元，用于将质控后的序列进行V基因和J基因序列比对，鉴定出TCR克隆种类和CDR3区段。

进一步的，在所述的装置中，所述序列质控单元包括：

去除测序接头序列单元，用于去除测序数据中的接头序列；

过滤低质量测序序列单元，用于过滤测序数据中低质量序列，包括Q20、Q30、GC含量、N含量、平均读长长度和/或有效碱基比例的筛选，选择符合以下设定阈值的数据：Q20>90％、Q30>85％、GC含量>40％并且<60％、N含量<10.00％、平均读长长度＞90bp并且≤110bp和/或有效碱基比例>80％

在本发明中，TCR克隆指的是CDR3区段的氨基酸序列。

TCR克隆种类是指CDR3区段的氨基酸序列的种类。

本发明技术方案，具有如下优点：

1.本发明提供的一种肿瘤良恶性鉴别模型的构建方法，包括：取已知良性肿瘤样本和恶性肿瘤样本若干作为训练集，获得训练集中样本的TCR克隆种类和CDR3区段；统计并计算所述CDR3区段出现的频次，然后将所述CDR3区段通过Kmer打断进行重编码；将CDR3重编码后获得的Kmer频率数据进行数据降维处理；将训练集中的已知肿瘤样本的良恶性信息与数据降维后的Kmer频率数据关联，利用机器学习算法进行模型的训练，得到肿瘤良恶性鉴别模型；由于T细胞免疫组库信息通常用来评价一个人的免疫系统健康状态，尚未有人提出利用T细胞免疫组库信息来鉴别良性肿瘤和恶性肿瘤，然而申请人在长期研究过程中，通过开创性地将T细胞免疫组库中的CDR3序列进行Kmer重编码，获得更具代表性、更有利于良恶性肿瘤鉴别的数据，将上述经过CDR3重编码后的Kmer频率数据进行降维后与已知肿瘤样本的良恶性信息进行机器学习模型的训练，能够构建得到肿瘤良恶性鉴别模型，该模型可以用于对未知肿瘤样本进行良恶性鉴定，且能够对不同种类的肿瘤样本的良恶性进行鉴定，满足广谱性和特异性的需求，解决了现有的肿瘤良恶性鉴别方法难以兼顾广谱性和特异性的问题。

2.本发明提供的一种肿瘤良恶性鉴别模型的构建方法，所述数据降维的方法包括特征选择和特征提取；所述特征选择的方法包括方差过滤、卡方过滤、F检验、互信息过滤、递归式特征消除、启发式搜索、随机搜索、完全搜索、基于惩罚项的特征选择或基于树模型的特征选择中的至少一种；和/或所述特征提取的方法包括主成分分析(PCA)、奇异值分解(SVD)、非负矩阵分解(NMF)、线性判别分析(LDA)或因子分析(FA)中的至少一种；上述的特征选择和特征提取的方法更加适用于CDR3数据的分析，有效的降低了CDR3数据本身维度灾难的问题，并为后续模型的训练提供了更具区分度的数据。

3.本发明提供的一种肿瘤良恶性鉴别模型的构建方法，所述机器学习算法包括K近邻、朴素贝叶斯分类器、逻辑回归、决策树、随机森林、支持向量机、神经网络或adaBoost中的至少一种；通过选择上述机器学习算法进行组合训练，通过对数据进行交叉验证，能够得到更优的鉴别效果。

4.本发明提供了一种肿瘤良恶性鉴别装置，包括：TCR克隆鉴定单元，用于鉴定出训练集样本的TCR克隆种类和CDR3区段；CDR3统计单元，用于统计并计算所述CDR3区段出现的频次；Kmer打断单元，用于将所述CDR3区段通过Kmer打断进行重编码；数据降维单元，用于将CDR3重编码后的CDR3数据进行数据降维；机器学习模型训练，用于将训练集中已知肿瘤样本的良恶性信息与数据降维后的Kmer频率数据关联，利用机器学习算法进行模型的训练，得到肿瘤良恶性鉴别模型；在上述装置中，开创性地设置Kmer打断单元，通过该单元对TCR克隆鉴定单元中获得的T细胞免疫组库中的CDR3区段进行Kmer重编码，获得更具代表性、更有利于良恶性肿瘤鉴别的数据，将上述经过CDR3重编码后的Kmer频率数据通过数据降维单元和机器学习模型训练单元处理后，能够构建得到肿瘤良恶性鉴别模型，该模型可以用于对未知肿瘤样本进行良恶性鉴定，且能够对不同种类的肿瘤样本的良恶性进行鉴定，满足广谱性和特异性的需求，解决了现有的肿瘤良恶性鉴别方法难以兼顾广谱性和特异性的问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1中肿瘤良恶性鉴别模型的构建方法的流程图；

图2是本发明实施例1中进行特征选择的Kmer频率数据分布图；

图3是本发明实施例1中未进行特征选择的Kmer频率数据分布图；

图4是本发明实施例2中肿瘤良恶性鉴别装置的结构图；

图5是本发明实验例1中4种模型的ROC曲线对比图。

具体实施方式

提供下述实施例是为了更好地进一步理解本发明，并不局限于所述最佳实施方式，不对本发明的内容和保护范围构成限制，任何人在本发明的启示下或是将本发明与其他现有技术的特征进行组合而得出的任何与本发明相同或相近似的产品，均落在本发明的保护范围之内。

实施例中未注明具体实验步骤或条件者，按照本领域内的文献所描述的常规实验步骤的操作或条件即可进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规试剂产品。

下述实施例中涉及的甲状腺肿瘤样本信息(由北京吉因加科技有限公司提供)如下表1，Benign代表良性肿瘤，Malignant代表恶性肿瘤：

表1甲状腺肿瘤样本信息

/>

本发明中的术语及其缩写含义如下：

T细胞受体(T cell receptor，TCR)；

聚合酶链式反应(Polymerase Chain Reaction，PCR)；

互补决定区3(Complementary determining region 3,CDR3)；

cDNA末端快速扩增技术(Rapid amplification of cDNA ends，RACE)；

双端测序(Pair-end)；

受试者工作特征曲线(Receiver Operating Characteristic，ROC)；

ROC曲线下方的面积(Area Under Curve，AUC)。

实施例1肿瘤良恶性鉴别模型的构建

本实施例提供了一种肿瘤良恶性鉴别模型的构建方法，流程图如图1所示，包括如下步骤：

(1)取表1中的已知良性肿瘤样本20个，已知恶性肿瘤样本65个，作为训练集；对上述85个已知良恶性的肿瘤组织样本(也可以肿瘤样本的外周血，在本实施例中选择肿瘤组织进行)的基因组DNA进行多重PCR技术或5’RACE技术扩增，在本实施例中选择多重PCR技术，所使用的引物来自于QIAGEN Multiplex PCR Kit，包括32对正向V基因引物和13对反向J基因引物，扩增得到的产物继续用Illumina的通用引物进行第二轮扩增，产生目的片段大小为100bp左右的文库，并在Illumina NovaSeq平台上进行双端测序；

(2)将步骤(1)获得测序数据进行序列质控，去除测序接头序列，随后过滤低质量测序序列，使用fastp软件进行过滤，包括Q20、Q30、GC含量、N含量、平均读长长度和有效碱基比例的筛选，选择符合以下设定阈值的数据：Q20>90％、Q30>85％、GC含量>40％并且<60％、N含量<10.00％、平均读长长度＞90bp并且≤110bp和有效碱基比例>80％；

(3)用Pear软件将步骤(2)中经质控的高质量pair-end读段合并为一条序列；利用MiXCR软件将合并后的序列与IMGT数据库(国际免疫遗传学数据库)的VJ基因(V基因和J基因)比对，鉴定出TCR克隆的种类以及CDR3区段，并将CDR3区段翻译成氨基酸序列；

(4)利用MiXCR软件统计并计算出CDR3区段的氨基酸序列出现的频次；

(5)对CDR3区段的氨基酸序列进行Kmer打断重编码，CDR3重编码的方式包括，对于长度为N的CDR3序列，以K个氨基酸(K≤N)为窗口进行滑动，每次滑动1个氨基酸，得到N-K+1个K长度氨基酸序列(Kmer)，根据步骤(4)统计的CDR3区段的氨基酸序列的频次，重新统计Kmer数据的频次，最终得到的Kmer数据即为重编码后的Kmer频率数据，在本实施例中，K＝4，即进行4mer氨基酸重编码，先对编码前的序列剔除前4个和后4个氨基酸，对余下的氨基酸序列以4mer为单位进行统计，根据步骤(4)统计的CDR3区段的氨基酸序列的频次，重新统计4mer数据的频次，最终得出每个样本的每种4mer氨基酸的频次，即为重编码后的Kmer频率数据；

(6)根据步骤(5)中CDR3重编码的Kmer频率数据初始的描述性统计，其中每种4mer氨基酸作为一个特征，可以看出每种4mer氨基酸的最大值不同，将数据无量纲化可以帮助提升模型精度，避免某一个取值范围特别大的特征对距离计算造成影响，因此采用最大最小归一化来对Kmer频率数据进行预处理，最大最小归一化的原理如下：

当数据x按照最小值中心化后，再按极差(最大值-最小值)缩放，数据移动了最小值个单位，并且会被收敛到[0,1]之间，这个过程就是最大最小归一化，公式如下式(1)：

x*＝(x-min(x))/(max(x)-min(x)) (1)

上述公式(1)中，x*代表：归一化后的数据；

X代表：原数据；

min(x)代表：该特征下的最小值；

max(x)代表：该特征下的最大值；

将步骤(5)中CDR3重编码的Kmer频率数据进行最大最小归一化的预处理后，获得85×3602以及85×6482的高维矩阵，进行数据降维处理，在本实施例中选择卡方过滤方法进行特征选择，选择PCA方法进行特征提取；其中，卡方检验包含如下四步：第一步，建立假设检验，即原假设和备择假设，一般原假设认为两组数据是相互独立的；第二步，根据概率计算数据的理论值；第三步，计算卡方值，具体公式如下式(2)所示：

其中A为实际值，T为理论值。X²即用来衡量实际值与理论值的差异程度，它包含了以下两方面信息：1.实际值与理论值偏差的绝对大小；2.差异程度与理论值的相对大小；第四步，查找卡方表并求出P值，卡方检验得到卡方值和P值两个统计量，其中卡方值很难界定有效的范围，而P值能作为判断显著性水平的重要标志，一般使用0.01、0.05或0.1作为显著性水平，即P值判断的边界，具体判断结果如下表2：

表2 P值判断的边界

在4mer数据上，原特征空间维度是3602，经过卡方过滤后选择了P值<0.1的50个特征，具体如下：

['AGLY','AGVR','ARNE','AYYG','DREN','DRQE','EARG','ERGL','FEGG','GAEN','GGSV','GQDT','GRAA','GREK','GVDG','GVTS','GVVE','IRGG','KASG','KGSG','LARS','LDRE','LELG','LERE','LGPQ','LGSQ','LRRG','PMNT','PPGS','PSNY','PTGW','PTNT','REDT','RENY','RKAG','RRGD','RRGV','SATS','SEAR','SESR','SGIS','SGRS','SLNE','SLTE','SSSP','SWGD','SYSK','TGFN','TSLS','YSRT']

PCA具体过程如下：

输入原始的数据集X＝{X1,X2…Xn}(n＝50)，50个特征即为上述卡方过滤所选出的特征，将该50维数据降至k(k＝2)维：

首先将每一维度的特征减去各自的平均值，随后按照下述步骤计算：

1)计算协方差矩阵

并求出其特征值和特征向量。

2)对特征值从大到小排序，选择其中最大的前k(k＝2)个，然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵P。

3)将数据转换到k个特征向量构建的新空间中，即Y＝PX。Y即为新的特征矩阵，具体实现方式通过PCA模块进行计算，最终得到新的特征矩阵X’_new(85×2)；

将上述降维后的数据进行绘图可视化，并与未进行Kmer重编码和数据降维的数据所绘制的数据分布图进行对比，如附图2-3所示，经过Kmer重编码和数据降维后的数据(进行特征选择)其良性肿瘤特征和恶性肿瘤特征具有明显的区分(图2)，而未经过Kmer重编码和数据降维的数据(未进行特征选择)不能很好的区分良恶性肿瘤样本(图3)；

(7)将已知肿瘤样本的良恶性信息与数据降维后的Kmer频率数据关联，利用机器学习算法进行模型的训练，得到肿瘤良恶性鉴别模型；本实施例中具体选用了随机森林、支持向量机(SVM)、Adaboost以及K近邻(KNN)四种模型进行训练，得到4种肿瘤良恶性鉴别模型。

实施例2肿瘤良恶性鉴别装置

本实施例提供了一种肿瘤良恶性鉴别装置，装置结构图如图4所示，包括：

CDR3统计单元，用于统计并计算所述CDR3区段出现的频次；

Kmer打断单元，用于将所述CDR3区段通过Kmer打断进行重编码；

进一步的，所述数据降维单元包括：

特征选择单元，用于对CDR3重编码后的Kmer频率数据进行特征选择；

进一步的，所述特征选择单元包括方差过滤单元、卡方过滤单元、F检验单元、互信息过滤单元、递归式特征消除单元、启发式搜索单元、随机搜索单元、完全搜索单元、基于惩罚项的特征选择单元或基于树模型的特征选择单元中的至少一种。

进一步的，所述特征提取单元包括：主成分分析单元、奇异值分解单元、非负矩阵分解单元、线性判别分析单元或因子分析单元中的至少一种。

进一步的，所述机器学习模型训练单元包括K近邻单元、朴素贝叶斯分类器单元、逻辑回归单元、决策树单元、随机森林单元、支持向量机单元、神经网络单元或adaBoost单元中的至少一种。

进一步的，所述TCR克隆鉴定单元包括：

序列质控单元，用于将测序数据进行序列质控；

进一步的，所述序列质控单元包括：

去除测序接头序列单元，用于去除测序数据中的接头序列；

过滤低质量测序序列单元，用于过滤测序数据中低质量序列；

筛选单元，用于将过滤后的数据进行筛选，包括Q20、Q30、GC含量、N含量、平均读长长度和/或有效碱基比例，选择符合以下设定阈值的数据：Q20>90％、Q30>85％、GC含量>40％并且<60％、N含量<10.00％、平均读长长度＞90bp并且≤110bp和/或有效碱基比例>80％。

实验例1

在本实验例中，采用机器学习中的分类模型对降维处理后的Kmer频率数据进行模型的训练和性能预测，具体采用五折交叉验证的方式将原数据按分层抽样的方式分为5份，保持每折数据与原数据两种类型的比例相似的同时，每次以其中4折的数据进行模型的训练，并将剩余的1折数据对模型的预测性能进行验证，实施例1构建的模型进行验证。具体实施如下：

按照实施例1实施，取表1中的已知良性肿瘤样本20个，已知恶性肿瘤样本65个，作为训练集，按照实施例1中步骤(1)-(6)对样本进行处理，将得到的降维后的Kmer频率数据采用五折交叉验证的方式将原数据按分层抽样的方式分为5份，保持每折数据与原数据两种类型的比例相似的同时，每次以其中4折的数据进行模型的训练，并对剩余的1折数据对模型的预测性能进行验证，其中4折的数据分别按照实施例1中步骤(7)中训练得到4种肿瘤良恶性鉴别模型中，将剩余的1折的数据分别输入到得到4种肿瘤良恶性鉴别模型中，对模型的预测准确率、召回率、ROC曲线以及AUC面积进行展示，如表3、4和图5所示，支持向量机模型的预测准确率0.941，召回率0.985和AUC值0.99均优于其他三种模型。

表3. 5折交叉验证准确率

表4. 5折交叉验证召回率

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种肿瘤良恶性鉴别模型的构建方法，其特征在于，包括：

取已知良性肿瘤样本和恶性肿瘤样本若干作为训练集，获得训练集中样本的TCR克隆种类和CDR3区段，包括扩增训练集样本的CDR3区段，并进行建库和测序，将测序后的数据进行序列质控，包括去除测序接头序列和/或过滤低质量测序序列，将质控后的序列进行V基因和J基因序列比对，鉴定出TCR克隆种类和CDR3区段；

统计并计算所述CDR3区段出现的频次，然后将所述CDR3区段的氨基酸序列通过Kmer打断进行重编码，得到CDR3区段Kmer频率数据；

将重编码后获得的Kmer频率数据进行数据降维处理；

将训练集中的已知肿瘤样本的良恶性信息与数据降维后的Kmer频率数据关联，利用机器学习算法进行模型的训练，得到肿瘤良恶性鉴别模型；所述机器学习算法包括K近邻、随机森林、支持向量机或adaBoost中的至少一种。

2.根据权利要求1所述的构建方法，其特征在于，所述数据降维的方法包括特征选择和特征提取；

所述特征提取的方法包括主成分分析、奇异值分解、非负矩阵分解、线性判别分析或因子分析中的至少一种。

3.根据权利要求1-2任一项所述的构建方法，其特征在于，所述过滤低质量测序序列，包括Q20、Q30、GC含量、N含量、平均读长长度和/或有效碱基比例的筛选，选择符合以下设定阈值的数据：Q20>90％、Q30>85％、GC含量>40％并且<60％、N含量<10.00％、平均读长长度＞90bp并且≤110bp和/或有效碱基比例>80％。

4.一种肿瘤良恶性鉴别装置，其特征在于，包括：

TCR克隆鉴定单元，用于鉴定出训练集样本的TCR克隆种类和CDR3区段；所述TCR克隆鉴定单元包括：

序列质控单元，用于将测序数据进行序列质控；

序列比对单元，用于将质控后的序列进行V基因和J基因序列比对，鉴定出TCR克隆种类和CDR3区段；

CDR3统计单元，用于统计并计算所述CDR3区段出现的频次；

Kmer打断单元，用于将所述CDR3区段的氨基酸序列通过Kmer打断进行重编码，得到CDR3区段Kmer频率数据；

机器学习模型训练单元，用于将训练集中已知肿瘤样本的良恶性信息与数据降维后的Kmer频率数据关联，利用机器学习算法进行模型的训练，得到肿瘤良恶性鉴别模型；所述机器学习模型训练单元包括K近邻单元、随机森林单元、支持向量机单元或adaBoost单元中的至少一种。

5.根据权利要求4所述的装置，其特征在于，所述数据降维单元包括：

特征选择单元，用于对重编码后的Kmer频率数据进行特征选择；

6.根据权利要求5所述的装置，其特征在于，所述特征选择单元包括方差过滤单元、卡方过滤单元、F检验单元、互信息过滤单元、递归式特征消除单元、启发式搜索单元、随机搜索单元、完全搜索单元、基于惩罚项的特征选择单元或基于树模型的特征选择单元中的至少一种；

所述特征提取单元包括：主成分分析单元、奇异值分解单元、非负矩阵分解单元、线性判别分析单元或因子分析单元中的至少一种。

7.根据权利要求5-6任一项所述的装置，其特征在于，所述序列质控单元包括：

去除测序接头序列单元，用于去除测序数据中的接头序列；

过滤低质量测序序列单元，用于过滤测序数据中低质量序列，包括Q20、Q30、GC含量、N含量、平均读长长度和/或有效碱基比例的筛选，选择符合以下设定阈值的数据：Q20>90％、Q30>85％、GC含量>40％并且<60％、N含量<10.00％、平均读长长度＞90bp并且≤110bp和/或有效碱基比例>80％。