CN115896242A - 一种基于外周血免疫特征的癌症智能筛查模型及方法 - Google Patents
一种基于外周血免疫特征的癌症智能筛查模型及方法 Download PDFInfo
- Publication number
- CN115896242A CN115896242A CN202211490553.0A CN202211490553A CN115896242A CN 115896242 A CN115896242 A CN 115896242A CN 202211490553 A CN202211490553 A CN 202211490553A CN 115896242 A CN115896242 A CN 115896242A
- Authority
- CN
- China
- Prior art keywords
- tcr
- cancer
- library
- abundance
- peripheral blood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 228
- 201000011510 cancer Diseases 0.000 title claims abstract description 179
- 238000012216 screening Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 40
- 210000005259 peripheral blood Anatomy 0.000 title claims abstract description 39
- 239000011886 peripheral blood Substances 0.000 title claims abstract description 39
- 108091008874 T cell receptors Proteins 0.000 claims abstract description 151
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 claims abstract description 146
- 238000012163 sequencing technique Methods 0.000 claims abstract description 39
- 238000010276 construction Methods 0.000 claims abstract description 20
- 238000013135 deep learning Methods 0.000 claims abstract description 13
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 230000035945 sensitivity Effects 0.000 claims abstract description 11
- 238000003908 quality control method Methods 0.000 claims abstract description 4
- 150000001413 amino acids Chemical class 0.000 claims description 24
- 239000000427 antigen Substances 0.000 claims description 23
- 102000036639 antigens Human genes 0.000 claims description 23
- 108091007433 antigens Proteins 0.000 claims description 23
- 239000000523 sample Substances 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 22
- 108091028732 Concatemer Proteins 0.000 claims description 19
- 101100112922 Candida albicans CDR3 gene Proteins 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 13
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 239000002299 complementary DNA Substances 0.000 claims description 9
- 210000003819 peripheral blood mononuclear cell Anatomy 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000010367 cloning Methods 0.000 claims description 6
- 238000013136 deep learning model Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 108090000623 proteins and genes Proteins 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 claims description 3
- 238000012408 PCR amplification Methods 0.000 claims description 3
- 230000003321 amplification Effects 0.000 claims description 3
- 239000013068 control sample Substances 0.000 claims description 3
- 238000001962 electrophoresis Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 238000012165 high-throughput sequencing Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 229920002401 polyacrylamide Polymers 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- GOJUJUVQIVIZAV-UHFFFAOYSA-N 2-amino-4,6-dichloropyrimidine-5-carbaldehyde Chemical group NC1=NC(Cl)=C(C=O)C(Cl)=N1 GOJUJUVQIVIZAV-UHFFFAOYSA-N 0.000 claims description 2
- 239000002773 nucleotide Substances 0.000 claims description 2
- 125000003729 nucleotide group Chemical group 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims description 2
- 230000009258 tissue cross reactivity Effects 0.000 claims 57
- 238000009411 base construction Methods 0.000 claims 1
- 230000008014 freezing Effects 0.000 claims 1
- 238000007710 freezing Methods 0.000 claims 1
- 238000005065 mining Methods 0.000 abstract 1
- 208000005443 Circulating Neoplastic Cells Diseases 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 210000004369 blood Anatomy 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 210000001744 T-lymphocyte Anatomy 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000000090 biomarker Substances 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000003902 lesion Effects 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 102000006306 Antigen Receptors Human genes 0.000 description 2
- 108010083359 Antigen Receptors Proteins 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 2
- 230000006023 anti-tumor response Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000002059 diagnostic imaging Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000000987 immune system Anatomy 0.000 description 2
- 238000011528 liquid biopsy Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101100355584 Mus musculus Rad51 gene Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005975 antitumor immune response Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 238000000432 density-gradient centrifugation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000010494 dissociation reaction Methods 0.000 description 1
- 230000005593 dissociations Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001839 endoscopy Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 108091070501 miRNA Proteins 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003836 peripheral circulation Effects 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 238000002600 positron emission tomography Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000004614 tumor growth Effects 0.000 description 1
- 239000000439 tumor marker Substances 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于外周血免疫特征的癌症智能筛查模型及方法,其筛查模型构建方法包括步骤:对TCR测序数据进行质控、比对等步骤获取受试者T细胞受体库;利用癌症患者TCR测序数据进行癌症相关TCR鉴定;结合TCR克隆丰度挖掘癌症相关的motif丰度特征,研发全新的TCR特征数字化方法;基于癌症相关TCR与非癌症TCR,结合所研发的TCR特征数字化方法与深度学习技术,构建并训练肿瘤筛查模型。本发明克服了传统癌症早筛所使用技术与装置特异性差、灵敏度低、侵入性强等问题,可用于利用外周血TCR测序数据的精准癌症早筛。
Description
技术领域
本发明涉及生物技术领域,具体涉及一种基于外周血免疫特征的癌症智能筛查模型及方法。
背景技术
恶性肿瘤已成为严重威胁人类生命健康的主要公共卫生问题之一。大多数癌症患者在病程的中晚期才得到临床确诊时,此时,肿瘤通常已经发生远端转移并扩散到身体其他组织或器官。这对癌症的有效治疗带来了巨大挑战,从而导致癌症患者的预后差、生存率低下。肿瘤早期筛查是发现癌症和癌前病变的重要途径,其目的是在可以有效治疗的阶段诊断癌症,为早期医疗干预提供信息,从而延长患者生存期、降低患者死亡率。因此,肿瘤早期筛查对于肿瘤的治疗具有重要意义。
传统的癌症筛查方法包括:器官特异性内窥镜检查、普通医学影像学检测和肿瘤标志物检测等,用于有限类型癌症的临床诊断。这些方法具有诸多局限性,例如侵入性、低敏感性和采样困难等。此外,正电子发射计算机断层显像(PET-CT)作为目前最先进的医学影像学技术,可以同时显示病灶的代谢活性与解剖位置,具有准确、高灵敏度的优点,但其费用昂贵,难以推广至大规模人群。近年,基于血液检测的癌症早期筛查方法得到了极大发展,这类方法主要通过捕获血液中的肿瘤相关的生物标记物检测癌症,这些标记物主要包括循环肿瘤细胞(CTC)、细胞游离DNA(cfDNA)、miRNA和肿瘤蛋白生物标志物等。相较于传统癌症筛查方法,基于血液检测的癌症筛查方法能够更早的检测出癌症,且具备无创性的特点,弥补了传统方法的一些缺陷,具有广阔的应用前景。其中,基于CTC或cfDNA的方法得到了较为显著的发展。CTC的识别主要依赖少数上皮生物标记物或变形性差异,但外周血中的CTC浓度极低,且CTC的富集困难,导致基于CTC的方法难以满足高灵敏度和特异性的要求。此外,研究表明,血浆cfDNA的大多数突变不是肿瘤衍生的,而是来源于白细胞,这导致基于cfDNA的方法的特异性不足。且基于CTC或cfDNA的方法均需肿瘤生长到一定规模并游离至外周循环系统中才能被检测到,亦具备一定的滞后性。用于大规模人群的多癌种癌症早期筛查方式需具备高特异性、高灵敏度、非侵入性等特性,上述的方法都难以实现早期癌症筛查,因此,亟需开发基于新标志物的用于癌症早期筛查的技术方法。
癌症的发生与发展经历了基因变异等病因累积—>免疫感知—>免疫不支—>器质性病变等阶段,人体免疫系统能够在第一时间感知并监测体内出现的癌症细胞,并做出癌种特异的抗肿瘤免疫反应,如图1所示。相较于循环肿瘤细胞与细胞游离DNA,人体免疫信号的改变更早反映肿瘤的发生发展状态。现有的癌症早期筛查策略都试图通过直接捕获癌症细胞相关信号变化进行癌症早筛,本发明另辟蹊径,放弃正面捕获癌症细胞相关信号的传统研究思路,创造性地从捕获人体免疫系统实时抗肿瘤应答信号入手,进行癌症早筛。事实上,肿瘤的产生会激活宿主的抗肿瘤反应,在这一过程中肿瘤反应性T淋巴细胞发生系统性的克隆扩增。而T细胞通过其表面的异二聚抗原受体,即T细胞受体(TCR),识别肿瘤抗原,因此,剖析TCR库的变化可以作为一种新的方式以筛查早期癌症,且能比现有方法更早的实现癌症早期预警。免疫学最新研究进展表明,识别相同类型抗原的TCR共享某些序列和结构特征,而免疫组库深度测序可以全面分析T淋巴细胞群体的抗原受体谱。据此,可开发人工智能模型学习与癌症临床表型相关的TCR序列模式,进而识别外周血TCR库中的癌症相关TCR以用于癌症的早期筛查。
发明内容
本发明的目的是针对上述现有肿瘤早期筛查技术存在的缺陷,提供一种新的基于外周血免疫特征的癌症智能筛查模型及方法,综合生物技术与信息技术,开发基于新标志物的兼备特异性和灵敏度的肿瘤早期筛查模型及方法。
为了实现上述目标,本发明采用的技术方案是:一种基于外周血免疫特征的癌症智能筛查模型的构建方法,包括如下步骤:
一、构建受试者外周血T细胞受体库:获取受试者的外周血单核细胞TCR测序(TCR-seq)数据,进行质控分析,构建受试者外周血T细胞受体库;
二、鉴定癌症相关TCR:基于构建的受试者外周血T细胞受体库,利用其中的癌症样本TCR测序数据得到抗原特异性TCR集合,利用其中的非癌症样本TCR测序数据得到常见非癌症抗原特异性TCR集合,再通过比对得到癌症相关TCR;三、TCR特征数字化:利用癌症相关TCR,根据词频分析原理,结合TCR克隆频率构建TCR丰度统计信息库;利用生物物理化学属性与TCR丰度统计信息库对TCR的氨基酸序列进行数字化;
四、肿瘤筛查模型的训练:利用癌症相关TCR与非癌症TCR训练二分类模型识别TCR库中的癌症相关TCR,利用不同癌症相关TCR训练多分类模型预测TCR库中TCR与不同癌症相关的概率;根据模型输出概率,利用TCR的克隆丰度加权计算TCR库的综合癌症评分,获得所述基于外周血免疫特征的癌症智能筛查模型。
上述构建受试者外周血T细胞受体库,包括如下步骤:
1.1)首先使用EDTA处理的Vacutai ner管收集受试者的新鲜外周血;分离外周血单个核细胞(PBMC),并在-80℃冷冻等待下一步处理;
1.2)随后提取RNA并测定RNA浓度,利用提取的RNA通过5’cDNA快速扩增技术(RACE)制备无偏的TCR cDNA文库;
1.3)随后使用引物对TCR cDNA进行两轮PCR扩增,将第二轮PCR产物加载到2%聚丙烯酰胺凝胶上进行电泳,并使用OMEGA回收和纯化大约500bp的目标产物,作为TCR测序文库;
1.4)使用高通量测序平台对文库进行测序;对测序原始数据查找参考基因组,将核苷酸序列翻译成氨基酸序列,进行比对以找到精确的V、D、J基因,同时过滤掉缺失和低频克隆型的序列,以纠正测序错误。
上述鉴定癌症相关TCR,包括如下步骤:
2.2)非癌症抗原特异性TCR过滤:基于非癌症样本TCR测序数据构建常见非癌症抗原特异性TCR参考库,并依据此参考库,去除上述剩余TCR序列中非癌症抗原特异性TCR,最终得到癌症相关TCR序列作为阳性基准数据。
上述TCR特征数字化,包括如下步骤:
3.1)TCR丰度统计信息库构建:使用滑动窗口算法(S l i d i ng wi ndow)以步长为1将每个CDR3序列切割成固定长度片段,即k-mer氨基酸多联体;随后,根据词频分析原理,结合TCR克隆频率对k-mers进行综合分析,并为每种癌症类型构建了两个k-mer统计信息库;第一类统计信息库的构建如下:对于癌症C和氨基酸多联体Ak,Ak与C相关的丰度得分Sk可通过公式(1)计算:
其中是癌症C的TCR库中包含Ak的第i条TCR的克隆丰度;在得到不同癌症的所有氨基酸多联体的丰度分数后,去除在所有癌症和健康组中均获得高分数的噪音k-mers;随后,在每种癌症在丰度统计库中根据丰度得分分别对k-mers排序;最终,Ak关于癌症C的统计特征值通过公式(2)计算:
其中表示统计特征值,表示癌症C丰度统计库中Ak的排名;第二类统计信息库则根据每种癌症TCR库中k-mers的计数构建;具体而言,对于癌症C和氨基酸多联体A'k,A'k关于C的丰度得分S'k通过公式(3)计算:
3.2)氨基酸序列特征编码:共采用两种方式编码CDR3序列:a)采用AAi ndex数据库包含的566种氨基酸生物物理化学属性编码,删除其中NA值后使用主成分分析算法降维至18维;b)利用构建的TCR丰度统计信息库编码生成CDR3序列的统计特征;如前所述,通过长度为k(分别为k=3、4和5)的滑动窗口以步长为1将每条CDR3序列切割成一个k-mer列表,对于列表中的每个k-mer,在TCR丰度统计信息库中搜索,获得维度为12的统计特征向量。
上述肿瘤筛查模型的训练与验证,其核心技术为癌症相关TCR预测模型构建,包括如下步骤:
4.1)基准数据集构建:将步骤三得到的癌症相关TCR序列作为二分类任务的阳性基准数据以及多分类任务的基准数据集;二分类任务的阴性基准数据使用非癌症TCR测序数据生成;最终得到的数据集按8:2的比例随机划分为训练集与测试集;为了调节模型超参数,训练集进一步按照9:1的比例随机划分为训练子集与验证子集;
4.2)癌症相关TCR深度学习预测模型的构建与优化:为预测外周血TCR库中的caTCR构建了二分类深度学习模型,进一步的为预测caTCR与不同癌症相关的概率构建了多分类深度学习模型;除了输出层外,这两个模型的架构是相同的,接受上述的氨基酸序列生物物理化学属性特征和TCR丰度统计特征两个输入;根据两个输入的特点,分别设计合适的深度学习子模块,将子模块输出的潜特征拼接后,输入至最后的全连接层以输出预测值;使用基准数据集,按照模型训练的标准流程,对模型进行调参优化;
4.3)样本TCR库癌症相关评分策略:样本库包含许多具有不同克隆丰度的TCR,需综合评估TCR库以测量样本与癌症关联的概率,具体的,利用利用TCR库中克隆丰度最高的50个TCR的克隆丰度对癌症相关TCR深度学习预测模型的输出概率加权,得到综合癌症评分向量,作为评估受试者癌症状态的度量指标;
4.4)模型性能评估:利用全新癌症与非癌症对照样本的TCR测序数据用于独立测试,使用灵敏度(Sn)、特异性(Sp)、准确度(ACC)和马修斯相关系数(MCC)评估二分类预测器的性能,如公式(4)所示:
其中TP,TN,FP和FN依次表示真阳性、真阴性、假阳性和假阴性,此外,受试者工作特征曲线(ROC)的曲线下面积(area under the curve,AUC)同样被用于评估模型的性能;使用准确度(ACC)、精确率(Prec i s i on)、召回率(reca l l)和F1_score评估多分类的性能,如公式(5)所示:
TPi,FPi和FNi分别表示第i类的真阳性、假阳性和假阴性;precisioni和recalli分别表示第i类的精确度与召回率;对所有的类别指标使用宏平均和加权平均以评估整体的性能,precisionmacro、recallmacro和F1macro分别表示整体宏平均精确率、宏平均召回率和宏平均F1_score。
一种基于外周血免疫特征的癌症智能筛查模型,通过上述构建方法构建得到。
本发明的有益效果:本发明在液体活检方法的基础上通过TCR测序以及克隆丰度对caTCR进行统计分析,挖掘氨基酸多联体与癌症相关的丰度特征,构建多个癌症特异性丰度特征库,获得全新的TCR特征数字化方法。通过深度学习技术并基于TCR数据开发了两个癌症相关TCR预测模型,根据模型输出结合克隆丰度设计癌症评分策略,能够用于基于外周血TCR测序的精准癌症早筛,克服了传统癌症早筛所使用技术与装置特异性差、灵敏度低、侵入性强等问题。本发明的有益效果具体包括如下:
一、本发明根据具有相似性的TCR能识别同一肿瘤抗原这一基本假设,通过克隆丰度对caTCR进行统计分析,构建了癌症特异性氨基酸多联体丰度特征库,实现了免疫特征数字化,为基于外周血TCR测序数据的肿瘤早筛模型的训练提供了高质量的数字化免疫特征。
二、本发明通过生物物理化学属性和氨基酸多联体丰度特征对CDR3序列编码,通过卷积神经网络、长短期记忆神经网络和全连接网络提取高维潜特征,构建癌症相关TCR深度学习预测模型,实现精准识别受试者外周血TCR库中的癌症相关TCR,根据模型输出概率,利用TCR的克隆丰度加权计算TCR库的综合癌症评分,从而为判断受试者是否患癌及患何种癌症提供重要的参考依据,实现了基于外周血免疫组学特征的肿瘤无创筛查模型的构建。
四、本发明构建了基于全新血液标志物的非侵入性肿瘤早期筛查模型,借力计算方法的高效便捷性,助力于大规模人群的癌症早筛,在方案设置上实现了自主创新,具有很好的启示示范作用,是生物大数据临床应用及转化的典型案例。
附图说明
图1是本发明基于外周血免疫特征的肿瘤筛查方法的理论依据示意图;
图2是本发明基于外周血免疫特征的肿瘤筛查模型的构建方法流程图;
图3是本发明的肿瘤人工智能筛查模型iCanTCR构建流程图;
图4是本发明的肿瘤人工智能筛查模型iCanTCR的深度学习架构图;
图5是本发明的肿瘤人工智能筛查模型iCanTCR预测性能结果图。
具体实施方式
下面结合附图,对本发明的一个具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
参见图2-图5,本发明公开了一种基于外周血免疫特征的癌症智能筛查模型及筛查模型构建方法,筛查模型通过其筛查模型的构建方法得到,本发明筛查模型的构建方法包括如下步骤:
S1:受试者外周血T细胞受体库构建。获取受试者的外周血单核细胞TCR测序(TCR-seq)数据,进行质控分析,构建外周血T细胞受体库;
S1.1、首先使用EDTA处理的Vacuta i ner管收集受试者新鲜外周血。通过密度梯度离心分离外周血单个核细胞(PBMC),并使用TRI zo l试剂溶解PBMC并在-80℃冷冻等待下一步处理。
S1.2、随后使用OMEGA试剂盒提取RNA并通过NanoDrop 2000分光光度计测定RNA浓度。利用提取的RNA通过5’cDNA快速扩增技术(RACE)制备无偏的TCR cDNA文库。
S1.3、随后使用嵌套通用引物和TCR恒定区特异性引物对TCR cDNA进行两轮PCR扩增。然后将第二轮PCR产物加载到2%聚丙烯酰胺凝胶上进行电泳,并使用OMEGA回收和纯化大约500bp的目标产物,作为TCR测序文库。
S1.4、使用高通量测序平台对I l l umi n文库进行测序。结果以FASTQ格式存储。BLAT软件用于从I MGT/GeneDB数据库中查找参考基因组中每个read的TCR链Vβ、Dβ、Jβ基因。核苷酸序列被翻译成氨基酸序列,进行比对以找到精确的V、D、J基因,同时过滤掉没有V、D、J、C基因和reads数量小于2的低频克隆型的序列,以纠正测序错误。
S2:癌症相关TCR鉴定。如图3a所示,基于构建的受试者外周血T细胞受体库,利用其中的癌症样本TCR测序数据得到抗原特异性TCR集合,利用其中的非癌症样本TCR测序数据得到常见非癌症抗原特异性TCR集合,再通过比对得到癌症相关TCR(caTCR);
S2.1候选caTCR集合构建。对于多种类型癌症样本的TCR测序数据,首先根据克隆频率,依次去除每一个癌症样本的TCR库中无抗原特异性的序列,得到癌症样本的抗原特异性TCR集合,作为候选caTCR集合,记为PT;
S2.2非癌症抗原特异性TCR过滤。利用非癌症样本TCR测序数据构建常见非癌症抗原特异性TCR参考库,并依据此参考库,去除上述剩余TCR序列中非癌症抗原特异性TCR。具体的,从每个非癌症样本中挑选出克隆分数最高的500个序列,构建一个TCR序列集合,然后选择该集合中丰度最高的40000个TCR序列作为常见非癌症抗原特异性TCR参考库,记为RN;若PT中的序列出现在RN中,则将该序列从PT中删除。得到最终的癌症相关TCR序列,作为阳性基准数据并用于后续的TCR特征数字化与模型训练;
S3:TCR特征数字化。用癌症相关TCR,根据词频分析原理,结合TCR克隆频率构建TCR丰度统计信息库;利用生物物理化学属性与TCR丰度统计信息库对TCR的氨基酸序列进行数字化;
S3.1、TCR丰度统计信息库构建。使用滑动窗口以步长为1将每个CDR3序列切割成固定长度片段,即k-mer氨基酸多联体。固定长度k与滑动窗口的宽度相同,根据TCR与抗原肽接触条带的平均长度,将其分别设置为3个不同值,即4±1。随后,根据词频分析原理,结合TCR克隆频率对k-mers进行综合分析,并为每种癌症类型构建了两个k-mer统计信息库;
S3.1.1、第一类统计信息库的构建如下:首先,对于癌症C和氨基酸多联体Ak,Ak与C相关的丰度得分Sk可通过公式(1)计算:
其中是癌症C的TCR库中包含Ak的第i条TCR的克隆丰度。在得到不同癌症的所有氨基酸多联体的丰度分数后,去除在所有癌症和健康组中均获得高分数的噪音k-mers。随后,在每种癌症在丰度统计库中根据丰度得分分别对k-mers排序。最终,Ak关于癌症C的统计特征值可通过公式(2)计算:
S3.1.2、第二类统计信息库则根据每种癌症TCR库中k-mers的计数构建。具体而言,对于癌症C和氨基酸多联体A'k,A'k关于C的丰度得分S'k可通过公式(3)计算:
S3.2、氨基酸序列特征编码。对于每一条TCR,取用其β链的CDR3氨基酸序列。所取用CDR3序列的原始输入长度为{L|L=(11,12,…,19)},不在此区间内的序列均舍去,然后去除每一条CDR3序列的前四个和最后一个残基。共采用两种方式编码CDR3序列;
S3.2.1、采用AAi ndex数据库(https://www.genome.jp/aa i ndex/)包含的566种氨基酸生物物理化学属性编码;具体而言,首先删除含有NA值的13种属性,然后对剩余553个指数进行Z-score标准化,以消除不同属性之间量纲差异的影响,再利用主成分分析算法进行降维,对每一种氨基酸得到20维的主成分,并选择权重最大的前18个主成分(可解释原始数据99%以上的方差)以表征每种氨基酸。由于序列的长度不统一,在较短序列的末尾填充通配字符“X”至最大长度19,该通配字符采用维度为18的零向量表征。所有长度的CDR3序列均被编码为19×18的数值矩阵。
S3.2.2、利用步骤S3.1构建的TCR丰度统计信息库编码生成CDR3序列的统计特征。如前所述,通过长度为k(分别为k=3、4和5)的滑动窗口以步长为1将每条CDR3氨基酸序列切割成一个k-mer列表,对于列表中的每个k-mer,在TCR丰度统计信息库中搜索,获得维度为12的统计特征向量,同样的,在较短序列的末尾填充通配字符“X”至最大长度。最终,每条CDR3的被编码为固定长度的向量(k=3向量长度为144,k=4为132,k=5为120);
S4:肿瘤筛查模型的训练与验证。采用深度学习算法构建肿瘤人工智能筛查模型iCanTCR;利用癌症相关TCR与非癌症TCR训练二分类模型识别TCR库中的癌症相关TCR,利用不同癌症相关TCR训练多分类模型预测TCR库中TCR与不同癌症相关的概率;根据模型输出概率,利用TCR的克隆丰度加权计算TCR库的综合癌症评分;对模型的性能使用独立测试数据进行验证;
S4.1、基准数据集构建。如图3a所示,步骤S2得到的癌症相关TCR序列作为二分类任务的阳性基准数据以及多分类任务的基准数据集。二分类任务的阴性基准数据则使用非癌症TCR数据生成,同样的,首先根据克隆频率,依次去除每一个非癌样本的TCR库中无抗原特异性的序列,然后对剩余的序列采用CD-H I T工具以0.75的序列相似性为阈值聚类,去除序列冗余后得到最终的阴性基准数据。最终得到的数据集按照一定比例随机划分为训练集、验证集与测试集;
S4.2、癌症相关TCR深度学习预测模型的构建与优化。为预测外周血TCR库中的caTCR构建了二分类深度学习模型,进一步的为预测caTCR与不同癌症相关的概率构建了多分类深度学习模型;除了输出层外,这两个模型的架构是相同,接受上述的氨基酸序列生物物理化学属性特征和TCR丰度统计特征两个输入,具体设计如图3b与图4所示。
S4.2.1、对生物物理化学属性特征,构建并列的三个卷积神经网络(CNN)模块和一个长短期记忆神经网络模块(LSTM),以提取不同的潜特征;三个CNN模块采用不同的卷积核尺寸,分别为3、4和5,以对应前述接触条带的平均长度。对TCR丰度统计特征,采用经典全连接网络(FCN)提取其潜特征。将上述所有模块输出的潜特征拼接后,输入至最后的全连接层以输出预测值。
S4.2.2、为了避免模型的全连接网络产生过拟合,对每一个隐藏层应用dropout策略,drop概率设置为0.3;对除输出层外所有的神经网络层采用整流线性单元(ReLU)激活函数,以提高计算效率并保持梯度,输出层则采用softmax函数;采用带动量的自适应梯度随机优化方法Adam算法自适应调节每一轮迭代的学习率,以加速模型收敛;采用交叉熵损失函数计算每次迭代时的拟合误差,以进行反向传播;
S4.3、样本TCR库癌症相关评分策略。如图3c所示,样本库包含许多具有不同克隆丰度的TCR,因此需综合评估TCR库以测量样本与癌症关联的概率;
S4.3.1、对于二分类任务,首先利用TCR库中克隆丰度最高的50个TCR的克隆丰度对上述二分类器的输出概率加权,然后应用标准化函数将加权值缩放到区域(0,1),得到癌症评分作为TCR库的度量指标;
S4.3.2、对于多分类任务,首先使用TCR库中克隆丰度最高的50个TCR对上述多分类模型的输出向量进行加权,然后应用softmax函数对每个加权向量的和向量进行归一化,以获得最终的概率向量,该概率向量表示样本的TCR库与不同癌症相关的概率;
S4.4、模型性能评估;利用全新癌症与非癌症对照样本的TCR测序数据用于独立测试,使用多种度量指标评估性能,模型性能如图5所示;
S4.4.1、使用准确度(ACC)、灵敏度(Sn)、特异性(Sp)和马修斯相关系数(MCC)评估二分类预测器的性能,如公式(4)所示:
TP,TN,FP和FN分别表示真阳性、真阴性、假阳性和假阴性,此外,受试者工作特征曲线(ROC)的曲线下面积(area under the curve,AUC)作为一个重要的指标,同样被用于评估模型的性能;
S4.4.2、使用准确度(ACC)、精确度(Prec i s i on)、召回率(reca l l)和F1_score评估多分类的性能,如公式(5)所示:
TPi,FPi和FNi分别表示第i类的真阳性、假阳性和假阴性;precisioni和recalli分别表示第i类的精确度与召回率;对所有的类别指标使用宏平均和加权平均以评估整体的性能,precisionmacro、recallmacro和F1macro分别表示整体宏平均精确率、宏平均召回率和宏平均F1_score。
综上所述,本发明在液体活检方法的基础上通过TCR测序以及克隆丰度对caTCR进行统计分析,挖掘氨基酸多联体与癌症相关的丰度特征,构建了多个癌症特异性丰度特征库,从而获得了全新的TCR特征数字化方法。通过深度学习技术并基于TCR数据开发了两个癌症相关TCR预测模型,根据模型输出结合克隆丰度设计癌症评分策略,能够用于基于外周血TCR测序的精准癌症早筛,克服了传统癌症早筛所使用技术与装置特异性差、灵敏度低、侵入性强等问题。
以上公开的仅为本发明的几个具体实施例,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (6)
1.一种基于外周血免疫特征的癌症智能筛查模型的构建方法,其特征在于,包括如下步骤:
一、构建受试者外周血T细胞受体库:获取受试者的外周血单核细胞TCR测序数据,进行质控分析,构建受试者外周血T细胞受体库;
二、鉴定癌症相关TCR:基于构建的受试者外周血T细胞受体库,利用其中的癌症样本TCR测序数据得到抗原特异性TCR集合,利用其中的非癌症样本TCR测序数据得到常见非癌症抗原特异性TCR集合,再通过比对得到癌症相关TCR;三、TCR特征数字化:利用癌症相关TCR,根据词频分析原理,结合TCR克隆频率构建TCR丰度统计信息库;利用生物物理化学属性与TCR丰度统计信息库对TCR的氨基酸序列进行数字化;
四、肿瘤筛查模型的训练:利用癌症相关TCR与非癌症TCR训练二分类模型识别TCR库中的癌症相关TCR,利用不同癌症相关TCR训练多分类模型预测TCR库中TCR与不同癌症相关的概率;根据模型输出概率,利用TCR的克隆丰度加权计算TCR库的综合癌症评分,获得所述基于外周血免疫特征的癌症智能筛查模型。
2.根据权力要求1所述的一种基于外周血免疫特征的癌症智能筛查模型的构建方法,其特征在于,所述构建受试者外周血T细胞受体库,包括如下步骤:
1.1)首先使用EDTA处理的Vacutainer管收集受试者的新鲜外周血;分离外周血单个核细胞,并在-80℃冷冻等待下一步处理;
1.2)随后提取RNA并测定RNA浓度,利用提取的RNA通过5’cDNA快速扩增技术制备无偏的TCR cDNA文库;
1.3)随后使用引物对TCR cDNA进行两轮PCR扩增,将第二轮PCR产物加载到2%聚丙烯酰胺凝胶上进行电泳,并使用OMEGA回收和纯化大约500bp的目标产物,作为TCR测序文库;
1.4)使用高通量测序平台对文库进行测序;对测序原始数据查找参考基因组,将核苷酸序列翻译成氨基酸序列,进行比对以找到精确的V、D、J基因,同时过滤掉缺失和低频克隆型的序列,以纠正测序错误。
4.根据权力要求1所述的一种基于外周血免疫特征的癌症智能筛查模型的构建方法,其特征在于,所述TCR特征数字化,包括如下步骤:
3.1)TCR丰度统计信息库构建:使用滑动窗口算法以步长为1将每个CDR3序列切割成固定长度片段,即k-mer氨基酸多联体;随后,根据词频分析原理,结合TCR克隆频率对k-mers进行综合分析,并为每种癌症类型构建了两个k-mer统计信息库;第一类统计信息库的构建如下:对于癌症C和氨基酸多联体Ak,Ak与C相关的丰度得分Sk可通过公式(1)计算:
其中是癌症C的TCR库中包含Ak的第i条TCR的克隆丰度;在得到不同癌症的所有氨基酸多联体的丰度分数后,去除在所有癌症和健康组中均获得高分数的噪音k-mers;随后,在每种癌症在丰度统计库中根据丰度得分分别对k-mers排序;最终,Ak关于癌症C的统计特征值通过公式(2)计算:
其中表示统计特征值,表示癌症C丰度统计库中Ak的排名;第二类统计信息库则根据每种癌症TCR库中k-mers的计数构建;具体而言,对于癌症C和氨基酸多联体A'k,A'k关于C的丰度得分S'k通过公式(3)计算:
3.2)氨基酸序列特征编码:共采用两种方式编码CDR3序列:a)采用AAindex数据库包含的566种氨基酸生物物理化学属性编码,删除其中NA值后使用主成分分析算法降维至18维;b)利用构建的TCR丰度统计信息库编码生成CDR3序列的统计特征;如前所述,通过长度为k的滑动窗口以步长为1将每条CDR3序列切割成一个k-mer列表,其中k分别为k=3、4和5,对于列表中的每个k-mer,在TCR丰度统计信息库中搜索,获得维度为12的统计特征向量。
5.根据权力要求1所述的一种基于外周血免疫特征的癌症智能筛查模型的构建方法,其特征在于,所述肿瘤筛查模型的训练与验证,其核心技术为癌症相关TCR预测模型构建,包括如下步骤:
4.1)基准数据集构建:将步骤三得到的癌症相关TCR序列作为二分类任务的阳性基准数据以及多分类任务的基准数据集;二分类任务的阴性基准数据则使用非癌症TCR测序数据生成;最终得到的数据集按8:2的比例随机划分为训练集与测试集;为了调节模型超参数,训练集进一步按照9:1的比例随机划分为训练子集与验证子集;
4.2)癌症相关TCR深度学习预测模型的构建与优化:为预测外周血TCR库中的caTCR构建了二分类深度学习模型,进一步的为预测caTCR与不同癌症相关的概率构建了多分类深度学习模型;除了输出层外,这两个模型的架构是相同的,接受上述的氨基酸序列生物物理化学属性特征和TCR丰度统计特征两个输入;根据两个输入的特点,分别设计合适的深度学习子模块,将子模块输出的潜特征拼接后,输入至最后的全连接层以输出预测值;使用基准数据集,按照模型训练的标准流程,对模型进行调参优化;
4.3)样本TCR库癌症相关评分策略:样本库包含许多具有不同克隆丰度的TCR,需综合评估TCR库以测量样本与癌症关联的概率,具体的,利用TCR库中克隆丰度最高的50个TCR的克隆丰度对癌症相关TCR深度学习预测模型的输出概率加权,得到综合癌症评分向量,作为评估受试者癌症状态的度量指标;
4.4)模型性能评估:利用全新癌症与非癌症对照样本的TCR测序数据用于独立测试,使用灵敏度Sn、特异性Sp、准确度ACC和马修斯相关系数MCC评估二分类预测器的性能,如公式(4)所示:
其中TP,TN,FP和FN依次表示真阳性、真阴性、假阳性和假阴性,此外,受试者工作特征曲线ROC的曲线下面积AUC同样被用于评估模型的性能;使用准确度ACC、精确率Precision、召回率recal l和F1_score评估多分类的性能,如公式(5)所示:
TPi,FPi和FNi分别表示第i类的真阳性、假阳性和假阴性;precisioni和recalli分别表示第i类的精确度与召回率;对所有的类别指标使用宏平均和加权平均以评估整体的性能,precisionmacro、recallmacro和F1macro分别表示整体宏平均精确率、宏平均召回率和宏平均F1_score。
6.一种基于外周血免疫特征的癌症智能筛查模型,其特征在于,通过如权利要求1至5中任一项所述的构建方法构建得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211490553.0A CN115896242A (zh) | 2022-11-25 | 2022-11-25 | 一种基于外周血免疫特征的癌症智能筛查模型及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211490553.0A CN115896242A (zh) | 2022-11-25 | 2022-11-25 | 一种基于外周血免疫特征的癌症智能筛查模型及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115896242A true CN115896242A (zh) | 2023-04-04 |
Family
ID=86489262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211490553.0A Pending CN115896242A (zh) | 2022-11-25 | 2022-11-25 | 一种基于外周血免疫特征的癌症智能筛查模型及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115896242A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116469473A (zh) * | 2023-06-15 | 2023-07-21 | 北京智因东方转化医学研究中心有限公司 | T细胞亚型鉴定的模型训练方法、装置、设备及存储介质 |
CN117095825A (zh) * | 2023-10-20 | 2023-11-21 | 鲁东大学 | 一种基于多实例学习的人体免疫状态预测方法 |
-
2022
- 2022-11-25 CN CN202211490553.0A patent/CN115896242A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116469473A (zh) * | 2023-06-15 | 2023-07-21 | 北京智因东方转化医学研究中心有限公司 | T细胞亚型鉴定的模型训练方法、装置、设备及存储介质 |
CN116469473B (zh) * | 2023-06-15 | 2023-09-22 | 北京智因东方转化医学研究中心有限公司 | T细胞亚型鉴定的模型训练方法、装置、设备及存储介质 |
CN117095825A (zh) * | 2023-10-20 | 2023-11-21 | 鲁东大学 | 一种基于多实例学习的人体免疫状态预测方法 |
CN117095825B (zh) * | 2023-10-20 | 2024-01-05 | 鲁东大学 | 一种基于多实例学习的人体免疫状态预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115896242A (zh) | 一种基于外周血免疫特征的癌症智能筛查模型及方法 | |
US20230222311A1 (en) | Generating machine learning models using genetic data | |
CN112164448B (zh) | 免疫治疗疗效预测模型训练方法、预测系统及方法和介质 | |
WO2020041204A1 (en) | Artificial intelligence analysis of rna transcriptome for drug discovery | |
CN111276252B (zh) | 一种肿瘤良恶性鉴别模型的构建方法及装置 | |
KR102044094B1 (ko) | 딥 러닝 기반 유전체 발현량 해석을 통한 암 또는 정상 판별 방법 및 그 장치 | |
CN111020020A (zh) | 一种精神分裂症的生物标志物组合、其应用及metaphlan2筛选方法 | |
CN116153420B (zh) | 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法 | |
CN115116624A (zh) | 基于半监督迁移学习的药物敏感性预测方法和装置 | |
CN111584064A (zh) | 一种结、直肠癌转移预测系统及其使用方法 | |
Molho et al. | Deep learning in single-cell analysis | |
CN113421608A (zh) | 肝癌早筛模型的构建方法、检测装置以及计算机可读取介质 | |
CN111370061A (zh) | 基于蛋白标记物与人工智能的癌症筛查方法 | |
CN112819765A (zh) | 一种肝脏图像处理方法 | |
EP4428864A1 (en) | Method for diagnosing cancer by using sequence frequency and size at each position of cell-free nucleic acid fragment | |
EP4350707A1 (en) | Artificial intelligence-based method for early diagnosis of cancer, using cell-free dna distribution in tissue-specific regulatory region | |
CN111020021A (zh) | 一种基于肠道菌群的小规模精神分裂症生物标志物组合、其应用及mOTU筛选方法 | |
CN113178257A (zh) | 肺结节的分类模型的训练方法 | |
Abdullahi et al. | Pretrained convolutional neural networks for cancer genome classification | |
KR20200057664A (ko) | 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법 | |
Koshechkin et al. | A new method to missing value imputation for immunosignature data | |
CN115678999B (zh) | 标志物在肺癌复发预测中的应用和预测模型构建方法 | |
CN118366547B (zh) | 基因标志物在多癌种早筛中的应用、早筛模型构建方法以及检测装置 | |
US20220246232A1 (en) | Method for diagnosing disease risk based on complex biomarker network | |
EP4425499A1 (en) | Method for diagnosis of cancer and prediction of cancer type, using methylated acellular nucleic acid |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |