CN115144599B - 蛋白组合在制备对儿童甲状腺癌进行预后分层的试剂盒中的用途及其试剂盒、系统 - Google Patents
蛋白组合在制备对儿童甲状腺癌进行预后分层的试剂盒中的用途及其试剂盒、系统 Download PDFInfo
- Publication number
- CN115144599B CN115144599B CN202211075844.3A CN202211075844A CN115144599B CN 115144599 B CN115144599 B CN 115144599B CN 202211075844 A CN202211075844 A CN 202211075844A CN 115144599 B CN115144599 B CN 115144599B
- Authority
- CN
- China
- Prior art keywords
- children
- model
- thyroid
- protein
- proteins
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
- G01N33/6803—General methods of protein analysis not limited to specific proteins or families of proteins
- G01N33/6848—Methods of protein analysis involving mass spectrometry
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57407—Specifically defined cancers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57484—Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2800/00—Detection or diagnosis of diseases
- G01N2800/52—Predicting or monitoring the response to treatment, e.g. for selection of therapy based on assay results in personalised medicine; Prognosis
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2800/00—Detection or diagnosis of diseases
- G01N2800/60—Complex ways of combining multiple protein biomarkers for diagnosis
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Immunology (AREA)
- Biomedical Technology (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Hematology (AREA)
- Urology & Nephrology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Cell Biology (AREA)
- Pathology (AREA)
- Food Science & Technology (AREA)
- Public Health (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- General Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Hospice & Palliative Care (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Oncology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Primary Health Care (AREA)
Abstract
本发明涉及一种试剂盒,其包含蛋白组合。本发明还涉及蛋白组合在制备用于对儿童甲状腺乳头状癌的预后情况进行预测和分层的试剂盒中的用途。本发明还涉及一种对儿童甲状腺乳头状癌进行预后分层的系统,其包括检测蛋白组合的相对表达量的物质,以及数据处理装置和输出装置。本发明根据儿童青少年甲状腺乳头状癌样本的蛋白质定量数据,结合随机生存森林模型,仅需19个蛋白,可以以0.85的一致性指数,对患者术后的复发情况进行预测,不但可以给出每个患者个性化的生存曲线,还可以根据模型对患者预后复发风险进行分层,分为高风险和低风险两组,从而个性化地辅助临床决策及随访方案。
Description
技术领域
本发明涉及医疗诊断领域,并具体涉及蛋白质组学和机器学习,专注于对未成年人甲状腺癌的预后风险进行预测和分层。
背景技术
在儿童人群中,甲状腺乳头状癌是内分泌系统中最为常见的恶性肿瘤,发病率平均每年增长约4.4%。大约有1.8%的甲状腺癌发生在儿童和青少年,其中甲状腺乳头状甲状腺癌占全部甲状腺癌的90%以上。
从临床实践中发现,儿童与青少年甲状腺癌与成人甲状腺癌的发病特点不尽相同。从发病率来看,约5%的成人甲状腺结节为恶性肿瘤。然而,在儿童与青少年人群中,虽然甲状腺结节的发生率不高,但其恶性率高达26%,同时疾病表现也更严重。从临床表现来看,约78%的儿童与青少年甲状腺癌患者在诊断时即出现了淋巴结转移,该数字远多于成人的淋巴结转移比例(约40%),远处转移率更是将近6%,临床治疗难度很大。
目前已有的儿童分化型甲状腺癌指南中,对于个体化的诊断、治疗及预后评估方式尚存在许多争议,比如并未像成人指南那样将患者按不同的年龄进行危险分层并给出个体化的治疗方案,而是所有患者采取同样的治疗策略。儿童甲状腺乳头状癌高复发率的危险因素尚未明确,目前缺少有效的方法来准确地判断预后,来对这部分患者进行高低风险分层。这会使一些复发风险较低的儿童患者得到过于激进的手术切除范围,增加并发症风险,另一方面,使复发风险高危的患者不能够获得足够的重视,容易造成术前的评估以及术后的监测不足。
目前仅有的对于儿童甲状腺乳头状癌在分子水平的研究大多局限在基因水平,且基本上是对于病因以及良恶性诊断方面的发现,缺少对于预后情况个性化评估的研究。与成人甲状腺乳头状癌相比,儿童甲状腺乳头状癌的特点是基因重排发生率较高,与甲状腺乳头状癌有关的原癌基因点突变频率较低。BRAF突变在儿童甲状腺乳头状癌中很少见,相反,RET/PTC基因重排以及基因融合在儿童甲状腺乳头状癌中更常见。这些差异可能会影响基因检测在儿童甲状腺恶性肿瘤诊断中的效能。并且由于甲状腺癌基因固有的局限——突变少,因此通过基因对预后评估具有局限性。相比于基因,蛋白直接组成了表型,是生命活动的直接体现者,对于疾病的预后评估更具价值。然而,关于儿童甲状腺结节蛋白分子层面改变的研究目前仍处空白。
标记定量蛋白质组学方法,如TMT(Tandem Mass Tag)标记可以深度定量检测样本中的蛋白表达,同时,可以高通量地一次性处理6-16个样本,对于从大量样本中定量数千至上万个蛋白具有显著优势。
发明内容
本发明通过分析18岁及以下儿童甲状腺乳头状癌蛋白质组表达特点,结合随机生存森林模型,找到一种新的19个蛋白质的组合,可以对儿童甲状腺癌进行预后风险分层,能够辅助临床医生对治疗及预后随访方案进行个性化的指导,从而一定程度上缓解了临床上对儿童乳头状甲状腺癌缺乏个性化诊断与治疗的问题。
本发明通过如下方式获得:
1. 数据产生方法
首先获取儿童良性甲状腺结节和儿童乳头状甲状腺癌的样本队列,同时获取甲状腺癌的预后随访数据及组织样本,将样本用压力循环系统处理后,通过TMT标记定量方法进行高通量样本制备,随后通过数据依赖性质谱采集技术获取质谱数据,最后通过ProteomeDiscoverer软件对获取到的原始质谱数据进行解谱分析,得到样本中蛋白质组定量信息结果。
2.数据预处理方法
对于搜库软件产生的蛋白质矩阵,首先移除缺失率超过85%蛋白,然后使用R软件程序包NAguideR中的鲁棒序列填充法进行缺失值填充,最后采用R软件程序包sva中的ComBat算法进行批次效应的校正。
3.预后预测模型构建及特征选择方法
首先,将儿童乳头状甲状腺癌的样本随机分为训练集和测试集,然后,基于儿童良性结节和儿童乳头状甲状腺癌的差异蛋白,构建随机生存森林模型,在训练集上通过三折交叉验证和网格搜索进行参数调优,并进行特征选择和模型训练,然后计算模型的在训练集和测试集上的一致性指数及其在训练集上三折交叉验证的一致性指数,来确保模型具有好的预测效果。其中,特征选择方法以儿童良性甲状腺结节和儿童乳头状甲状腺癌样本的差异蛋白为候选蛋白,以100种不同的随机初始状态,每次用训练集对模型进行训练,并根据置换方法对特征进行排序,选出排名前50的特征,统计这100次运行中每种特征出现的次数,最后只留下出现次数大于等于50次的蛋白。
4.儿童乳头状甲状腺癌预后分层方法
首先,基于最终的随机生存森林模型,可以个性化地预测每个患者的预后生存曲线;然后,根据每个患者的预后生存曲线,可以计算出连续风险排序得分,该风险得分越高,风险越大;接着根据训练集中复发和不复发两组的风险得分,可以通过费舍尔判别分析确定决策边界,将训练集的样本分为高风险和低风险两层;最后,对于新的患者样本,就可以根据该模型对该患者的打分及决策边界来确定其属于高风险组还是低风险组,从而优化个体化的治疗方案以及预后的评估。
因此,在一个方面,本发明提供一种蛋白组合在制备用于对儿童甲状腺癌进行预后分层的试剂盒中的用途,所述蛋白组合由以下组成:"Q8TBF5_PIGX"、"P10645_CHGA"、"P12111_COL6A3"、"Q08495_DMTN"、"Q99972_MYOC"、"L0R819_ASDURF"、"O00584_RNASET2"、"Q86Y22_COL23A1"、"P13612_ITGA4"、"Q96RP7_GAL3ST4"、"Q4G0X9_CCDC40"、"Q96JY6_PDLIM2"、"P23378_GLDC"、"Q9BXJ5_C1QTNF2"、"P17931_LGALS3"、"Q96F24_NRBF2"、"Q9Y4Z0_LSM4"、"Q9NQ79_CRTAC1"和"Q96AN5_TMEM143",其中所述试剂盒含有检测所述蛋白组合的相对表达量的试剂。
在一个实施方案中,所述蛋白组合的相对表达量通过质谱进行检测。
在另一个实施方案中,所述蛋白组合的相对表达量通过串联质谱标签标记定量技术进行检测。
在又一个实施方案中,所述评估包括将所述蛋白组合的相对表达量通过串联质谱标签标记定量技术标记定量检测而获得的数据输入随机生存森林模型,输出生存曲线和/或儿童甲状腺癌的预后分层结果,即属于高风险组或低风险组。
在另一方面,本发明提供一种试剂盒,其包含蛋白组合,所述蛋白组合由以下组成:"Q8TBF5_PIGX"、"P10645_CHGA"、"P12111_COL6A3"、"Q08495_DMTN"、"Q99972_MYOC"、"L0R819_ASDURF"、"O00584_RNASET2"、"Q86Y22_COL23A1"、"P13612_ITGA4"、"Q96RP7_GAL3ST4"、"Q4G0X9_CCDC40"、"Q96JY6_PDLIM2"、"P23378_GLDC"、"Q9BXJ5_C1QTNF2"、"P17931_LGALS3"、"Q96F24_NRBF2"、"Q9Y4Z0_LSM4"、"Q9NQ79_CRTAC1"和"Q96AN5_TMEM143"。本发明的试剂盒可包含但不限于检测上述蛋白组合中蛋白质含量的重标同位素肽段(质控肽和/或校准肽)。
在又一个方面,本发明提供一种对儿童甲状腺癌进行预后分层的模型的构建方法,包括:以儿童良性甲状腺结节和儿童乳头状甲状腺癌中的蛋白组合的相对表达量以及甲状腺癌的预后随访数据作为训练样本训练机器学习模型获得所述模型,其中所述蛋白组合由以下组成:"Q8TBF5_PIGX"、"P10645_CHGA"、"P12111_COL6A3"、"Q08495_DMTN"、"Q99972_MYOC"、"L0R819_ASDURF"、"O00584_RNASET2"、"Q86Y22_COL23A1"、"P13612_ITGA4"、"Q96RP7_GAL3ST4"、"Q4G0X9_CCDC40"、"Q96JY6_PDLIM2"、"P23378_GLDC"、"Q9BXJ5_C1QTNF2"、"P17931_LGALS3"、"Q96F24_NRBF2"、"Q9Y4Z0_LSM4"、"Q9NQ79_CRTAC1"和"Q96AN5_TMEM143"。
在一个实施方案中,所述模型以随机生存森林算法构建获得。
在另一个方面,本发明提供一种对儿童甲状腺癌进行预后分层的系统,其包括检测蛋白组合的相对表达量的物质,以及数据处理装置和输出装置,其中所述蛋白组合由以下组成:"Q8TBF5_PIGX"、"P10645_CHGA"、"P12111_COL6A3"、"Q08495_DMTN"、"Q99972_MYOC"、"L0R819_ASDURF"、"O00584_RNASET2"、"Q86Y22_COL23A1"、"P13612_ITGA4"、"Q96RP7_GAL3ST4"、"Q4G0X9_CCDC40"、"Q96JY6_PDLIM2"、"P23378_GLDC"、"Q9BXJ5_C1QTNF2"、"P17931_LGALS3"、"Q96F24_NRBF2"、"Q9Y4Z0_LSM4"、"Q9NQ79_CRTAC1"和"Q96AN5_TMEM143"。
在一个实施方案中,所述数据处理装置包括评估模块,所述评估模块包括随机生存森林模型。
在又一个实施方案中,将所述蛋白组合的相对表达量数据输入随机生存森林模型进行处理,所述输出装置输出生存曲线和/或儿童甲状腺癌的预后分层结果属于高风险组或低风险组。
本发明以基于随机生存森林和差异蛋白的独特的特征选择方式,选出了新的19个特定蛋白的组合("Q8TBF5_PIGX"、"P10645_CHGA"、"P12111_COL6A3"、"Q08495_DMTN"、"Q99972_MYOC"、"L0R819_ASDURF"、"O00584_RNASET2"、"Q86Y22_COL23A1"、"P13612_ITGA4"、"Q96RP7_GAL3ST4"、"Q4G0X9_CCDC40"、"Q96JY6_PDLIM2"、"P23378_GLDC"、"Q9BXJ5_C1QTNF2"、"P17931_LGALS3"、"Q96F24_NRBF2"、"Q9Y4Z0_LSM4"、"Q9NQ79_CRTAC1"和"Q96AN5_TMEM143",其中“_”前的字符为蛋白的Uniprot Accession ID,“_”后的字符为蛋白的基因名),其中仅有6个被相关文献报道与甲状腺癌或甲状腺功能有关,另外13个则是本申请新发现的与甲状腺癌相关的蛋白(如表1所示),根据这些蛋白的蛋白质组数据,结合随机生存森林模型,可以对儿童(≤18岁)甲状腺乳头状甲状腺癌预后情况进行预测和分层,从而在临床上对治疗及预后随访策略进行个性化辅助与指导。
本发明可以根据儿童青少年手术切除后的甲状腺乳头状甲状腺癌组织样本的TMT蛋白质组数据,结合随机生存森林模型,仅需19个蛋白,可以以0.85的一致性指数,对患者术后的复发情况进行预测,不但可以给出每个患者个性化的生存曲线,还可以根据模型对患者预后复发风险进行分层,分为高风险和低风险两组,从而个性化地辅助临床术后治疗方案的制定。
附图说明
图1是随机生存森林模型预测的某一儿童甲状腺乳头状甲状腺癌患者的生存曲线。
图2是决策边界确定。
图3是模型在训练集上分层的效果。
图4是模型在测试集上分层的效果。
图5是本发明的流程图。
具体实施方式
以下实施方案仅用于示例性说明本发明的技术方案,其不应用来限制本发明的保护范围。
除非另外明确指明或限制,否则本申请的实施方案中所用的技术手段均为本领域技术人员所熟知的常规技术手段,本申请的实施方案中所使用的材料和/或装置、设备、仪器、试剂、耗材等均为市售可得。
1.数据产生方法
首先将手术切除后的甲状腺结节组织样本,将样本用压力循环系统处理后,通过TMT标记定量方法进行高通量样本制备,随后通过数据依赖性质谱采集技术获取质谱数据,最后通过Proteome Discoverer软件对获取到的原始质谱数据进行解谱分析,得到样本中蛋白质组定量信息结果。
2.数据预处理方法
对于搜库后产生的蛋白质矩阵,首先对蛋白进行缺失值评估,即通过蛋白的缺失率,对不同蛋白缺失率阈值进行分析,确定缺失率阈值并移除高缺失率蛋白,使得矩阵总体缺失率小于20%。然后进行缺失值填充,使用R包NAguideR中的鲁棒序列填充法进行填充,最后进行批次效应的校正,采用R包sva中的Combat算法进行校正,完成缺失值填充后,蛋白质矩阵中出现了一些非正值,把这些值用其对应蛋白正表达值的0.5倍最小值的进行了替换,对完成校正后的矩阵也进行同样的操作。
3.预后预测模型构建及蛋白特征选择方法
首先将儿童乳头状甲状腺癌的样本随机分为训练集和测试集,训练集将用来构建模型,包括模型参数调优、特征选择与模型训练,测试集将用来评估模型的泛化能力。构建的模型是基于蛋白特征的随机生存森林模型,通过三折交叉验证和网格搜索进行参数调优,并用训练集进行特征选择和模型训练,然后计算模型的在训练集和测试集上的一致性指数及其在训练集上三折交叉验证一致性指数。特征选择方法具体如下所述:基于调好参数的模型,以儿童良性甲状腺结节和儿童乳头状甲状腺癌样本的差异蛋白(以1.2倍差异倍数及t检验BH法校正p值0.05为阈值)为候选蛋白,以100种不同的随机初始状态,每次用训练集对模型进行训练,并根据置换方法对特征进行排序,选出排名前50的特征,统计这100次运行中每种特征出现的次数,最后只留下出现次数大于等于50次的蛋白,并更新随机生存森林相关参数,即将每个决策树的随机选择的特征数目更新为根号下当前变量数向下取整得到的数值。
4.儿童乳头状甲状腺癌预后分层方法
首先,基于最终的随机生存森林模型,可以个性化地预测每个患者的预后生存曲线;然后,根据每个患者的预后生存曲线,可以计算出其对应的数学期望,作为对预后风险的打分,称为连续风险排序得分,该风险得分越高风险越大,接着根据训练集中复发和不复发两组的风险得分,可以通过费舍尔判别分析确定决策边界,将训练集的样本分为高风险和低风险两层;最后,对于新的患者样本,就可以根据该模型对该患者的打分及决策边界来确定其属于高风险组还是低风险组,从而优化个体化的治疗方案以及预后的评估。
实施例
实施例1——样本纳入。
纳入2007年11月至2021年4月在中国医科大学附属第一医院甲状腺外科接受手术的儿童(年龄≤18岁) 儿童乳头状甲状腺癌和儿童良性甲状腺结节患者。排除标准如下:(1)有辐射暴露史或家族史;(2)高侵袭性病亚型,如高细胞、柱状和低分化儿童乳头状甲状腺癌;(3)失访或临床资料不全者;(4)非初次手术。最终共纳入85例儿童乳头状甲状腺癌患者和83例儿童良性甲状腺结节患者。
单侧PTC行甲状腺腺叶切除术和同侧中央淋巴结清扫术。甲状腺外侵犯者,如侵及神经、血管和气管等,则行全甲状腺切除术。双侧PTC患者行全甲状腺切除术及双侧中央淋巴结清扫术。术后治疗包括促甲状腺激素抑制治疗和放射性碘治疗。这项研究得到了中国医科大学附属第一医院以及本研究单位的伦理委员会的批准。
术后每3到6个月随访一次,包括复查颈部超声及甲状腺功能检查。对于超声或CT阴性、血清甲状腺球蛋白水平低或术后未见疾病持续的患者,复查的间隔时间可适当延长。疾病缓解定义为连续两次全身扫描和超声检查均为阴性,且甲状腺球蛋白及抗甲状腺球蛋白抗体达到理想范围。当超声或CT扫描发现复发迹象,或甲状腺球蛋白水平和/或全身扫描呈阳性时考虑复发。如复发,预后时间记录为术后到复发的时间间隔,若未复发,预后时间记录为术后到最后一次随访的时间间隔,作为右删失数据。
实施例2——蛋白质组学数据获取及预处理。
对83个儿童良性样本和85个儿童恶性样本进行石蜡切片,每个患者取1张切片进行蛋白质组学样本制备。石蜡切片利用100%庚烷、100%乙醇、90%乙醇、75%乙醇依次洗涤,每次5分钟,进行脱蜡和水化过程。脱蜡后的样本加入pH=10的Tris碱溶液,在95℃下反应30分钟。而后,加入尿素、硫脲、还原剂、烷基化试剂,通过压力循环系统,以高压-低压交替循环,即45000 p.s.i.压力下,反应50秒,常压下,反应10秒,循环操作90次。裂解完成后,通过胰蛋白酶和LysC酶进行蛋白酶切,获取的酶切肽段通过C18进行除盐,随后通过TMT试剂进行标记。标记后的样本,采用反向高效液相色谱法进行分馏,在60 min梯度下,分馏获取30个馏分,每个馏分通过高分辨质谱进行数据依赖采集。采集获取的质谱数据,使用ProteomeDiscoverer进行蛋白鉴定与定量,本部分样本共计鉴定和定量到10426个蛋白质。
随后删除了1272个(占12.2%)缺失率大于85%的蛋白质,从而使得整个蛋白质矩阵的总体缺失率小于20%,共剩余9154个蛋白质,然后通过R包NAguideR中的鲁棒序列填充法进行缺失值填充及R包sva中的Combat方法进行批次校正,完成缺失值填充后,蛋白质矩阵中出现了一些非正值,把这些值用其对应蛋白正表达值的0.5倍最小值的进行了替换,对完成校正后的矩阵也进行同样的操作。
实施例3——蛋白质表达差异分析。
为了进一步缩小候选蛋白池,在儿童良性样本和恶性样本两组之间进行了差异分析。在Benjamini-Hochberg(BH)校正t检验p值<0.05与差异倍数大于1.2倍作为筛选条件下,共获得1548个差异蛋白。
实施例4——预后预测模型构建。
首先将儿童乳头状甲状腺癌的样本随机分为训练集(50个样本,约占60%)和测试集(35个样本,约占40%),训练集将用来构建模型,包括模型参数调优、特征选择与模型训练,测试集将用来评估模型的泛化能力。构建的模型是基于蛋白特征的随机生存森林模型,通过三折交叉验证和网格搜索进行参数调优,并用训练集进行特征选择和模型训练,然后计算模型的在训练集和测试集上的一致性指数及其在训练集上三折交叉验证一致性指数,其中训练一致性指数达到0.996,三折交叉验证一致性指数达到0.969,测试一致性指数达到0.849。特征选择方法具体如下所述:基于调好参数的模型,以儿童良性甲状腺结节和儿童乳头状甲状腺癌样本的1548个差异蛋白为候选蛋白,以100种不同的随机初始状态,每次用训练集对模型进行训练,并根据置换方法对特征进行排序,选出排名前50的特征,统计这100次运行中每种特征出现的次数,最后只留下出现次数大于等于50次的蛋白,最后共19个蛋白,分别为"Q8TBF5_PIGX"、"P10645_CHGA"、"P12111_COL6A3"、"Q08495_DMTN"、"Q99972_MYOC"、"L0R819_ASDURF"、"O00584_RNASET2"、"Q86Y22_COL23A1"、"P13612_ITGA4"、"Q96RP7_GAL3ST4"、"Q4G0X9_CCDC40"、"Q96JY6_PDLIM2"、"P23378_GLDC"、"Q9BXJ5_C1QTNF2"、"P17931_LGALS3"、"Q96F24_NRBF2"、"Q9Y4Z0_LSM4"、"Q9NQ79_CRTAC1"和"Q96AN5_TMEM143",并更新随机生存森林相关参数,将每个决策树的随机选择的特征数目更新为根号下当前变量数向下取整得到的数值,即为4。
表1:19个蛋白的文献总结表
蛋白名 基因名 甲状腺癌相关蛋白 甲状腺功能相关蛋白
P10654 CHGA 是 -
Q86Y22 COL23A1 是 -
P12111 COL6A3 是 -
P13612 ITGA4 是 -
P17931 LGALS3 是 -
Q99972 MYOC - 是
Q08495 DMTN - -
Q8TBF5 PIGX - -
O00584 RNASET2 - -
Q96RP7 GAL3ST4 - -
Q4G0X9 CCDC40 - -
Q96JY6 PDLIM2 - -
P23378 GLDC - -
Q9BXJ5 C1QTNF2 - -
Q96F24 NRBF2 - -
Q9Y4Z0 LSM4 - -
L0R819 ASDURF - -
Q9NQ79 CRTAC1 - -
Q96AN5 TMEM143 - -
实施例5——儿童乳头状甲状腺癌的预后分层。
首先,基于最终的随机生存森林模型,可以个性化地预测每个患者的预后生存曲线,如图1为例;然后,根据每个患者的预后生存曲线,可以计算出其对应的数学期望,作为对预后风险的打分,称为连续风险排序得分,该风险得分越高风险越大,接着根据训练集中复发和不复发两组的风险得分,可以通过费舍尔判别分析确定决策边界,将训练集的样本分为高低风险两层,如图2,其中费舍尔决策边界:-92.36,并比较其生存曲线的差异,如图3;最后,对于新的患者样本,就可以根据该模型对该患者的打分及决策边界来确定其属于高风险组还是低风险组,从而优化个体化的治疗方案以及预后的评估,在测试集上的效果如图4所示。
在构建完模型后,对一批新的队列(共85例)进行了测试,其中有67个人被预测为了低风险,这些人之中只有2例出现复发,且复发时间分别为104和116,远超正常的复发时间;有18个人被预测为高风险,其中有10例出现了复发,有8例未复发,主要是由于这8例患者随访时间较短,还未出现复发现象,这八例样本的预后情况非常值得继续关注,总之,这些数据反映了模型打分的准确性。
虽然本申请在上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本申请公开内容的基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明保护的范围。
Claims (1)
1.一种对儿童甲状腺癌进行预后分层的模型的构建方法,包括:
a) 数据产生方法,包括获取儿童良性甲状腺结节和儿童乳头状甲状腺癌的甲状腺组织中蛋白的相对表达量以及甲状腺癌的预后随访数据,
b) 数据预处理方法,包括使用R软件程序包NAguideR中的鲁棒序列填充法进行缺失值填充,并采用ComBat算法进行批次效应的校正,
c) 蛋白质表达差异分析,包括在儿童良性样本和恶性样本两组之间进行了差异分析,使用Benjamini-Hochberg(BH)校正t检验p值<0.05与差异倍数大于1.2倍作为筛选条件,
d) 模型构建方法,包括基于蛋白特征的随机生存森林模型,通过三折交叉验证和网格搜索进行参数调优,并用训练集进行特征选择和模型训练,然后计算模型在训练集和测试集上的一致性指数及其在训练集上三折交叉验证一致性指数,在训练模型时根据置换方法对特征进行排序,最后得到用于对儿童甲状腺癌进行预后分层的蛋白组合,并且其中通过费舍尔判别分析确定决策边界,其中所述蛋白组合由以下组成:"Q8TBF5_PIGX"、"P10645_CHGA"、"P12111_COL6A3"、"Q08495_DMTN"、"Q99972_MYOC"、"L0R819_ASDURF"、"O00584_RNASET2"、"Q86Y22_COL23A1"、"P13612_ITGA4"、"Q96RP7_GAL3ST4"、"Q4G0X9_CCDC40"、"Q96JY6_PDLIM2"、"P23378_GLDC"、"Q9BXJ5_C1QTNF2"、"P17931_LGALS3"、"Q96F24_NRBF2"、"Q9Y4Z0_LSM4"、"Q9NQ79_CRTAC1"和"Q96AN5_TMEM143"。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211075844.3A CN115144599B (zh) | 2022-09-05 | 2022-09-05 | 蛋白组合在制备对儿童甲状腺癌进行预后分层的试剂盒中的用途及其试剂盒、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211075844.3A CN115144599B (zh) | 2022-09-05 | 2022-09-05 | 蛋白组合在制备对儿童甲状腺癌进行预后分层的试剂盒中的用途及其试剂盒、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115144599A CN115144599A (zh) | 2022-10-04 |
CN115144599B true CN115144599B (zh) | 2023-01-06 |
Family
ID=83416504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211075844.3A Active CN115144599B (zh) | 2022-09-05 | 2022-09-05 | 蛋白组合在制备对儿童甲状腺癌进行预后分层的试剂盒中的用途及其试剂盒、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115144599B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115436640B (zh) * | 2022-11-07 | 2023-04-18 | 西湖欧米(杭州)生物科技有限公司 | 适于可评估甲状腺结节恶性程度或概率的多肽的替代基质 |
CN115881296B (zh) * | 2023-02-09 | 2023-05-26 | 杭州市第一人民医院 | 一种甲状腺乳头状癌(ptc)风险辅助分层系统 |
CN115792247B (zh) * | 2023-02-09 | 2023-09-15 | 杭州市第一人民医院 | 蛋白组合在制备甲状腺乳头状癌风险辅助分层系统中的应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009111881A1 (en) * | 2008-03-13 | 2009-09-17 | British Columbia Cancer Agency Branch | Biomarkers for diagnosis of differentiated thyroid cancer |
CN105087568A (zh) * | 2015-09-01 | 2015-11-25 | 杭州源清生物科技有限公司 | 一组用于肿瘤分子分型的基因及其应用 |
CN114267411A (zh) * | 2021-12-24 | 2022-04-01 | 中南大学湘雅医院 | Dtc预后标志物及其应用、dtc预后评估模型的构建方法 |
CN114705794A (zh) * | 2022-04-15 | 2022-07-05 | 西湖大学 | 一种生物样本的蛋白质组学分析方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7378233B2 (en) * | 2003-04-12 | 2008-05-27 | The Johns Hopkins University | BRAF mutation T1796A in thyroid cancers |
AU2009262894B2 (en) * | 2008-05-30 | 2014-01-30 | British Columbia Cancer Agency Branch | Gene expression profiles to predict breast cancer outcomes |
US9495515B1 (en) * | 2009-12-09 | 2016-11-15 | Veracyte, Inc. | Algorithms for disease diagnostics |
-
2022
- 2022-09-05 CN CN202211075844.3A patent/CN115144599B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009111881A1 (en) * | 2008-03-13 | 2009-09-17 | British Columbia Cancer Agency Branch | Biomarkers for diagnosis of differentiated thyroid cancer |
CN105087568A (zh) * | 2015-09-01 | 2015-11-25 | 杭州源清生物科技有限公司 | 一组用于肿瘤分子分型的基因及其应用 |
CN114267411A (zh) * | 2021-12-24 | 2022-04-01 | 中南大学湘雅医院 | Dtc预后标志物及其应用、dtc预后评估模型的构建方法 |
CN114705794A (zh) * | 2022-04-15 | 2022-07-05 | 西湖大学 | 一种生物样本的蛋白质组学分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115144599A (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115144599B (zh) | 蛋白组合在制备对儿童甲状腺癌进行预后分层的试剂盒中的用途及其试剂盒、系统 | |
US20060275844A1 (en) | Diagnostic markers of breast cancer treatment and progression and methods of use thereof | |
CN110596385A (zh) | 用于评估结肠肿瘤的存在或风险的方法 | |
US11193935B2 (en) | Compositions, methods and kits for diagnosis of lung cancer | |
US9238841B2 (en) | Multi-biomarker-based outcome risk stratification model for pediatric septic shock | |
US20180100858A1 (en) | Protein biomarker panels for detecting colorectal cancer and advanced adenoma | |
CN115575636B (zh) | 一种用于肺癌检测的生物标志物及其系统 | |
KR102302682B1 (ko) | 우울증 진단용 바이오마커 및 이의 용도 | |
CN115798712B (zh) | 一种诊断待测者是否是乳腺癌的系统以及生物标志物 | |
WO2011014349A1 (en) | Serum markers predicting clinical response to anti-tnfalpha antibodies in patients with psoriatic arthritis | |
US20170168058A1 (en) | Compositions, methods and kits for diagnosis of lung cancer | |
WO2012033999A2 (en) | Biomarkers for predicting kidney and glomerular pathologies | |
CN113493829B (zh) | 生物标志物在肺动脉高压诊疗中的应用 | |
CN112382341B (zh) | 一种用于鉴定食管鳞癌预后相关的生物标志物的方法 | |
CN113201590B (zh) | 用于评估肝细胞癌早期复发风险的lncRNA、评估方法及装置 | |
JP2020524794A (ja) | 最適な癌療法のためのslfn11タンパク質の定量 | |
CN115128285B (zh) | 一种蛋白质组合对甲状腺滤泡性肿瘤鉴别评估的试剂盒、系统 | |
CN109735619B (zh) | 与非小细胞肺癌预后相关的分子标志物及其应用 | |
CN116013525A (zh) | 一种基于铁死亡特征构建的结直肠癌预后模型及其构建方法 | |
CN115161398A (zh) | 用于结肠癌诊断或预后评估的标志物组合 | |
WO2016121715A1 (ja) | 肺がん患者の予後を評価するための情報を提供する方法、肺がん患者の予後予測方法、内部標準、抗体、肺がん患者の予後予測装置、予後予測装置のプログラム及び記録媒体 | |
CN113699235B (zh) | 免疫原性细胞死亡相关基因在头颈鳞癌生存预后及放疗应答性中的应用 | |
CN115792247B (zh) | 蛋白组合在制备甲状腺乳头状癌风险辅助分层系统中的应用 | |
CN113151469B (zh) | 肿瘤分类标志物组合及其应用 | |
WO2021241527A1 (ja) | 非小細胞肺がんの化学療法の効果を予測するための情報を提供する方法および情報提供用キット、非小細胞肺がんの化学療法の効果を予測する方法、非小細胞肺がんの化学療法の効果を予測する予測装置、予測装置のプログラムおよび記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |