CN104007165A

CN104007165A - 筛选甲状腺癌的唾液蛋白质组决策树诊断模型及构建方法

Info

Publication number: CN104007165A
Application number: CN201410232889.6A
Authority: CN
Inventors: 吴正治; 孙珂焕; 曹美群
Original assignee: Shenzhen Second Peoples Hospital
Current assignee: Shenzhen Second Peoples Hospital
Priority date: 2014-05-29
Filing date: 2014-05-29
Publication date: 2014-08-27

Abstract

本发明公开了一种筛选甲状腺癌的唾液蛋白质组决策树诊断模型及构建方法，包括以下步骤：收集甲状腺癌、良性结节性甲状腺肿患者和健康者的唾液，静置、离心处理等，并与NP20芯片结合；采用PBS Ⅱ型蛋白质芯片阅读仪检测芯片，采用Proteinchip Software3.2.1分析软件自动采集数据；生物信息学统计分析；该诊断模型包括：甲状腺癌组和健康对照组的唾液差异蛋白比较，由唾液蛋白质质谱中质核比(M/Z)3491.10、3642.28、4315.10、7424.63的4个蛋白质峰；甲状腺癌组和良性结节性甲状腺肿组间的唾液差异蛋白比较，由唾液蛋白质质谱中质核比(M/Z)为2587.38、3346.06、3584.20、8054.57的4个蛋白质峰。本发明构建方法简单，无创伤、操作性强，特异性强、敏感性高，诊断模型为甲状腺癌早期诊断和定性诊断水平提供特异性的标志物。

Description

筛选甲状腺癌的唾液蛋白质组决策树诊断模型及构建方法

技术领域

本发明属于蛋白质组学检测技术领域，尤其涉及一种筛选甲状腺癌的唾液蛋白质组决策树诊断模型及构建方法。

背景技术

甲状腺癌如今已成为常见的恶性肿瘤之一，也是内分泌系统中最常见的恶性肿瘤，占内分泌系统肿瘤的91.5％。目前临床甲状腺癌术前诊断主要依靠B超、CT、MRI、核素扫描、细针穿刺细胞学检查等，但当前诊断技术尚无法满足临床上无创、特异性早期诊断甲状腺癌的要求。在我国，甲状腺癌术前能否确诊长期来一直存在争论。由于甲状腺结节发生率高，同时任何甲状腺疾病均可表现为甲状腺结节，而甲状腺癌的辅助检查方法对甲状腺癌诊断无特异性，甲状腺癌术前误诊率高达40％～77％，有8％～16％病人因甲癌治疗不及时、癌肿播散而死亡。而细针穿刺细胞学检查在甲状腺癌诊断的准确率可达到80％以上，但为侵入性检查，有较大损伤及针道转移危险，应用较少。因此，需要新的特异性检测指标来提高甲状腺癌的早期诊断水平。

发明内容

本发明实施例的目的在于提供一种筛选甲状腺癌的唾液蛋白质组决策树诊断模型及构建方法，旨在解决现有的甲状腺癌诊断的方法存在的无法建立诊断模型，为甲状腺癌的早期诊断通过参考依据的问题。

本发明实施例是这样实现的，一种筛选甲状腺癌的唾液蛋白质组决策树诊断模型的构建方法，该筛选甲状腺癌的唾液蛋白质组决策树诊断模型的构建方法包括以下步骤：

第一步，收集甲状腺癌、良性结节性甲状腺肿患者和健康者的唾液，静置、离心处理等，并与NP20芯片结合；

第二步，采用PBS Ⅱ型蛋白质芯片阅读仪检测芯片，在每次采集数据使用ALL-In-One标准蛋白质芯片校正质谱仪，采用Proteinchip Software3.2.1分析软件自动采集数据；

第三步，生物信息学统计分析，从而得到筛选甲状腺癌早期诊断的特异性蛋白质标记物并构建诊断模型；

生物信息学统计分析的具体步骤为：

步骤一，所有原始数据先用Proteinchip Software3.2.1做校正，使总离子强度及分子量达到均一；

步骤二，对位于2000Da～20000Da的质荷比峰值用Biomarker Wizard3.1软件过滤噪音，设置初始的噪音过滤值为5，二次信噪比为2，允许同一蛋白质峰在不同样本中的偏差<0.3％，以10％为最小阈值进行聚类，得到所有样本的质谱数据在2000Da～20000Da的蛋白质峰；

步骤三，得到初步筛选结果后，由Biomarker Wizard3.1软件对初步筛选出来的蛋白质谱峰M/Z峰强度做用秩和检验，由Biomarker Wizard3.1软件自动完成，各组数据用表示，应用P值评价每一个蛋白质峰的相对重要性，P值越小说明这个蛋白质峰对区分两类样本越重要；

步骤四，将Biomarker Wizard3.1软件处理后的差异蛋白质峰导入BiomakerPattern Software5.0.2软件中，采用决策树分类算法对两组间相同质荷比的差异蛋白质峰做分类分析，建立决策树模型；

步骤五，进一步优化试验参数等确定最佳的分类模型，即诊断模型；

步骤六，导出统计结果和图片。

进一步，在第二步中，使分子量检测误差小于0.1％，蛋白质芯片阅读仪设置激光强度为220，灵敏度为9，收集数据的质荷比范围为2000M/Z～20000M/Z，优化范围为2000M/Z～15000M/Z，信号收集位置从20～80，收集总点数为140次，计算机以1x109Hz的速度从所获得的原始数据快速精确的绘制出蛋白指纹图谱。

进一步，原始数据蛋白质指纹图谱由检测者的多个特异性蛋白质的质荷比和峰强度绘制而成，纵坐标为峰强度，横坐标为蛋白质质荷比。

进一步，该筛选甲状腺癌的唾液蛋白质组决策树诊断模型的构建方法为：

第一步，收集甲状腺癌、良性结节性甲状腺肿患者和健康者的唾液样本，甲状腺癌组49例，女42例，男7例，平均年龄41.57±9.66岁，良性结节性甲状腺肿组34例，女28例，男6例，平均年龄41.06±9.62岁，健康对照组43例，女37例，男6例，平均年龄39.20±9.13岁；

第二步，唾液标本的采集、处理和保存：

第三步，实验方法：

(1)小心的取出NP20芯片，在芯片背后标记时间，芯片种类，操作者的姓名资料，记下芯片号；

(2)取处理好的唾液上清，每条芯片的每个点直接上样4ul，自然晾干后重复上样一次；

(3)待干后，将芯片装入生物芯片处理器，在组装生物芯片处理器时，注意不要触碰加样孔，同时要将芯片上带有A的一头放在外端，注意密封；

(4)每孔加入10ul的HPLC水，置振荡器400转/分～600转/分，冰浴上震荡10分钟，甩去孔中液体，重复操作一次，立刻甩出，拍干，拆开芯片处理器，取出芯片，自然干燥；

(5)待芯片自然干燥后，在每个加样孔上加半饱和SPA溶液0.5ul，待干后重复点加一次，自然干燥，上机检测；

第四步，仪器校正及数据的采集：采用PBS Ⅱ型蛋白质芯片阅读仪检测芯片，在每次采集数据使用ALL-In-One标准蛋白质芯片校正质谱仪，使分子量检测误差小于0.1％，蛋白质芯片阅读仪设置激光强度为220，灵敏度为9，收集数据的质荷比范围为2000M/Z～20000M/Z，优化范围为2000M/Z～15000M/Z，信号收集位置从20～80，收集总点数为140次，采用Proteinchip Software3.2.1分析软件自动采集数据，计算机以1x109Hz的速度从所获得的原始数据快速精确的绘制出蛋白指纹图谱，纵坐标为峰强度，横坐标为蛋白质质荷比；

第五步，生物信息学统计分析

(1)所有原始数据先用Proteinchip Software3.2.1做校正，使总离子强度及分子量达到均一；

(2)对位于2000Da～20000Da的质荷比峰值用Biomarker Wizard3.1软件过滤噪音，设置初始的噪音过滤值为5，二次信噪比为2，允许同一蛋白质峰在不同样本中的偏差小于0.3％，以10％为最小阈值进行聚类，得到所有样本的质谱数据在2000Da～20000Da的蛋白质峰；

(3)得到初步筛选结果后，由Biomarker Wizard3.1软件对初步筛选出来的蛋白质谱峰M/Z峰强度做用秩和检验，由Biomarker Wizard3.1软件自动完成，各组数据用表示，应用P值评价每一个蛋白质峰的相对重要性，P值越小说明这个蛋白质峰对区分两类样本越重要；

(4)将Biomarker Wizard3.1软件处理后的差异蛋白质峰导入BiomakerPattern Software5.0.2软件中，采用决策树分类算法对两组间相同质荷比的差异蛋白质峰做分类分析，建立决策树模型；

(5)进一步优化试验参数确定最佳的分类模型，即诊断模型；

(6)导出统计结果和图片。

进一步，在第二步中，所有样本均在早晨空腹下采集，采集时间为6：00AM～8：00AM，收集前一晚睡前不再进食及服用任何药物，采集前2h开始禁食水用清水漱口，后静坐于椅上，前5min内的唾液自然吞下后开始收集，口腔唾液积聚后，吐入置于冰浴预冷的50mL离心管内，每个唾液样本采集2m～5mL，每个样本采集完立即放入冰盒内；

所有采集的样品立即放入4℃冰箱静置1h后，以10000r/min在4℃下离心10min，冰浴上分装在1mlEP管中，每管50ul于-80℃冰箱保存，实验时由-80℃冰箱取出样本，冰上解冻，所有检测唾液样本均1次冻融，4℃下离心5min，备用。

本发明实施例的另一目的在于提供一种筛选甲状腺癌的唾液蛋白质组决策树诊断模型，该筛选甲状腺癌的唾液蛋白质组决策树诊断模型包括：甲状腺癌组和健康对照组的唾液差异蛋白比较，由唾液蛋白质质谱中质核比3491.10、3642.28、4315.10、7424.63的4个蛋白质峰；

甲状腺癌组和良性结节性甲状腺肿组间的唾液差异蛋白比较，由唾液蛋白质质谱中质核比(M/Z)为2587.38、3346.06、3584.20、8054.57的4个蛋白质峰。

进一步，蛋白质质荷比和峰强度由表面增强激光解吸电离飞行时间质谱仪及分析系统检测得到，蛋白质决策树分类诊断模型由生物标志物向导软件和分析软件检测分析得到。

本发明提供的筛选甲状腺癌的唾液蛋白质组决策树诊断模型及构建方法，通过甲状腺癌组和健康对照组的唾液差异蛋白比较，由唾液蛋白质质谱中质核比(M/Z)3491.10、3642.28、4315.10、7424.63的4个蛋白质峰用于构建该决策树分类诊断模型；甲状腺癌组和良性结节性甲状腺肿组间的唾液差异蛋白比较，由唾液蛋白质质谱中质核比(M/Z)为2587.38、3346.06、3584.20、8054.57的4个蛋白质峰构建该决策树分类诊断模型；构建方法简单，合理可行，且无创、简便、操作性强，特异性强、敏感性高，较好的解决了现有的甲状腺癌诊断的方法存在的无法建立诊断模型，为甲状腺癌的早期诊断通过参考依据的问题。本发明的诊断模型为甲状腺癌早期诊断和定性诊断水平提供特异性的标志物，也为唾液蛋白质组学的进一步研究，唾液蛋白质组无创伤诊断技术探讨新的途径和方法。

附图说明

图1是本发明实施例提供的筛选甲状腺癌的唾液蛋白质组决策树诊断模型的构建方法流程图；

图2是本发明实施例提供的唾液蛋白指纹图谱检测路线流程图；

图3是本发明实施例提供的甲状腺癌组和健康对照组唾液差异蛋白决策树分类诊断模型示意图；

图4是本发明实施例提供的甲状腺癌组和良性结节性甲状腺肿组唾液差异蛋白分类决策树诊断模型示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

如图1所示，本发明实施例的筛选甲状腺癌的唾液蛋白质组决策树诊断模型的构建方法包括以下步骤：

S101：收集甲状腺癌、良性结节性甲状腺肿患者和健康者的唾液，静置、离心处理等，并与NP20芯片结合；

S102：采用PBS Ⅱ型蛋白质芯片阅读仪检测芯片，在每次采集数据使用ALL-In-One标准蛋白质芯片校正质谱仪，采用Proteinchip Software3.2.1分析软件自动采集数据；

S103：生物信息学统计分析，从而得到筛选甲状腺癌早期诊断的特异性蛋白质标记物并构建诊断模型。

在步骤S102中，使分子量检测误差<0.1％，蛋白质芯片阅读仪设置激光强度为220，灵敏度为9，收集数据的质荷比范围为2000M/Z～20000M/Z，优化范围为2000M/Z～15000M/Z，信号收集位置从20～80，收集总点数为140次，计算机以1x109Hz的速度从所获得的原始数据快速精确的绘制出蛋白指纹图谱，纵坐标为峰强度，横坐标为蛋白质质荷比

在步骤S103中，生物信息学统计分析的具体步骤为：

步骤六，导出统计结果和图片。

本发明的筛选甲状腺癌的唾液蛋白质组决策树诊断模型，该筛选甲状腺癌的唾液蛋白质组决策树诊断模型包括：甲状腺癌组和健康对照组的唾液差异蛋白比较，由唾液蛋白质质谱中质核比(M/Z)3491.10、3642.28、4315.10、7424.63的4个蛋白质峰；

结合以下具体实施例对本发明做进一步的说明：

第二步，唾液标本的采集、处理和保存：

a.所有样本均在早晨空腹下采集；采集时间为6：00AM～8：00AM，收集前一晚睡前不再进食及服用任何药物，采集前2h开始禁食水用清水漱口，后静坐于椅上，前5min内的唾液自然吞下后开始收集，口腔唾液积聚至一定量后，吐入置于冰浴预冷的50mL离心管内，每个唾液样本采集约2m～5mL，每个样本采集完立即放入冰盒内；

b.所有采集的样品立即放入4℃冰箱静置1h后，以10000r/min在4℃下离心10min，冰浴上分装在1mlEP管中，每管50ul于-80℃冰箱保存，实验时由-80℃冰箱取出样本，冰上解冻，所有检测唾液样本均1次冻融，4℃下离心5min，备用；

第三步，实验方法：

a.小心的取出NP20芯片，在芯片背后标记时间，芯片种类，操作者的姓名等资料，记下芯片号；

b.取处理好的唾液上清，每条芯片的每个点直接上样4ul，自然晾干后重复上样一次；

c.待干后，将芯片装入生物芯片处理器(Bio-processor)，在组装生物芯片处理器时，注意不要触碰加样孔，同时要将芯片上带有”A”的一头放在外端，注意密封；

d.每孔加入10ul的HPLC水，置振荡器400转/分～600转/分，冰浴上震荡10分钟，甩去孔中液体(注意不要甩的太干)，重复操作一次，立刻甩出，拍干，拆开芯片处理器，取出芯片，自然干燥；

f.待芯片自然干燥后，在每个加样孔上加半饱和SPA溶液0.5ul，待干后重复点加一次，自然干燥，上机检测；

第四步，仪器校正及数据的采集：采用PBS Ⅱ型蛋白质芯片阅读仪检测芯片(SELDI-TOF-MS)，在每次采集数据使用ALL-In-One标准蛋白质芯片校正质谱仪，使分子量检测误差<0.1％，蛋白质芯片阅读仪设置激光强度为220，灵敏度为9，收集数据的质荷比范围为2000-20000M/Z，优化范围为2000M/Z～15000M/Z，信号收集位置从20～80，收集总点数为140次，采用ProteinchipSoftware3.2.1分析软件自动采集数据，计算机以1x109Hz的速度从所获得的原始数据快速精确的绘制出蛋白指纹图谱，纵坐标为峰强度(蛋白质相对含量)，横坐标为蛋白质质荷比；

第五步，生物信息学统计分析

a.所有原始数据先用Proteinchip Software3.2.1做校正，使总离子强度及分子量达到均一；

b.对位于2000Da～20000Da的质荷比峰值用Biomarker Wizard3.1软件过滤噪音，设置初始的噪音过滤值为5，二次信噪比为2，允许同一蛋白质峰在不同样本中的偏差<0.3％，以10％为最小阈值进行聚类，得到所有样本的质谱数据在2000-20000Da的蛋白质峰；

c.得到初步筛选结果后，由Biomarker Wizard3.1软件对初步筛选出来的蛋白质谱峰M/Z峰强度做用秩和检验，由Biomarker Wizard3.1软件自动完成，各组数据用表示，应用P值评价每一个蛋白质峰的相对重要性，P值越小说明这个蛋白质峰对区分两类样本越重要；

d.将Biomarker Wizard3.1软件处理后的差异蛋白质峰导入BiomakerPattern Software5.0.2软件中，采用决策树分类算法对两组间相同质荷比的差异蛋白质峰做分类分析，建立决策树模型；

e.进一步优化试验参数等确定最佳的分类模型，即诊断模型；

f.导出统计结果和图片。

结合以下结果和分析对本发明的使用效果做进一步的说明：

1.甲状腺癌组和健康对照组的唾液差异蛋白质峰的筛选比较及诊断模型的建立：

a.差异蛋白质峰的初步筛选及比较

通过SELDI蛋白指纹图谱仪对45例甲状腺癌患者和43例健康者的唾液样品进行数据采集，用Biomarker Wizard进行初步统计分析后，在2000Da～20000Da范围内共得到221个蛋白质峰，大部分峰集中在2000Da～10000Da，其中28个峰在两组之间表达有显著性差异(P<0.01)，15个蛋白质峰在甲状腺癌组中表达量明显升高，13个蛋白质峰表达量降低，选取其中P值最小的15个代表性蛋白质峰，具体见表1；

表1甲状腺癌组和健康对照组的唾液蛋白质峰表达量的比较

b.该诊断模型的建立：

经Biomarker Pattern Software5.0.2软件分析处理后，从上述差异蛋白质峰中选择差异蛋白建立决策树诊断模型，采用决策树分类分析法，BPS判别分析选出M/Z为3491.10、3642.28、4315.10、7424.63的4个蛋白质峰构建决策树分类诊断模型，其中M/Z3491.10、3642.28在甲状腺癌组中表达量显著降低，M/Z4315.10、7424.63表达量显著增高，详见表1，建立甲状腺癌组和健康对照组的唾液差异蛋白决策树分类诊断模型，具体见图3；

c.该诊断模型的验证及诊断价值

评价诊断模型的诊断价值常用指标有灵敏度、特异度、Youden指数等，见诊断2×2四格表，见表2。

表2诊断试验资料的2×2四格表

1)灵敏度：实际患病且被诊断为阳性的概率就是灵敏度(sensitivity,Sen),也称真阳性率，即Sen＝TP/(TP+FN)，该指标只与病例组有关，反映了诊断试验检出病例的能力。

2)特异度：实际未患病且被诊断为阴性的概率就是特异度(specificity,Spe),也称真阴性率，即Spe＝TN/(FP+TN),该指标只与对照组有关，反映了诊断试验排除非病例的能力。

3)阳性预测值：试验阳性的病例中真阳性的比例就是阳性预测值(positivepredictive value,+PV)，即+PV＝TP/(TP+FP)。

4)阴性预测值：试验阴性的病例中真阴性的比例就是阴性预测值(negativepredictive value,-PV),即-PV＝TN/(TN+FN)。

5)Youdenz指数：真阳性率与假阳性率之差就是Youden指数(Youden’index,J),即灵敏度与特异度之和减去1，J＝Sen+Spe-1。Youden指数的取值范围在(-1,+1)之间，其值越接近+1，诊断准确性越好。

6)ROC曲线：受试者工作特征(Receiver Operating Characteristic)或相对工作特征(Relative Operating Character)曲线简称ROC曲线。ROC曲线的构建是以假阳性率即(1-特异度)为横轴，真阳性率即灵敏度为纵轴，横轴与纵轴长度相等，形成正方形，此构图法可揭示灵敏度和特异度的相互关系，是反映灵敏度和特异度连续变量的综合指标，可反映诊断试验的准确性大小，ROC曲线下面积越大，其诊断价值就越高。

该诊断模型训练组45例甲状腺癌有43例被正确诊断，43例健康人中有40例被正确诊断，该模型训练组判别总准确率为94.3％(83/88)，灵敏度为95.6％(43/45)，特异性为93.0％(40/43)，阳性预测值93.4％(43/46)，阴性预测值95.2％(40/42)，Youden指数为0.886，交叉验证(测试组)总准确率为81.8％(72/88)，灵敏度为88.9％(40/45)，特异性为74.4％(32/43)，阳性预测值78.4％(40/51)，阴性预测值86.5％(32/37)，Youden指数为0.633，进一步计算该模型的ROC曲线下面积为0.953，提示该模型具有较好的诊断价值，具体见表3；

表3甲状腺癌病人与健康对照者的唾液差异蛋白分类树模型交叉验证结果

2.甲状腺癌组和良性结节性甲状腺肿的唾液差异蛋白质峰的筛选比较及诊断模型的建立

a.差异蛋白质峰的初步筛选及比较

通过SELDI蛋白指纹图谱仪对49例甲状腺癌患者和34例良性结节性甲状腺肿患者的唾液样品进行数据采集，用Biomarker Wizard进行初步统计分析后，在2000Da～20000Da范围内共得到208个蛋白质峰，其中49个峰在两组之间表达有显著性差异(P<0.01)，28个蛋白质峰在甲状腺癌组中表达量明显升高，21个蛋白质峰表达量降低，选取P值最小的15个代表性的蛋白质峰，详见表4；

表4甲状腺癌组和良性结节性甲状腺肿组的唾液蛋白质峰表达量的比较

b.该诊断模型的建立

经Biomarker Pattern Software软件分析处理后，从上述差异蛋白质峰中选择差异蛋白建立决策树分类诊断模型，采用决策树分类分析法，BPS判别分析选出M/Z为2587.38、3346.06、3584.20、8054.57的4个蛋白质峰构建决策树分类诊断模型，其中M/Z2587.38、8054.57在甲状腺癌组中表达量显著增高，M/Z3346.06、3584.20在良性结节性甲状腺肿组中表达量显著增高，详见表3，建立甲状腺癌组和良性结节性甲状腺肿组间的唾液差异蛋白决策树分类诊断模型具体见图4；

c.诊断模型的验证及诊断价值的评价

该诊断模型训练组49例甲状腺癌有47例被准确诊断，34例结节性甲状腺肿中有32例被准确诊断。该模型训练组判别总准确率为95.1％(79/83)，灵敏度为95.9％(47/49)，特异性为94.1％(32/34)，阳性预测值95.9％(47/49)，阴性预测值94.1％(32/34)，Youden指数为0.900。交叉验证(测试组)总准确率为89.1％(74/83)，灵敏度为87.7％(43/49)，特异性为91.1％(31/34)，阳性预测值93.4(43/46)，阴性预测值83.7％(31/37)，Youden指数为0.788，进一步计算该模型的ROC曲线下面积为0.954，提示该诊断模型具有较好的诊断价值，具体见表5。

表5甲状腺癌组和良性结节性甲状腺肿组唾液差异蛋白分类模型交叉验证结果

实施例1鉴别甲状腺癌和健康人

收集检测者的唾液和准备唾液，按照上述步骤得到其唾液蛋白指纹图谱，甲状腺癌患者和正常人鉴别的蛋白质指纹图谱，由软件已建立的决策树诊断模型进行决策判别分析诊断，且有M/Z3491.10、3642.28表达量显著降低，M/Z4315.10、7424.63表达量(峰值)显著增高，诊断为甲状腺癌患者。

实施例2鉴别甲状腺癌和良性结节性甲状腺肿组

收集检测者的唾液和准备唾液，按照上述步骤得到其唾液蛋白指纹图谱，甲状腺癌患者和良性结节性甲状腺肿组鉴别的蛋白质指纹图谱，由软件已建立的决策树诊断模型进行决策判别分析诊断，其中且有M/Z2587.38、8054.57表达量(峰值)显著增高，诊断为甲状腺癌患者；其中有M/Z3346.06、3584.20表达量(峰值)显著增高诊断为良性结节性甲状腺肿。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种筛选甲状腺癌的唾液蛋白质组决策树诊断模型的构建方法，其特征在于，该筛选甲状腺癌的唾液蛋白质组决策树诊断模型的构建方法包括以下步骤：

第一步，收集甲状腺癌、良性结节性甲状腺肿患者和健康者的唾液，静置、离心处理，并与NP20芯片结合；

生物信息学统计分析的具体步骤为：

步骤二，对位于2000Da～20000Da的质荷比峰值用Biomarker Wizard3.1软件过滤噪音，设置初始的噪音过滤值为5，二次信噪比为2，允许同一蛋白质峰在不同样本中的偏差小于0.3％，以10％为最小阈值进行聚类，得到所有样本的质谱数据在2000Da～20000Da的蛋白质峰；

步骤三，得到初步筛选结果后，由Biomarker Wizard3.1软件对初步筛选出来的蛋白质谱峰M/Z峰强度做用秩和检验，由Biomarker Wizard3.1软件自动完成，各组数据用表示，应用P值评价每一个蛋白质峰的相对重要性，P值越小说明蛋白质峰对区分两类样本越重要；

步骤五，进一步优化试验参数确定最佳的分类模型，即诊断模型；

步骤六，导出统计结果和图片。

2.如权利要求1所述的筛选甲状腺癌的唾液蛋白质组决策树诊断模型的构建方法，其特征在于，在第二步中，使分子量检测误差小于0.1％，蛋白质芯片阅读仪设置激光强度为220，灵敏度为9，收集数据的质荷比范围为2000M/Z～20000M/Z，优化范围为2000M/Z～15000M/Z，信号收集位置从20～80，收集总点数为140次，计算机以1x109Hz的速度从所获得的原始数据快速精确的绘制出蛋白指纹图谱。

3.如权利要求2所述的筛选甲状腺癌的唾液蛋白质组决策树诊断模型的构建方法，其特征在于，原始数据蛋白质指纹图谱由检测者的多个特异性蛋白质的质荷比和峰强度绘制而成，纵坐标为峰强度，横坐标为蛋白质质荷比。

4.如权利要求1所述的筛选甲状腺癌的唾液蛋白质组决策树诊断模型的构建方法，其特征在于，该筛选甲状腺癌的唾液蛋白质组决策树诊断模型的构建方法为：

第二步，唾液标本的采集、处理和保存：

第三步，实验方法：

第五步，生物信息学统计分析

(5)进一步优化试验参数确定最佳的分类模型，即诊断模型；

(6)导出统计结果和图片。

5.如权利要求4所述的筛选甲状腺癌的唾液蛋白质组决策树诊断模型的构建方法，其特征在于，在第二步中，所有样本均在早晨空腹下采集，采集时间为6：00AM～8：00AM，收集前一晚睡前不再进食及服用任何药物，采集前2h开始禁食水用清水漱口，后静坐于椅上，前5min内的唾液自然吞下后开始收集，口腔唾液积聚后，吐入置于冰浴预冷的50mL离心管内，每个唾液样本采集2m～5mL，每个样本采集完立即放入冰盒内；

6.一种筛选甲状腺癌的唾液蛋白质组决策树诊断模型，其特征在于，该筛选甲状腺癌的唾液蛋白质组决策树诊断模型包括：甲状腺癌组和健康对照组的唾液差异蛋白比较，由唾液蛋白质质谱中质核比3491.10、3642.28、4315.10、7424.63的4个蛋白质峰；

7.如权利要求6所述的筛选甲状腺癌的唾液蛋白质组决策树诊断模型，其特征在于，蛋白质质荷比和峰强度由表面增强激光解吸电离飞行时间质谱仪及分析系统检测得到，蛋白质决策树分类诊断模型由生物标志物向导软件和分析软件检测分析得到。