CN108334747B

CN108334747B - 获取肿瘤尿蛋白标志物的方法及得到的肿瘤相关离群尿蛋白库

Info

Publication number: CN108334747B
Application number: CN201710051714.9A
Authority: CN
Inventors: 秦钧; 甄蓓; 冷文川; 倪晓天; 路天元; 王广舜; 孙长青; 钟博文
Original assignee: Beijing Pinecone Tianmu Health Management Co ltd
Current assignee: Beijing Pinecone Tianmu Health Management Co ltd
Priority date: 2017-01-20
Filing date: 2017-01-20
Publication date: 2020-09-04
Anticipated expiration: 2037-01-20
Also published as: CN108334747A

Abstract

本发明获取肿瘤尿蛋白标志物的方法及得到的肿瘤相关离群尿蛋白库，基于建立的健康人尿蛋白组数据库中人尿蛋白的定量参考范围，从肿瘤患者尿蛋白质组数据集中用超几何分布检验的方法筛选离群蛋白作为肿瘤尿蛋白标志物，并建立肿瘤相关离群尿蛋白库。利用本发明能够更好地排除在尿蛋白生物标志物发现过程中来自生理性波动和个体间差异蛋白的干扰。

Description

获取肿瘤尿蛋白标志物的方法及得到的肿瘤相关离群尿蛋白库

技术领域

本发明属于医药生物领域中生物标志物数据的建立，特别涉及利用健康人尿蛋白质组定量参考范围数据对肿瘤患者的尿蛋白质组进行筛查而获取肿瘤尿蛋白标志物 (即离群尿蛋白)的方法及肿瘤相关离群尿蛋白库的建立。

背景技术

尿液是临床检验中除血液外最常用的体液样本，尿常规中对胆红素、葡萄糖、酮体、蛋白、血细胞等指标的检测被用于各种疾病的诊断或疗效监测。鉴于尿液检测在健康医学方面的重要价值，世界各国科学家一直在利用蛋白质组学技术试图从尿液中找到新的用于疾病诊断、预后判定、疗效检测的蛋白标志物。目前从尿液中寻找新生物标志物的研发流程通常分为发现和验证两个阶段：在发现阶段利用蛋白质组学方法可以分别对几例到几十例(通常<50例)的目标疾病组和对照组样品进行检测，两组间显著差异的蛋白成为候选生物标志物进入验证阶段的研究；在验证阶段，利用大规模独立的样本对候选生物标志物进行检验。由于缺乏高通量的深度定量尿蛋白质组检测方法，在发现阶段通过小样本量找到的候选标志物实际上通常是不同个体间差异的蛋白，而不是真正反映疾病和对照状态差异的蛋白，这是目前还没有通过蛋白质组学方法发现新的尿蛋白标志物成功走上临床实际应用的主要原因。因此，有必要建立一种能够有效克服尿蛋白质组个体内及个体间生理性波动和差异所带来的干扰的获取肿瘤尿蛋白标志物的方法。

发明内容

为了解决现有技术中存在的问题，本发明旨在提供一种获取肿瘤尿蛋白标志物的方法，并进一步提出肿瘤相关离群尿蛋白库，该离群蛋白库的建立中考虑了尿蛋白质组个体内及个体间生理性波动和差异所带来的干扰。

本发明所提供的获取肿瘤尿蛋白标志物的方法，通过建立肿瘤相关离群尿蛋白库获得，包括以下步骤：

(1)基于健康人尿蛋白质组数据集A1用非参数的百分位数法确定健康人尿蛋白质组定量参考范围，以每个尿蛋白在该数据集中的第99.5百分位数的定量值为定量参考范围的上限；

(2)从肿瘤患者尿蛋白质组数据集B中抽取部分形成训练亚数据集B1，将其中的每个尿蛋白质组数据用(1)中建立的参考范围上限进行筛查，如果某个蛋白在至少两个样品中超过参考范围上限则将其纳入到候选肿瘤相关离群尿蛋白库中；所有训练数据被筛完产生一个候选肿瘤相关离群尿蛋白库C1；

(3)从健康人尿蛋白质组数据集A中抽取部分形成亚数据集A2，从肿瘤患者尿蛋白质组数据集B中抽取部分形成验证亚数据集B2，将A2和B2中的每个尿蛋白质组数据用(1)中建立的参考范围上限进行筛查，每个尿蛋白质组(样品)产生一个样品特异的离群尿蛋白库C2；将每个样品特异离群尿蛋白库C2中的全部蛋白与(2)中生成的候选肿瘤相关离群尿蛋白库C1中的蛋白进行对比，确定两个库中相同蛋白及数量，相同的蛋白越多，该样品与肿瘤患者的样品越相近；

利用超几何分布检验的方法(hypergeometric test)来计算C1和C2两个库中相同蛋白重叠的p值，利用这些p值绘制ROC曲线(receiver operating characteristiccurve，ROC)用来考察(2)中生成的候选肿瘤相关离群尿蛋白库 C1对验证亚数据集A2和B2中健康人及肿瘤患者尿蛋白质组的区分能力；

(4)对肿瘤患者尿蛋白质组数据集B进行N次(N为大于10的自然数)随机抽样形成N对训练亚数据集B1和验证亚数据集B2，对每对亚数据集进行上述(3)中同样的分析，得到N个候选肿瘤相关离群尿蛋白库C1及N个ROC曲线，其中与最大ROC 曲线下面积对应的候选肿瘤相关离群尿蛋白库C1被确定为最终的肿瘤相关离群尿蛋白库C，其中包含的离群蛋白即为肿瘤尿蛋白标志物。

上述方法还进一步包括对所建立的肿瘤相关离群尿蛋白库C进行验证的步骤：

(5)从健康人尿蛋白质组数据集A中抽取完全独立(指从未参加过训练和验证过程)部分形成亚数据集A3，从肿瘤患者尿蛋白质组数据集B中抽取完全独立(指从未参加过训练和验证过程)部分形成验证亚数据集B3，利用A3和B3对上述(4)中获得的最终肿瘤相关离群尿蛋白库C区分健康人和肿瘤患者的能力进行测试，方法同上述(3)的方法，得到每个健康人及肿瘤患者尿蛋白质组的超几何分布检验p值，并与上述(4)中确定的卡值Pc进行比较确定每个尿蛋白质组是属于健康人或肿瘤患者，依据假阳性率和假阴性率确定肿瘤相关离群尿蛋白库区分健康人和肿瘤患者的敏感性和特异性。

以上所述的方法中，建立步骤(1)中健康人尿蛋白质组数据集A的过程包括：

1)采样：采集健康人的尿样；

2)制备尿蛋白样品：将采集的每一个尿样制成一个尿蛋白样品；

3)检测：对每一个尿蛋白样品进行质谱检测，得到每一个尿蛋白样品的质谱数据；

4)搜库及定量：对每一个尿蛋白样品的质谱数据进行数据库搜索、肽段定量及蛋白拼接组装，确定每一个尿蛋白样品中的蛋白种类及各蛋白的定量形成一个尿蛋白质组数据；

5)就不同人及不同采样时间跨度确定不同的亚数据集：将单个人不同采样时间跨度的全部尿蛋白样品的尿蛋白质组数据归集得到该人的个体内尿蛋白质组亚数据集(BCM)，将多人少次或单次采样的的全部尿蛋白样品的尿蛋白质组数据归集得到个体间尿蛋白质组亚数据集(BPRC)，按性别归集得到男性或女性尿蛋白质组亚数据集；

6)计算每一亚数据集内全部尿蛋白定量数据的变异系数的分布范围；

7)利用随机重采样的方法，对采样时间跨度最长的2个人的亚数据集进行分析，确定覆盖健康人尿蛋白质组个体内生理性波动或差异所需的采样个数；

8)将全部数量人数的亚数据集合并得到总数据集即健康人尿蛋白质组数据集A；每个亚数据集或总数据集中至少10％的尿样中有定量信息的蛋白才参与评估各亚数据集或总数据集的尿蛋白质组个体间生理性波动和差异的评估。

其中：步骤5)就不同人及不同采样时间跨度确定不同的亚数据集，人数较少采样次数较多的尿样形成的亚数据集用来评估少数人多次采样的尿蛋白质组个体内生理性波动和差异；人数较多采样次数较少的尿样形成的亚数据集用来评估对多数人进行少次或单次采样的尿蛋白质组个体间生理性波动和差异；男性和女性尿蛋白质组亚数据集可用来评估不同性别的尿蛋白质组个体间生理性波动和差异。

所述评估的方法是计算每个符合要求蛋白在相应亚数据集或总数据集中的变异系数，然后以箱型图展示各亚数据集或总数据集中符合要求蛋白的变异系数的分布范围，用以评估相应的尿蛋白质组个体间生理性波动和差异。

以上获取肿瘤尿蛋白标志物的方法中，步骤(1)确定健康人尿蛋白质组定量参考范围是利用亚数据集A1的数据以非参数法计算，按照百分位数法求出参考范围上下限就实际覆盖了目标百分比的个体(如第2.5和97.5百分位数就覆盖了95％的个体)。

以上获取肿瘤尿蛋白标志物的方法中，建立步骤(2)中肿瘤患者尿蛋白质组数据集B的过程包括：

1)采样：采集肿瘤患者的尿样；

5)将全部尿蛋白样品的尿蛋白质组数据归集得到肿瘤患者尿蛋白质组数据集B。

本发明另一目的在于提供一个肿瘤相关离群尿蛋白库。该肿瘤相关离群尿蛋白库通过以上获取肿瘤尿蛋白标志物的方法建立获得。特别的，该肿瘤相关离群尿蛋白库包括表10所列及覆盖的509个尿蛋白。

本发明还一目的在于提供所述肿瘤相关离群尿蛋白库的应用。该应用可针对一个待检尿样，用前述步骤2)-4)获取待检尿样的蛋白质组数据，利用超几何分布检验的方法来计算该尿样和所述肿瘤尿蛋白离群蛋白库中相同蛋白重叠的p值，确定特异性为95％时的Pc值，当的超几何分布检验p值大于Pc时，判断该待检尿样为健康人样品，当小于Pc时，判断该待检尿样为肿瘤患者样品。

本发明的效果：通过大规模地采集健康人尿蛋白质组数据建立了能覆盖个体内及个体间差异和生理性波动的尿蛋白质组数据集，并利用该数据集建立了尿蛋白质组定量参考范围。依据该参考范围对肿瘤患者的尿蛋白质组数据进行筛选，获得肿瘤相关离群尿蛋白标志物，该筛选过程能够很好地排除在尿蛋白生物标志物发现过程中来自生理性波动和个体间差异蛋白的干扰。

附图说明

图1为健康人尿蛋白质组个体内24小时及连续3天的生理性波动范围的变异系数图。24小时数据来自2名自愿者(U001和U002)，连续3天的数据来自16名自愿者(U001-U005、U007-U017)。纵轴为变异系数，横轴为不同个体的不同亚数据集。

图2为健康人尿蛋白质组个体内大于60天的生理性波动范围的变异系数图。除U10、U015及U017外，其他14名自愿者的采样时间跨度在61-314天。纵轴为变异系数，横轴为不同个体的亚数据集。

图3为采样数量与健康人尿蛋白质组个体内生理性波动幅度的关系图。

图4为健康人尿蛋白质组个体间生理性波动范围的变异系数图。纵轴:变异系数；横轴：BCM为亚数据集1，BPRC为亚数据集2，BCM+BPRC为亚数据集1和亚数据集2 合并后的总数据集，Female和Male为总数据集根据性别分成的女性和男性亚数据集。括号中的数字为各数据集中蛋白质组变异系数分布中的中位变异系数。

图5为自愿者U001的一个尿蛋白样(包括2组分的肽样品)经液相色谱串联质谱(LC-MS)检测后生成的总离子流图，纵轴为信号强度，横轴为保留时间。

图6为肿瘤相关离群尿蛋白库的建立过程的流程图，

A幅为训练数据集及侯选肿瘤相关离群蛋白库的生成；

B幅为验证数据集的生成及对侯选肿瘤相关离群蛋白库的评估；

C幅为测试数据集的生成及对最终肿瘤相关离群蛋白库的测试。

图6中英文对应含义：

Bladder-膀胱癌；Breast-乳腺癌；Cervical-宫颈癌；Colorectal-结直肠癌；Esophageal-食管癌；Gastric-胃癌；Lung-肺癌；

Training data-训练数据；Validation data-验证数据；Prediction data-测试数据；

Candidate Cancer Pool-候选肿瘤相关离群蛋白库；

Final Cancer Pool-最终肿瘤相关离群蛋白库；

Hypergeometir test-超几何分布检验

AUC-曲线下面积；

False Positive Rate-假阳性率；

False Negative Rate-假阴性率。

具体实施方式

本发明旨在提供一种获取肿瘤尿蛋白标志物的方法，并进一步提出肿瘤相关离群尿蛋白库。本发明利用健康人尿蛋白质组定量参考范围对肿瘤患者的尿蛋白质组数据进行筛选发现离群蛋白，通过发现、验证及测试三个阶段(将健康人及肿瘤患者的尿蛋白质组数据随机分成训练、验证及测试亚数据集分别进行)的分析最终确定肿瘤相关离群尿蛋白库。蛋白质组指细胞内、组织内、体液内或个体内全部种类蛋白的集合。本发明中，尿蛋白质组的概念是指每个尿样中所包括的全部不同种类的蛋白。

为达成以上成果，本发明就以下几方面内容做出说明：

一、尿蛋白样品的制备

针对采集的健康人尿样和肿瘤患者尿样本发明采用以下基于超速离心和还原的方法得到尿蛋白样品：

(1)10ml尿样，以100000g的离心力在4℃条件下离心20分钟，弃去上清，留沉淀；

(2)将上述沉淀转移至离心管，向离心管中加入60μl的重悬缓冲液(50mM Tris，250mM蔗糖，pH8.5)，在室温静置10分钟，用移液器充分吹打重悬沉淀；

(3)向上述重悬沉淀中加入二硫苏糖醇至终浓度50mM，80℃加热10分钟，去除样品中绝大部分的尿调素蛋白；

(4)补充填加清洗缓冲液(10mM三乙醇胺，100mM氯化钠，pH7.4)至400ul，然后以100000的离心力在4条件下离心20分钟，弃去上清，留沉淀。

该沉淀作为该尿样的尿蛋白样品。

二、尿蛋白样品的质谱检测

本发明将经上述超速离心法制备的每一个尿蛋白样品用60μl的1％十二烷基硫酸钠缓冲液(1％SDS，50mM Tris，pH8.5)溶解沉淀，取30μl上样利用聚丙烯酰胺凝胶电泳(SDS-PAGE)分离，之后将胶切成6条带进行胶内酶解，然后合并为2组分的肽样品作为一个尿蛋白质组，利用LC-MS/MS对2组分肽样品进行检测，得到针对每一尿样的尿蛋白样品数据(质谱数据，谱图参见图5)。具体操作为：

消化后所得肽样品用20μl的上样缓冲液(5％甲醇，0.1％甲酸)溶解，然后取5μl上样，利用ThermoScientific的纳升级液相色谱串联高分辨质谱系统 (nLC-Easy1000-QExactive-HF)进行数据采集。

纳升液相上样柱规格如下：内径100微米、填料为Dr.Maisch GmbH公司的C18 填料(颗粒直径为3微米、颗粒孔径为120纳米)、填料柱床长度为2厘米；纳升液相分离柱规格如下：内径150微米、填料为Dr.Maisch GmbH公司的C18填料(颗粒直径为1.9微米、颗粒孔径为120纳米)、填料柱床长度为12厘米。流动相A为0.1％甲酸；流动相B为乙腈及0.1％甲酸。肽分离洗脱梯度如下：0-69分钟为5％-31％流动相B，70-75分钟为95％流动相B。

质谱数据以Data Dependent Acquisition方式进行采集，Q Exactive-HF所用参数如下：一级质谱分辨率为12万，扫描范围为300-1400m/z，AGC为3E+6，最大离子注入时间为80毫秒；二级质谱根据一级质谱中肽片段的信号强度由高向低依次分离碎裂(以Top 20模式)，二级质谱的分辨率为1.5万，二级质谱母离子质量分离窗口为3m/z，AGC为2E+4，离子最大注入时间为20ms，HCD相对碰撞能量为27％，数据采集时采用12s动态排除。

三、尿蛋白样品的质谱数据分析

利用生物信息学工具和方法将每一尿蛋白样品所得质谱数据进行搜库。数据库搜索的目的是对质谱产出的数据进行分析，确定质谱产出的数据中包含的蛋白。其过程是通过对质谱产出的数据中的母离子的二级谱图进行分析，在一定的质量偏差范围内对碎片离子的强度分布情况与理论强度进行对比，通过未超出质量偏差范围的碎片离子情况对母离子进行评分从而得到母离子(短肽段)的鉴定结果。再将短肽段与已知的蛋白质氨基酸序列库进行匹配，确定所检测到的短肽段所属的蛋白信息，得到蛋白的鉴定结果。具体过程及所用参数如下：

所得质谱数据利用Mascot2.3搜索引擎的Proteome Discoverer V2.0软件进行肽序列数据库搜索分析。在“Mascot”模板中对数据库搜索的各项参数进行设定：在“Protein Database”中选取人蛋白质序列数据库，所用的数据库为美国生物技术信息国家中心(National Center for Biotechnology Information，NCBI)的人类蛋白质参考序列数据库；在“Enzyme Name”中选取Trypsin；在“Maximum Missed Cleavage”中填入2(代表允许的最大漏切位点数为2)；在“Instrument”中选Default；在“Taxonomy”中选Allentries；在“Precursor Mass Tolerance”中填20ppm；在“Precursor Mass Tolerance”中填50mmu；在“Use Average Precursor Mass” 中选False；在“From Quan Method”中选None；在“Show All Modifications”中选False；在“Dynamic Modification“中除选取通常存在的Acetyl(Protein N-term)、 DeStreak(C)、Oxidation(M)、Carbamidomethyl(C)；肽段水平的假阳性鉴定要小于1％。

通过数据库搜索产生的肽段匹配图谱信息对原始数据中的一级谱图进行计算，得到所有肽段的一级定量结果。批量计算的程序使用已有的《基于高解析度质谱数据肽段交叉回归的蛋白丰度定量软件[简称：PQPCR]》V 1.0(中华人民共和国国家版权局计算机软件著作权登记书号：软著登字第0451332号，登记号2012SR083269，登记日期2012年09月04日，著作权人：北京蛋白质组研究中心)。定量后的肽段根据数据库中蛋白的氨基酸序列进行拼接组装成相应的蛋白，获得每一尿蛋白样品对应的尿蛋白质组数据。尿蛋白质组的概念是指每个尿样中所包括的全部不同种类的蛋白，将一个尿样中被鉴定到的全部蛋白称为一个尿蛋白质组。

四、健康人尿蛋白质组及肿瘤患者尿蛋白质组数据集

将通过上述方法分析获得的每一个健康人尿蛋白质组数据依次合并获得健康人蛋白质组数据集A(整合表4和表5，包含167个健康人的497个尿蛋白质组的数据集)，将获得的每一个肿瘤尿蛋白质组数据合并获得患者的肿瘤尿蛋白质组数据集B (如表8-2，包含来自7种实体性肿瘤——膀胱癌17例、乳腺癌4例、宫颈癌25例、结直肠癌22例、食管癌14例、胃癌47例及肺癌25例的154个尿蛋白质组的数据集)。

健康人尿蛋白质组数据集A中的数据用来评估健康人尿蛋白质组的个体内及个体间生理性波动和差异并建立健康人尿蛋白质组定量参考范围。肿瘤尿蛋白质组数据集B中的数据根据需要随机分成训练、验证及测试亚数据集用于肿瘤相关离群尿蛋白的发现、验证及用来区分健康人和肿瘤患者能力的测试。

五、筛查离群蛋白及建立肿瘤相关离群尿蛋白库

将健康人尿蛋白质组数据集A(包含167个健康人的497个尿蛋白质组的数据集)随机分为3个亚数据集。其中第1个亚数据集A1包括350个健康人尿蛋白质组数据，用来建立健康人尿蛋白质组定量参考范围(利用百分位数法)；第2个亚数据集A2 包括100个健康人尿蛋白质组数据用于验证筛选的肿瘤相关离群尿蛋白区分健康人和肿瘤患者能力；第3个亚数据集A3包括47个健康人尿蛋白质组数据用于最后独立测试通过验证的肿瘤相关离群尿蛋白库区分健康人和肿瘤患者能力。其中测试亚数据集 A3一经产生便不再参与肿瘤相关离群蛋白的发现和验证过程，以保证其对最终建立的肿瘤相关离群尿蛋白库区分健康人和肿瘤患者能力进行测试时的独立性。肿瘤患者的尿蛋白质组数据集也被按照7种肿瘤的相应数量随机分为训练亚数据集B1、验证亚数据集B2及测试亚数据集B3用于同相应的健康人尿蛋白质组亚数据集(A1-A3)共同完成肿瘤相关离群尿蛋白库的建立。B1、B2及B3亚数据集分别包括45、61及48个肿瘤患者的尿蛋白质组数据。其中测试亚数据集B3一经产生便不再参与肿瘤相关离群蛋白的发现和验证过程，以保证其对最终建立的肿瘤相关离群尿蛋白库区分健康人和肿瘤患者能力进行测试时的独立性。

一)利用亚数据集A1采用以下方式确定健康人尿蛋白质组定量参考范围：

1、评估健康人尿蛋白质组个体内生理性波动和差异

对三个不同采样时间跨度(24小时内、连续3天以及大于2个月)的健康人个体内尿蛋白质组生理性波动和差异进行了评估，评估方法是确定相应亚数据集中各蛋白质定量数据的变异系数(蛋白定量数据的标准差/蛋白定量数据的均值)的分布范围。每个24小时或连续3天采样的亚数据集中包括3-5个尿蛋白质组数据，对那些在3-5 个尿样中均有定量数据的蛋白，计算其变异系数，最终获得每一亚数据集中全部符合要求蛋白的变异系数分布范围，并用箱型图(box-plot)展示。每个采样时间跨度大于2个月的亚数据集包括6-62个尿蛋白质组数据，对那些至少在3个(<30个尿蛋白质组的亚数据集)或10％尿样(>30个尿蛋白质组的亚数据集)中有定量数据的蛋白计算其变异系数，最终获得每一亚数据集中全部符合要求蛋白的变异系数分布范围，并用箱型图(box-plot)展示。

2、评估健康人尿蛋白质组个体间生理性波动和差异

利用健康人350个尿蛋白质组的数据集A1及其中的男女性别亚数据集来评估健康人尿蛋白质组个体间生理性波动和差异，对每个数据集或亚数据集中超过10％尿样有定量数据的蛋白，计算其定量数据的变异系数，并用箱型图(box-plot)展示各数据集和亚数据集中全部符合要求的蛋白的变异系数分布。

3、健康人尿蛋白质组定量参考范围的建立

通过上述对健康人尿蛋白质组个体内及个体间的生理性波动和差异的系统评估，证明已建立的健康人的350个尿蛋白质组数据集A1能覆盖健康人群尿蛋白质组个体内及个体间生理性波动和差异。对该数据集中的每个蛋白利用百分位数法根据其在 350个尿样中的定量数据确定该蛋白在不同百分位数的定量值作为该蛋白在健康人群尿蛋白质组中的定量参考范围。

二)肿瘤相关离群蛋白筛选及建库的具体过程如下(全部流程见图6)：

(1)用非参数的百分位数法和第1个健康人尿蛋白质组亚数据集A1建立健康人尿蛋白质组定量参考范围。确定方法如一)所述，在此以每个尿蛋白在第1个亚数据集A1的350个尿蛋白质组中定量数据的第99.5百分位数的定量值为定量参考范围的上限；

(2)将包括45个肿瘤患者尿蛋白质组数据的训练亚数据集B1中的每个尿蛋白质组数据用(1)中建立的参考范围上限进行筛查，如果某个蛋白在至少两个样品中超过参考范围上限则将其纳入到后候选肿瘤相关离群尿蛋白库中。当所有训练数据被筛完便产生了1个候选肿瘤相关离群尿蛋白库C1。

(3)将包括100个健康人尿蛋白质组数据的亚数据集A2和61个肿瘤患者尿蛋白质组数据的验证亚数据集B2中的每个尿蛋白质组数据用(1)中建立的参考范围上限进行筛查，这样每个尿蛋白质组都会产生一个样品特异的离群尿蛋白库C2。将每个样品特异离群尿蛋白库C2中的全部蛋白与(2)中生成的候选肿瘤相关离群尿蛋白库 C1中的蛋白进行对比，看两个库中有多少相同的蛋白。样品特异离群尿蛋白库C2与候选肿瘤相关离群尿蛋白库C1中相同的蛋白越多，则说明该样品与肿瘤患者的样品越相近。利用超几何分布检验的方法(hypergeometric test)来计算(计算方法见表9，算式如下)2个库中相同蛋白重叠的p值。

这样健康人尿蛋白质组数据的亚数据集A2及肿瘤患者尿蛋白质组验证亚数据集B2共得到161个相应的超几何分布检验p值，利用这些p值绘制ROC曲线(receiveroperating characteristic curve，ROC)用来考察(2)中生成的候选肿瘤相关离群尿蛋白库C1对验证亚数据集A2和B2中健康人及肿瘤患者尿蛋白质组的区分能力。 ROC曲线纵轴的刻度为0-1，无单位，用来衡量区分健康人及肿瘤患者尿蛋白质组的敏感性，越接近于1代表敏感性越高；横轴为假阳性率，刻度也为0-1，无单位，区分健康人及肿瘤患者尿蛋白质组的特异性＝(1-假阳性率)，该差值越接近于1代表特异性越高。理想状态下敏感性及特异性均为1，ROC曲线下面积为1，因此可用ROC 曲线下面积衡量区分能力的高低。另外还可根据预期的敏感性或特异性确定相应的超几何分布检验p值作为卡值(Pc值)区分健康人及肿瘤患者。在本应用中均以特异性为95％确定相应的卡值Pc。

(4)上述(3)是对106个肿瘤患者尿蛋白质组数据(从B数据集154个肿瘤尿蛋白质组数据中按7种肿瘤数量相应随机抽取48个尿蛋白质组数据生成肿瘤测试亚数据集B3后所余的数据)中随机产生的一个训练亚数据集B1(含45个肿瘤尿蛋白质组数据)和相应的验证亚数据集B2(含61个肿瘤尿蛋白质组数据)产生的结果。为了避免一次随机抽样产生的抽样误差，对106个肿瘤患者尿蛋白质组数据共进行了 20次随机抽样，共获得了20对训练亚数据集和验证亚数据集(20对B1～B2)，对每对亚数据集(B1～B2)进行上述(3)中同样的分析，得到20个候选肿瘤相关离群尿蛋白库C1及20个ROC曲线，其中与最大ROC曲线下面积(0.957)对应的候选肿瘤相关离群尿蛋白库C1被确定为最终的肿瘤相关离群尿蛋白库C(包含509肿瘤相关离群蛋白，参见表10)，特异性为95％时的Pc值为1.78X10^-8，与之对应的敏感性(＝1- 假阴性率)为85.2％见图6的B幅。当被分析样品的超几何分布检验p值大于Pc时，认为该样品为健康人样品，当小于Pc时，认为该样品为肿瘤患者样品。

(5)最后利用完全独立(指从未参加过训练和验证过程)的测试亚数据集A3和 B3(包含47个健康人及48个肿瘤患者的尿蛋白质组数据)对上述(4)中获得的最终肿瘤相关离群尿蛋白库C区分健康人和肿瘤患者的能力进行测试，方法同上述(3) 的方法，得到每个健康人及肿瘤患者尿蛋白质组的超几何分布检验p值，并与上述(4) 中确定的卡值Pc进行比较确定每个尿蛋白质组是属于健康人或肿瘤患者，依据假阳性率和假阴性率确定肿瘤相关离群尿蛋白库区分健康人和肿瘤患者的敏感性和特异性。例如，47名健康人有2名被错分到肿瘤组(假阳性率为4.26％)，48名肿瘤患者中有8名被错分到健康组(假阴性率为16.67％)，根据测试亚数据集的结果，肿瘤相关离群尿蛋白库区分健康人和肿瘤患者的敏感性(＝1-假阴性率)约为85％，特异性(1- 假阳性率)大于95％，见图6的C幅。

下面结合具体实施例对本发明做进一步详细说明。实施例中所用方法如无特别说明均为常规方法；所涉及到的术语如无特别说明均为本意。

实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，实施例将有助于理解本发明，但是本发明的内容不限于下述的实施例。

实施例1、建立用于评估健康人尿蛋白质组个体内生理性波动和差异的数据集，并评估尿蛋白质组个体内生理性波动

建立数据集的过程包括：

1)采样：连续采集17名知情同意自愿者不同时间跨度的尿样，采样时间和数量参见表1；

2)制备尿蛋白样品：将采集的每一个尿样按前述一的方法制成尿蛋白样品，每一尿样制成一尿蛋白样品(含2组分的肽样品))；

3)检测：按前述二的方法对每一个尿蛋白样品进行检测，得到每一尿蛋白样品的质谱数据，以表1中第一行U001-1(U001号志愿者24小时采集的其中1个尿样制成的尿蛋白样品)为例，其质谱图参见图5(上下谱图分别对应2组分的肽样品)；

4)搜库及定量：按前述三的方法对每一尿蛋白样品的质谱数据进行数据库搜索、肽段定量及蛋白拼接组装，确定每一尿蛋白样品中的蛋白种类及各蛋白的定量，得到尿蛋白质组数据，以U001-1(U001号志愿者24小时采集的4个尿样制成的尿蛋白样品)为例，该尿蛋白质组数据见表2，其包含了24小时采集的4个样品涉及1615个蛋白的定量数据，限于篇幅，其中仅摘取部分蛋白数据；

5)按前述四的方法将每一尿蛋白质组数据依次合并得到17名健康自愿者不同采样时间跨度的针对每一自愿者的个体内尿蛋白质组数据集。以U001号志愿者为例，其个体内尿蛋白质组亚数据集见表3，其包含了针对该名志愿者314天采集的62个样品涉及3264个蛋白的定量数据，限于篇幅，其中仅摘取部分蛋白数据；

6)按照前述四的方法根据不同人及不同采样时间跨度确定不同的亚数据集(如表3所示)，计算每一亚数据集内全部尿蛋白定量数据的变异系数的分布范围，用以评估健康人尿蛋白质组不同采样时间跨度的个体内生理性波动或差异；

7)利用随机重采样的方法，对采样时间跨度最长(314和264天)的2名自愿者的亚数据集(分别包括62和51个尿蛋白质组数据)，如表3所示的U001号志愿者亚数据集，以及U002号志愿者的亚数据集(限于篇幅此处省略数据)进行分析，确定覆盖健康人尿蛋白质组个体内生理性波动或差异所需的采样个数。

本实施例的数据集包括17名自愿者的短期(24小时内、连续3天)或长期采样 (超过60天)的数据，每名自愿者的总采样时间跨度为5天至314天，采集每日清晨尿样或24小时尿样；结果获取了共包括319个尿蛋白质组数据的亚数据集BCM(见表4)。

根据尿样来自不同的自愿者，将该亚数据集BCM分成不同个体的亚数据集(见表3)；在这些亚数据集中，根据是否是24小时内连续采样或连续3天采样，可进一步分成不同的亚数据集。利用这些亚数据集可评估健康人个体内24小时、连续3天及大于60天的尿蛋白质组生理性波动范围或差异，结果见图1和图2(横轴为不同个体的不同亚数据集，纵轴为变异系数)。其中：

图1显示的个体内24小时尿蛋白质组生理性波动数据来自2名自愿者(U001和U002)的共4个24小时亚数据集(例如表2)，每个亚数据集中包括3-5个尿蛋白质组数据(这是在24小时内采集的3-5个尿样的数据，每个尿样有1个蛋白质组数据，然后合并成一个24小时的亚数据集)。对每个亚数据集中在全部尿样中都有定量数据的蛋白，求其定量数据的变异系数(定量数据的标准差/定量数据的均值)，亚数据集中全部符合要求的蛋白的变异系数分布范围利用箱型图(Box-plot)进行展示，用来代表个体内24小时尿蛋白质组的生理性波动范围。4个亚数据集的24小时尿蛋白质组生理性波动的中位变异系数(coefficients of variation)在0.29-0.33之间，变化最大的蛋白的变异系数为2.0(见图1)。

个体内连续3天尿蛋白质组生理性波动数据来自16名自愿者(U001-U005、 U007-U017)的35个亚数据集，每个亚数据集中包括3个尿蛋白质组数据(由每天清晨采样的尿蛋白质组数据组成)。利用和评估24小时尿蛋白质组生理性波动同样的方法得到每个亚数据集尿蛋白质组的变异系数分布范围，用以代表个体内连续3天尿蛋白质组的生理性波动范围(见图1)。连续3天尿蛋白质组生理性波动的中位变异系数为0.23-0.5，略高于24小时内尿蛋白质组的定量波动。

个体内超过60天的尿蛋白质组生理性波动数据来自14名自愿者的14个亚数据集，每个亚数据集中包括6-62个尿蛋白质组数据，采样时间跨度为61-314天。对于包括少于30个尿蛋白质组数据的亚数据集，当某蛋白在至少3个尿样中有定量信息时计算其变异系数(如果某蛋白不能在至少3个尿样中被检测到，则认为这个蛋白不是健康人尿蛋白质组中常见的蛋白，因此不评估其生理性波动)；对于包括30个或以上尿蛋白质组数据的亚数据集，当某蛋白在至少10％的尿样中有定量信息时(不能在至少10％尿样中被检测到的蛋白，认为这个蛋白不是健康人尿蛋白质组中常见的蛋白，因此不评估其生理性波动)计算其变异系数。每个亚数据集中尿蛋白质组的生理性波动范围用所有符合要求的蛋白的变异系数的分布范围来表示(见图2)。个体内长期尿蛋白质组生理性波动的中位变异系数为0.45-0.87(见图2)，明显高于24小时和连续3天个体内尿蛋白质组的生理性波动。

图2的数据也表明了个体内尿蛋白质组生理性波动与采样的时间跨度没有线性关系，这表明个体内尿蛋白质组的生理性波动不会随时间的变化而无限变化，而是在一个有限稳定的范围内。因此根据一个人的个体内尿蛋白质组生理性波动范围建立个人尿蛋白质组定量参考范围是可行的。

更进一步，本实施例还利用两个最大的个人尿蛋白质组亚数据集(分别包含62 和51个尿蛋白质组数据)分析至少需要多少个不同的样品才能覆盖到稳定的个体内尿蛋白质组生理性波动范围。每个亚数据集中，只有在至少10％的尿样中有定量信息的蛋白参与分析。利用随机重采样的方法，从每个亚数据集中分别随机抽取3-25个尿蛋白质组数据组成样本量分别为3-25的亚数据集。为避免抽样误差带来的干扰，这一过程共重复100次，这样每个样本量就会得到由反复随机抽取产生的100个亚数据集，计算每个亚数据集中每个蛋白的定量均值(这样每个蛋白就会有100个均值)，然后根据每个蛋白的100个均值计算其定量均值的均值和定量均值的标准差，进一步得到其定量均值的变异系数，最后用箱型图展示在某个样本量下全部蛋白定量均值变异系数的分布范围(见图3)。图3来自两个相互独立个体(A来自U001，B来自U002) 的相互独立的数据集，图中结果清晰显示当检测了一个人的大约15个尿蛋白质组后，尿蛋白质组中蛋白的定量均值开始趋于稳定，表明该个体尿蛋白质组的生理性波动范围基本已被覆盖。

用于评估健康人个体内生理性波动所用的各亚数据集中所包括的蛋白种类等统计信息见表1。

表1.用于评估健康人个体内生理性波动所用的亚数据集统计信息

表2：U001-1尿蛋白样品的尿蛋白质组数据

表3：U001的尿蛋白质组亚数据集(该志愿者314天采集的62个样品中3264 个蛋白的定量数据)

表4. 17名自愿者319个尿蛋白质组亚数据集BCM

实施例2、建立用于评估健康人尿蛋白质组个体间生理性波动和差异的数据集，并评估尿蛋白质组个体间生理性波动

健康人尿蛋白质组的数据采集与实施例1相同。

本实施例采集了由150名自愿者的178个尿蛋白质组数据组成的亚数据集BPRC(参见表5)。

表5.包括150名健康自愿者的178个尿蛋白质组数据亚数据集BPRC

将亚数据集BPRC和亚数据集BCM进行合并得到包括167名健康自愿者的497个尿蛋白质组数据集A(整合表4和表5，此处略)。数据集A还可根据自愿者的性别分成男性和女性尿蛋白质组亚数据集，将包括350个健康人尿蛋白质组数据组成亚数据集A1用来建立健康人尿蛋白质组定量参考范围。亚数据集BCM(包括17名健康自愿者的319个尿蛋白质组数据)可用来评估少数人多次采样的尿蛋白质组个体间生理性波动和差异；亚数据集BPRC(包括150名健康自愿者的178个尿蛋白质组数据) 可用来评估对多数人进行少次或单次采样的尿蛋白质组个体间生理性波动和差异；男性(包括名健康自愿者的个尿蛋白质组数据)和女性(包括名健康自愿者的个尿蛋白质组数据)尿蛋白质组亚数据集可用来评估不同性别的尿蛋白质组个体间生理性波动和差异。只有在每个亚数据集中至少10％的尿样中有定量信息的蛋白才参与评估各亚数据集的尿蛋白质组个体间生理性波动和差异的评估。评估的方法仍然是计算每个符合要求蛋白在相应亚数据集中的变异系数，然后以箱型图展示各亚数据集中符合要求蛋白的变异系数的分布范围，用以评估相应的尿蛋白质组个体间生理性波动和差异 (见图4)。图4结果表明5个亚数据集及中尿蛋白质组的个体间生理性波动范围很相似，中位变异系数在1.01-1.17间，这也说明亚数据集A1基本覆盖健康尿蛋白质组人个体间的生理性波动和差异。但个体间生理波动范围要明显高于个体内的生理性波动范围(图4、图2及图1)。

用于评估健康人个体间生理性波动及差异所用的各亚数据集中所包括的蛋白种类等统计信息见表6。

表6.用于评估健康人个体间生理性波动及差异所用的各亚数据集统计信息

实施例3、建立健康人尿蛋白质组定量参考范围

上述实施例1和2对健康人尿蛋白质组的个体内及个体间生理性波动和差异进行了系统评估，且表明已采集的数据能够覆盖健康人尿蛋白质组的个体内及个体间生理性波动和差异。将健康人尿蛋白质组总数据集A(整合表4和表5，包含167个健康人的497个尿蛋白质组的数据集)随机分为3个亚数据集，其中第1个亚数据集A1 包括350个健康人尿蛋白质组数据，第2个亚数据集A2包括100个健康人尿蛋白质组数据，第3个亚数据集A3包括47个健康人尿蛋白质组数据。本实施例进一步用数据集A1的数据建立健康人尿蛋白质组定量参考范围。

建立定量参考范围的方法分为参数和非参数两种，以参数法建立定量参考范围要求数据必须符合正态分布，这样才能根据数据的统计学参数(均值和标准差)按公式计算覆盖目标百分比人群的参考范围上下限，如均数加减2倍标准差覆盖95％的个体。但在不清楚数据是否符合正态分布时不能利用参数法。

非参数方法对数据的统计学分布没有要求，按照百分位数法求出参考范围上下限就实际覆盖了目标百分比的个体，如第2.5和97.5百分位数就覆盖了95％的个体。鉴于数据集中有些蛋白的定量数据符合正态分布，有些不符合，为了计算方便起见，本实施例采用非参数法建立健康人尿蛋白质组定量参考范围，并以第99.5百分位数的定量值为定量参考范围的上限。具体结果见表7示例。

依据表7数据，以健康人尿蛋白DYNC1H1为例，其第2.5和97.5百分位数水平的定量值(0.044-10.962)覆盖了该蛋白在350个尿样中95％样品的定量波动范围；第99.5百分位数的定量值(19.279)为定量参考范围的上限。

实施例4、建立肿瘤患者尿蛋白质组数据集B并建立肿瘤相关离群尿蛋白库C

建立肿瘤患者尿蛋白质组的数据集过程与实施例1相同。

本实施例采集了154名包括7种实体肿瘤类型患者的154个尿蛋白质组数据建立了肿瘤患者尿蛋白质组数据集B(参见表8-2)。其中，膀胱癌17例、乳腺癌4例、宫颈癌25例、结直肠癌22例、食管癌14例、胃癌47例及肺癌25例。利用实施例2 中的健康人尿蛋白质组总数据集A(整合表4和表5，包括167人的497个尿蛋白质组数据)及本实施例中肿瘤患者的尿蛋白质组数据集B建立肿瘤相关离群尿蛋白库C，具体过程如下：

将健康人尿蛋白质组数据集A(包含167个健康人的497个尿蛋白质组的数据集)随机分为3个亚数据集。其中第1个亚数据集A1包括350个健康人尿蛋白质组数据，用来建立健康人尿蛋白质组定量参考范围(利用百分位数法)；第2个亚数据集A2 包括100个健康人尿蛋白质组数据用于验证筛选的肿瘤相关离群尿蛋白区分健康人和肿瘤患者能力；第3个亚数据集A3包括47个健康人尿蛋白质组数据用于最后独立测试通过验证的肿瘤相关离群尿蛋白库区分健康人和肿瘤患者能力。肿瘤患者的尿蛋白质组数据集也被按照7种肿瘤的相应数量随机分为训练亚数据集B1、验证亚数据集 B2及测试亚数据集B3(参见表8-1)用于同相应的健康人尿蛋白质组亚数据集(A1-A3) 共同完成肿瘤相关离群尿蛋白库的建立。B1、B2及B3亚数据集分别包括45、61及 48个肿瘤患者的尿蛋白质组数据。其中测试亚数据集B3一经产生便不再参与肿瘤相关离群蛋白的发现和验证过程，以保证其对最终建立的肿瘤相关离群尿蛋白库区分健康人和肿瘤患者能力进行测试时的独立性。

表8-1.肿瘤患者的尿蛋白质组数据集B分布情况

154个肿瘤尿蛋白质组数据见表8-2。

表8-2.肿瘤患者尿蛋白质组数据集B

肿瘤相关离群蛋白筛选及建库的具体过程如下：

(1)利用实施例3方法基于第1个健康人尿蛋白质组亚数据集A1建立健康人尿蛋白质组定量参考范围。在此以每个尿蛋白在第1个亚数据集A1的350个尿蛋白质组中定量数据的第99.5百分位数的定量值为定量参考范围的上限；

(3)将包括100个健康人尿蛋白质组数据的亚数据集A2和61个肿瘤患者尿蛋白质组数据的验证亚数据集B2中的每个尿蛋白质组数据用(1)中建立的参考范围上限进行筛查，这样每个尿蛋白质组都会产生一个样品特异的离群尿蛋白库C2。将每个样品特异离群尿蛋白库C2中的全部蛋白与(2)中生成的候选肿瘤相关离群尿蛋白库 C1中的蛋白进行对比，看两个库中有多少相同的蛋白。样品特异离群尿蛋白库C2与候选肿瘤相关离群尿蛋白库C1中相同的蛋白越多，则说明该样品与肿瘤患者的样品越相近。利用超几何分布检验的方法(hypergeometric test)来计算(计算方法见表9)2个库中相同蛋白重叠的p值。

这样健康人尿蛋白质组数据的亚数据集A2及肿瘤患者尿蛋白质组验证亚数据集B2共得到161个相应的超几何分布检验p值，利用这些p值绘制ROC曲线(receiveroperating characteristic curve，ROC)用来考察(2)中生成的候选肿瘤相关离群尿蛋白库C1对验证亚数据集B2中健康人及肿瘤患者尿蛋白质组的区分能力。ROC曲线纵轴的刻度为0-1，无单位，用来衡量区分健康人及肿瘤患者尿蛋白质组的敏感性，越接近于1代表敏感性越高；横轴为假阳性率，刻度也为0-1，无单位，区分健康人及肿瘤患者尿蛋白质组的特异性＝(1-假阳性率)，该差值越接近于1代表特异性越高。理想状态下敏感性及特异性均为1，ROC曲线下面积为1，因此可用ROC曲线下面积衡量区分能力的高低。另外还可根据预期的敏感性或特异性确定相应的超几何分布检验p值作为卡值(Pc值)区分健康人及肿瘤患者。在本应用中均以特异性为95％确定相应的卡值Pc。

表9.超几何分布检验列联表

q(C1∩C2)	m-q(C1-C1∩C2)	m(C1)
			k-q(C2-C1∩C2)	n-k+q(T-C1-C2+C1∩C2)	n(T-C1)
k(C2)	15447-k(T-C2)	15447(T)

注：C1-肿瘤相关离群蛋白库，其所包括的蛋白个数为m；

C2-样品特异离群蛋白库，其所包括的蛋白个数为k；

T-在全部健康人及肿瘤患者尿蛋白质组中检测到的蛋白，其所包括的蛋白个数为15447；

C1∩C2-代表C1和C2的交集，其所包括的蛋白个数为q。

(4)上述(3)是对106个肿瘤患者尿蛋白质组数据(从B数据集154个肿瘤尿蛋白质组数据中按7种肿瘤数量相应随机抽取48个尿蛋白质组数据生成肿瘤测试亚数据集B3后所余的数据)中随机产生的一个训练亚数据集B1(含45个肿瘤尿蛋白质组数据)和相应的验证亚数据集B2(含61个肿瘤尿蛋白质组数据)产生的结果。为了避免一次随机抽样产生的抽样误差，对106个肿瘤患者尿蛋白质组数据共进行了 100次随机抽样，共获得了100对训练亚数据集和验证亚数据集(100对B1～B2)，对每对亚数据集(B1～B2)进行上述(3)中同样的分析，得到100个候选肿瘤相关离群尿蛋白库C1及100个ROC曲线，其中与最大ROC曲线下面积(0.957)对应的候选肿瘤相关离群尿蛋白库C1被确定为最终的肿瘤相关离群尿蛋白库C(包含509肿瘤相关离群蛋白，参见表10)，特异性为95％时的Pc值为1.78X10^-8，与之对应的敏感性 (＝1-假阴性率)为85.2％见图6的B幅。当被分析样品的超几何分布检验p值大于 Pc时，认为该样品为健康人样品，当小于Pc时，认为该样品为肿瘤患者样品。

(5)最后利用完全独立(指从未参加过训练和验证过程)的测试亚数据集A3和 B3(包含47个健康人及48个肿瘤患者的尿蛋白质组数据)对上述(4)中获得的最终肿瘤相关离群尿蛋白库区C分健康人和肿瘤患者的能力进行测试，方法同上述(3) 的方法，得到每个健康人及肿瘤患者尿蛋白质组的超几何分布检验p值，并与上述(4) 中确定的卡值Pc进行比较确定每个尿蛋白质组是属于健康人或肿瘤患者，依据假阳性率和假阴性率确定肿瘤相关离群尿蛋白库区分健康人和肿瘤患者的敏感性和特异性。例如，47名健康人有2名被错分到肿瘤组(假阳性率为4.26％)，48名肿瘤患者中有8名被错分到健康组(假阴性率为16.67％)，根据测试亚数据集的结果，肿瘤相关离群尿蛋白库区分健康人和肿瘤患者的敏感性(＝1-假阴性率)约为85％，特异性(1- 假阳性率)大于95％，见图6的C幅。

表10.肿瘤相关离群尿蛋白库C

注：第一行各种癌症后括号内的数字为该肿瘤尿样的例数；

表格内的数字代表对应蛋白在对应肿瘤样品中为离群蛋白的次数。

本实施例确定的癌症离群蛋白库(C)中的509种离群蛋白为对肿瘤特异性蛋白，可作为肿瘤标志物用于研究开发各种基于尿蛋白检测的癌症早期筛查或监测类服务、试剂盒或其他产品中。

另一方面，利用本实施例的方法，可以调整尿样所针对的疾病种类，可用于开发对不同疾病和状况进行分类的服务和产品(如特定疾病的蛋白标志物)，在此不一一列举，但本领域技术人员参照本实施例所做的类似改变也属于本发明公开内容。

Claims

1.获取肿瘤尿蛋白标志物的方法，通过建立肿瘤相关离群尿蛋白库获得，包括以下步骤：

(3)从健康人尿蛋白质组数据集A中抽取部分形成亚数据集A2，从肿瘤患者尿蛋白质组数据集B中抽取部分形成验证亚数据集B2，将A2和B2中的每个尿蛋白质组数据用(1)中建立的参考范围上限进行筛查，每个尿蛋白质组即每个样品产生一个样品特异的离群尿蛋白库C2；将每个样品特异离群尿蛋白库C2中的全部蛋白与(2)中生成的候选肿瘤相关离群尿蛋白库C1中的蛋白进行对比，确定两个库中相同蛋白及数量，相同的蛋白越多，该样品与肿瘤患者的样品越相近；

利用超几何分布检验的方法来计算C1和C2两个库中相同蛋白重叠的p值，利用这些p值绘制ROC曲线用来考察(2)中生成的候选肿瘤相关离群尿蛋白库C1对验证亚数据集A2和B2中健康人及肿瘤患者尿蛋白质组的区分能力；

(4)对肿瘤患者尿蛋白质组数据集B进行N次随机抽样形成N对训练亚数据集B1和验证亚数据集B2，N为大于10的自然数，对每对亚数据集进行上述(3)中同样的分析，得到N个候选肿瘤相关离群尿蛋白库C2及N个ROC曲线，其中与最大ROC曲线下面积对应的候选肿瘤相关离群尿蛋白库C1被确定为最终的肿瘤相关离群尿蛋白库C，其中包含的离群蛋白即为肿瘤尿蛋白标志物。

2.根据权利要求1所述的方法，其特征在于：还包括对所建立的肿瘤相关离群尿蛋白库C进行验证的步骤：

(5)从健康人尿蛋白质组数据集A中抽取完全独立部分形成亚数据集A3，从肿瘤患者尿蛋白质组数据集B中抽取完全独立部分形成验证亚数据集B3，完全独立是指从未参加过训练和验证过程，利用A3和B3对上述(4)中获得的最终肿瘤相关离群尿蛋白库C区分健康人和肿瘤患者的能力进行测试，方法同上述(3)的方法，得到每个健康人及肿瘤患者尿蛋白质组的超几何分布检验p值，并与卡值Pc进行比较确定每个尿蛋白质组是属于健康人或肿瘤患者，依据假阳性率和假阴性率确定肿瘤相关离群尿蛋白库区分健康人和肿瘤患者的敏感性和特异性，特异性＝(1-假阳性率)，假阳性率为对应p值的ROC曲线的横坐标数值，敏感性用该ROC曲线的纵坐标数值表示；卡值Pc是指特异性为95％的p值。

3.根据权利要求1或2所述的方法，其特征在于：建立步骤(1)中健康人尿蛋白质组数据集A的过程包括：

1)采样：采集健康人的尿样；

5)就不同人及不同采样时间跨度确定不同的亚数据集：将单个人不同采样时间跨度的全部尿蛋白样品的尿蛋白质组数据归集得到该人的个体内尿蛋白质组亚数据集，命名BCM，将多人少次或单次采样的全部尿蛋白样品的尿蛋白质组数据归集得到个体间尿蛋白质组亚数据集，命名BPRC；

4.根据权利要求3所述的方法，其特征在于：步骤5)就不同人及不同采样时间跨度确定不同的亚数据集，亚数据集BCM用来评估单个人多次采样的尿蛋白质组个体内生理性波动和差异；亚数据集BPRC用来评估多人采样的尿蛋白质组个体间生理性波动和差异；男性和女性尿蛋白质组亚数据集用来评估不同性别的尿蛋白质组个体间生理性波动和差异。

5.根据权利要求4所述的方法，其特征在于：所述评估的方法是计算每个符合要求蛋白在相应亚数据集或总数据集中的变异系数，然后以箱型图展示各亚数据集或总数据集中符合要求蛋白的变异系数的分布范围，用以评估相应的尿蛋白质组个体间生理性波动和差异。

6.根据权利要求3所述的方法，其特征在于：步骤(1)确定健康人尿蛋白质组定量参考范围是利用亚数据集A1的数据以非参数法计算，按照百分位数法求出参考范围上下限就实际覆盖了目标百分比的个体。

7.根据权利要求6所述的方法，其特征在于：参考范围为第2.5和第97.5百分位数，覆盖的目标百分比为95％。

8.根据权利要求1或2所述的方法，其特征在于：建立步骤(2)中肿瘤患者尿蛋白质组数据集B的过程包括：

1)采样：采集肿瘤患者的尿样；

9.权利要求1至8任一所述方法中得到的肿瘤相关离群尿蛋白库中的蛋白作为肿瘤尿蛋白标志物的非疾病诊断的应用。

10.根据权利要求9所述的应用，其特征在于，所述肿瘤相关离群尿蛋白库包括509个蛋白。