CN108334752B

CN108334752B - 建立健康人尿蛋白质组定量参考范围的方法及健康人尿蛋白质组数据库

Info

Publication number: CN108334752B
Application number: CN201710048188.0A
Authority: CN
Inventors: 秦钧; 甄蓓; 冷文川; 倪晓天; 路天元; 王广舜; 孙长青; 钟博文
Original assignee: Beijing Pinecone Tianmu Health Management Co ltd
Current assignee: Beijing Pinecone Tianmu Health Management Co ltd
Priority date: 2017-01-20
Filing date: 2017-01-20
Publication date: 2020-09-04
Anticipated expiration: 2037-01-20
Also published as: CN108334752A

Abstract

本发明公开了建立健康人尿蛋白质组定量参考范围的方法和健康人尿蛋白质组数据库，是将统计数量健康人的尿样制成尿蛋白样品，经质谱检测、搜库及定量确定其中的蛋白种类及各蛋白的定量形成一个尿蛋白质组数据，将不同尿蛋白质组数据归集不同的尿蛋白质组亚数据集和总数据集，利用数据集的数据计算得到健康人尿蛋白质组定量参考范围。利用本发明建立的健康人尿蛋白组数据库中人尿蛋白的定量参考范围能够更好地排除在尿蛋白生物标志物发现过程中来自生理性波动和个体间差异蛋白的干扰。

Description

建立健康人尿蛋白质组定量参考范围的方法及健康人尿蛋白质组数据库

技术领域

本发明属于医药生物领域中生物标志物数据的建立，特别涉及利用能覆盖个体内及个体间生理性波动和差异的健康人尿蛋白质组数据集建立健康人尿蛋白质组定量参考范围的方法以及所建立起的健康人尿蛋白质组数据库。

背景技术

尿液是临床检验中除血液外最常用的体液样本，尿常规中对胆红素、葡萄糖、酮体、蛋白、血细胞等指标的检测被用于各种疾病的诊断或疗效监测。鉴于尿液检测在健康医学方面的重要价值，世界各国科学家一直在利用蛋白质组学技术试图从尿液中找到新的用于疾病诊断、预后判定、疗效检测的蛋白标志物。目前从尿液中寻找新生物标志物的研发流程通常分为发现和验证两个阶段：在发现阶段利用蛋白质组学方法可以分别对几例到几十例(通常<50例)的目标疾病组和对照组样品进行检测，两组间显著差异的蛋白成为候选生物标志物进入验证阶段的研究；在验证阶段，利用大规模独立的样本对候选生物标志物进行检验。由于缺乏高通量的深度定量尿蛋白质组检测方法，在发现阶段通过小样本量找到的候选标志物实际上通常是不同个体间差异的蛋白，而不是真正反映疾病和对照状态差异的蛋白，这是目前还没有通过蛋白质组学方法发现新的尿蛋白标志物成功走上临床实际应用的主要原因。因此，建立能覆盖个体内及个体间差异和生理性波动的人尿蛋白质组定量参考范围对于发现新的尿蛋白标志物很有必要。

发明内容

为了解决现有技术中存在的问题，本发明旨在提供一种建立健康人尿蛋白质组定量参考范围的方法，并进一步提出健康人尿蛋白质组数据库，该数据库包括能覆盖个体内及个体间差异和生理性波动的健康人尿蛋白质组数据集及根据该数据集确定的健康人尿蛋白质的数量及计算得到的健康人尿蛋白质组定量参考范围。

本发明所提供的建立健康人尿蛋白质组定量参考范围的方法，包括以下步骤：

1)采样：采集统计数量健康人的尿样；

2)制备尿蛋白样品：将采集的每一个尿样制成一个尿蛋白样品；

3)检测：对每一个尿蛋白样品进行质谱检测，得到每一个尿蛋白样品的质谱数据；

4)搜库及定量：对每一个尿蛋白样品的质谱数据进行数据库搜索、肽段定量及蛋白拼接组装，确定每一个尿蛋白样品中的蛋白种类及各蛋白的定量形成一个尿蛋白质组数据；

5)就不同人及不同采样时间跨度确定不同的亚数据集，包括：将单个人不同采样时间跨度的全部尿蛋白样品的尿蛋白质组数据归集得到该人的个体内尿蛋白质组亚数据集；将多人少次或单次采样的的全部尿蛋白样品的尿蛋白质组数据归集得到个体间尿蛋白质组亚数据集；

6)计算每一亚数据集内全部尿蛋白定量数据的变异系数的分布范围用以评估个体内生理性波动；

7)利用随机重采样的方法，对采样时间跨度最长的2个人的亚数据集进行分析，确定覆盖健康人尿蛋白质组个体内生理性波动或差异所需的采样个数；

8)将全部数量人数的亚数据集合并得到健康人尿蛋白质组数据的总数据集；每个亚数据集或总数据集中至少10％的尿样中有定量信息的蛋白才参与评估各亚数据集或总数据集的尿蛋白质组个体间生理性波动和差异的评估；

9)利用总数据集的数据计算健康人尿蛋白质组定量参考范围。

以上所述方法中，步骤9)中数据符合正态分布时，以参数法建立定量参考范围，根据数据的统计学参数(均值和标准差)按公式计算覆盖目标百分比人群的参考范围上下限(如均数加减2倍标准差覆盖95％的个体)。步骤9)中数据不确定是否符合正态分布时，以非参数法建立定量参考范围，按照百分位数法求出参考范围上下限就实际覆盖了目标百分比的个体(如第2.5和97.5百分位数就覆盖了95％的个体)。

以上所述方法中，就不同人及不同采样时间跨度确定不同的亚数据集，人数较少采样次数较多的尿样形成的亚数据集用来评估少数人多次采样的尿蛋白质组个体内生理性波动和差异；人数较多采样次数较少的尿样形成的亚数据集用来评估对多数人进行少次或单次采样的尿蛋白质组个体间生理性波动和差异；男性和女性尿蛋白质组亚数据集可用来评估不同性别的尿蛋白质组个体间生理性波动和差异。

所述评估的方法是计算每个符合要求蛋白在相应亚数据集或总数据集中的变异系数，然后以箱型图展示各亚数据集或总数据集中符合要求蛋白的变异系数的分布范围，用以评估相应的尿蛋白质组个体间生理性波动和差异。

以上所述的方法中，步骤2)采用基于超速离心和还原的方法得到尿蛋白样品，即将尿样离心后的沉淀用重悬缓冲液(50mM Tris，250mM蔗糖，pH8.5)重悬，再加入二硫苏糖醇，加热去除样品中绝大部分的尿调素蛋白，用清洗缓冲液(10mM三乙醇胺，100mM氯化钠，pH7.4)清洗后离心，得到的沉淀集为该尿样的尿蛋白样品。

步骤3)将所述尿蛋白样品用聚丙烯酰胺凝胶电泳(SDS-PAGE)分离、胶切成6条带进行胶内酶解，然后合并为2组分的肽样品作为一个尿蛋白质组，利用LC-MS/MS对2组分肽样品进行检测，得到针对每一尿样的尿蛋白样品质谱数据；步骤4)搜库的目的是对质谱产出的数据进行分析，确定质谱产出的数据中包含的蛋白，并得到所有肽段的一级定量结果，从而获得每一尿蛋白样品对应的蛋白质组数据。

对三个不同采样时间跨度(24小时内、连续3天以及大于2个月)的健康人个体内尿蛋白质组生理性波动和差异进行评估，评估方法是确定相应亚数据集中各蛋白质定量数据的变异系数(蛋白定量数据的标准差/蛋白定量数据的均值)的分布范围；

每个24小时或连续3天采样的亚数据集中包括3-5个尿蛋白质组数据，对那些在3-5个尿样中均有定量数据的蛋白，计算其变异系数，最终获得每一亚数据集中全部符合要求蛋白的变异系数分布范围，并用箱型图(box-plot)展示；

每个采样时间跨度大于2个月的亚数据集包括6-62个尿蛋白质组数据，对那些至少在3个(<30个尿蛋白质组的亚数据集)或10％尿样(>30个尿蛋白质组的亚数据集)中有定量数据的蛋白计算其变异系数，最终获得每一亚数据集中全部符合要求蛋白的变异系数分布范围，并用箱型图(box-plot)展示。

对总数据集及其中的男女性别亚数据集来评估健康人尿蛋白质组个体间生理性波动和差异，对每个数据集或亚数据集中超过10％尿样有定量数据的蛋白，计算其定量数据的变异系数，并用箱型图(box-plot)展示各数据集和亚数据集中全部符合要求的蛋白的变异系数分布。

本发明另一目的在于提供健康人尿蛋白质组数据库，该健康人尿蛋白质组数据库包括所确定的亚数据集、总数据集、及依据该健康人尿蛋白质组数据集确定的健康人尿蛋白质种类和计算得到的健康人尿蛋白质组定量参考范围。

本发明的效果：通过大规模(指满足统计数量)地采集健康人尿蛋白质组数据建立了健康人尿蛋白质组数据库，该数据库包括了能覆盖健康人个体内及个体间差异和生理性波动的尿蛋白质组数据集及根据该数据集计算得到的健康人尿蛋白质组定量参考范围。利用本发明建立的健康人尿蛋白组数据库中人尿蛋白的定量参考范围能够更好地排除在尿蛋白生物标志物发现过程中来自生理性波动和个体间差异蛋白的干扰。

附图说明

图1为健康人尿蛋白质组个体内24小时及连续3天的生理性波动范围。24小时数据来自2名自愿者(U001和U002)，连续3天的数据来自16名自愿者(U001-U005、U007-U017)。纵轴为变异系数，横轴为不同个体的不同亚数据集。

图2为健康人尿蛋白质组个体内大于60天的生理性波动范围。除U10、U015及U017外，其他14名自愿者的采样时间跨度在61-314天。纵轴为变异系数，横轴为不同个体的亚数据集。

图3为采样数量与健康人尿蛋白质组个体内生理性波动幅度的关系。

图4为健康人尿蛋白质组个体间生理性波动范围。纵轴:变异系数；横轴：BCM为亚数据集1，BPRC为亚数据集2，BCM+BPRC为亚数据集1和亚数据集2合并后的总数据集，Female和Male为总数据集根据性别分成的女性和男性亚数据集。括号中的数字为各数据集中蛋白质组变异系数分布中的中位变异系数。

图5为自愿者U001的一个尿蛋白样(包括2组分的肽样品)经液相色谱串联质谱(LC-MS)检测后生成的总离子流图，纵轴为信号强度，横轴为保留时间。

具体实施方式

本发明旨在提供一种建立健康人尿蛋白质组定量参考范围的方法，并进一步提出健康人尿蛋白组数据库。为达成以上成果，本发明就以下几方面内容做出说明：

一、尿蛋白样品的制备

针对采集的健康人尿样本发明采用以下基于超速离心和还原的方法得到尿蛋白样品：

(1)10ml尿样，以100000g的离心力在4℃条件下离心20分钟，弃去上清，留沉淀；

(2)将上述沉淀转移至离心管，向离心管中加入60μl的重悬缓冲液(50mM Tris，250mM蔗糖，pH8.5)，在室温静置10分钟，用移液器充分吹打重悬沉淀；

(3)向上述重悬沉淀中加入二硫苏糖醇至终浓度50mM，80℃加热10分钟，去除样品中绝大部分的尿调素蛋白；

(4)补充填加清洗缓冲液(10mM三乙醇胺，100mM氯化钠，pH7.4)至400ul，然后以100000的离心力在4条件下离心20分钟，弃去上清，留沉淀。

该沉淀作为该尿样的尿蛋白样品。

二、尿蛋白样品的质谱检测

本发明将经上述超速离心法制备的每一个尿蛋白样品用60μl的1％十二烷基硫酸钠缓冲液(1％SDS，50mM Tris，pH8.5)溶解沉淀，取30μl上样利用聚丙烯酰胺凝胶电泳(SDS-PAGE)分离，之后将胶切成6条带进行胶内酶解，然后合并为2组分的肽样品作为一个尿蛋白质组，利用LC-MS/MS对2组分肽样品进行检测，得到针对每一尿样的尿蛋白样品数据(质谱数据，谱图参见图5)。具体操作为：

消化后所得肽样品用20μl的上样缓冲液(5％甲醇，0.1％甲酸)溶解，然后取5μl上样，利用ThermoScientific的纳升级液相色谱串联高分辨质谱系统(nLC-Easy1000-QExactive-HF)进行数据采集。

纳升液相上样柱规格如下：内径100微米、填料为Dr.Maisch GmbH公司的C18填料(颗粒直径为3微米、颗粒孔径为120纳米)、填料柱床长度为2厘米；纳升液相分离柱规格如下：内径150微米、填料为Dr.Maisch GmbH公司的C18填料(颗粒直径为1.9微米、颗粒孔径为120纳米)、填料柱床长度为12厘米。流动相A为0.1％甲酸；流动相B为乙腈及0.1％甲酸。肽分离洗脱梯度如下：0-69分钟为5％-31％流动相B，70-75分钟为95％流动相B。

质谱数据以Data Dependent Acquisition方式进行采集，Q Exactive-HF所用参数如下：一级质谱分辨率为12万，扫描范围为300-1400m/z，AGC为3E+6，最大离子注入时间为80毫秒；二级质谱根据一级质谱中肽片段的信号强度由高向低依次分离碎裂(以Top 20模式)，二级质谱的分辨率为1.5万，二级质谱母离子质量分离窗口为3m/z，AGC为2E+4，离子最大注入时间为20ms，HCD相对碰撞能量为27％，数据采集时采用12s动态排除。

三、尿蛋白样品的质谱数据分析

利用生物信息学工具和方法将每一尿蛋白样品所得质谱数据进行搜库。数据库搜索的目的是对质谱产出的数据进行分析，确定质谱产出的数据中包含的蛋白。其过程是通过对质谱产出的数据中的母离子的二级谱图进行分析，在一定的质量偏差范围内对碎片离子的强度分布情况与理论强度进行对比，通过未超出质量偏差范围的碎片离子情况对母离子进行评分从而得到母离子(短肽段)的鉴定结果。再将短肽段与已知的蛋白质氨基酸序列库进行匹配，确定所检测到的短肽段所属的蛋白信息，得到蛋白的鉴定结果。具体过程及所用参数如下：

所得质谱数据利用Mascot2.3搜索引擎的Proteome Discoverer V2.0软件进行肽序列数据库搜索分析。在“Mascot”模板中对数据库搜索的各项参数进行设定：在“ProteinDatabase”中选取人蛋白质序列数据库，所用的数据库为美国生物技术信息国家中心(National Center for Biotechnology Information，NCBI)的人类蛋白质参考序列数据库；在“Enzyme Name”中选取Trypsin；在“Maximum Missed Cleavage”中填入2(代表允许的最大漏切位点数为2)；在“Instrument”中选Default；在“Taxonomy”中选All entries；在“Precursor Mass Tolerance”中填20ppm；在“Precursor Mass Tolerance”中填50mmu；在“Use Average Precursor Mass”中选False；在“From Quan Method”中选None；在“ShowAll Modifications”中选False；在“Dynamic Modification“中除选取通常存在的Acetyl(Protein N-term)、DeStreak(C)、Oxidation(M)、Carbamidomethyl(C)；肽段水平的假阳性鉴定要小于1％。

通过数据库搜索产生的肽段匹配图谱信息对原始数据中的一级谱图进行计算，得到所有肽段的一级定量结果。批量计算的程序使用已有的《基于高解析度质谱数据肽段交叉回归的蛋白丰度定量软件[简称：PQPCR]》V 1.0(中华人民共和国国家版权局计算机软件著作权登记书号：软著登字第0451332号，登记号2012SR083269，登记日期2012年09月04日，著作权人：北京蛋白质组研究中心)。定量后的肽段根据数据库中蛋白的氨基酸序列进行拼接组装成相应的蛋白，获得每一尿蛋白样品对应的蛋白质组数据。尿蛋白质组的概念是指每个尿样中所包括的全部不同种类的蛋白，通常称一个尿样中被鉴定到的全部蛋白为该尿样的蛋白质组。

四、健康人尿蛋白质组数据集及相应亚数据集的建立

将通过上述方法分析获得的每一个尿蛋白质组数据依次合并获得蛋白质组数据集(如表5，包含167个健康人的497个尿蛋白质组的数据集)。该数据集中的数据可根据用来评估不同类型尿蛋白质组生理性波动和差异的目的分为不同的亚数据集。例如，用来评估某一个体的个体内差异的数据可以构成一个亚数据集(如表3)；这个亚数据集内的数据也可以根据采样时间跨度的不同再分成相应的亚数据集，用以评估健康人个体内不同时间跨度的尿蛋白质组生理性波动和差异。此外，还可以根据性别等因素建立亚数据集。

利用数据集或亚数据集的数据系统评估健康人尿蛋白质组个体内及个体间的差异和生理性波动，并在此基础上利用百分位数法计算出健康人尿蛋白质组的定量参考范围(参见表6)。

五、评估健康人尿蛋白质组个体内生理性波动和差异

对三个不同采样时间跨度(24小时内、连续3天以及大于2个月)的健康人个体内尿蛋白质组生理性波动和差异进行了评估，评估方法是确定相应亚数据集中各蛋白质定量数据的变异系数(蛋白定量数据的标准差/蛋白定量数据的均值)的分布范围。每个24小时或连续3天采样的亚数据集中包括3-5个尿蛋白质组数据，对那些在3-5个尿样中均有定量数据的蛋白，计算其变异系数，最终获得每一亚数据集中全部符合要求蛋白的变异系数分布范围，并用箱型图(box-plot)展示。每个采样时间跨度大于2个月的亚数据集包括6-62个尿蛋白质组数据，对那些至少在3个(<30个尿蛋白质组的亚数据集)或10％尿样(>30个尿蛋白质组的亚数据集)中有定量数据的蛋白计算其变异系数，最终获得每一亚数据集中全部符合要求蛋白的变异系数分布范围，并用箱型图(box-plot)展示。

六、评估健康人尿蛋白质组个体间生理性波动和差异

利用包含167个健康人的497个尿蛋白质组的数据集及其中的男女性别亚数据集来评估健康人尿蛋白质组个体间生理性波动和差异，对每个数据集或亚数据集中超过10％尿样有定量数据的蛋白，计算其定量数据的变异系数，并用箱型图(box-plot)展示各数据集和亚数据集中全部符合要求的蛋白的变异系数分布。

七、健康人尿蛋白质组定量参考范围的建立

通过上述对健康人尿蛋白质组个体内及个体间的生理性波动和差异的系统评估，证明已建立的包含167个健康人的497个尿蛋白质组数据集能覆盖健康人群尿蛋白质组个体内及个体间生理性波动和差异。对该数据集中的每个蛋白利用百分位数法根据其在497个尿样中的定量数据确定该蛋白在不同百分位数的定量值作为该蛋白在健康人群尿蛋白质组中的定量参考范围。例如，某蛋白的第2.5和97.5百分位数水平的定量值覆盖了该蛋白在497个尿样中95％样品的定量波动范围。本数据集中全部蛋白的定量参考范围，可用于尿蛋白生物标志物研发过程中排除生理性波动或个体间差异带来的干扰；也可在利用尿蛋白质组信息进行健康管理过程中帮助发现超出定量参考范围的离群蛋白。

下面结合具体实施例对本发明做进一步详细说明。实施例中所用方法如无特别说明均为常规方法；所涉及到的术语如无特别说明均为本意；实施例中描述到的各种材料、试剂或软件均为商购或公众正常渠道取得。

实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，实施例将有助于理解本发明，但是本发明的内容不限于下述的实施例。

实施例1、建立用于评估健康人尿蛋白质组个体内生理性波动和差异的数据集，并评估尿蛋白质组个体内生理性波动

建立数据集的过程包括：

1)采样：连续采集17名知情同意自愿者不同时间跨度的尿样，采样时间和数量参见表1；

2)制备尿蛋白样品：将采集的每一个尿样按前述一的方法制成尿蛋白样品，每一尿样制成一尿蛋白样品(含2组分的肽样品))；

3)检测：按前述二的方法对每一个尿蛋白样品进行检测，得到每一尿蛋白样品的质谱数据，以表1中第一行U001-1(U001号志愿者24小时采集的其中1个尿样制成的尿蛋白样品)为例，其质谱图参见图5(上下谱图分别对应2组分的肽样品)；

4)搜库及定量：按前述三的方法对每一尿蛋白样品的质谱数据进行数据库搜索、肽段定量及蛋白拼接组装，确定每一尿蛋白样品中的蛋白种类及各蛋白的定量，得到尿蛋白质组数据，以U001-1(U001号志愿者24小时采集的4个尿样制成的尿蛋白样品)为例，该尿蛋白质组数据见表2，其包含了24小时采集的4个样品涉及1615个蛋白的定量数据，限于篇幅，其中仅摘取部分蛋白数据；

5)按前述四的方法将每一尿蛋白质组数据依次合并得到17名健康自愿者不同采样时间跨度的针对每一自愿者的个体内尿蛋白质组数据集。以U001号志愿者为例，其个体内尿蛋白质组亚数据集见表3，其包含了针对该名志愿者314天采集的62个样品涉及3264个蛋白的定量数据，限于篇幅，其中仅摘取部分蛋白数据；

6)按照前述四的方法根据不同人及不同采样时间跨度确定不同的亚数据集(如表3所示)，计算每一亚数据集内全部尿蛋白定量数据的变异系数的分布范围，用以评估健康人尿蛋白质组不同采样时间跨度的个体内生理性波动或差异；

7)利用随机重采样的方法，对采样时间跨度最长(314和264天)的2名自愿者的亚数据集(分别包括62和51个尿蛋白质组数据)，如表3所示的U001号志愿者亚数据集，以及U002号志愿者的亚数据集(限于篇幅此处省略数据)进行分析，确定覆盖健康人尿蛋白质组个体内生理性波动或差异所需的采样个数。

本实施例的数据集包括17名自愿者的短期(24小时内、连续3天)或长期采样(超过60天)的数据，每名自愿者的总采样时间跨度为5天至314天，采集每日清晨尿样或24小时尿样；结果获取了共包括319个尿蛋白质组数据的数据集(BCM，亚数据集1，见表4)。

根据尿样来自不同的自愿者，将该数据集分成不同个体的亚数据集(见表3)；在这些亚数据集中，根据是否是24小时内连续采样或连续3天采样，可进一步分成不同的亚数据集。利用这些亚数据集可评估健康人个体内24小时、连续3天及大于60天的尿蛋白质组生理性波动范围或差异，结果见图1和图2(横轴为不同个体的不同亚数据集，纵轴为变异系数)。其中：

图1显示的个体内24小时尿蛋白质组生理性波动数据来自2名自愿者(U001和U002)的共4个24小时亚数据集(例如表2)，每个亚数据集中包括3-5个尿蛋白质组数据(这是在24小时内采集的3-5个尿样的数据，每个尿样有1个蛋白质组数据，然后合并成一个24小时的亚数据集)。对每个亚数据集中在全部尿样中都有定量数据的蛋白，求其定量数据的变异系数(定量数据的标准差/定量数据的均值)，亚数据集中全部符合要求的蛋白的变异系数分布范围利用箱型图(Box-plot)进行展示，用来代表个体内24小时尿蛋白质组的生理性波动范围。4个亚数据集的24小时尿蛋白质组生理性波动的中位变异系数(coefficientsof variation)在0.29-0.33之间，变化最大的蛋白的变异系数为2.0(见图1)。

个体内连续3天尿蛋白质组生理性波动数据来自16名自愿者(U001-U005、U007-U017)的35个亚数据集，每个亚数据集中包括3个尿蛋白质组数据(由每天清晨采样的尿蛋白质组数据组成)。利用和评估24小时尿蛋白质组生理性波动同样的方法得到每个亚数据集尿蛋白质组的变异系数分布范围，用以代表个体内连续3天尿蛋白质组的生理性波动范围(见图1)。连续3天尿蛋白质组生理性波动的中位变异系数为0.23-0.5，略高于24小时内尿蛋白质组的定量波动。

个体内超过60天的尿蛋白质组生理性波动数据来自14名自愿者的14个亚数据集，每个亚数据集中包括6-62个尿蛋白质组数据，采样时间跨度为61-314天。对于包括少于30个尿蛋白质组数据的亚数据集，当某蛋白在至少3个尿样中有定量信息时计算其变异系数(如果某蛋白不能在至少3个尿样中被检测到，则认为这个蛋白不是健康人尿蛋白质组中常见的蛋白，因此不评估其生理性波动)；对于包括30个或以上尿蛋白质组数据的亚数据集，当某蛋白在至少10％的尿样中有定量信息时(不能在至少10％尿样中被检测到的蛋白，认为这个蛋白不是健康人尿蛋白质组中常见的蛋白，因此不评估其生理性波动)计算其变异系数。每个亚数据集中尿蛋白质组的生理性波动范围用所有符合要求的蛋白的变异系数的分布范围来表示(见图2)。个体内长期尿蛋白质组生理性波动的中位变异系数为0.45-0.87(见图2)，明显高于24小时和连续3天个体内尿蛋白质组的生理性波动。

图2的数据也表明了个体内尿蛋白质组生理性波动与采样的时间跨度没有线性关系，这表明个体内尿蛋白质组的生理性波动不会随时间的变化而无限变化，而是在一个有限稳定的范围内。因此根据一个人的个体内尿蛋白质组生理性波动范围建立个人尿蛋白质组定量参考范围是可行的。

更进一步，本实施例还利用两个最大的个人尿蛋白质组亚数据集(分别包含62和51个尿蛋白质组数据)分析至少需要多少个不同的样品才能覆盖到稳定的个体内尿蛋白质组生理性波动范围。每个亚数据集中，只有在至少10％的尿样中有定量信息的蛋白参与分析。利用随机重采样的方法，从每个亚数据集中分别随机抽取3-25个尿蛋白质组数据组成样本量分别为3-25的亚数据集。为避免抽样误差带来的干扰，这一过程共重复100次，这样每个样本量就会得到由反复随机抽取产生的100个亚数据集，计算每个亚数据集中每个蛋白的定量均值(这样每个蛋白就会有100个均值)，然后根据每个蛋白的100个均值计算其定量均值的均值和定量均值的标准差，进一步得到其定量均值的变异系数，最后用箱型图展示在某个样本量下全部蛋白定量均值变异系数的分布范围(见图3)。图3来自两个相互独立个体(A来自U001，B来自U002)的相互独立的数据集，图中结果清晰显示当检测了一个人的大约15个尿蛋白质组后，尿蛋白质组中蛋白的定量均值开始趋于稳定，表明该个体尿蛋白质组的生理性波动范围基本已被覆盖。

用于评估健康人个体内生理性波动所用的各亚数据集中所包括的蛋白种类等统计信息见表1。

表1.用于评估健康人个体内生理性波动所用的亚数据集统计信息

表2：U001-1尿蛋白样品的尿蛋白质组数据

表3：U001的尿蛋白质组亚数据集

(该志愿者314天采集的62个样品中3264个蛋白的定量数据)

表4.17名自愿者319个尿蛋白质组亚数据集BCM

实施例2、建立用于评估健康人尿蛋白质组个体间生理性波动和差异的数据集，并评估尿蛋白质组个体间生理性波动

健康人尿蛋白质组的数据采集与实施例1相同。

本实施例采集了由150名自愿者的178个尿蛋白质组数据组成的亚数据集BPRC(亚数据集2，参见表5)。

表5.包括150名健康自愿者的178个尿蛋白质组数据亚数据集BPRC

将亚数据集2(BPRC)和亚数据集1(BCM)进行合并得到包括167名健康自愿者的497个尿蛋白质组数据的总数据集(整合表4和表5，此处略)。总数据集还可根据自愿者的性别分成男性和女性尿蛋白质组亚数据集。亚数据集1(包括17名健康自愿者的319个尿蛋白质组数据)可用来评估少数人多次采样的尿蛋白质组个体间生理性波动和差异；亚数据集2(包括150名健康自愿者的178个尿蛋白质组数据)可用来评估对多数人进行少次或单次采样的尿蛋白质组个体间生理性波动和差异；男性(包括名健康自愿者的个尿蛋白质组数据)和女性(包括名健康自愿者的个尿蛋白质组数据)尿蛋白质组亚数据集可用来评估不同性别的尿蛋白质组个体间生理性波动和差异。只有在每个亚数据集或总数据集中至少10％的尿样中有定量信息的蛋白才参与评估各亚数据集或总数据集的尿蛋白质组个体间生理性波动和差异的评估。评估的方法仍然是计算每个符合要求蛋白在相应亚数据集或总数据集中的变异系数，然后以箱型图展示各亚数据集或总数据集中符合要求蛋白的变异系数的分布范围，用以评估相应的尿蛋白质组个体间生理性波动和差异(见图4)。图4结果表明4个亚数据集及总数据集中尿蛋白质组的个体间生理性波动范围很相似，中位变异系数在1.01-1.17间，这也说明总数据集基本覆盖健康尿蛋白质组人个体间的生理性波动和差异。但个体间生理波动范围要明显高于个体内的生理性波动范围(图4、图2及图1)。

用于评估健康人个体间生理性波动及差异所用的各亚数据集中所包括的蛋白种类等统计信息见表6。

表6.用于评估健康人个体间生理性波动及差异所用的各亚数据集统计信息

实施例3、建立健康人尿蛋白质组定量参考范围

上述实施例1和2对健康人尿蛋白质组的个体内及个体间生理性波动和差异进行了系统评估，且表明已采集的数据能够覆盖健康人尿蛋白质组的个体内及个体间生理性波动和差异。本实施例进一步用总数据集(包括167名健康自愿者的497个尿蛋白质组数据)的数据建立健康人尿蛋白质组定量参考范围。

建立定量参考范围的方法分为参数和非参数两种，以参数法建立定量参考范围要求数据必须符合正态分布，这样才能根据数据的统计学参数(均值和标准差)按公式计算覆盖目标百分比人群的参考范围上下限，如均数加减2倍标准差覆盖95％的个体。但在不清楚数据是否符合正态分布时不能利用参数法。

非参数方法对数据的统计学分布没有要求，按照百分位数法求出参考范围上下限就实际覆盖了目标百分比的个体，如第2.5和97.5百分位数就覆盖了95％的个体。鉴于数据集中有些蛋白的定量数据符合正态分布，有些不符合，为了计算方便起见，本实施例采用非参数法建立健康人尿蛋白质组定量参考范围。具体结果见表7示例。

依据表7数据，以健康人尿蛋白DYNC1H1为例，其第2.5和97.5百分位数水平的定量值(0.024-11.344)覆盖了该蛋白在497个尿样中95％样品的定量波动范围；其第5和95百分位数水平的定量值(0.918-8.964)覆盖了该蛋白在497个尿样中90％样品的定量波动范围。

实施例4、建立健康人尿蛋白质组数据库

依据以上实施例建立健康人尿蛋白质组数据库，该数据库包括前述所确定的各亚数据集(如表1-表5)、总数据集(如表6)、及依总数据集确定的健康人尿蛋白质种类和计算得到的健康人尿蛋白质组定量参考范围(如表7)。

Claims

1.建立健康人尿蛋白质组定量参考范围的方法，包括以下步骤：

1)采样：采集统计数量健康人的尿样；

5)就不同人及不同采样时间跨度确定不同的亚数据集，包括：将单个人不同采样时间跨度的全部尿蛋白样品的尿蛋白质组数据归集得到该人的个体内尿蛋白质组亚数据集；将多人少次或单次采样的全部尿蛋白样品的尿蛋白质组数据归集得到个体间尿蛋白质组亚数据集；

2.根据权利要求1所述的方法，其特征在于：步骤9)中数据符合正态分布时，以参数法建立定量参考范围，根据数据的统计学参数，即均值和标准差，计算覆盖目标百分比人群的参考范围上下限。

3.根据权利要求2所述的方法，其特征在于：所述目标百分比为95％，由均值加减2倍标准差计算得到。

4.根据权利要求1所述的方法，其特征在于：步骤9)中数据不确定是否符合正态分布时，以非参数法建立定量参考范围，按照百分位数法求出覆盖目标百分比个体的参考范围上下限。

5.根据权利要求4所述的方法，其特征在于：目标百分比为95％，根据第2.5和第97.5百分位数求出。

6.根据权利要求1或2或3或4或5所述的方法，其特征在于：就不同人及不同采样时间跨度确定不同的亚数据集，人数较少采样次数较多的尿样形成的亚数据集用来评估少数人多次采样的尿蛋白质组个体内生理性波动和差异；人数较多采样次数较少的尿样形成的亚数据集用来评估对多数人进行少次或单次采样的尿蛋白质组个体间生理性波动和差异；男性和女性尿蛋白质组亚数据集用来评估不同性别的尿蛋白质组个体间生理性波动和差异。

7.根据权利要求6所述的方法，其特征在于：所述评估的方法是计算每个符合要求蛋白在相应亚数据集或总数据集中的变异系数，然后以箱型图展示各亚数据集或总数据集中符合要求蛋白的变异系数的分布范围，用以评估相应的尿蛋白质组个体间生理性波动和差异。

8.根据权利要求1所述的方法，其特征在于：步骤2)采用基于超速离心和还原的方法得到尿蛋白样品，即将尿样离心后的沉淀用含50mM Tris和250mM蔗糖、pH8.5的重悬缓冲液重悬，再加入二硫苏糖醇，加热去除样品中绝大部分的尿调素蛋白，用含10mM三乙醇胺和100mM氯化钠、pH7.4的清洗缓冲液清洗后离心，得到的沉淀集为该尿样的尿蛋白样品。

9.根据权利要求8所述的方法，其特征在于：步骤3)将所述尿蛋白样品用聚丙烯酰胺凝胶电泳分离、胶切成6条带进行胶内酶解，然后合并为2组分的肽样品作为一个尿蛋白质组，利用LC-MS/MS对2组分肽样品进行检测，得到针对每一尿样的尿蛋白样品质谱数据；步骤4)搜库的目的是对质谱产出的数据进行分析，确定质谱产出的数据中包含的蛋白，并得到所有肽段的一级定量结果，从而获得每一尿蛋白样品对应的蛋白质组数据。

10.根据权利要求6所述的方法，其特征在于：对三个不同采样时间跨度的健康人个体内尿蛋白质组生理性波动和差异进行评估，三个不同采样时间跨度是指24小时内、连续3天以及大于2个月，评估方法是确定相应亚数据集中各蛋白质定量数据的变异系数的分布范围，变异系数是指蛋白定量数据的标准差/蛋白定量数据的均值；

每个24小时或连续3天采样的亚数据集中包括3-5个尿蛋白质组数据，对那些在3-5个尿样中均有定量数据的蛋白，计算其变异系数，最终获得每一亚数据集中全部符合要求蛋白的变异系数分布范围，并用箱型图展示；

每个采样时间跨度大于2个月的亚数据集包括6-62个尿蛋白质组数据，对那些至少在3个包括小于30个尿蛋白质组数据的亚数据集，或10％尿样包括大于30个尿蛋白质组数据的亚数据集中有定量数据的蛋白计算其变异系数，最终获得每一亚数据集中全部符合要求蛋白的变异系数分布范围，并用箱型图展示。

11.根据权利要求6所述的方法，其特征在于：对总数据集及其中的男女性别亚数据集来评估健康人尿蛋白质组个体间生理性波动和差异，对每个数据集或亚数据集中超过10％尿样有定量数据的蛋白，计算其定量数据的变异系数，并用箱型图展示各数据集和亚数据集中全部符合要求的蛋白的变异系数分布。