检测龋齿蛋白的质谱模型及构建方法
技术领域
本发明涉及龋齿检测领域,为一种全新的非入侵性检测方法,在体外对龋齿进行早期的发现和检测。
背景技术
蛀牙,有时也有人叫它虫牙,学名龋齿。其主要形成原因是牙菌斑。牙菌斑是牙齿表面的一层几乎无色的薄膜,含有造成龋齿的细菌。每次进食后,牙菌斑中的这些细菌会和食物中的糖分或淀粉发生化学作用,产生腐蚀牙齿的酸性物质。久而久之,牙齿的珐琅质便会破坏,形成比较脆弱的小蛀斑,若继续恶化则会形成牙洞,即蛀牙。所以,蛀牙是从小蛀斑发展而来的,不是真的有蛀虫或什么其他虫子,而是牙齿被逐渐腐蚀的结果。蛀牙在严重情况下,会导致牙齿的坏死和脱落。
蛀牙是非常严重的问题。如果置之不理,蛀牙能破坏牙齿并破坏牙齿的中央神经,从而导致脓肿,也就是牙根顶端的局部感染。一旦脓肿形成,只能通过牙根管疗法、外科手术或拔除牙齿进行治疗。“牙疼不是病,疼起来真要命”一直是广为流传的一句俗语,但其实并不科学,因为牙疼是一种口腔疾病的症状,尤其是在得了蛀牙的情况下,那真是吃不下,睡不着,自己难受,家人也很心疼。千万不能有等一等,算了吧的观念。“牙疼不是病”的观点不仅是错误的,而且会耽误治疗,造成蛀牙恶化,牙齿坏死,而且还有可能导致更多蛀牙的产生。真要是到了疼得实在受不了的阶段,有时就连牙医也帮不上忙,那真是小洞不补,大洞吃苦。
目前蛀牙或龋齿的检测仍然停留在临床表征检测水平,缺乏早期预警的技术手段。近年来也出现了一些新型检测技术,如:中国专利申请2007800288750、“唾液分析”公开了一种利用核磁共振谱技术鉴定口腔生物代谢物的方法,包括:收集个体唾液样本,从中获得个体数字化核磁共振光谱,将个体光谱与电脑中的参考模型进行比对,以间接测定口腔健康,其中光谱测定峰为甲醇、胆碱、亮氨酸等有机或无机物。由于该方法针对口腔健康相关的代谢物(如甲醇、胆碱、亮氨酸等有机或无机物),尽管其在一定程度上能表征该口腔健康的特征图谱,但由于所述代谢物与口腔健康并不存在唯一对应性,且所述口腔健康范围缺乏确定的标准,因此其得到的图谱实质上是上述各种分子的图谱集合,因此既需要处理和比对的图谱信息量过大,并且因待检分子过于庞大而导致其图谱特征性(即口腔健康特征性)偏低,只适用于基础研究而无法推广到实际应用中。
基质辅助激光解析电离飞行时间质谱(MALDI-TOF-MS)是近年来发展起来的一种新型的软电离生物质谱,其原理是用激光照射样品与基质形成的共结晶薄膜,基质从激光中吸收能量传递给生物分子,而电离过程中将质子转移到生物分子或从生物分子得到质子,而使生物分子电离的过程。TOF的原理是离子在电场作用下加速飞过飞行管道,根据到达检测器的飞行时间不同而被检测即测定离子的质荷比(M/Z)与离子的飞行时间成正比,检测离子。尽管MALDI-TOF的准确度高达0.1%~0.01%,远远高于目前常规应用的SDS电泳与高效凝胶色谱技术,但在疾病标志物尤其是龋齿的应用中仍然存在一些缺陷。作为最接近的现有技术,王国云等人报道蛋白质组学在口腔医学中的研究进展(中华口腔医学杂志,2006年05期),其中比较了口腔正常牙体组织和唾液蛋白质组学,并分析了口腔病原菌的可能的特征蛋白。然而,该报道仅仅公开了可以使用包括基质辅助激光解析电离飞行时间质谱在内的质谱分析法对口腔疾病进行研究,但并未公开任何具体的口腔疾病特征蛋白或标记物,因此国内迄今为止尚无采用MALDI-TOF-MS技术获得检测龋齿标志物或龋齿唾液特征蛋白的报道。
因此目前需要新的龋齿的鉴定和分析方法(如质谱法)来实现快速、准确、廉价、便捷的分类结果。
发明内容
本发明目的是为了建立一种对龋齿易感性标志物或龋齿唾液特征蛋白的检测技术,提出一种用于检测龋齿唾液特征蛋白的质谱模型及其制备方法。
本发明的第一个目的是提供一种用于检测龋齿特征蛋白的唾液特征蛋白组合,由表征质荷比为3324.8m/z、3186.2m/z、3195.8m/z的龋齿特征蛋白组成,其中氨基酸序列分别如SEQ ID No.1、SEQ IDNo.2、SEQ ID No.3所示:
SEQ ID No.1:Lys-Met-Thr-Glu-Ala-Gln-Glu-Asp-Gly-Gln-Ser-Thr-Ser-Glu-Leu-Ile-Gly-Gln-Phe-Gly-Val-Gly-Phe-Tyr-Ser-Ala-Phe-Leu-Val-Ala-Asp-Lys-Val;
SEQ ID No.2:Lys-Ser-Ser-Ser-Tyr-Ser-Lys-Gln-Phe-Thr-Ser-Ser-Thr-Ser-Tyr-Asn-Arg-Gly-Asp-Ser-Thr-Phe-Glu-Ser-Lys-Ser-Tyr-Lys-Met-Ala;
SEQ ID No.3:Gln-Asp-Glu-Pro-Pro-Gln-Ser-Pro-Trp-Asp-Arg-Val-Lys-Asp-Leu-Ala-Thr-Val-Tyr-Val-Asp-Val-Leu-Lys-Asp-Ser-Gly-Arg-Asp-Tyr;
在一个实施方案中,当3324.8m/z、3186.2m/z、3195.8m/z的峰都下调表达时表示该特征蛋白在龋齿易感人群中均低表达。
本发明的第二个发明目的是提供一种用于检测龋齿易感性特征蛋白的质谱模型,该质谱模型包括上述质荷比为3324.8m/z、3186.2m/z和3195.8m/z的龋齿唾液特征蛋白,其氨基酸序列分别如SEQ ID No.1、SEQ IDNo.2、SEQ ID No.3所示,其中3324.8m/z、3186.2m/z、3195.8m/z特征蛋白的表达都下调,预示为龋齿易感性患者。
本发明的第三个发明目的是提供一种用于检测龋齿易感人群的试剂盒,其包含上述的唾液特征蛋白组合,或包含上述的质谱模型。
在一个实施方案中,该试剂盒由WCX磁珠、磁珠缓冲液、洗涤液和多肽洗脱液组成,其中所述磁珠、磁珠缓冲液、洗涤液和多肽洗脱液可以使用市售试剂盒或相关试剂,如美国Bruker公司研制的WCX磁珠试剂盒,或毅新兴业公司研制的SPE-C磁珠试剂盒(专利号ZL2008101879684)。
在另一实施方案中,该试剂盒还包括含有上述龋齿唾液特征蛋白的标准质谱样品管,该样品管既可以是含有单一特征蛋白的三种样品管,也可以是含有三种特征蛋白的一种样品管,所述标准样品管中的样品用于与待测样品进行质谱时进行平行质谱测试,以判断待测样品中是否含有所述龋齿唾液特征蛋白。
在另一个实施方案中,该试剂盒可含有上述龋齿唾液特征蛋白的标准数据库(即龋齿特征蛋白数据库)的软件或芯片,可用于待测样品进行质谱时提供标准数据或曲线的比对,以判断待测样品中是否含有所述龋齿唾液特征蛋白。
本发明的第四个发明目的是提供所述唾液特征蛋白组合,或所述的质谱模型,在制备诊断龋齿易感人群试剂中的用途。
本发明的第五个发明目的是提供制备所述的质谱模型的构建方法,包括:
1)收集多例临床确诊的龋齿患者唾液和正常对照人员的唾液作为两组唾液标本,进行低温冷冻备用;
2)对唾液蛋白进行质谱前预处理;
3)对预处理过的两组唾液蛋白进行质谱检测读取,获得两组唾液多肽的指纹图谱;
4)对所有的龋齿患者和正常人唾液多肽的指纹图谱进行标准化处理,并收集数据;
5)对所得数据进行质控处理,筛选出具有下列质荷比峰的三个龋齿特征蛋白:3324.8m/z、3186.2m/z和3195.8m/z,对所述特征蛋白进行多肽序列测定,并根据这三个质荷比峰建立检测龋齿易感性筛查的质谱模型。
在一个实施方案中,其中步骤2)预处理的方法包括使用磁珠纯化和稳定样品中的血清蛋白或多肽。
在一个实施方案中,其中所述步骤3)采用WCX磁珠系统或试剂盒对两组血清蛋白进行吸附,并对结合在弱阳离子上的两组血清多肽进行读取,获得两组血清多肽的指纹图谱。
在一个实施方案中,其中所述步骤5)所述的质控处理,保留出峰数量大于50的质谱图谱数据,并采用Sigma血清的组内变异系数来保证实验的一致性,从而根据变异系数满足一致性的允许范围来进行筛选,所述变异系数为14.9%。
本发明结合生物信息学方法筛选出相应的龋齿标志物并建立检测模型进行分析检测,所述的生物信息学方法包括对指纹图谱进行标准化处理、对所得数据进实验质控处理、筛选期望的唾液特征蛋白并建立质谱模型,以及可选择地包括使用遗传算法结合最近邻算法建立并验证质谱模型等。其中,所述的实验质控处理,保留出峰数量大于50的质谱图谱数据,并采用Sigma标准品的组内变异系数来保证实验的一致性,从而根据变异系数满足一致性的允许范围来进行筛选。本发明中,变异系数优选为14.9%。
技术效果
1、本发明采用龋齿患者与正常人具有差异的多个特征蛋白组合进行对龋齿唾液的检测,并采用了传统统计学与现代生物信息学方法相结合的方法进行数据处理,从而得到龋齿患者和健康人唾液蛋白质指纹图谱检测模型,并且所发现的一系列蛋白质质荷比峰为寻找新的更理想的标志物提供了基础和资源。
2、与以往的唾液学检测方法比较具有较高的敏感性和特异性,并能用于筛选抗龋齿的药物中。
3、本发明模型的构建方法设计合理可行,为提供龋齿的临床治愈率提供了新的筛查方法,同时也为探索龋齿发生发展的机制提供了新的思路。
4、利用本发明分析了唾液标准样品和临床待测样本,验证结果显示:9例标准样本检出率达100.00%,30例待测样本检出率达93.3%,因此本发明可对龋齿做出易感性的判断。
综合所述,本发明检测龋齿特征蛋白的质谱标记,可用于建立唾液特征蛋白质谱模型以及应用于在龋齿早期检测和筛查,本发明的质谱模型,可用于龋齿的早期检测和筛查。
附图说明
图1-A为部分健康人唾液的多肽图谱
图1-B为3000-4000M/Z局部放大图。
图2-A为部分龋齿患者唾液的多肽图谱。
图2-B为3000-4000M/Z局部放大图。
图3为3324.8m/z两组间差异峰展示,其中箭头所示灰色线条为健康人峰值,右侧黑色线条为龋齿人峰值。
图4为3186.2m/z两组间差异峰展示,其中箭头所示灰色线条为健康人峰值,该峰值的下方黑色线条为龋齿人峰值。
图5为3195.8m/z两组间差异峰展示,其中箭头所示所示灰色线条为健康人峰值,该峰值的下方黑色线条为龋齿人峰值。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1龋齿易感性质谱模型的建立
1.样本和仪器:
选自29例唾液样本,其中14例来自龋齿患者,另外15例来自健康人群,龋齿患者均经病理报告确定。所有的唾液样本均在清晨未进食前空腹下抽取,分离唾液后储存在-80低温冰箱中。
基质辅助激光解析飞行时间质谱CLIN-TOF及实验用的WCX磁珠试剂盒由中国Bioyong公司研制。使用Bioyong公司的数据分析软件Bioexplorer做数据的预处理,处理后的数据采用统计分析软件R2.6.2的遗传算法包genalg进行处理。
2.技术路线:
唾液的采集:收集唾液在BD管中。缓慢地上下振荡管五次,使唾液混匀。室温下,用临床离心机以1.400-2.000g离心SST管十分钟。吸取唾液(上清液)到对应的已标记管中。标记干净的0.5ml离心管,同一唾液样品50μl一管,分装多管。立即冻存唾液样品于-80℃。由于反复冻融唾液样品易造成多肽沉淀,从而使得肽谱丢失部分多肽,应避免反复冻融。冻存唾液分为永久保存和待分装的。唾液分装后可在-80℃保存多年。
唾液样品的磁珠处理:在进行实验前,从低温冰箱提取分装的唾液样品各1管,放于湿冰上。化冻60-90分钟。取出10μl磁珠结合缓冲液(BS),10μl混匀的磁珠悬浮液,5μl唾液样品至样品管,混匀。室温静置5min后,将样品管放入磁珠分离器。使磁珠贴壁1分钟,磁珠与悬浮的液体分离,吸去悬浮的液体,再向样品管中加入100μl磁珠清洗缓冲液(WS),在磁珠分离器前后相邻两孔间反复移动样品管10次。最后一次使样品管在磁珠分离器上静置,磁珠与悬浮的液体分离,吸去悬浮的液体。重复从加100μl磁珠清洗缓冲液,到最后吸去悬浮液体的操作步骤共3次。从磁珠分离器上取下样品管,并向样品管中加入5μl磁珠洗脱缓冲液(ES),溶解贴壁的磁珠,样品管放入磁珠分离器,磁珠贴壁2min,磁珠与悬浮的液体充分分离后,将上清液移入干净的刚加入5μl磁珠稳定缓冲液(SS)0.5ml样品管。
3.生物信息学方法
(一)质谱数据采集
应用CLIN-TOF质谱仪。激光能量50%时,10shots去杂,36%时50shots采集一个样品结晶点的某一个点,平均每个样品结晶点收集8次共400shots。激光频率:50Hz。数据收集范围:1-10KDa。在每8个样品结晶点收集数据前用标准品进行外标校正,平均分子量偏差小于100ppm。参见图1-A、2-A、图1-B和2-B,其中图1-A和2-A分别为健康人和患者唾液多肽指纹谱图,其中图1-B和2-B均为M/Z=3000-4000的局部放大图。
实验质控:(1)对于每一张采集到的原始图谱,我们设定S/N>=5的峰数量做为评判图谱质量的一个标准;对于峰数量大于50的图谱才保存,舍弃峰数量小于50的图谱。(2)针对整个实验操作,采用Sigma标准品的组内变异系数保证实验的一致性,本实例方法的变异系数为14.9%,满足一致性允许范围为变异系数小于20%,说明实验一致性良好,参见表1。表1为Sigma唾液中9个蛋白峰的变异系数值。
表1Sigma标准品的组内变异系数
如表1所示,选择Sigma标准品中9个标准特征蛋白,这些蛋白均不涉及龋齿易感性特征蛋白。通过该9个蛋白验证标准品的组内变异系数,用峰值的变异系数说明数据的稳定性和可靠性。
(二)原始数据预处理
原始数据经Bioyong公司数据分析软件Bioexplorer处理,0.8-10KDa的峰值经由Top hat方法做基线校准,最小基线宽度10%,以10%最小阀值聚类;然后用总离子流方法做归一化处理。
(三)龋齿特征蛋白的选择
每个质荷比蛋白峰对各类样本的区分的相对重要性都不同,这里综合运用了T检验P值和受试者接受曲线(ROC)的方法来评价每个蛋白峰的相对重要性。
(四)遗传算法
遗传算法是一种很有效的全局随机化搜索算法,它借鉴了生物界自然选择和自然遗传的机制,其主要特点是群体搜索策略和群体中个体之间的信息交搜索不依赖于梯度信息。遗传算法对多个个体组成的群体进行操作,通过遗传算子可以使个体间的信息得以交换,这样的群体中的个体一代一代地得以优化,并逐步逼近最优解。它尤其适用于处理传统搜索方法难以解决的复杂和非线性问题,可广泛用于涉及高维空间的组合优化领域。本发明方法的遗传算法从统计差异蛋白子集形成的特征空间中搜索次优特征子集。分类函数采用最近邻算法(KNN)。
在训练遗传算法集合最近邻算法分类的过程中引入了交叉验证的过程,这里采用随机选择样本中的80%来建立模型,余下的20%作为验证。它可以监督训练过程,避免建立的模型出现对建模样本表现好,对预测样本表现差的“过学习”现象。
在利用遗传算法和最近邻算法对训练样本建立质谱数据分类模型后,利用验证样本来检验所建立模型的分类能力。
通过以上方法,并经过分析图1-B和2-B,选取3324.8m/z、3186.2m/z和3195.8m/z作为龋齿特征蛋白,且将该三个特征蛋白进行建模比较,结果如表2所示。
表2
|
龋齿(均值) |
健康人(均值) |
P |
3324.8 |
192.8889 |
712.4047 |
0.041406 |
3186.2 |
290.0741 |
1021.296 |
0.022185 |
3195.8 |
477.3889 |
1318.537 |
0.024598 |
实施例2龋齿特征蛋白的鉴定
磁珠富集法
1.据分析确定待鉴定峰后,反查前期处理样本中待鉴定峰值强度最高的样品。
2.查明前期实验所用磁珠。把此样平行处理20份。富集为一管。
3.离心1300rmp5min。磁架上取上清。避免留有磁珠影响后期实验。
4.把液体旋干,标记。
采用Waters公司Nano Aquity UPLC液相系统:参数如下设置,捕集柱:C18,5μm,180μm×20mm,nanoAcquityTMColumn;分析柱:C18,1.7μm,75μm×150mm,nanoAcquityTMColumn;流动相A:5%乙腈,0.1%甲酸的水溶液;流动相B:95%乙腈,0.1%甲酸的水溶液,所有溶液均为HPLC级。捕集流速15μl/min,捕集时间3min,分析流速300nl/min;分析时间60min,色谱柱温度35℃;Partial Loop模式进样,进样体积18μl。
梯度洗脱程序设置:
采用ThermoFisher公司LTQ Obitrap XL(Thermo)质谱系统,Nano电喷雾离子源(Michrom),喷雾电压1.4kV;质谱扫描时间60min;实验模式为数据依赖(DataDependent)及动态排除(Dynamic Exclusion),每个母离子进行2次MS/MS后排除60秒;扫描范围400-2000m/z;一级扫描(MS)使用Obitrap,分辨率设定为60000(m/z400处);CID及二级扫描使用LTQ;在MS谱图中选取强度最强的10个离子的单一同位素作为母离子进行MS/MS(单电荷排除,不作为母离子)。使用数据分析软件BioworksBrowser3.3.1SP1进行SequestTM检索,检索数据库为IPI Human(版本3.45,71983条目),为降低假阳性在数据库末端附加其反库。母离子误差设定为50ppm,碎片离子误差设为1Da,酶切方式为非酶切。检索结果参数设定为deltacn>=0.10,两电荷Xcorr2.0,三电荷Xcorr2.5,三电荷以上Xcorr3.0,peptide probability<=1e-003。此参数条件下显示的肽段以及蛋白结果准确度较高,按照文献和国际蛋白质组规定来设定。
表3与龋齿相关全部多肽的鉴定结果
将该三种推测的蛋白与王国云等人报道的口腔唾液蛋白相比,发明人惊讶地发现:后者并没有明确指出该三种推测蛋白属于龋齿或病原菌相关的特征蛋白,这预示着本发明可能开辟了一条新的研究途径来摸索和研究龋齿特征蛋白的检测。
实施例3龋齿蛋白检测模型的建立和龋齿易感性检测
选择37例唾液标准样本模型训练,其中9例来自龋齿患者,另外28例来自健康人群。
另外,临床上选择90例待测样本中,其中已知30例来自龋齿患者,另外60例来自健康人群;龋齿患者均经病理报告确定。
以上所有的唾液样本均在清晨未进食空腹下抽取,分离唾液后储存在-80低温冰箱中。
用实施例1筛选出的龋齿特征蛋白峰建立龋齿蛋白的质谱模型。该模型定为采用3个输入变量,分别是:3324.8m/z、3186.2m/z、3195.8m/z。
图3中为蛋白质荷比峰3324.8m/z的健康组和龋齿患者组样品图谱。图中灰色线表示无龋齿,黑色线表示有龋齿,其中箭头指向为无龋齿的特征峰。
图4中为蛋白质荷比峰3186.2m/z的健康组和龋齿患者组样品图谱。图中灰色线表示无龋齿,黑色线表示有龋齿,其中箭头指向为无龋齿的特征峰。
图5中为蛋白质荷比峰3195.8m/z的的健康组和龋齿患者组样品图谱。图中灰色线表示无龋齿,黑色线表示有龋齿,其中箭头指向为无龋齿的特征峰。
建立其模型后,将37例唾液样本分别进行模型训练,方法如实施例1所述。
模型训练结果如表4所示,识别率为100%。并采用随机选择方法进行交叉验证,验证结果为100%,表明以上3个特征蛋白所建立的检测模型具有很好的预测能力。
表4模型训练结果
样本 |
例数 |
预测龋齿组 |
预测正常组 |
预测率% |
龋齿组 |
9 |
9 |
0 |
100 |
正常组 |
28 |
0 |
28 |
100 |
模型训练完成后,建立起了一个有三个输入变量的模型,接着用这个模型对上述90个验证样本来预测,并判断出样本的类别,方法如实施例1所述,其中将90例待测样本预先编号后,盲选后随机平均分为2组。结果如表5所示。
表5验证样本预测结果
样本 |
例数 |
预测龋齿 |
预测正常 |
A组 |
45 |
12 |
33 |
B组 |
45 |
16 |
29 |
总计 |
10 |
29 |
62 |
根据预先编号,计算待测样本的实际检测结果如表6所示。
表6验证样本实际结果
样本 |
例数 |
预测龋齿 |
预测正常 |
A组 |
45 |
13 |
32 |
B组 |
45 |
17 |
28 |
总计 |
90 |
30 |
60 |
从表5-6中可以看出验证样本的结果为:30例龋齿组中有28例判断正确,特异性已达93.3%。本发明对于待测样本的检测准确率略低于标准样本,可能是临床上选取待测样本,处理过程不如已有的标准样本,因而出现一定的偏差。但同时说明本发明的检测结果只会出现假阴性而不会出现假阳性,因此具有一定积极意义。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。