CN108169184B

CN108169184B - 一种肿瘤分类鉴别模型的建立方法及其应用

Info

Publication number: CN108169184B
Application number: CN201711353236.3A
Authority: CN
Inventors: 李晓晖; 于欣; 樊荣伟; 陈德应
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2017-09-05
Filing date: 2017-12-15
Publication date: 2021-01-05
Anticipated expiration: 2037-12-15
Also published as: CN108169184A

Abstract

一种肿瘤分类鉴别模型的建立方法及其应用，属于医学疾病诊断领域。本发明针对目前病理诊断需要对肿瘤病灶标本定位和采集，样本预处理复杂且耗时长的问题；以及现有技术无法对早期肿瘤、微小残留病、循环肿瘤等微小肿瘤组织的筛查和诊断问题，提供了一种肿瘤分类鉴别模型的建立方法，该方法的建立是基于生物液样本的等离子体发射光谱，并结合化学计量学和机器学习分类算法实现的。通过该方法建立的模型可集成到肿瘤诊断与筛查仪器中，为实现肿瘤的大规模筛查、早期肿瘤以及处于癌前病变阶段疾病的诊断提供了一种快速准确的方法。

Description

一种肿瘤分类鉴别模型的建立方法及其应用

技术领域

本发明属于医学疾病诊断领域，特别地，属于肿瘤诊断领域。本发明提供了一种肿瘤分类鉴别模型的建立方法，基于该方法建立的肿瘤分类鉴别模型可以应用于肿瘤疾病诊断与筛查。本发明除了适用于人类外，还适用于其他能够获取血液、尿液或等价生物液样本的动物。

背景技术

恶性肿瘤是威胁人类健康的主要疾病之一。根据国际癌症研究会(InternationalAgency for Research on Cancer，IARC)发布的GLOBOCAN报告，2012年全球新发恶性肿瘤病例1410万，死亡820万，现患3255万。我国国家癌症中心2017年发布的数据显示，2013年我国新发恶性肿瘤病例368万例，即平均每天就有约一万人被确诊为恶性肿瘤；按照85岁的预期寿命计算，一个人一生累计罹患恶性肿瘤的风险将高达36％。尽管现在通过外科手术治疗、化疗、放疗、生物治疗等手段能够有效改善恶性肿瘤患者的生活质量、延缓恶性肿瘤患者生命甚至完全治愈恶性肿瘤，但是恶性肿瘤患者的死亡率仍然很高。数据显示，恶性肿瘤已成为我国城乡居民的第一位死因，平均每四个死亡的中国人中，就有一人死于恶性肿瘤。由于恶性肿瘤在发病早期难以被及时发现，而一旦当它发展到中、晚期后，往往就已经错过了最佳的治疗时机，导致预后较差、死亡率较高，因此恶性肿瘤的及早发现和确诊对于提高恶性肿瘤的治愈率、降低恶性肿瘤死亡率、改善人类健康具有重要的意义。

目前，肿瘤的诊断和筛查技术主要包括病理学诊断、肿瘤标志物分子诊断和影像诊断。病理学诊断被认为是肿瘤诊断的最终诊断或“金标准”。但是病理学诊断需要进行标本获取、标本制备等繁琐耗时的实验室工作，无法实现快速诊断。由于需要获得标本，病理学诊断的前提是能够对病灶组织进行比较准确的定位，因此无法对难以准确定位的早期肿瘤和微小残留病、循环肿瘤细胞等微小肿瘤组织进行诊断。另外，病理学诊断是一门依赖经验积累的诊断学科，诊断结果很多情况下依赖病理医生的经验和业务水平，因此容易出现诊断结果不一致甚至误诊。肿瘤标志物分子诊断通过检测机体内伴随着肿瘤出现的含量异常升高的物质来实现肿瘤的诊断。当前临床应用的肿瘤标志物在肿瘤诊断的特异性和灵敏度方面，还没有任何一个能够达到很理想的程度。目前除甲胎蛋白(alpha fetal protein，AFP)和前列腺特异性抗原(prostate specific antigen，PSA)外，临床上还未确切发现器官特异性相对较强的肿瘤标志物分子。此外，许多良性疾病也可以伴随有肿瘤标志物的异常，如前列腺肥大、前列腺炎就可以伴随有PSA的轻、中度升高。因此，目前临床上肿瘤标志物分子诊断仅作为一项临床辅助诊断手段，并不能作为肿瘤诊断的直接判据。影像诊断(如X线、计算机体层成像CT、磁共振成像、超声等)在肿瘤的发现、诊断和治疗检测中起着重要的作用，但是无法对早期肿瘤以及微小残留病、循环肿瘤细胞等无明显影像学特征的肿瘤进行诊断。综上，现有的肿瘤诊断和筛查技术仍然存在各种局限性，需要研发新型快速准确的肿瘤诊断技术。

研究表明，恶性肿瘤组织与健康组织在微量元素的含量和分布上存在差异。根据这一发现，有研究利用激光诱导等离子体光谱技术，将脉冲激光聚焦到恶性肿瘤组织上产生等离子体，通过分析几种特征元素谱线的强度或强度比并与健康组织进行对比，实现了恶性肿瘤组织与健康组织的鉴别。但是，现有报道都是直接在肿瘤病灶组织(如血管肉瘤组织、乳腺癌肿瘤组织、直肠癌肿瘤组织等)上产生等离子体来区分肿瘤组织和健康组织。这种方法存在如下缺陷：一是，该方法区分恶性肿瘤与健康组织的前提是肿瘤组织的占位或分布需要通过其他诊断技术(如影像诊断)进行明确，单独依靠该方法无法对恶性肿瘤进行筛查；二是，该方法无法对早期肿瘤、微小残留病、循环肿瘤细胞等采用影像诊断难以准确定位的肿瘤进行诊断；三是，该方法需要将待检组织从机体上切除下来进行体外检测或者采用介入式的方法进行活体检测，这都会对检查对象造成疼痛和不适，同时对检查对象的生理体征要求也较高。

发明内容

针对目前病理诊断需要对肿瘤病灶标本定位和采集，样本预处理复杂且耗时长的问题；以及现有技术无法对早期肿瘤、微小残留病、循环肿瘤等微小肿瘤组织的筛查和诊断问题，本发明提供了一种肿瘤分类鉴别模型的建立方法及其应用。

本发明提供的肿瘤分类鉴别模型的建立方法，包括以下步骤：

(1)取经肿瘤病理学诊断确诊的肿瘤患者和健康对照组的生物液样本，建立生物液样本库；

(2)所述生物液样本库中的样本经过预处理后，在样本上形成等离子体，激发样本中的微量元素产生发射光谱；

(3)采用光谱探测模块测量生物液样本等离子体的发射光谱，选取探测延时为0.1-100μs，探测门宽为0.01-10μs，获得的发射光谱的信号噪声比≥10，信号背景比≥0.5；

(4)对步骤(3)采集的发射光谱数据进行归一化处理，选取典型粒子的特征发射谱线，建立光谱特征数据矩阵，对所述光谱特征数据矩阵进行标准化处理；

(5)对标准化处理后的光谱特征数据矩阵采用化学计量学和机器学习分类算法，通过模型验证后建立肿瘤分类鉴别模型。

步骤(1)所述肿瘤包括淋巴瘤、白血病、多发性骨髓瘤、甲状腺癌、肺癌、食道癌、胃癌、肝癌、结肠癌、直肠癌、乳腺癌、卵巢癌、宫颈癌、子宫内膜癌、膀胱癌、前列腺癌、肾癌以及其他肿瘤中的至少一种。

步骤(1)所述生物液样本是指血液(包括全血、血清、血浆、血细胞、血小板)、尿液或等价生物液。

步骤(2)所述生物液样本的预处理方法是指：将样本放置于能透射激光辐射(如果需要透射激光辐射时)和等离子体光辐射的具有约束性的容器或波导中(如透明玻璃管、两片透明玻璃片叠在一起形成的间隙、具有透射激光辐射(如果需要透射激光辐射时)和等离子体光辐射窗片的容器等)；将样本涂敷到致密固体基体表面，干燥后形成吸附于基体上的薄膜；将样本涂敷到具有孔隙、能够吸收生物液样本的基体表面(如滤纸、纺织物以及类似的基体)，干燥后形成吸附于基体上的薄膜；或将样本冷冻成固态。

步骤(2)所述等离子体包括激光诱导击穿等离子体、介质阻挡放电等离子体、脉冲放电等离子体、辉光放电等离子体、微波等离子体、日冕等离子体、射频等离子体以及其他能够使生物液样本中的微量元素激发出光谱辐射的等离子体。

步骤(3)所述光谱探测模块包括搭载有能够对等离子体发射光谱响应的探测器的光谱仪、单色仪、多道分析仪等，如Czerny Turner光栅光谱仪、Pachen Runge光谱仪、中阶梯光栅光谱仪、棱镜分光光谱仪以及其他形式的光谱仪，所述探测器包括但不限于可调探测延时和探测门宽的电荷耦合器件(charge-coupled device，CCD)、电子增益CCD(electron-multiplier CCD，EMCCD)、增强型CCD(intensified charge-coupled device，ICCD)、光电倍增管(photon-multiplier tube，PMT)和门控电压信号采样系统(如美国Stanford Research Systems公司的SR250boxcar积分平均器)的组合。

根据等离子体和探测器类型的不同，步骤(3)所述探测延时通常可以设定为0.1-100μs，探测门宽通常可以设定为0.01-10μs。需要注意的是，这里只是给出探测延时和探测门宽的通常设置，有经验的技术人员可以十分容易的选取其他探测延时和探测门宽的组合以达到预期的探测效果。

步骤(3)所述信号噪声比和信号背景比可根据实验情况选定，信号噪声比应≥10，信号背景比应≥0.5。为了减少生物液样品预处理过程以及样本不均匀带来的测量不确定性，步骤(3)所述光谱通常需要多次平均。同时，一般需要对每个样本在不同的位置采集多组光谱数据。

步骤(4)所述发射光谱数据的归一化处理方法包括：将光谱数据乘以一系数使谱线下方的面积为1或使某一特征谱线的强度为1。

所述的将光谱数据乘以一系数使谱线下方的面积为1的方法，例如使300-500nm范围内谱线下方的面积为1。

所述的将光谱数据乘以一系数使某一条谱线的峰值强度为1的方法，例如使309nm处的峰值强度为1，但不要求这条谱线是最强的谱线。

这两种处理方法的实现方式都是通过将谱线不同波长处的强度乘以一个共同的系数。对于前一种方法，这个系数是原谱线下方面积的倒数；对于后一种方法，这个系数是强度要归一化到1的谱线原峰值强度的倒数。

步骤(4)所述典型粒子是指：钙(Ca)、钠(Na)、钾(K)、铁(Fe)、镁(Mg)、铜(Cu)、锌(Zn)、铝(Al)、钛(Ti)、锰(Mn)、铬(Cr)、镉(Cd)、镍(Ni)、钒(V)、钼(Mo)、铅(Pb)、汞(Hg)、碳(C)、氢(H)、氧(O)、氮(N)、磷(P)、硫(S)、硅(Si)、碘(I)、硼(B)、硒(Se)、砷(As)、氟(F)、氯(Cl)等元素的原子、离子和CN、NH、N₂、N₂ ⁺、OH、CH、C₂等分子中的一种或多种的组合。例如，典型粒子组合可以①是Ca、Na元素原子的组合；②K、Fe元素离子的组合；③或者CN、NH、N₂分子的组合；④Ca元素原子和K元素离子的组合；⑤Ca元素原子和CN、NH、N₂分子的组合；⑥K元素离子和CN、NH、N₂分子的组合；⑦Ca元素原子、K元素离子和CN、NH、N₂分子的组合。

步骤(4)所述光谱特征数据矩阵的标准化处理方法是将光谱数据矩阵进行数学变换，使该矩阵中的每个光谱特征沿采样样本维度的平均值为0、方差为1，或者使每个光谱特征的数值归整到数学区间[0，1]或[-1，1]。

步骤(5)所述化学计量学和机器学习分类算法包括但不限于贝叶斯分类(如朴素贝叶斯分类、贝叶斯置信网络等)、判别函数分析(如线性回归、部分最小二乘平方回归、逻辑回归、线性判别分析、二次判别分析、支持向量机等)、主成分分析、决策树分析、人工神经网络分析、基于实例的分析(如k邻域分类)等以及基于上述方法的组合分类方法(如bagging法、boosting法、random forest法等)。

步骤(5)所述模型验证的方法包括基于独立测试集光谱数据的外部验证或基于随机选择的内部测试集光谱数据的内部交叉验证。外部验证采用的测试集光谱数据完全独立于用于建立分类鉴别模型的训练集光谱数据。通常的做法是将步骤(3)所述光谱特征数据矩阵中的光谱数据随机分为数目相等的两份，一份作为训练集建立分类鉴别模型，另一份作为测试集进行模型验证。需要指出的是，训练集和测试集光谱数据的数目也可以不同。当样本数目有限、无法进行外部验证时，可以采用内部交叉验证。内部交叉验证是从光谱特征数据矩阵中选取一小部分光谱数据作为测试集，其余的大部分光谱数据作为训练集。通常的做法是10折交叉检验，将光谱数据矩阵中的光谱数据随机分为10份，取其中9份光谱数据作为训练集建立分类鉴别模型，取剩余的1份光谱数据作为测试集进行模型验证。10折交叉检验通常进行10次，使每份光谱数据都作为测试集进行过模型验证，取10次交叉检验结果的平均统计值来对模型进行评估。

步骤(5)所述肿瘤分类鉴别模型是指处理器可读并且能够对输入待检测光谱数据进行分类鉴别的可执行指令，可以基于启发式的算法或借助商用软件建立。所述商用软件包括美国Mathworks公司的Matlab、Python Software Foundation的Python、新西兰Waikato大学的Weka以及其他能够提供所选分类算法的软件，所述处理器是指集成电路、微处理器、计算机以及其他能够接收并执行可读输入指令的计算设备。

步骤(5)所述肿瘤分类鉴别模型建立后采用下述5种参数中的任意一种或多种作为指标来对模型进行评估。评估的参数包括但不限于：分类鉴别的准确率、灵敏度、特异性、接收器工作特性(Receiver Operating Characteristic，ROC)曲线、混淆矩阵。

在有些情况下，在步骤(5)所述建立肿瘤的分类鉴别模型之前，需要对步骤(4)建立的光谱特征数据矩阵进行分析以滤除异常的光谱数据。异常数据的识别和滤除可以采用启发式的方法、基于已知系统错误或数据统计(例如分析标准差)等方法来完成。根据需要，异常数据滤除对于训练集数据或测试集数据均可以进行。

有益效果

1、本发明提供了一种肿瘤分类鉴别模型的建立方法，通过测量生物液样本的等离子体光谱，结合化学计量学和机器学习分类算法获得一种肿瘤分类鉴别模型，进而判别待检对象的肿瘤类型，具有检测速度快的优点，可以实现即时检验，适合用于肿瘤的大规模诊断和快速筛查。

2、本发明利用临床十分容易获取的生物液样本，即可实现肿瘤的筛查和诊断，解决了病理学诊断需要对肿瘤病灶标本定位和采集、标本预处理复杂、耗时长的问题。

3、本发明可以对无明显影像学特征的早期肿瘤、微小残留病、循环肿瘤细胞等采用影像诊断无法准确定位的肿瘤进行诊断和筛查，十分适合于早期恶性肿瘤以及处于癌前病变阶段疾病的快速准确筛查，有助于降低肿瘤发病率和死亡率，改善人类的健康。

4、本发明解决了现有的激光诱导等离子体光谱技术需直接作用于肿瘤病灶组织、需借助其他诊断手段而无法独立对肿瘤进行诊断筛查、无法对微小肿瘤组织进行诊断、需要进行有创操作从而对待检对象引起的干扰和不适大、对待检对象生理体征要求高的问题。

5、本发明采用的生物液样本是临床检查的常规样本，非常容易获得，相比于提取或切除肿瘤组织和介入式活体检验，对检查对象造成的疼痛和不适要小很多，对检查对象的生理体征无特殊要求，操作上也简单很多。

6、本发明建立的肿瘤分类鉴别模型，除了适用于人类外，还适用于其他能够获取血液、尿液或等价生物液样本的动物。

7、本发明建立的肿瘤分类鉴别模型在实际应用中，可集成到肿瘤诊断与筛查仪器中，为实现肿瘤筛查和诊断提供了一种新型快速准确的方法。

附图说明

图1肿瘤分类鉴别模型的建立方法。

图2涂敷到铜基片和定量滤纸上的血液样本的激光诱导等离子体光谱，横坐标表示波长，纵坐标表示光谱强度。

图3淋巴瘤、白血病、多发性骨髓瘤患者和健康对照组血液样本在300-450nm波段的激光诱导等离子体光谱，横坐标表示波长，纵坐标表示光谱强度。

图4淋巴瘤、白血病、多发性骨髓瘤患者和健康对照组血液样本在500-850nm波段的激光诱导等离子体光谱，横坐标表示波长，纵坐标表示光谱强度。

图5淋巴瘤、白血病、多发性骨髓瘤和健康对照组前三个主成分得分值的散点分布图，坐标轴表示主成分的得分值，括号内数值为该主成分表示的总方差的比例。

图6不同近邻数k的kNN模型对应的淋巴瘤、白血病、多发性骨髓瘤和健康对照组的鉴别灵敏度。

图7不同近邻数k的kNN模型对应的淋巴瘤、白血病、多发性骨髓瘤和健康对照组的鉴别特异性。

图8淋巴瘤、多发性骨髓瘤、胃癌和健康对照组前三个主成分得分值的散点分布图，坐标轴表示主成分的得分值，括号内数值为该主成分表示的总方差的比例。

具体实施方式

具体实施方式一、本实施方式所述的肿瘤分类鉴别模型的建立方法，参见图1所示，该方法是结合化学计量学和机器学习分类算法实现的，所述方法具体如下：

(5)对标准化处理后的光谱特征数据矩阵采用化学计量学和机器学习分类算法，通过模型验证后，建立肿瘤分类鉴别模型。

具体实施方式二、本实施方式是对具体实施方式一所述肿瘤分类鉴别模型的建立方法的进一步限定，本实施方式中：

步骤(1)所述肿瘤包括淋巴瘤、白血病、多发性骨髓瘤、甲状腺癌、肺癌、食道癌、胃癌、肝癌、结肠癌、直肠癌、乳腺癌、卵巢癌、宫颈癌、子宫内膜癌、膀胱癌、前列腺癌、肾癌中的至少一种。

当选择其中一种肿瘤时，则本实施方式所建立的模型适用于对该种肿瘤进行分类鉴别。同理，当选择多种肿瘤时，则该模型适用于对多种肿瘤进行分类鉴别。

具体实施方式三、本实施方式是对具体实施方式一所述肿瘤分类鉴别模型的建立方法的进一步限定，本实施方式中：

本实施方式中的生物液样本可以根据实际情况进行任意选择。

具体实施方式四、本实施方式是对具体实施方式一所述肿瘤分类鉴别模型的建立方法的进一步限定，本实施方式中：

步骤(2)所述生物液样本的预处理方法是指：将样本放置于能透射激光辐射(如果需要透射激光辐射时)和等离子体光辐射的容器或波导中(如透明玻璃管、两片透明玻璃片叠在一起形成的间隙、具有透射激光辐射(如果需要透射激光辐射时)和等离子体光辐射窗片的容器等)将其约束使之便于操控；将样本涂敷到致密固体基体表面，干燥后形成吸附于基体上的薄膜；将样本涂敷到具有孔隙、能够吸收血液样本的基体表面(如滤纸、纺织物以及类似的基体)，干燥后形成吸附于基体上的薄膜；或将样本冷冻成固态。例如，采用将样本涂敷到致密固体基体表面的预处理方法，将样本涂敷到铜基片上，如图2所示为涂敷到铜基片和定量滤纸上的血液样本的激光诱导等离子体光谱，结果表明，采用此两种方法对血液样本进行处理，都能够获得等离子体发射光谱，用于肿瘤分类鉴别诊断模型的建立。

具体实施方式五、本实施方式是对具体实施方式一所述肿瘤分类鉴别模型的建立方法的进一步限定，本实施方式中：

步骤(2)所述等离子体是指能够使生物液样本中的微量元素激发出光谱辐射的等离子体，包括激光诱导击穿等离子体、介质阻挡放电等离子体、脉冲放电等离子体、辉光放电等离子体、微波等离子体、日冕等离子体、射频等离子体等。

具体实施方式六、本实施方式是对具体实施方式一所述肿瘤分类鉴别模型的建立方法的进一步限定，本实施方式中：

具体实施方式七、本实施方式是对具体实施方式一所述肿瘤分类鉴别模型的建立方法的进一步限定，本实施方式中：

步骤(4)所述典型粒子是指下述七种情况之一：

第一种：是指钙、钠、钾、铁、镁、铜、锌、铝、钛、锰、铬、镉、镍、钒、钼、铅、汞、碳、氢、氧、氮、磷、硫、硅、碘、硼、硒、砷、氟和氯元素中任意一种元素的原子或任意多种元素的原子的组合；

第二种：是指钙、钠、钾、铁、镁、铜、锌、铝、钛、锰、铬、镉、镍、钒、钼、铅、汞、碳、氢、氧、氮、磷、硫、硅、碘、硼、硒、砷、氟和氯元素中任意一种元素的离子或者是任意多种元素的离子组合；

第三种：是指CN、NH、N₂、N₂ ⁺、OH、CH、C₂分子中一种或任意几种的组合；

第四种：是指上述所有原子和分子的任意组合；

第五种：是指上述所有原子和离子的任意组合；

第六种：是指上述所有离子和分子的任意组合；

第七种：是指上述所有原子、离子和分子的任意组合。

具体实施方式八、本实施方式是对具体实施方式一所述肿瘤分类鉴别模型的建立方法的进一步限定，本实施方式中：步骤(4)所述光谱特征数据矩阵的标准化处理方法是将光谱数据矩阵进行数学变换，使该矩阵中的每个光谱特征沿采样样本维度的平均值为0、方差为1，或者使每个光谱特征的数值归整到数学区间[0，1]或[-1，1]。

具体实施方式九、本实施方式是对具体实施方式一所述肿瘤分类鉴别模型的建立方法的进一步限定，本实施方式中：步骤(5)所述模型的验证包括基于独立测试集光谱数据的外部验证或基于随机选择的内部测试集光谱数据的内部交叉验证。

本实施方式所述的验证是通过采集大量的已经确诊的肿瘤患者和健康对照组的生物液样本的等离子体光谱，经过归一化、标准化等处理后作为分类鉴别模型的输入，通过交叉检验优化鉴别模型的参数(如kNN分类需要优化距离函数和k值，支持向量机分类需要优化核函数类型)就可以将分类鉴别模型固化和确定，至此即完成了建模的过程。基于这个模型就可以完成未知样本的分类和鉴别。

具体实施方式十、本实施方式所述的是将具体实施方式一至九中任意一个实施方式所述模型建立方法获得的肿瘤分类鉴别模型进行评估，本实施方式中，该模型建立后采用下述5种参数中的任意一种或多种作为指标来对模型进行评估。

参数1：准确率；

参数2：灵敏度；

参数3：特异性；

参数4：接收器工作特性曲线；

参数5：混淆矩阵。

具体实施方式十一、本实施方式是以淋巴瘤、白血病、多发性骨髓瘤为例，具体描述肿瘤分类鉴别模型的建立方法。

1、临床采集经过肿瘤病理学诊断确诊的淋巴瘤(Lymphoma)、白血病(Leukemia)、多发性骨髓瘤(Multiple myeloma，MM)患者的全血样本各16例、4例、6例，同时采集健康对照组(Normal)全血样本17例，样本总数43例。

2、将采集的新鲜全血样本涂敷到定量滤纸上，自然干燥后将附着有血液样本的滤纸固定到三维平移台上。

3、利用石英透镜将1064nm的调Q Nd:YAG脉冲激光聚集到血液样本表面，产生等离子体，激发样本中的微量元素产生发射光谱。等离子体的发射光谱通过透镜聚焦到光纤接收头上，然后传导到光纤光谱仪中进行探测。通过时间同步，设置光谱仪相对激光等离子体产生时刻的探测延时为5μs，设置光谱仪的探测门宽为2ms，测量等离子体的发射光谱。由于不同发射谱线的强度不同，因此信号噪声比和信号背景比也有所不同，本实施例中信号背景比>30，信号背景比>8。在测量过程中，控制三维平台相对激光等离子体移动，保证每次激光等离子体均作用在新鲜的样本表面。对于每个血液样本，采集100个光谱数据，其中每个光谱为25次独立测量结果的平均。图3所示为淋巴瘤、白血病、多发性骨髓瘤患者和健康对照组血液样本在300-450nm波段的激光诱导等离子体光谱；图4所示为淋巴瘤、白血病、多发性骨髓瘤患者和健康对照组血液样本在500-850nm波段的激光诱导等离子体光谱。

4、将测量得到的光谱数据相对CN分子388.34nm的带头进行归一化处理，即光谱强度乘以一系数使388.34nm处CN分子带头的峰值强度为1(所述“系数”是指388.34nm处峰值强度的倒数,不同光谱所得388.34nm峰值强度不同，故系数也相应不同)。选取Ca、Fe、Mg、Al、Na、K、H、O、N特征元素的原子和离子发射光谱和CN分子带头光谱，构成维度为4300(光谱采样总数)×128(光谱特征总数)的光谱数据矩阵。对光谱特征数据矩阵进行标准化处理，使该矩阵中的每个光谱特征沿采样样本维度的平均值为0、方差为1。所述“分子带头光谱”是指在分子的带状光谱中，光谱最强的地方，即为分子带头光谱。

5、对标准化处理后的光谱特征数据矩阵进行主成分分析，将原始光谱特征数据矩阵降维。如图5所示为淋巴瘤、白血病、多发性骨髓瘤和健康对照组前三个主成分得分值的散点分布图。从图中可以看出这四类样本表现出明显的聚类特性，尤其是健康对照组与肿瘤患者之间存在明显的区别。采用前25个主成分的得分值作为分类鉴别模型的输入进行建模训练。采用基于实例的k邻域(k nearest neighbors，kNN)分类算法建立肿瘤的分类鉴别模型，距离函数采用曼哈顿距离，即对于n维向量(x₁,x₂,…,x_n)和y(y₁,y₂,…,y_n)，其曼哈顿距离定义为

采用10折交叉检验，以分类准确率作为模型评估的依据，对肿瘤分类鉴别模型进行训练。如表1所示为淋巴瘤、白血病、多发性骨髓瘤和健康对照组不同近邻数k对应的10折交叉检验的分类准确率。训练结果表明，当近邻数k＝6、采用曼哈顿距离函数时，对淋巴瘤、白血病、多发性骨髓瘤和健康对照组四类样本，10折交叉检验的总体分类准确率达到94.8％。如表2所示为k＝6对应的淋巴瘤、白血病和多发性骨髓瘤kNN肿瘤鉴别模型的混淆矩阵。

表1淋巴瘤、白血病、多发性骨髓瘤和健康对照组不同近邻数k对应的10折交叉检验的分类准确率

表2淋巴瘤、白血病和多发性骨髓瘤kNN肿瘤鉴别模型的混淆矩阵

如图6所示为不同近邻数k的kNN模型对应的淋巴瘤、白血病、多发性骨髓瘤和健康对照组的鉴别灵敏度，图7所示为不同近邻数k的kNN模型对应的淋巴瘤、白血病、多发性骨髓瘤和健康对照组的鉴别特异性。灵敏度是正确分类的阳性样本(有病)与阳性样本总数的比例，表征分类鉴别模型正确识别疾病的能力。灵敏度越接近于1，分类鉴别模型正确识别疾病的能力越高。特异性是正确分类的阴性样本(无病)与阴性样本总数的比例，表征分类鉴别模型不发生误诊的能力。特异性越接近于1，分类鉴别模型越不容易发生误诊。一个好的鉴别模型要求同时具有高灵敏度和高特异性。当k＝6时，淋巴瘤、白血病和多发性骨髓瘤的鉴别灵敏度分别为0.921、0.932和0.900，特异性分别为0.976、0.986和0.974。结果表明，分类鉴别模型具有很好的鉴别灵敏度和特异性。

经过模型评估和交叉验证，建立了基于k邻域分类算法的淋巴瘤、白血病和多发性骨髓瘤分类鉴别模型。

具体实施方式十二、本实施方式所述的，是将具体实施方式一至十一中任意一个实施方式所述模型建立方法获得的肿瘤分类鉴别模型集成到肿瘤诊断和筛查仪器中，用于肿瘤的诊断及筛查。

具体地，所述生物液样本采集、样本预处理、等离子体产生、等离子体发射光谱采集操作过程可以作为肿瘤诊断和筛查仪器的操作规范和使用说明。

所述等离子体光谱的归一化处理、特征谱线选择、光谱特征数据矩阵建立和标准化处理、异常光谱去除可以作为肿瘤诊断和筛查仪器控制程序的功能模块，这些功能模块可以是具有单一功能的独立模块供仪器使用者顺次选择使用，也可以是具有多项数据处理功能的几个多功能模块(如归一化处理和特征谱线选择可以集成为一个多功能模块，光谱特征数据矩阵建立和标准化处理可以集成为另一个多功能模块)，还可以是集成所有数据处理功能的单一模块。

所述化学计量学和机器学习分类算法、模型验证方法、模型评估方法可以在仪器控制程序中选择。仪器控制程序可以提供图形化或表格化的结果输出以帮助仪器使用者评估和优化分类鉴别模型。仪器控制程序还可以对比不同分类鉴别模型的分类结果，以帮助使用者选择最优的分类鉴别模型。最终确定的肿瘤分类鉴别模型可以集成到仪器的处理器中。这些数据处理过程的结果可以选择保存到存储设备上，该存储设备可以是处理器的硬盘、光盘、移动硬盘以及其他存储设备。

肿瘤分类鉴别模型建立后，按照如下方法对待检对象进行肿瘤诊断和筛查：

(1)采集待检对象的生物液样本，采用肿瘤分类鉴别模型建模时的样本预处理方法和实验条件；

(2)在待检样本上产生激光诱导等离子体并测量等离子体的发射光谱；

(3)光谱经过归一化后，选取典型粒子的特征发射谱线，得到光谱特征数据矩阵；

(4)光谱特征数据矩阵经标准化后输入建立的肿瘤分类鉴别模型，获得待检样本的肿瘤类型。

下面为以淋巴瘤、多发性骨髓瘤、胃癌为例，说明本发明所述肿瘤分类鉴别模型在肿瘤诊断和筛查中的应用，具体方法如下：

1、临床采集经过肿瘤病理学诊断确诊的淋巴瘤(Lymphoma)、多发性骨髓瘤(Multiple myeloma，MM)和胃癌(Stomach)患者的全血样本各9例、8例、9例，同时采集健康对照组(Normal)全血样本17例，样本总数43例。

2、将采集的新鲜全血样本经过离心后提取上层血清。将新鲜血清样本均匀涂敷到定量滤纸上，自然干燥。采用与具体实施方式十中步骤3-6相同的操作产生激光诱导等离子体、采集光谱和光谱的归一化处理。

3、选取Ca、Na、K、H、O、N等特征元素的原子和离子发射光谱，构成维度为4300(光谱采样总数)×24(光谱特征总数)的光谱数据矩阵。对光谱特征数据矩阵进行标准化处理，使该矩阵中的每个光谱特征沿采样样本维度的平均值为0、方差为1。

4、对标准化处理后的光谱特征数据矩阵进行主成分分析，将原始光谱特征数据矩阵降维。如图8所示为淋巴瘤、多发性骨髓瘤、胃癌和健康对照组前三个主成分得分值的散点分布图。从图中可以看出这四类样本表现出明显的聚类特性，尤其是健康对照组与肿瘤患者之间存在明显的区别。

5、建模训练

(1)采用所有24个主成分的得分值作为分类鉴别模型的输入进行建模训练。采用基于实例的k近邻(kNN)分类算法，采用10折交叉检验，以分类准确率作为模型评估的依据，对肿瘤分类鉴别模型进行训练。如表3所示为淋巴瘤、多发性骨髓瘤、胃癌和健康对照组不同近邻数k对应的10折交叉检验的分类准确率。训练结果表明，当近邻数k＝8、采用曼哈顿距离函数时，对淋巴瘤、多发性骨髓瘤、胃癌和健康对照组四类样本，10折交叉检验的总体分类准确率达到92.3％，对淋巴瘤、多发性骨髓瘤和胃癌的鉴别灵敏度分别为0.972、0.825和0.813，特异性分别为0.986、0.963和0.955。

表3淋巴瘤、多发性骨髓瘤、胃癌和健康对照组不同近邻数k对应的10折交叉检验的分类准确率

(2)采用所有24个主成分的得分值作为分类鉴别模型的输入进行建模训练。采用不同核函数的支持向量机分类模型，采用10折交叉检验，对肿瘤分类鉴别模型进行训练。如表4所示为不同核函数对应的交叉检验准确率。训练结果表明，采用三阶多项式为核函数的支持向量机模型，对淋巴瘤、多发性骨髓瘤、胃癌和健康对照组四类样本，10折交叉检验的总体分类准确率达到93.5％，对淋巴瘤、多发性骨髓瘤和胃癌的鉴别灵敏度分别为0.970、0.861和0.844，特异性分别为0.996、0.959和0.962。

表4不同核函数对应的10折交叉检验的分类准确率

经过模型评估和交叉验证，建立了基于k邻域分类算法和支持向量机算法的淋巴瘤、多发性骨髓瘤和胃癌分类鉴别模型。

肿瘤分类鉴别模型建立后，按照如下方法对待检对象进行肿瘤诊断和筛查。采集待检对象的血清样本，采用肿瘤分类鉴别模型建模时的样本预处理方法和实验条件，在待检样本上产生激光诱导等离子体并测量等离子体的发射光谱。光谱经过归一化后获得Ca、Na、K、H、O、N等特征元素的原子和离子发射光谱，得到光谱特征数据矩阵，经标准化后输入建立的肿瘤分类鉴别模型，获得待检样本的肿瘤类型。

Claims

1.一种肿瘤分类鉴别模型的建立方法，其特征在于，所述建立方法包括：

(1)取经肿瘤病理学诊断确诊的肿瘤患者和健康对照组的生物液样本，建立生物液样本库，其中，所述生物液样本是指全血、血清、血浆、血细胞、血小板、尿液或等价生物液；

(2)所述生物液样本库中的样本经过预处理后，在样本上形成等离子体，激发样本中的微量元素产生发射光谱，其中，所述生物液样本的预处理采用下述四种方法之一：

第一种：将样本放置于能透射激光辐射和等离子体光辐射的具有约束性的容器或波导中；

第二种：将样本涂敷到致密固体基体表面，干燥后形成吸附于基体上的薄膜；

第三种：将样本涂敷到具有孔隙、能够吸收生物液样本的基体表面，干燥后形成吸附于基体上的薄膜；

第四种：将样本冷冻成固态；

(4)对步骤(3)采集的发射光谱数据进行归一化处理，选取典型粒子的特征发射谱线，建立光谱特征数据矩阵，对所述光谱特征数据矩阵进行标准化处理，其中，所述发射光谱数据的归一化处理方法包括：将光谱数据乘以一系数使谱线下方的面积为1或使某一特征谱线的强度为1；典型粒子是指下述七种情况之一：

第四种：是指上述所有原子和分子的任意组合；

第五种：是指上述所有原子和离子的任意组合；

第六种：是指上述所有离子和分子的任意组合；

第七种：是指上述所有原子、离子和分子的任意组合；

2.根据权利要求1所述肿瘤分类鉴别模型的建立方法，其特征在于，步骤(1)所述肿瘤包括淋巴瘤、白血病、多发性骨髓瘤、甲状腺癌、肺癌、食道癌、胃癌、肝癌、结肠癌、直肠癌、乳腺癌、卵巢癌、宫颈癌、子宫内膜癌、膀胱癌、前列腺癌、肾癌中的至少一种。

3.根据权利要求1所述肿瘤分类鉴别模型的建立方法，其特征在于，步骤(2)所述等离子体是指能够使生物液样本中的微量元素激发出光谱辐射的等离子体。

4.根据权利要求3所述肿瘤分类鉴别模型的建立方法，其特征在于，所述等离子体是指激光诱导击穿等离子体、介质阻挡放电等离子体、脉冲放电等离子体、辉光放电等离子体、微波等离子体、日冕等离子体或射频等离子体。

5.根据权利要求1所述肿瘤分类鉴别模型的建立方法，其特征在于，步骤(4)所述光谱特征数据矩阵的标准化处理方法是将光谱数据矩阵进行数学变换，使该矩阵中的每个光谱特征沿采样样本维度的平均值为0、方差为1，或者使每个光谱特征的数值归整到数学区间[0，1]或[-1，1]。

6.根据权利要求1所述肿瘤分类鉴别模型的建立方法，其特征在于，步骤(5)所述化学计量学和机器学习分类算法是指贝叶斯分类、判别函数分析、主成分分析、决策树分析、人工神经网络分析、基于实例的分析中的任意一种及基于上述多种方法的组合分类方法。

7.根据权利要求1所述肿瘤分类鉴别模型的建立方法，其特征在于，步骤(5)所述模型的验证包括基于独立测试集光谱数据的外部验证或基于随机选择的内部测试集光谱数据的内部交叉验证。

8.根据权利要求1所述肿瘤分类鉴别模型的建立方法，其特征在于，该模型建立后采用下述5种参数中的任意一种或多种作为指标来对模型进行评估：

参数1：准确率；

参数2：灵敏度；

参数3：特异性；

参数4：接收器工作特性曲线；

参数5：混淆矩阵。

9.根据权利要求1所述肿瘤分类鉴别模型的建立方法，其特征在于，步骤(5)所述肿瘤分类鉴别模型是指处理器可读并且能够对输入待检测光谱数据进行分类鉴别的可执行指令，基于启发式的算法或借助商用软件建立。

10.权利要求1所述肿瘤分类鉴别模型的建立方法获得的模型集成到肿瘤诊断与筛查仪器中的应用。