CN117038060A

CN117038060A - 一种基于机器学习级联的拉曼光谱分子检测及成像装置

Info

Publication number: CN117038060A
Application number: CN202311020550.5A
Authority: CN
Inventors: 卢光明; 周清清; 陈萌; 郭景星; 许强; 汤黎明; 李建瑞; 蔡惠明
Original assignee: Eastern Theater General Hospital of PLA
Current assignee: Eastern Theater General Hospital of PLA
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-11-10

Abstract

一种基于机器学习级联的拉曼光谱分子检测及成像装置，其特征是它包括：坐标定位模块，等级聚类分析模块，机器学习预测成像模块和相似性分析模块，通过该检测装置，只需输入无处理组织切片任意位置的拉曼光谱，即可获得目标生物标记物的拉曼分子成像；本发明创新性地采用了共聚焦拉曼仪器发射的自发拉曼光谱，使用基于机器学习级联的拉曼光谱分子检测及成像装置，涉及拉曼光谱采集前到最终分子成像全过程，包括坐标定位系统，等级聚类分析，机器学习预测成像，相似性分析四大模块。最终实现组织学水平的无标记、快速(约30分钟)分子成像，有望用于术中快速分子诊断，而优化手术方案，实现个体的最优治疗决策。

Description

一种基于机器学习级联的拉曼光谱分子检测及成像装置

技术领域

本发明涉及一种医疗技术，尤其是一种用于肿瘤诊断的医疗检测系统，具体地说是一种基于机器学习级联的拉曼光谱分子检及成像装置，它属于无标记、自发拉曼光谱分子检测及成像装置，本发明涉及多种机器学习算法，例如：坐标定位系统，等级聚类分析，支持向量机，相似性分析等。

背景技术

肿瘤的分子病理诊断在现代医学中扮演着极其重要的角色。通过分析肿瘤细胞内的分子特征，可以更全面、精确地了解肿瘤的生物学行为和治疗敏感性，以及预测肿瘤的预后和复发风险，从而为患者提供更加个体化的治疗方案。然而，目前的分子病理诊断主要包括基因检测，免疫组织化学(immunohistochemistry,IHC)，荧光原位杂交(fluorescencein situ hybridization,FISH)等。因涉及染色体杂交或抗原抗体结合反应，上述技术存在步骤复杂、耗时长(2天左右)的缺陷。此外，因肿瘤的分子表达存在极强的异质性，即使同一块组织，分子表达也存在不一致的现象。因此，术后分子病理学诊断往往不能体现术中残余肿瘤的实际分子表达情况。综上，亟需一种适用于术中的快速分子检测及成像装置能够实现对术中残余肿瘤分子表达情况可视化和定量检测，进而有利于呈浸润性生长的肿瘤术中决策和术后个体化免疫治疗。

拉曼光谱(Raman spectra)技术作为分子振动光谱学的一种方法，利用非弹性光散射现象，在不需要标记的情况下分析生物组织中的蛋白质、核酸和脂质等分子组分。能够术中实时检测肿瘤与正常组织，包括脑胶质瘤，乳腺癌，肝癌，前列腺癌等。此外，采用受激拉曼散射(stimulated raman scattering,SRS)技术通过双激发光实现类似病理组织学成像，用于术中肿瘤病理成像。然而，多数肿瘤标记物的分布存在空间和时间异质性，以病灶为单位的采集显然忽视了分子表达的内在异质性，从而不能准确可视化组织的分子表达。此外，SRS技术复杂，设备昂贵，一般的共聚焦拉曼光谱仪器无法实现SRS。

中国专利CN 113095188 A公开了一种基于深度学习的拉曼光谱数据分析方法与装置，它构建基于多尺度特征融合的深度残差神经网络模型，利用ResNet50作为模型主干网络，融合拉曼光谱特征信息，提高光谱空间语义信息表征能力；使用训练集对拉曼光谱分析模型进行训练，在验证集与测试集上对模型进行性能评估；最后，将训练的模型部署至边缘计算设备，构建拉曼光谱数据分析装置。

中国专利CN 107818298 B公开了一种用于机器学习物质识别算法的通用拉曼光谱特征提取方法，可以对任意指定范围的拉曼光谱进行特征提取，所提取的特征向量适用于多种机器学习算法，通用性强，不受目标物质或测试体系的限制；可以自动去除噪声和荧光背景的干扰，同时保留峰值信号的位置和强度等信息；可以有效识别包含各种目标物质的光谱；可以准确提取空白光谱特征，有效识别和准确区分阴性和阳性样品。

中国专利CN 109190714 A基于深度机器学习模型实现拉曼信号鉴别的系统及方法，采用了基于深度机器学习模型的拉曼信号数据处理与鉴别的系统及方法，可以实现对拉曼光谱仪采集的原始拉曼数据进行自动、快速去噪、有效信号的智能识别和分类.基于深度机器学习模型实现拉曼信号数据处理与鉴别功能的系统及其方法。

中国专利CN 111089854 A组合拉曼光谱分析系统，公开了一种组合拉曼光谱分析系统，多波段拉曼光谱探测模块、多波长激光源以及根据接收的拉曼光谱用软件分析被测物质。该发明能够广泛用于物质的多种拉曼光谱分析。

中国专利CN 112513561 B公开了一种用于质量控制的拉曼光谱法和机器学习确定聚合物的质量的方法，更具体地，用于确定聚烯烃的质量的方法。该方法涉及拉曼光谱法和人工智能来计算聚合物的性质和/或特征。

中国专利CN 113065403 A公开了一种基于高光谱成像的机器学习细胞分类方法及装置，对细胞进行高光谱成像，获得尺寸为S×M×N的三维细胞高光谱图像，其中，S表示不同波数，每个波数对应的大小为M×N的二维图像，二维图像中每一个像素的强度表示对应波数下的信号强度，每个像素在不同波数下的信号强度组合能反映像素对应物质的化学特性；对细胞高光谱图像进行预处理和细胞分割后，获取细胞图像块；利用机器学习模型对细胞图像块进行分类，获得细胞分类结果。

中国专利CN 114544592 A公开了一种基于卷积神经网络的拉曼光谱智能分类方法。

中国专利CN 111433592 A公开了一种辨别方法、学习方法、辨别装置以及计算机程序，从一个未辨别的细胞取得一个拉曼光谱，计算表示所述未辨别的细胞的拉曼光谱与多个主成分的光谱一致的程度的多个一致度，所述多个主成分的光谱通过由从种类明确的多个细胞的每一个逐个得到的拉曼光谱构成的多个拉曼光谱的主成分分析而得到，基于通过使用有监督学习的学习模型将与通过所述主成分分析得到的所述种类明确的多个细胞的每一个对应的多个主成分得分按种类分类的结果，对所述多个一致度进行分类，由此辨别所述未辨别的细胞的种类。

中国专利CN 115862007 A公开了一种利用stacking集成学习模型对拉曼光谱进行分类的方法。它可以充分利用拉曼光谱的所有特征，大大提高了拉曼光谱数据的利用率；整合了不同识别模型算法的优势，是一个稳定的光谱识别模型；利用改进的stacking集成学习模型构建针对不同数据集的光谱识别模型实现拉曼光谱的物质准确分类。

中国专利CN 109142317 B公开了一种基于随机森林模型的拉曼光谱物质识别方法，包括以下步骤：S100：选择多个样本，生成样本的拉曼谱图数据集，并对其中所有的拉曼谱图进行预处理，即自动消除影响谱图分析准确度的因素；S200：对预处理后的所有的拉曼谱图进行样本特征提取，所述样本特征为适用于随机森林模型的特征向量；S300：根据拉曼谱图数据集和提取的样本特征建立多个随机森林模型；S400：从多个随机森林模型中选择最优的随机森林模型，使用其来判断待测样本归属的目标物质类别。本发明将拉曼谱图的物质识别(定性分析)问题转换为机器学习的分类问题，并实现批量实时处理，在保证高准确率的基础上，大大提高了运行速度。

中国专利CN 110874548 A公开了一种基于拉曼光谱结合SVM的肺癌细胞与正常细胞的识别方法：①培养两种细胞成细胞团；②将细胞培养成细胞团后直接放在载玻片上，用激光共焦拉曼光谱仪测量得到拉曼光谱；③得到拉曼光谱之后，结合Pro je ctFOUR 4.1软件对一些光谱进行去除宇宙射线的处理；④将步骤③预处理后的光谱进行特征提取，提取的特征是特征峰的位置和特征峰的强度比值；⑤对④中提取的特征再结合机器学习方法SVM对光谱数据进行分类识别；⑥选取剩余的样本进行测试，得到细胞识别的准确率。本发明利用激光共焦拉曼光谱仪可以获取光谱的特点且结合后面的特征提取，来消除由于实验或者样品培养过程中所产生的误差而引起的低识别率。

中国专利CN 111433592 A公开了一种辨别方法、学习方法、辨别装置以及计算机程序，它从一个未辨别的细胞取得一个拉曼光谱，计算表示所述未辨别的细胞的拉曼光谱与多个主成分的光谱一致的程度的多个一致度，所述多个主成分的光谱通过由从种类明确的多个细胞的每一个逐个得到的拉曼光谱构成的多个拉曼光谱的主成分分析而得到，基于通过使用有监督学习的学习模型将与通过所述主成分分析得到的所述种类明确的多个细胞的每一个对应的多个主成分得分按种类分类的结果，对所述多个一致度进行分类，由此辨别所述未辨别的细胞的种类。

中国专利CN 115565004 A公开了一种基于二维拉曼图结合深度学习的拉曼光谱分析方法，它通过获取生物样本的原始拉曼光谱数据和多种拉曼光谱数据转换方式；根据原始拉曼光谱数据的属性特征，对原始拉曼光谱数据的复杂程度进行判断得到复杂程度判断结果；根据复杂程度判断结果和预设的转换匹配机制，匹配最优的拉曼光谱数据转换方式，对预处理后的原始拉曼光谱数据进行转换得到二维拉曼图样本集，训练深度学习网络模型，得到训练好的深度学习网络模型，将实际二维拉曼图集输入训练好的深度学习网络模型进行图像分类，得到图像分类结果。本发明可根据光谱数据的复杂程度来匹配合适的转换过程，实现了高准确率的识别，提高了样品鉴别的能。

中国专利CN 114417937 A公开了一种基于深度学习的拉曼光谱去噪方法，它提出了一种基于深度学习的网络的拉曼光谱去噪方法，包括以下步骤：生成模型训练所需的拉曼光谱数据，分为训练集、验证集以及测试集；然后建立U-Net拉曼光谱去噪模型，模型分为编码器网络、解码器网络两个模块，在编码器网络中使用一维卷积对拉曼光谱数据进行特征提取，在解码器网络中对提取的特征光谱进行重构并输出纯净光谱。本发明能够有效地对拉曼光谱进行噪音去除，较好的保留拉曼光谱信息，为进一步对拉曼光谱进行定性与定量提供精确可靠的信息。

综上所述，当前基于机器(深度)学习的拉曼光谱诊断或检测的技术方案中，主要涉及两个方面：

一是采集拉曼光谱后，用机器(深度)学习算法对拉曼光谱进行分类，包括直接对光谱数据分类，提取特征后分类，或将拉曼光谱转换成二维图像后进行分类。二是采用机器(深度)学习方法对采集的拉曼光谱数据进行处理，包括降噪、平滑、特征提取等，以便得到更纯化的拉曼光谱用于后续分析、分类。它们普遍存在以下缺点：

1、上述技术方法均从拉曼光谱采集后干涉，没有从拉曼光谱采集前进行优化，因而得到的拉曼光谱含有其他分类的干扰，需要机器(深度)学习进一步优化数据。

2、上述技术方法多数是针对细胞分类或对组织块进行分类，尚没有对组织中的散在生物标记物进行分类，其原因是生物组织中的生物标记物异质性、散在分布的特点导致一般的采集方法很难采集到真正的目标生物标记物的拉曼光谱。

3、上述技术方法中的结果基本均是直接分类结果，没有对结果进行可视化及定量评分，亦缺少对结果的真实性评估。

发明内容

本发明的目的是针对现有的拉曼肿瘤诊断周期长，实时性差，无法及时用于手术中进行手术调整的问题，发明一种组织层面的肿瘤术中生物标记物诊断技术，即基于机器学习级联的拉曼光谱分子检测及成像装置。它采用多种机器学习算法构建一个从无处理组织切片上精准采集异质性分布的生物标记物的自发拉曼光谱、构建组织切片上生物标记物成像到评估成像真实性全流程。它创新性地采用了共聚焦拉曼仪器发射的自发拉曼光谱，使用基于机器学习级联的拉曼光谱分子检测及成像装置，涉及拉曼光谱采集前到最终分子成像全过程，包括坐标定位系统(coordinate positioning system,CLS)，等级聚类分析(hierarchical clustering analysis,HCA)，机器学习(support vector machine,SVM)预测成像，相似性分析(similarity analysis,SS)四大模块。最终实现组织学水平的无标记、快速(约30分钟)、分子检测与成像，有望用于术中快速分子诊断，从而优化手术方案，实现个体的最优治疗决策。

本发明的技术方案是：

一种基于机器学习级联的拉曼光谱分子检测及成像装置，其特征是它包括：坐标定位模块，等级聚类分析模块，机器学习预测成像模块和相似性分析模块，通过该检测装置，只需输入无处理组织切片任意位置的拉曼光谱，即可获得目标生物标记物的拉曼分子成像；其中：

一：坐标定位模块

首先采用定制的不锈钢载片作为基底，304镜面不锈钢，7.5cm*2.5cm*2mm，将无处理的速冻冰冻组织切片贴于不锈刚载片上，切片厚度为常规5μm，为了更好匹配坐标定位模块，一片组织贴于不锈钢载片上，相邻组织切片贴于普通载玻片上，尽量保持两个组织切片的角度一致。对普通载玻片上的组织切片进行IHC染色。对不锈钢载片上的组织切片采用单独装的病理切片盒封装，存放于-80度冰箱，以防止物质的内外交换而改变组织内物质性质。

在IHC图像上寻找一个解剖标记点，标记彩色圆点作为参考点。选择感兴趣区(region of interest,ROI)(例如目标生物标记物高表达区域)，并用矩形或圆形等图形勾画出ROI。保留比例尺及数值，保存当前界面为bmp或其他格式的图像文件。上述图像输入坐标定位模块，将输入的RGB图像转换为灰度图像，并去除超过阈值的像素。利用findContours函数(OpenCV,python 3.6.5)在二值图像中检索轮廓，利用等高线索引，可以得到矩形框顶点的位置。在二值图像中检索彩色圆点定为原点(0，0)，根据原点建立横纵坐标系。在二值图像中检索右下角比例尺的长度和数值。边界框的顶点坐标可以通过距离和比例尺尺度计算，公式如下:

其中x_v,y_v,x_p,y_p分别表示像素图像中矩形框的顶点v和原点p的位置。len(ruler)是比例尺的长度。x_d和y_d表示顶点的缩放坐标。偶尔地，当IHC图像与拉曼白光图像的角度不一致时，需调整两者角度一致。

当采集拉曼光谱时，于共聚焦拉曼白光视野下，选择与IHC图像对应的解剖标记点，标记为原点(0，0)，根据上述矩形框坐标值选择ROI采集拉曼光谱。

二、等级聚类分析模块

等级聚类分析(Hierarchical cluster analysis,HCA)是识别和排除大型数据集中异常数据的有效方法。在本研究中，HCA用来排除上述ROI内的其他分类的拉曼光谱，以确保采集最准确，纯净的拉曼光谱。为了能更准确的排除其他分类的拉曼光谱，可事先对不同类别的细胞或标准蛋白采集标准拉曼光谱。根据不同类别的拉曼光谱特征峰，将HCA聚类树中其他类别排除，最终保留ROI内的目标生物标记物的拉曼光谱。

具体步骤如下:

(1)对采集的拉曼光谱进行去除宇宙射线，基线校准，数据归一化等常规预处理，然后将ROI内拉曼光谱数据导入R(4.2.2版本)中。

(2)利用距离函数的欧几里得方法计算各拉曼光谱数据之间的距离矩阵，并反映在聚类树图的y轴上。

(3)以距离矩阵为输入，采用hclust函数中的单聚类方法进行HCA。

(4)利用Plot函数绘制聚类树，根据分支与主聚类的距离筛选其他区域的拉曼光谱数据。

(5)根据不同细胞/蛋白的标准拉曼光谱特征峰和等级聚类树图不同聚类的平均拉曼光谱，排除其他别类的拉曼光谱。

三、机器学习预测拉曼成像模块。

在上述两个模块获得不同分类的纯的拉曼光谱后，采用不同的机器学习方法，例如支持向量机(support vector machine,SVM)，随机森林(random forest,RF)，线性判别分析(linear discriminant analysis，LDA)、梯度增强树(Gradient enhanced tree，GBT)或深度学习(deep learning,DL)等构建拉曼光谱分类模型。这些机器学习算法能够从复杂的拉曼光谱中提取有用信号，用于不同ROI的不同类别拉曼光谱进行分类。使用平均灵敏度、特异性和准确性等指标在测试数据集上评估模型的性能。此外，生成多类别受试者特征曲线(Receiver characteristic curve,ROC)，并将ROC曲线下的面积(area under thecurve,AUC)作为分类模型的度量指标以筛选最优分类效能的分类器用于后续机器学习预测的拉曼成像。

根据上述IHC成像中不同细胞或目标生物标记物的染色颜色，对上述最优分类器的预测结果赋予相应的伪彩色，构建机器学习预测的拉曼成像。此外，根据不同分类类别的占比，计算出不同分类的比例评分。具体地，首先利用table函数(r4.2.2)计算机器学习各预测值的出现频率，然后进行prop。Table功能可得到不同类型拉曼光谱占总拉曼光谱数的比例。

四、相似性分析模块。

该模块采用结构相似度(structural similarity，SSIM)评估机器学习预测的拉曼成像与相邻切片IHC图像的相似度。以评估基于机器学习级联的拉曼光谱分子成像的可靠性。

采用外部验证数据，首先从IHC图像中选择ROI，通过上述坐标定位模块获得ROI的坐标值，根据坐标值在拉曼显微镜白光下采集相应位置区域的拉曼光谱。将拉曼光谱数据输入相似性分析模块。采用SSIM评价机器学习预测的拉曼成像与相邻切片的IHC图像的亮度、对比度和结构相似度，定义如下：

SSIM＝[l(x,y)]^α·[c(x,y)]^β·[s(x,y)]^γ

其中x是IHC图像，y是机器学习预测的拉曼成像。l(x,y)、c(x,y)、c(x,y)分别表示亮度比较、对比度比较和结构比较。μ_x、μ_x、σ_x和σ_y分别表示x和y的平均强度和标准差。在本研究中，为了防止出现分母为0的情况，我们设置了常数项C₁、C₂和C₃避免公式失衡，除此之外，指数一般情况下设置为“α＝β＝γ＝1”。考虑到SSIM的计算是基于IHC图像或机器学习预测的拉曼成像的单一颜色区域，因此使用k-means(OpenCV,python 3.6.5)对颜色区域进行分割。

五、基于机器学习级联的拉曼光谱分子检测及成像装置的应用。

对于构建好的基于机器学习级联的拉曼光谱分子检测及成像装置，直接将无处理冰冻切片组织任意位置采集的拉曼光谱经预处理后的数据输入该装置，即可获得目标分子(生物标记物)的拉曼成像和定量评分。不需要再经过上述坐标定位模块，等级聚类分析模块和相似性分析模块。该发明可用于呈浸润性生长的肿瘤切除术中导航，用于对术中残余灶进行肿瘤生物标记物的快速诊断，从而优化手术方案，实现个体的最优治疗决策。

本发明的有益效果是：

生物标记物，尤其是肿瘤相关的生物标记物对肿瘤的增值、侵袭、免疫逃逸等具有重要作用，全面了解这些生物标记物的分布情况，尤其在术中，将对患者的手术方案决策和术后个体化治疗具有重要意义。但是众多生物标记物在肿瘤内呈散在分布，异质性很强，采用传统的以病人术后病理或组织块病理为依据，很难采集到目标生物标记物的拉曼光谱。采用本发明装置中的坐标定位模块，可以实现拉曼显微镜下白光视野和相邻IHC图像精准匹配，根据ROI的坐标实现ROI拉曼光谱的精确采集。

考虑到相邻切片间可能存在亚细胞级误差，或者其他类别的细胞。本发明装置的等级聚类模块可以无监督的区分出不同的拉曼光谱聚类，根据预采集的不同种类标准拉曼光谱，去除其他种类拉曼光谱而保留目标种类纯的拉曼光谱。采用该方式获得纯的目标生物标记物拉曼光谱，可减少采集的样本范围和样本量，并提高诊断准确度。

本装置的第三个模块，机器学习预测拉曼成像，而非传统的利用拉曼位移成像。因为生物标记物的拉曼光谱复杂，单一的拉曼位移成像并不能有效反映目标生物标记物的拉曼光谱。机器学习能有效提取多个特征拉曼峰，采用预测结果的伪彩色成像，能更好体现目标生物标记物的拉曼特征。

最后，相似性分析模块分析外部验证数据的机器学习预测成像与相邻IHC图像的相似度，以评机器学习预测拉曼成像的真实性、可靠性和对外部数据成像的鲁棒性。

附图说明

图1是本发明基于机器学习级联的拉曼光谱分子检测及成像装置示意图。

图2是本发明的坐标定位模块示意图。

图3是本发明的等级聚类分析模块示意图。

图4是本发明的机器学习预测拉曼成像模块示意图。

图5是本发明的相似性分析模块示意图。

图6是本发明实施例的基于机器学习级联的拉曼光谱分子检测及成像装置实施例示意图。左侧描绘了基于机器学习级联的拉曼光谱分子检测及成像装置的构建过程，包括四个主要步骤，右图描绘了基于机器学习级联的拉曼光谱分子检测及成像装置的应用。

图7是本发明实施例的坐标定位模块实施例示意图，图中A为MxIF图像，B为拉曼白光图像，C为PD-L1_G区，D为PD-L1_L区，A，B比例尺500μm，C，D比例尺：10μm。

图8是本发明实施例的等级聚类模块实施例示意图，图中：A，不同细胞拉曼光谱采集，B，不同细胞的平均拉曼光谱及特征峰，C，对小鼠胶质瘤组织ROI采集拉曼光谱，D，等级聚类分析聚类树图，E，等级聚类分析不同聚类的平均拉曼光谱，i全部数据的平均拉曼光谱，ii D图聚类图右侧聚类的平均拉曼光谱，iii D图聚类图左侧聚类的平均拉曼光谱，比例尺：10μm。

图9为本发明实施例的机器学习预测拉曼成像模块实施例示意图，图中：A，不同机器学习分类器平均分类准确性，B，SVM对5个不同类别混淆矩阵图，C，SVM对不同类别分类的ROC曲线，D，图8C相邻切片的MxIF图像，E，对D图黄框区域的放大，F，SVM预测拉曼成像，比例尺：10μm。

图10是本发明实施例的定量评分实施例图，图中：A，代表性SVM预测拉曼成像1，B，对应的。

图11是本发明实施例的相似性分析实施例图，图中：A，D、肿瘤核心区的MxIF图像，G，肿瘤外周区的MxIF图像，J，肿瘤与正常脑组织浸润边界的MxIF图像，G和J中的黄色虚线表示边界，比例尺:100μm。B，E，H，K为SVM预测拉曼成像，C，F，I，L是由A，D，G，j中的方框得到的相应的MxIF图像，B1-4，C1-4，E1-4，F1-4，H1-4，I1-4，K1-4，L1-4分别根据B，C，E，F，H，I，K，L中的颜色通过K-means提取不同色块，图像下方百分比数值是上面两个图像的SSIM值。比例尺:A，D，G，J，100μm；C，F，I，L10μm

图12是本发明实施例的基于机器学习级联的拉曼光谱分子检测及成像装置应用实施例示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图6-12所示。

胶质母细胞瘤(Glioblastoma,GBM)是一种高度浸润和位置特异性的脑肿瘤，治疗选择有限且预后极差。手术治疗是GBM患者的主要治疗手段，术后联合免疫疗法有望改善对GBM患者的生存率。免疫微环境(Immune microenvironment,IME)中肿瘤细胞和免疫细胞的程序性死亡配体-1(Programmed death ligand-1,PD-L1)的表达水平是预测免疫治疗疗效的主要预测指标。然而IME中PD-L1的表达存在显著异质性，即使是同一块组织内也会出现表达不一致现象，因此给术后免疫治疗的反应预测带来了挑战。因此，术中可视化关键脑功能区残余GBM IME中PD-L1表达水平对于在肿瘤切除和免疫治疗间制定最佳治疗策略至关重要。然而，目前的组织病理学检查耗时较长。采用本发明介绍的基于机器学习级联的拉曼光谱分子检测及成像装置，可克服GBM IMT的异质性，可视化GBM IMT中胶质瘤细胞、CD8⁺T细胞、巨噬细胞和正常细胞中的PD-L1表达水平。肿瘤/正常脑浸润边界也得到准确描绘。我们采用肿瘤比例评分(tumor proportion score,TPS)、综合阳性评分(combined positivescore,CPS)和细胞组成评分(cellular composition scores,CCS)来量化PD-L1表达水平。在原位移植胶质瘤小鼠模型中，基于机器学习级联的拉曼光谱分子检测及成像装置在识别这些细胞方面表现出很高的平均准确性(0.990)，与多重免疫荧光(Multipleimmunofluorescence,MxIF)图像显示出高的结构相似性(84.31％)，并与传统病理学评分显示强的相关性(R²≥0.9)。重要的是，从拉曼信号收集到PD-L1表达水平的可视化整个过程只需30分钟。本发明介绍了一种新的肿瘤术中分子检测及成像装置，为肿瘤切除和术后个体化免疫治疗提供潜在指导。

一种基于机器学习级联的拉曼光谱分子检测及成像装置，如图6所示。图6中左侧描绘了基于机器学习级联的拉曼光谱分子检测及成像装置的构建过程，包括四个主要步骤，右图描绘了基于机器学习级联的拉曼光谱分子检测及成像装置的应用。

一.坐标定位模块。

构建8只C57BL/6小鼠种植GL261细胞的原位胶质瘤模型。约25天后小鼠MRI证实胶质瘤原位种植成功，对小鼠进行心脏灌注生理盐水后取脑。对脑组织包埋最佳切割温度剂(optimal cutting temperature，OCT)后用液氮快速冷冻，于低温切片机切片，层厚为5μm。一片贴于定制的不锈钢载片上，相邻片贴于普通载玻片。对普通载玻片上的组织切片进行MxIF染色，对染色后的图像输入坐标定标模块。对不锈钢载片上的组织切片单独封装，存放于-80度冰箱，以防止物质的内外交换而改变组织内物质性质。

在MxIF上寻找一个解剖标记点，标记为一个彩色圆点(图7A白箭)。选择不同ROIs，包括胶质瘤PD-L1高表达区(PD-L1_G)、CD8⁺T细胞PD-L1高表达区(PD-L1_T)，巨噬细胞PD-L1高表达区(PD-L1_M)，胶质瘤PD-L1低表达区(PD-L1_L)和正常脑组织区。用矩形勾画出ROI(图7A白箭头)。保留比例尺及数值，保存当前界面为bmp文件。将上述图像输入坐标定位模块，将输入的RGB图像转换为灰度图像，并去除超过阈值的像素。利用findContours函数(OpenCV,python 3.6.5.)从二值图像中检索轮廓，利用等高线索引，可以得到矩形顶点的位置。在二值图像中检索彩色圆点定为原点(0，0)，根据原点建立横纵坐标系。从二值图像中检索右下角的比例尺的长度和数值。边界框的顶点坐标(如图7C，D)可以通过距离和比例尺尺度计算，公式如下:

其中x_v,y_v,x_p,y_p分别表示像素图像中矩形框的顶点v和原点p的位置。len(ruler)是右下标尺的长度。x_d和y_d表示顶点的缩放坐标。偶尔，当MxIF图像与拉曼显微镜白光图像的角度不一致时，调整MxIF图像的角度使两者一致。

当采集拉曼光谱时，于共聚焦显微镜拉曼白光视野下，选择与MxIF图像对应的解剖标记点(图7B，黑箭)，标记为原点(0，0)，根据上述ROI矩形框坐标值选择ROI采集拉曼光谱(图7B，黑箭头)。利用坐标定位模块从不同ROIs共收集到5029个拉曼光谱，将其标记为PD-L1_G、PD-L1_T、PD-L1_M、PD-L1_L和正常脑组织5个亚组。

二.等级聚类分析模块。

为了能更准确的排除其他分类的拉曼光谱，我们对小鼠CD8⁺T细胞，小鼠巨噬细胞RAW264.7，小鼠神经元HT22细胞和小鼠GL261胶质瘤细胞采集标准拉曼光谱作为参考拉曼光谱。贴壁细胞(RAW264.7，HT22和GL261)用DMEM培养基培养3代后贴于不锈钢载片上孵育24小时备用。悬浮细胞(CD8⁺T)用RPMI-1640培养基培养48小时后，制备含CD8⁺T细胞的PBS悬液(5×10⁵的密度)，将细胞悬液涂于不锈钢载片上。将上述4种细胞表面覆盖一层薄的PBS用于活体状态下采集拉曼光谱，每个细胞随机采集6-8个点，每种细胞类型平均采集40个光谱数据(图8A)，取平均光谱(图8B)。

对ROI采集拉曼光谱(图8C)。然后对原始拉曼光谱数据进行预处理，包括：

(1)质量控制:严格按照PD-L1表达区域采集光谱，排除信噪比小于3的光谱。

(2)宇宙射线去除:采用最近邻算法(噪声水平:0.16，光谱高度:5.33)去除可能来自宇宙射线或CCD过载的尖峰。

(3)基线校正:采用智能多项式拟合(多项式阶为11，噪声容限为1.5)从不锈钢基底或样品的荧光背景中去除背景拉曼信号。

(4)归一化:采用1003cm^-1处苯丙氨酸的拉曼峰对整个拉曼光谱进行归一化。

对预处理后的拉曼光谱输入等级聚类分析模块，具体包括下列步骤：

(1)将预处理后的拉曼光谱数据导入R(4.2.2版本)中。

(4)利用Plot函数绘制聚类树，根据分支与主聚类的距离筛选其他区域的拉曼光谱数据(图8D)。

(5)根据不同细胞的标准拉曼光谱特征峰(图8B)和等级聚类分析中不同聚类的平均拉曼光谱，排除其他别类的拉曼光谱(图8E)，保留ROI内的目标生物标记物的纯的拉曼光谱。通过等级聚类分析模块，共去除352个拉曼光谱，剩余PD-L1_G组1294个，PD-L1_T组721个，PD-L1_M组638个，PD-L1_L组1058个，正常脑组织966个拉曼光谱。

三.机器学习预测拉曼成像模块。

完成上述模块后，获得不同分类的纯的拉曼光谱。采用不同的机器学习方法，包括SVM，RF，LDA，GBT。这些机器学习算法能够从复杂拉曼光谱中提取有用信号，用于对不同类别的拉曼光谱进行分类。使用平均灵敏度、特异性和准确性等指标在测试数据集上评估模型的分类性能。此外，ROC曲线，ROC作为模型精度的度量指标以筛选最优分类效能的分类器用于后续拉曼成像。

在本实施例中，采用等聚类分析模块筛选的80％数据作为训练集，20％作为测试集。SVM算法对胶质瘤组织的5种PD-L1表达细胞分类效果最好，平均准确性达到0.990(图9A)。混淆矩阵图显示PD-L1_M中的3个光谱、PD-L1_G的7个光谱和PD-L1_L的6个光谱识别错误(图9B)。ROC曲线显示，PD-L1_T的分类准确率最高(1.000)，其次是正常脑组织(0.996)、PD-L1_M(0.987)、PD-L1_L(0.984)和PD-L1_G(0.982)(图9C)。

根据上述切片的相邻MxIF图像(图9D，E)中不同PD-L1表达的颜色，对上述SVM的预测结果赋予相应的伪彩色，构建SVM预测拉曼成像(图9F)。如图9所示，SVM预测拉曼成像和对应的MxIF具有很好的一致性。

此外，根据不同分类类别的占比，计算TPS、CPS和CCS用以定量评估GBM IMT中胶质瘤细胞和周围免疫细胞的PD-L1表达水平。具体地，首先利用table函数(r4.2.2)计算SVM预测值的频率，然后进行prop。Table功能可得到不同类型细胞占细胞总数的比例，即CCS_Raman。TPS_Raman和CPS_Raman的计算公式如下:

基于MxIF的传统评分由两名病理医师进行评估，评估两次取平局值。代表性SVM预测拉曼成像1和2和对应的MxIF图像如图10A，B，E，F所示，SVM预测拉曼成像和MxIF的PD-L1表达定量评分如图10C，D所示，皮尔森相关性分析显示两者具有很高的相关性(R²>0.92，P<0.001)，说明SVM预测拉曼成像的PD-L1表达定量评分和传统的病理医师评分具有很高的相关性。如图10所示。

MxIF图像，C，SVM预测拉曼成像和MxIF的PD-L1表达定量评分，D，SVM预测拉曼成像和MxIF的PD-L1表达定量评分相关性分析，E，代表性SVM预测拉曼成像2，F，对应的MxIF图像，G，SVM预测拉曼成像和MxIF的PD-L1表达定量评分，H，基于SVM预测拉曼成像和MxIF的PD-L1表达定量评分相关性分析，比例尺：10μm

四.相似性分析模块。

从其他批次构建的2只C57BL/6小鼠原位胶质瘤模型中收集4856个拉曼光谱成像数据作为外部验证数据，进行相似性分析以评估SVM预测拉曼成像与相邻MxIF图像的相似性，以验证模型的真实性和鲁棒性。

具体地，首先从MxIF图像中选择ROI区域，通过上述坐标定位模块获得ROI的坐标值，根据坐标值在共聚焦拉曼显微镜白光下采集相应位置的拉曼光谱成像数据。将数据输入相似性分析模块。采用SSIM评估SVM预测拉曼成像与相邻切片MxIF图像的亮度、对比度和结构相似度，定义如下：

SSIM＝[l(x,y)]^α·[c(x,y)]^β·[s(x,y)]^γ

其中x是MxIF图像，y是共聚焦拉曼显微镜白光图像。l(x,y)、c(x,y)、s(x,y)分别表示亮度比较、对比度比较和结构比较。μ_x、μ_y、σ_x和σ_y分别表示x和y的平均强度和标准差。在本研究中，为了防止出现分母为0的情况，我们设置了常数项C₁、C₂和C₃避免公式失衡，除此之外，指数一般情况下设置为“α＝β＝γ＝1”。考虑到SSIM的计算是基于MxIF或SVM预测拉曼成像的单一颜色区域，因此使用k-means(OpenCV,python 3.6.5.)对颜色区域进行分割。

在胶质瘤的核心区域，SVM预测拉曼成像清楚地区分呈聚集分布的PD-L1_G和PD-L1_T。成像结果与相应的MxIF图像具有高度的相似性(平均SSIM为84.00％)(图11A-F3)。在瘤周区域，SVM预测拉曼成像可见PD-L1_T呈散在分布，与MxIF具有显著的一致性(平均SSIM为88.85％)(图11G-I4)。肿瘤与正常组织的浸润边界可见存在较多的PD-L1_M(平均SSIM为80.24％)(图11J至L4)。各类别SVM预测成像的平均SSIM值为84.31％，其中PD-L1_T的SSIM最高，为92.44％。总体而言，SVM预测拉曼成像能够描绘出不同细胞类型之间PD-L1分子边界以及肿瘤与正常脑组织的浸润边界。成像结果与相应的MxIF图像高度相似，揭示了PD-L1表达细胞在空间分布上的显著异质性。

五.基于机器学习级联的拉曼光谱分子检测装置的应用。

对于构建好的机器学习级联的拉曼光谱分子检测装置，直接将胶质瘤无处理冰冻切片的任意区域的拉曼光谱经预处理后的数据输入该装置，即可获得PD-L1在GBM IME中的拉曼成像和PD-L1定量评分，包括TPS_Raman，CPS_Raman，CCS_Raman(图12)。不需要再经过上述坐标定位模块，等级聚类分析模块和相似性分析模块。

本发明未涉及部分与现有技术相同或可采用现有技术加以实现。

Claims

1.一种基于机器学习级联的拉曼光谱分子检测及成像装置，其特征是它包括：坐标定位模块，等级聚类分析模块，机器学习预测成像模块和相似性分析模块，通过该检测装置，只需输入无处理组织切片任意位置的拉曼光谱，即可获得目标生物标记物的拉曼分子成像；其中：

所述的坐标定位模块是首先采用定制的不锈钢载片作为基底，将无处理的速冻冰冻组织切片贴于不锈刚载片上，为了更好匹配坐标定位模块，一片组织贴于不锈钢载片上，相邻组织切片贴于普通载玻片上，保持两个组织切片的角度一致；对普通载玻片上的组织切片进行IHC染色；对不锈钢载片上的组织切片采用单独装的病理切片盒封装，存放于-80度冰箱，以防止物质的内外交换而改变组织内物质性质；在IHC图像上寻找一个解剖标记点，标记彩色圆点作为参考点；选择感兴趣区(region of interest,ROI)，并用矩形或圆形等图形勾画出ROI；保留比例尺及数值，保存当前界面为bmp或其他格式的图像文件；上述图像输入坐标定位模块，将输入的RGB图像转换为灰度图像，并去除超过阈值的像素；利用findContours函数(OpenCV,python 3.6.5)在二值图像中检索轮廓，利用等高线索引，得到矩形框顶点的位置；在二值图像中检索彩色圆点定为原点(0，0)，根据原点建立横纵坐标系；在二值图像中检索右下角比例尺的长度和数值；边界框的顶点坐标可以通过距离和比例尺尺度计算，公式如下:

其中x_v,y_v,x_p,y_p分别表示像素图像中矩形框的顶点v和原点p的位置，len(ruler)是比例尺的长度，x_d和y_d表示顶点的缩放坐标，当IHC图像与拉曼白光图像的角度不一致时，需调整两者角度一致；当采集拉曼光谱时，于共聚焦拉曼白光视野下，选择与IHC图像对应的解剖标记点，标记为原点(0，0)，根据上述矩形框坐标值选择ROI采集拉曼光谱；

所述的等级聚类分析模块用于等级聚类分析(Hierarchical cluster analysis,HCA)，它用于识别和排除大型数据集中异常数据，HCA用来排除上述ROI内的其他分类的拉曼光谱，以获得不同分类的纯的拉曼光谱。为了能更准确的排除其他分类的拉曼光谱，事先对不同类别的细胞或标准蛋白采集标准拉曼光谱；根据不同类别的拉曼光谱特征峰，将HCA聚类树中其他类别排除，最终保留ROI内的目标生物标记物的拉曼光谱；

所述的机器学习预测拉曼成像模块用于预测不同类别的拉曼光谱并获得拉曼预测成像；采用不同的机器学习方法，从复杂的拉曼光谱中提取有用信号，用于不同ROI的不同类别拉曼光谱进行分类；使用平均灵敏度、特异性和准确性指标在测试数据集上评估模型的性能的同时，生成多类别受试者特征曲线(Receiver characteristic curve,ROC)，并将ROC曲线下的面积(area under the curve,AUC)作为分类模型的度量指标以筛选最优分类效能的分类器用于后续机器学习预测的拉曼成像；根据IHC成像中不同细胞或目标生物标记物的染色颜色，对所述分类器的预测结果赋予相应的伪彩色，构建机器学习预测的拉曼成像，此外，根据不同分类类别的占比，计算出不同分类的比例评分；

所述的相似性分析模块是指采用结构相似度(structural similarity，SSIM)评估机器学习预测的拉曼成像与相邻切片IHC图像的相似度，以评估基于机器学习级联的拉曼光谱分子成像的可靠性，采用外部验证数据，首先从IHC图像中选择ROI，通过上述坐标定位模块获得ROI的坐标值，根据坐标值在拉曼显微镜白光下采集相应位置区域的拉曼光谱，将拉曼光谱数据输入相似性分析模块，采用SSIM评价机器学习预测的拉曼成像与相邻切片的IHC图像的亮度、对比度和结构相似度，定义如下：

SSIM＝[l(x,y)^α·[c(x,y)^β·[s(x,y)^γ

其中x是IHC图像，y是机器学习预测的拉曼成像。l(x,y)、c(x,y)、c(x,y)分别表示亮度比较、对比度比较和结构比较，μ_x、μ_x、σ_x和σ_y分别表示x和y的平均强度和标准差，C₁、C₂和C₃为常数项，指数情况下设置为“α＝β＝γ＝1”，考虑到SSIM的计算是基于IHC图像或机器学习预测的拉曼成像的单一颜色区域，因此使用k-means(OpenCV,python 3.6.5)对颜色区域进行分割。

2.根据权利要求1所述的检测及成像装置，其特征是：所述的不锈钢载片为304镜面不锈钢，7.5cm*2.5cm*2mm，它具有基底拉曼信号弱，组织切片的拉曼信号信噪比高的特点。

3.根据权利要求1所述的检测及成像装置，其特征是：所述的切片厚度为5μm。

4.根据权利要求1所述的检测及成像装置，其特征是：所述的感兴趣区是指目标生物标记物高表达区域。

5.根据权利要求1所述的检测及成像装置，其特征是：所述的等级聚类分析模块的分析步骤为：

(1)对采集的拉曼光谱进行去除宇宙射线，基线校准，数据归一化等常规预处理，然后将ROI内拉曼光谱数据导入R(4.2.2版本)中；

(2)利用距离函数的欧几里得方法计算各拉曼光谱数据之间的距离矩阵，并反映在聚类树图的y轴上；

(3)以距离矩阵为输入，采用hclust函数中的单聚类方法进行HCA；

(4)利用Plot函数绘制聚类树，根据分支与主聚类的距离筛选其他区域的拉曼光谱数据；

6.根据权利要求1所述的检测及成像装置，其特征是：所述的机器学习方法包括支持向量机(support vector machine,SVM)，随机森林(random forest,RF)，线性判别分析(linear discriminant analysis，LDA)、梯度增强树(Gradient enhanced tree，GBT)或深度学习(deep learning,DL)。

7.根据权利要求1所述的检测及成像装置，其特征是：所述的根据不同分类类别的占比，计算出不同分类的比例评分时首先利用table函数(r4.2.2)计算机器学习各预测值的出现频率，然后进行prop，根据Table功能得到不同类型拉曼光谱占总拉曼光谱数的比例。

8.根据权利1所述的检测及成像装置，其特征是：直接将无处理冰冻切片组织任意位置采集的拉曼光谱经预处理后的数据输入该装置，既可获得目标分子(生物标记物)的拉曼成像和定量评分，不需要再经过上述坐标定位模块，等级聚类分析模块和相似性分析模块。