CN116309497A

CN116309497A - 基于图像识别的癌细胞计数及预后预测的辅助分析方法

Info

Publication number: CN116309497A
Application number: CN202310300043.0A
Authority: CN
Inventors: 王晓乔; 张在其; 尹辉明; 唐娜萍
Original assignee: Hunan University of Medicine
Current assignee: Hunan University of Medicine
Priority date: 2023-03-26
Filing date: 2023-03-26
Publication date: 2023-06-23
Anticipated expiration: 2043-03-26
Also published as: CN116309497B

Abstract

本发明涉及生物特征识别技术领域，尤其涉及一种基于图像识别的癌细胞计数及预后预测的辅助分析方法。本发明提供了一种基于图像识别的癌细胞计数方法，包括：使用高光谱相机获取切片的高光谱图像，从切片的高光谱图像中获取预设大小的第一切片区域；使用全色相机获取切片的第一图像，使用分水岭算法对第一图像对应第一切片区域中的细胞进行分割以获得多个单细胞图像；根据高光谱图像对所述多个单细胞图像分别标注为癌细胞和正常细胞；利用所述多个单细胞图像对识别切片的全色图像中癌细胞的癌细胞图像识别模型进行迁移学习得到高精度癌细胞识别模型；统计高精度癌细胞识别模型识别所得到的癌细胞总数。本发明能够提高癌细胞计数的准确性。

Description

基于图像识别的癌细胞计数及预后预测的辅助分析方法

技术领域

本发明涉及生物特征识别技术领域，尤其涉及一种基于图像识别的癌细胞计数及预后预测的辅助分析方法。

背景技术

癌症是一种严重威胁人类健康的疾病。癌细胞计数是评估癌症状况及预测预后的重要指标。传统的癌细胞计数方法通常依赖人工显微镜观察和计数，这种方法耗时、劳动强度大且准确性不高。

近年来，图像识别技术在癌细胞计数方面得到了广泛应用，但现有技术仍存在识别准确率不高的问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本发明提供了一种基于图像识别的癌细胞计数方法，可以提高癌细胞计数的准确性。

第一方面，本发明提供了一种基于图像识别的癌细胞计数方法，包括：

使用高光谱相机获取切片的高光谱图像，从切片的高光谱图像中获取预设大小的第一切片区域；

使用全色相机获取切片的第一图像，使用分水岭算法对第一图像对应第一切片区域中的细胞进行分割以获得多个单细胞图像；

根据高光谱图像对所述多个单细胞图像分别标注为癌细胞和正常细胞；

利用所述多个单细胞图像对识别切片的全色图像中癌细胞的癌细胞图像识别模型进行迁移学习得到高精度癌细胞识别模型；

统计利用高精度癌细胞识别模型对第一图像进行识别所得到的癌细胞总数。

可选的，所述高精度癌细胞识别模型通过以下步骤获得：

预先获取大量癌细胞的全色图像和非癌细胞的全色图像，并划分为第一训练集和第一测试集，使用CNN模型作为主体框架，使用第一训练集和第一测试集对所述CNN模型进行训练以得到适用于普遍人群的癌细胞图像识别模型；

使用新的预设层数的全连接层以及一个分类层替换适用于普遍人群的特定癌细胞的癌细胞图像识别模型的分类层以形成待学习癌细胞识别模型；

根据所述多个单细胞图像对待学习癌细胞识别模型进行训练以获得高精度癌细胞识别模型。

可选的，从切片的高光谱图像中获取预设大小的第一切片区域包括以下步骤：

对切片的高光谱图像按照可容纳一个或两个细胞的大小的正方形进行分块以获得多个高光谱图像块，使用预设的高光谱分类器对所述多个高光谱图像块进行分类，获取癌细胞高光谱图像块；

选取第一预设数量的相互相连的高光谱图像块组成第一切片区域，所述第一切片区域至少具有第二预设数量以上的癌细胞高光谱图像块。

可选的，统计利用高精度癌细胞识别模型对第一图像进行识别所得到的癌细胞总数包括以下步骤：

利用高精度癌细胞识别模型对切片的癌细胞进行识别；

在统计利用高精度癌细胞识别模型对第一图像进行识别所得到的癌细胞总数时，位于对应癌细胞高光谱图像块位置内的癌细胞数量乘以修正系数后再进行相加，所述修正系数大于1。

可选的，所述修正系数的取值范围为1.01-2.00。

可选的，当癌细胞高光谱图像块的数量大于或等于利用高精度癌细胞识别模型对切片全色图像进行识别得到的癌细胞计数时：

在同一位置获取多张相同大小和分辨率的，且不同背光强度的切片的全色图像；

调整上述多张全色图像的对比度使得每张全色图像内的细胞都清晰可见；

将所述多张全色图像叠加融合以替换为切片的第一图像；

重新利用高精度癌细胞识别模型对新的切片的第一图像进行识别，并重新统计利用高精度癌细胞识别模型对第一图像进行识别所得到的癌细胞总数。

第二方面，本发明提供了一种预后预测的辅助分析方法，根据第一方面任一所述的基于图像识别的癌细胞计数方法获取切片的癌细胞计数，将所述切片的癌细胞计数输入预后预测模型对患者的预后进行预测。

可选的，所述预后预测模型通过以下步骤获得：

将治疗前的时间及其对应的癌细胞计数、治疗后的时间及其对应的癌细胞计数和预后结果作为一组训练数据，获取大量的所述训练数据，并划分为第二训练集和第二测试集；

使用Informer模型作为主体框架，使用所述第二训练集和第二测试集对Informer模型进行训练以获得预后预测模型。

第三方面，本发明提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面任一所述的基于图像识别的癌细胞计数方法或如第二方面任一所述的预后预测的辅助分析方法。

第四方面，装置，所述装置包括第三方面所述的计算机可读存储介质。

本发明提供的技术方案与现有技术相比具有如下优点：

现有技术中，有两种方法可以获得癌细胞计数。

一是通过统计和识别切片的全色图像中的癌细胞来获得癌细胞计数，但是每个患者的年龄、性别、个人体质和基因组存在差异，同时癌细胞是属于基因突变的产物，因此即便是同一种癌症，在不同人的体内，形状也会有所差异，因此单纯采用全色图像对癌细胞进行计数，计数结果并不准确。

二是通过高光谱相机拍摄的图像可以分辨出癌细胞。癌细胞和正常细胞的代谢特征不同，因此在特定光谱下癌细胞和正常细胞的反射率和吸收率不同。但是由于高光谱相机的分辨率不高，不能准确划分细胞的轮廓，并且癌细胞有时表现的代谢特征与正常细胞相同，因此单纯采用高光谱图像对癌细胞进行计数，计数结果并不准确。

本发明通过高光谱相机获得切片的高光谱图像，通过在高光谱图像中划分出具有第二预设数量的癌细胞的第一切片区域，之后在切片的全色图像中寻找对应的第一切片区域，使用分水岭算法对第一图像对应第一切片区域中的细胞进行分割以获得多个单细胞图像，并利用得到的多个单细胞图像对已经训练得到的用于识别切片的全色图像中癌细胞的癌细胞图像识别模型进行迁移学习得到高精度癌细胞识别模型，最后统计利用高精度癌细胞识别模型对第一图像进行识别所得到的癌细胞总数。

本发明提供的癌细胞计数方法结合了两者的优势，通过高光谱图像获得细胞的特征信息，然后将这些信息应用于全色图像中的癌细胞识别，这种方法综合利用了高光谱图像中细胞的光谱特征和全色图像中细胞的形态信息，有效地提高了癌细胞计数的准确性。

并且本发明通过高光谱图像数据获取用于全色图像的癌细胞图像识别模型的迁移学习的数据，实现了不需要人工进行标注即可获得准确的用于迁移学习的数据，为个性化医疗提供了准确和方便的数据支持。

附图说明

图1为本发明实施例提供的应用场景示意图；

图2为本发明实施例提供的基于图像识别的癌细胞计数方法的流程图；

图3为本发明实施例提供的预后预测的辅助分析方法的流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面将对本发明的方案进行进一步描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但本发明还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本发明的一部分实施例，而不是全部的实施例。

图1为本发明实施例提供的应用场景示意图。

如图1所示，本发明实施例提供的基于图像识别的癌细胞计数及预后预测的辅助分析方法，其存储在一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面任一所述的基于图像识别的癌细胞计数方法或如第二方面任一所述的预后预测的辅助分析方法。

在用户使用时，藉由具有计算功能的装置执行被存储在计算机可读存储介质中的基于图像识别的癌细胞计数及预后预测的辅助分析方法。

在基于图像识别的癌细胞计数方法执行时，高光谱相机和全色相机被设置在同一位置，以分别获取切片的高光谱图像和全色图像。之后通过基于图像识别的癌细胞计数方法获取切片中的癌细胞总数，从而获取得到癌细胞计数。

在获取到癌细胞计数后，将癌细胞计数输入本发明提供的预后预测的辅助分析方法，即可预测患者的预后情况。

本发明提供的癌细胞计数方法结合了高光谱图像识别和全色图像识别两者的优势，通过高光谱图像获得细胞的特征信息，然后将这些信息应用于全色图像中的癌细胞识别，这种方法综合利用了高光谱图像中细胞的光谱特征和全色图像中的形态信息，有效地提高了癌细胞计数的准确性。

并且本发明实施例通过高光谱图像数据获取用于全色图像的癌细胞图像识别模型的迁移学习的数据，实现了不需要人工进行标注即可获得准确的用于迁移学习的数据，本发明实施例提供的方法有助于为患者提供更加个性化的医疗服务。

图2为本发明实施例提供的基于图像识别的癌细胞计数方法的流程图。

参照图2所示，本发明实施例提供的基于图像识别的癌细胞计数方法包括以下步骤：

S201：使用高光谱相机获取切片的高光谱图像，从切片的高光谱图像中获取预设大小的第一切片区域。

具体的，所述第一切片区域具有第二预设数量以上的癌细胞。

具体的，从切片的高光谱图像中获取预设大小的第一切片区域包括以下步骤：

具体的，本发明实施例通过以下步骤实施上述步骤：

用高光谱相机获取切片的高光谱图像：

选用HySpex-SWIR-384型号的高光谱相机，在678nm的光谱下，对病理切片进行扫描，获取切片的高光谱图像。

在600-690nm的光谱下，癌细胞和正常细胞的吸收率和反射率的表现明显不同。因此在实际操作过程中工作人员可以在此光谱范围内进行调整。

切片的高光谱图像中获取预设大小的第一切片区域：

将获取到的高光谱图像按照可容纳一个或两个细胞的大小的正方形进行分块。使用训练好的高光谱分类器，如支持向量机(SVM)或随机森林(RF)等，根据每个高光谱图像块的中心像素点的高光谱曲线，对分块后的高光谱图像块进行分类，分别获取得到癌细胞高光谱图像块和正常细胞高光谱图像块。

第二预设数量一般设为高光谱图像块总数量的2-10％，而第一预设数量通常是第二预设数量的1.5-3倍。

S202：使用全色相机获取切片的第一图像，使用分水岭算法对第一图像对应第一切片区域中的细胞进行分割以获得多个单细胞图像。

具体的，选用一台具有高分辨率的全色相机，对同一病理切片进行扫描，获取切片的全色图像作为第一图像。第一图像中应包含切片中细胞清晰的形态信息。

分水岭算法(Watershed Algorithm)是一种用于图像分割的算法，其基本原理是将图像看作是地形地貌，将灰度值看作是地势高低，通过模拟水流流经山谷，最终找到地势最低点的过程来实现图像分割。分水岭算法在细胞图像的处理上是一种现有技术。分水岭算法可以有效地处理细胞之间的接触和重叠问题。

将全色图像与高光谱图像进行配准，使用分水岭算法对第一图像对应于高光谱图像的第一切片区域的细胞进行分割，得到多个单细胞图像。

将全色图像与高光谱图像进行配准为现有技术，一般是通过确定全色图像和高光谱图像之间的空间变换关系，即可将全色图像对应到高光谱图像中，也就是可以知道全色图像中的像素与高光谱图像中的像素的对应关系。

S203：根据高光谱图像对所述多个单细胞图像分别标注为癌细胞和正常细胞。

具体的，在本实施例中，通过判断第一图像中的单细胞图像对应于高光谱图像中占据高光谱图像块的比例，来判断单细胞图像对应于哪个高光谱图像块，如果单细胞图像占据高光谱图像块的像素面积超过该图像块总面积的50％，则确定该单细胞图像对应于此高光谱图像块。

由于每个高光谱图像块已经被分类为癌细胞高光谱图像块或正常细胞高光谱图像块，进而能够确定并标注得到该单细胞图像是癌细胞或是正常细胞。

S204：利用所述多个单细胞图像对识别切片的全色图像中癌细胞的癌细胞图像识别模型进行迁移学习得到高精度癌细胞识别模型。

具体的，在本实施例中，所述高精度癌细胞识别模型通过以下步骤获得：

根据已经标注好的所述多个单细胞图像对待学习癌细胞识别模型进行训练以获得高精度癌细胞识别模型。

在本实施例中，所述预设层数为一层，新的全连接层中的权重需被重新初始化。

S205：统计利用高精度癌细胞识别模型对第一图像进行识别所得到的癌细胞总数。

具体的，在本实施例中，通过将高精度癌细胞识别模型应用于切片的第一图像，对其中的细胞进行识别和分类，从而统计癌细胞的总数。具体地说，对于每个细胞，使用高精度癌细胞识别模型对其进行分类，如果该细胞被分类为癌细胞，则将其计入癌细胞总数中，最终得到的癌细胞总数即为癌细胞计数。

在实施上述实施例时，应当注意的是，由于癌细胞有时表现的代谢特征与正常细胞相同，因此高光谱图像中的癌细胞高光谱图像块的数量一般是小于利用高精度癌细胞识别模型对切片全色图像进行识别得到的癌细胞计数的。

然而，即使通过在形态上判断切片上的某个细胞是否属于癌细胞，也不能百分百确定该细胞是否为癌细胞，因此需要在统计癌细胞的数量时进行处理，以使最后的癌细胞计数结果更加精确。

因此，在另一个实施例中，统计利用高精度癌细胞识别模型对第一图像进行识别所得到的癌细胞总数时，应将位于对应癌细胞高光谱图像块位置内的癌细胞数量乘以一个修正系数，然后再进行相加。该修正系数大于1，以提高已精确确定为癌细胞数量的权重，并降低仅通过形态判断所得到的癌细胞数量的权重。在本实施例中，该修正系数为1.2，而在其他实施例中，其取值范围为1.01-2.00。

在本实施例中，对于在高光谱图像和全色图像中均被确定为癌细胞的细胞，可以有很高的概率确定它们是癌细胞。通过在统计时乘以修正系数，可以提高已精准确定为癌细胞数量的权重，并降低仅从形态上判断切片上的某个细胞属于癌细胞所得数量的权重，从而使得最后的癌细胞计数结果更加精确。

在实施上述实施例时，应当注意的是，由于全色图像虽然能够获取分辨率高的切片的图像，但是全色图像不如高光谱图像的是，高光谱可以捕捉切片在深度方向上的信息，而全色图像只能捕捉平面方向上的信息，因此在切片制作不良时，例如切片厚度不均匀时，单纯使用上述方法可能会导致信息缺失。

因此，在另一实施例中，当利用高精度癌细胞识别模型对切片全色图像进行识别后，在发现癌细胞高光谱图像块的数量大于或等于利用高精度癌细胞识别模型对切片全色图像进行识别得到的癌细胞计数时：

将所述多张全色图像叠加融合以替换为切片的第一图像；

本发明实施例，通过利用不同强度的背光使得位于深度更深的细胞形态信息能够被全色相机捕捉，提高全色图像所包含的细胞形态信息，进而提高癌细胞计数的准确性。

并且本发明实施例提供的方法考虑到了，由于背光强度不同会影响细胞的亮度和颜色，在采用融合图像替换第一图像进行识别时，会导致细胞识别的正确率下降。因此只有在极其异常的情况下，本发明才会采用不同背光强度的融合图像替换第一图像。

S301：根据基于图像识别的癌细胞计数方法获取切片的癌细胞计数。

具体的，根据上述实施例任一所述的基于图像识别的癌细胞计数方法获取得到切片的癌细胞计数。

S302：将所述切片的癌细胞计数输入预后预测模型对患者的预后进行预测。

具体的，所述预后预测模型通过以下步骤获得：

将治疗前的时间及其对应的癌细胞计数、治疗后的时间及其对应的癌细胞计数和预后结果作为一组训练数据，获取大量的所述训练数据，并划分为第二训练集和第二测试集。

Informer模型是一种基于Transformer结构的时间序列预测模型。因此本发明首先提出了将Informer模型引入了癌细胞计数预测患者预后的做法，提供了与传统采用DFS风险值(Risk)对预后预测的另一种方法。应当知道的是，DFS风险值(Risk)指的是与肿瘤治疗相关的疾病自由生存期(Disease-Free Survival，DFS)的风险评估指标。DFS风险值是一种评估患者治疗效果和预后的指标，其值越高则代表患者DFS风险越大。在临床实践中，DFS风险值经常用于指导肿瘤治疗方案的制定和调整。

并且由于Informer模型是一种时间序列预测模型，患者的预后情况是一种与时间强关联的行为，因此相比采用传统DFS风险值(Risk)对预后预测，采用本发明提供的Informer模型对预后进行预测，其预测结果更加精确。

具体的，以下是基于Informer模型训练得到预后预测模型的详细步骤：

首先，将治疗前的时间及其对应的癌细胞计数、治疗后的时间及其对应的癌细胞计数和预后结果作为一组训练数据。这些数据可以表示为一个矩阵，其中每一行代表一个样本，每一列代表一个特征(如治疗前时间、治疗前癌细胞计数、治疗后时间、治疗后癌细胞计数和预后结果)。这里的预后结果可以为治愈或死亡，亦或是一年、五年或十年内是否生存的结果。

收集大量的这些训练数据，并对这些数据进行归一化处理，使其数值范围在0到1之间，以便更好地进行模型训练。

将归一化后的训练数据划分为第二训练集和第二测试集。通常，可以使用70-30％或者80-20％的比例来划分训练集和测试集。

使用Informer模型作为主体框架。模型的输入是训练集中的癌细胞计数时间序列数据，输出是预测的预后结果。

使用第二训练集对Informer模型进行训练。

在训练完成后，使用第二测试集对Informer模型进行评估。

通过不断的调整训练参数得到训练好的Informer模型。

利用训练好的Informer模型，将新的治疗后的时间及其癌细胞计数进行输入，即可得到预后的预测结果。根据预测结果，可以评估患者的预后情况。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于图像识别的癌细胞计数方法，其特征在于，包括：

使用高光谱相机获取切片的高光谱图像，从切片的高光谱图像中获取预设大小的第一切片区域，所述第一切片区域具有第二预设数量以上的癌细胞；

2.根据权利要求1所述的基于图像识别的癌细胞计数方法，其特征在于，所述高精度癌细胞识别模型通过以下步骤获得：

3.根据权利要求1所述的基于图像识别的癌细胞计数方法，其特征在于，从切片的高光谱图像中获取预设大小的第一切片区域包括以下步骤：

4.根据权利要求3所述的基于图像识别的癌细胞计数方法，其特征在于，统计利用高精度癌细胞识别模型对切片进行识别所得到的癌细胞总数包括以下步骤：

利用高精度癌细胞识别模型对切片的癌细胞进行识别；

5.根据权利要求4所述的基于图像识别的癌细胞计数方法，其特征在于，所述修正系数的取值范围为1.01-2.00。

6.根据权利要求1所述的基于图像识别的癌细胞计数方法，其特征在于，当癌细胞高光谱图像块的数量大于或等于利用高精度癌细胞识别模型对切片全色图像进行识别得到的癌细胞计数时：

将所述多张全色图像叠加融合以替换为切片的第一图像；

7.预后预测的辅助分析方法，其特征在于，根据权利要求1-6任一所述的基于图像识别的癌细胞计数方法获取切片的癌细胞计数，将所述切片的癌细胞计数输入预后预测模型对患者的预后进行预测。

8.根据权利要求7所述的预后预测的辅助分析方法，其特征在于，所述预后预测模型通过以下步骤获得：

9.计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-6任一所述的基于图像识别的癌细胞计数方法或如权利要求7-8任一所述的预后预测的辅助分析方法。

10.装置，其特征在于，所述装置包括权利要求9所述的计算机可读存储介质。