CN117809853A

CN117809853A - 一种肝细胞癌病理识别模型的构建方法及电子设备

Info

Publication number: CN117809853A
Application number: CN202410231186.5A
Authority: CN
Inventors: 曹爽; 王蕾; 夏宇; 石中月; 郁斯涵; 赵永威; 贺强; 魏林; 孙丽莹; 朱志军
Original assignee: Beijing Friendship Hospital
Current assignee: Beijing Friendship Hospital
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-04-02

Abstract

本发明公开了一种肝细胞癌病理识别模型的构建方法及电子设备。该构建方法包括如下步骤：采集肝病患者的病理切片数据建立数据集；构建HCCM卷积神经网络，并基于ImageNet数据集进行预训练后得到初始模型；将初始模型迁移到病理切片数据构成的数据集中；利用迁移后的初始模型对数据集中的图像块数据进行特征提取得到多个特征向量；采用弱监督学习方法在训练集和验证集上对迁移后的初始模型进行训练和优化，得到肝细胞癌病理识别模型；利用测试集对肝细胞癌病理识别模型进行泛化能力评估。利用该肝细胞癌病理识别模型，可以快速准确地辅助临床医生进行肿瘤标注和疾病诊断。

Description

一种肝细胞癌病理识别模型的构建方法及电子设备

技术领域

本发明涉及一种肝细胞癌病理识别模型的构建方法，同时也涉及采用该构建方法的电子设备，属于医疗保健信息学技术领域。

背景技术

肝细胞癌（Hepatocellular carcinoma，简写为HCC）是全球第六大常见的癌症，在全球范围内癌症相关死亡原因中排名第三，具有高发病率和高死亡率的特点。据统计近年来我国每年新增肝细胞癌患者高达40万人，每年死于肝细胞癌的患者高达39万人，因此，肝细胞癌的准确诊断和及时治疗有着十分重要的意义。

在现有技术中，对肝癌病理切片的判断是肝癌疾病诊治中的关键和依据，目前，人工病理阅片仍是主要的诊断方法。但是，人工病理阅片存在主观性高、重复性低、定量及信息利用度不足，以及耗时多、劳动强度大、知识经验传承困难等问题，并且容易出现漏诊或误诊现象。另一方面，由于临床医生的人力资源匮乏，使得很多边远地区对于肝细胞癌的诊疗能力存在问题，对于患者带来严重的不利影响。因此，有必要利用机器学习的方法，构建一种肝细胞癌病理识别的通用模型，对于患者的病理切片进行自动分析、分割和检测感兴趣区域，辅助医生进行肿瘤标注和诊断，并且可以改善区域医疗资源不均衡的现状。

目前的卷积神经网络识别方法，普遍存在计算开销大、病理识别精度不高的缺点，仍待进一步优化。例如，传统的Resnet18卷积神经网络是针对数据量巨大的图像分类任务开发的，不利于处理数据量偏小的肝细胞癌病理切片的肝癌细胞识别任务。另一方面，在传统的病理模型构建过程中，需要人工对大量病理图片进行标记。这些标记十分粗糙，精度远达不到细胞级别的标记需求，同时存在相当大比例的错标、漏标。传统的弱监督学习方法虽然可以极大减少标记数据的需求量，减少数据标记的人力物力需求，但是识别精度往往较低。

在专利号为ZL 202310438603.9的中国发明专利中，公开了一种肝细胞癌预测模型构建方法。该方法包括如下步骤：确定预测对象的样本预测信息；基于该样本预测信息进行模型训练，获得肝细胞癌预测模型；该肝细胞癌预测模型包括第一模型、第二模型和第三模型；该第一模型的训练过程包括：基于属性信息和第一肝指标信息训练初始的第一模型，获得训练后的第一模型；第二模型的训练过程包括：基于第一模型和第二肝指标信息训练初始的第二模型，获得训练后的第二模型；第三模型的训练过程包括：基于第一模型、第二肝指标信息和循环游离DNA特征训练初始的第三模型，获得训练后的第三模型。该肝细胞癌模型构建方法能够提高肝细胞癌预测模型的预测准确性。

发明内容

本发明所要解决的首要技术问题在于提供一种肝细胞癌病理识别模型的构建方法。

本发明所要解决的另一技术问题在于提供一种基于深度学习的肝细胞癌病理辅助识别方法。

本发明所要解决的又一技术问题在于提供一种采用该构建方法的电子设备。

为了实现上述目的，本发明采用以下的技术方案：

根据本发明实施例的第一方面，提供一种肝细胞癌病理识别模型的构建方法，包括如下步骤：

（1）采集肝病患者的病理切片数据建立数据集，所述数据集包括训练集、测试集和验证集；其中，所述病理切片数据中的图像块的设定像素为320×320；

（2）基于Python 3.8构建HCCM卷积神经网络，并基于ImageNet数据集进行预训练后得到初始模型；其中，在进行卷积操作时取消补齐设置，以保持所述病理切片数据在病理识别过程中的完整性；

（3）将所述初始模型迁移到病理切片数据构成的所述数据集中；

（4）利用迁移后的所述初始模型对所述数据集中的图像块数据进行特征提取，得到多个特征向量；

（5）在训练的过程中，采用合成少数类过采样技术对训练集中的样本进行数量扩增，同时均衡所纳入的肝细胞癌肿瘤细胞与非肿瘤细胞的比例；将图像块数据输入肝细胞癌病理识别模型，经过病理识别后得到包含肝细胞癌组织标注信息的图像块数据；采用弱监督学习方法并结合人机闭环反馈学习，对所述肝细胞癌病理识别模型进行训练和优化；

（6）采用所述测试集对所述肝细胞癌病理识别模型进行泛化能力评估。

其中较优地，所述步骤（1）中包括如下子步骤：

（11）将采集病例的病理组织制作石蜡切片并进行HE染色后选取典型切片；

（12）将选取的所述典型切片转为全视野数字切片图像，形成病理切片数据；

（13）随机选取预设数量的所述病理切片数据，对其中的肝细胞癌肿瘤范围进行人工标注，包括癌组织、非癌组织以及玻片无组织区域；

（14）将所述病理切片数据处理成统一的放大倍数，并分割为图像块，对所述图像块进行灰度归一化处理。

其中较优地，所述步骤（2）中，所述HCCM卷积神经网络包括18个卷积层和全连接层、Softmax激活层。

其中较优地，所述步骤（3）中包括如下子步骤：

（31）通过梯度下降法进行循环调参；

（32）移除原始Softmax激活层；

（33）引入基于多示例学习的肝癌标注分类器；

（34）保留特征提取层中的参数设定。

其中较优地，所述步骤（5）中，在进行所述数量扩增后，设置界值参数的初始值；所述界值参数与模型识别结果中每个图像块包含肝细胞癌的概率成正相关，初始值设置为0.5。

其中较优地，所述步骤（5）中，在机器标注的所述图像块数据中随机抽取预设数量的样本，对其中的机器标注进行人工校准，然后将校准结果回带到所述肝细胞癌病理识别模型中，反复对所述肝细胞癌病理识别模型进行迭代优化。

其中较优地，当两次人工校准标注之间，所述肝细胞癌病理识别模型的AIC指标的变化小于0.01时，结束模型优化工作。

根据本发明实施例的第二方面，提供一种基于深度学习的肝细胞癌病理辅助识别方法，包括如下步骤：

首先，选取肝病患者的典型病理切片，并将其转换为全视野数字切片图像数据；然后，将所述全视野数字切片图像数据输入至肝细胞癌病理识别模型进行识别，得到包含肝细胞癌组织标注信息的病理识别图像。

根据本发明实施例的第三方面，提供一种电子设备，该电子设备包括处理器和存储器，所述存储器与所述处理器耦接；其中，

所述存储器用于存储计算机程序，当该计算机程序被所述处理器执行时，实现上述的肝细胞癌病理识别模型的构建方法。

与现有技术相比较，本发明实施例提供的肝细胞癌病理识别模型的构建方法，通过采用HCCM卷积神经网络预训练后得到初始模型，然后将初始模型迁移到病理切片数据集中，采用弱监督学习方法对模型进行训练和优化，得到肝细胞癌病理识别模型。基于该肝细胞癌病理识别模型可以实现对患者病理切片的自动分割、分析和检测并标注感兴趣区域，得到肝细胞癌的病理识别结果。因此，本发明实施例提供的肝细胞癌病理识别模型的构建方法具有高效率、高可靠性等有益效果。

附图说明

图1为本发明实施例提供的一种肝细胞癌病理识别模型的构建方法的流程图；

图2为本发明实施例中，病理切片数据分割为320×320像素的图像块的示意图；

图3为本发明实施例中，构建的HCCM卷积神经网络的示意图；

图4为本发明实施例中，采用弱监督学习方法的模型训练和验证过程的示意图；

图5为本发明实施例中，采用弱监督学习方法的模型优化过程的示意图。

图6为本发明实施例中，肝细胞癌病理识别模型输出的包含肝细胞癌组织标注信息的病理识别图像的示意图。

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。

如图1所示，本发明实施例提供的一种肝细胞癌病理识别模型的构建方法，包括如下步骤：

S1：采集肝病患者的病理切片数据建立数据集；数据集包括训练集、测试集和验证集。

数据采集时，首先在第一家医院的数据库中采集100例肝癌患者和20例肝硬化患者（即非肝癌患者）的病理切片数据，作为训练集和测试集的数据，并且，训练集和测试集的数据比例为7：3。其次，在第二家医院的数据库中采集50例肝癌患者的病理切片数据，作为验证集。病理切片数据的采集处理过程如下：

S11：将采集病例的病理组织制作石蜡切片并进行HE染色，然后选取每个病例的一个典型切片。

切片选取采用盲法，由2名10年以上工作经验的病理医师进行典型切片的选取，同时去除患者的个人隐私数据信息。

S12：将选取的典型切片转换为全视野数字切片图像（简写为WSI），形成病理切片数据。

S13：在肝癌患者的病理切片数据中，随机选取预设数量的病理切片数据，对其中的肝细胞癌肿瘤范围进行人工标注，包括癌组织、非癌组织以及玻片无组织区域；

在本实施例采集的150个肝癌患者的病理切片数据中，随机选取30个病理切片数据进行人工标注，其中，人工标注由2名10年以上工作经验的病理医师完成，标注过程如遇不同意见时引入第三名专家参与确定，以保证数据图片标记的可靠性。

S14：将病理切片数据的图像均处理成统一的放大倍数，并分割为设定像素的图像块，同时对图像块进行灰度归一化处理。

需要说明的是，不同的组织部位、不同器官的病理图像存在差异，例如乳腺癌的图像块分割像素为256×256，但在肝细胞癌中，使用这样的分割像素过小，有效细胞不足，不利于细胞的识别，而采用过大的分割图像块有会导致图像块内包含过多不同类别的细胞，混杂因素过多，不利于在细胞水平实现对肿瘤的精细识别。为了同时满足描绘肝细胞组织结构的有效识别，又要满足GPU计算效率为32倍数的像素限定，在本发明的优选实施例中，肝细胞癌病理识别模型的图像块的设定像素为320×320，从而为减少计算开销、提高识别精度提供良好的基础。

在本发明的一个实施例中，如图2所示，病理切片数据选用了40倍的放大倍数，病理切片数据经过分割后，总共获得约1800万个包含肿瘤及非肿瘤组织的图像块。

S2：构建HCCM卷积神经网络，并基于ImageNet数据集进行预训练后得到初始模型（简写为HCCF）。

其中，HCCM卷积神经网络采用Python 3.8语言构建。如图3所示，该HCCM卷积神经网络包括18个卷积层及归一化层和全连接层（FC）、Softmax激活层（即分类器）。其中，上述320×320像素的图像块输入后，通过10×10的卷积核，64通道卷积后变为156×156，随后依次通过多个卷积层，再卷积为1×1，每个卷积层后为批归一化层。在上述过程中，为了保持病理切片数据在病理识别过程中的完整性，在进行卷积操作时取消传统的Resnet18卷积神经网络的补齐（padding）设置。这样不会引入额外信息，可以保持肝细胞癌的图像完整性，更加符合肝细胞癌病理识别模型的临床应用场景，同时不人为创造边界，强化了平移不变性，有助于更加精确地识别病理图片，减少过拟合带来的差错。

需要说明的是，该HCCM卷积神经网络是专门为肝细胞癌的病理图像识别任务而开发的。前已述及，传统的Resnet18卷积神经网络是针对数据量巨大的图像分类任务开发的，不利于处理数据量偏小的肝细胞癌病理切片的肝癌细胞识别任务。面对本发明实施例中的肝细胞癌识别任务，如果采用传统的Resnet18卷积神经网络进行处理，总共有约1100万参数总量，可以完全过拟合病理切片数据，无法保证模型外推效果。而本发明实施例中的HCCM卷积神经网络，大幅降低参数总量（只有约72万），可以在无明显过拟合的情况下实现理想的准确率，从而确保HCCM卷积神经网络在训练过程中对肝细胞癌病理的精准识别，并具有较好的鲁棒性。同时，对计算能力的需求从传统的Resnet18卷积神经网络所需的大约536GFLOPs，降低为大约4.47 GFLOPs，大幅缓解计算上的压力。

S3：将初始模型迁移到由病理切片数据构成的数据集中。具体方法包括：

S31：通过梯度下降法循环调参；

S32：移除原始Softmax激活层；

S33：引入基于多示例学习的肝癌标注分类器；

S34：保留特征提取层中的参数设定。

S4：利用迁移后的初始模型对数据集中的图像块数据进行特征提取得到多个特征向量。

在本发明的一个实施例中，每个320×320像素的图像块经过模型的特征提取均得到32个特征向量。

S5：采用弱监督学习方法在训练集和验证集的数据上对迁移后的初始模型进行训练和验证，得到肝细胞癌病理识别模型。如图4所示，具体包括如下步骤：

S51：采用合成少数类过采样技术（Synthetic Minority OversamplingTechnique，简写为SMOTE）对训练集中的少数样本进行数量扩增。

由于训练集和测试集是从第一家医院数据库中采集的100例肝癌患者和20例非肝癌患者的病理切片数据中，按7：3的比例随机选取形成的。因此，需要对训练集中的少数样本进行数量扩增。

需要说明的是，在病理识别的过程中经常存在肝细胞癌肿瘤细胞与非肿瘤细胞占比不均匀的情况，而不均匀的占比会较大影响肝细胞癌病理识别模型的识别性能。为此，本发明实施例中首先通过单独训练的前景识别模型去掉载玻片等非目标图像块，使纳入肝细胞癌病理识别模型的图像块为肝脏细胞。同时，在对少数样本进行数量扩增的过程中，均衡所纳入的肝细胞癌肿瘤细胞与非肿瘤细胞的比例（例如1:1），使肝细胞癌病理识别模型可以更加全面充分地识别肝细胞癌肿瘤细胞的特点，从而提高学习的准确度，减少过拟合带来的误差。

S52：设置界值参数k的初始值（0＜k＜1），将图像块数据输入至肝细胞癌病理识别模型，通过识别后得到包含肝细胞癌组织标注信息的图像块数据。该标注操作称为机器标注。

其中，界值参数k为模型参数，也称危险系数，其值大小与模型识别结果中每个图像块包含肝细胞癌的概率成正相关。在本发明的一个实施例中，界值参数k的初始值设置为0.5。

S53：采用弱监督学习方法并结合人机闭环反馈学习，对肝细胞癌病理识别模型进行训练和优化。

模型优化的具体方法是：在机器标注的图像块中随机抽取预设数量的图像块样本，对其中的机器标注进行人工校准，然后将校准结果回带到肝细胞癌病理识别模型中，反复对模型进行迭代优化，以实现人机闭环反馈学习。在本发明的一个实施例中，选取了30个图像块样本，对其进行人工校准。其中，人工校准工作由2名10年以上工作经验的病理医师对机器标注进行确认和纠偏。人工校准可以对模型性能的提升进行有效监督，使得模型输出能够精确地勾勒出肿瘤所在区域，在避免一次完全标注造成模型的过拟合问题的同时，对标签的可靠性起到监督的作用。

在模型迭代优化的过程中，将机器标注与人工标注进行一致性分析，舍去一致性差的预测结果，将一致性高的图像块数据回带到肝细胞癌病理识别模型中进行调参和优化。

在反复的模型迭代优化的过程中，当两次人工校准标注之间，AIC（Akaikeinformation criterion，赤池信息量准则）指标的变化值小于0.01时，结束模型优化工作。

如图5所示，在本发明的一个实施例中，通过机器学习和人工标注相结合形成人机闭环反馈学习，通过三次人工校准对该肝细胞癌病理识别模型进行迭代优化后，AIC指标的变化小于0.01，即达到模型优化效果。

S54：采用验证集的数据对肝细胞癌病理识别模型进行参数调整和效果验证。

S6：采用测试集的数据对肝细胞癌病理识别模型进行泛化能力评估。

在本发明的一个实施例中，经过上述模型训练后，最终的肝细胞癌病理识别模型的ROC指标在训练集上的测试结果为0.958±0.011，在测试集上的测试结果为0.923±0.042，在验证集上的测试结果为0.872±0.051。因此，肝细胞癌病理识别模型可以精确地对肝细胞癌病理进行识别标注。

在本发明实施例的模型构建过程中，由于肝病患者的病理切片数据相比于其它传统的图像学习（例如，人脸识别或交通肇事识别等）来说，病理切片数据的来源有限，因此，本实施例在采集到的上述珍贵样本的基础上，在模型训练和优化过程中，采用了弱监督学习的方法，有效缓解了样本量相对较少造成模型过拟合的问题，也减轻了专业病理医师样本标注的工作量，同时，保证了标签的准确性。

以上对本发明实施例提供的一种肝细胞癌病理识别模型的构建方法进行了详细说明。基于该肝细胞癌病理识别模型的构建方法，本发明实施例进一步提供一种基于深度学习的肝细胞癌病理辅助识别方法，包括如下步骤：

S100：选取肝病患者的典型病理切片，并将其转为全视野数字切片图像。

S200：将该全视野数字切片图像输入肝细胞癌病理识别模型进行识别，得到包含肝细胞癌组织标注信息的病理识别图像。

其中，肝细胞癌病理识别模型即是通过上述构建方法得到的肝细胞癌病理识别模型。如图6所示，通过肝细胞癌病理识别模型对输入的患者病理切片的自动分割、分析和检测并标注感兴趣区域，得到的病理识别结果可以快速辅助医生进行肿瘤标注和疾病诊断。

基于上述肝细胞癌病理识别模型的构建方法，本发明实施例还提供一种电子设备。如图7所示，该电子设备包括一个或多个处理器和存储器。其中，存储器与处理器耦接，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上述实施例中的一种肝细胞癌病理识别模型的构建方法。

其中，处理器用于控制该电子设备的整体操作，以完成上述肝细胞癌病理识别模型的构建方法的全部或部分步骤。该处理器模块可以是中央处理器（CPU）、图形处理器（GPU）、现场可编程逻辑门阵列（FPGA）、专用集成电路（ASIC）、数字信号处理（DSP）芯片等。存储器用于存储各种类型的数据以支持在该电子设备上的操作，这些数据例如可以包括用于在电子设备上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器模块可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器（SRAM）、电可擦除可编程只读存储器（EEPROM）、可擦除可编程只读存储器（EPROM）、可编程只读存储器（PROM）、只读存储器（ROM）、磁存储器、快闪存储器等。

综上所述，与现有技术相比较，本发明实施例提供的一种肝细胞癌病理识别模型的构建方法，通过采用HCCM卷积神经网络预训练后得到初始模型，然后将初始模型迁移到病理切片数据集中，采用弱监督学习方法并结合人机闭环反馈学习对模型进行训练和优化，得到肝细胞癌病理识别模型。基于该肝细胞癌病理识别模型可以实现对患者病理切片的自动分割、分析和检测并标注感兴趣区域，得到肝细胞癌的病理识别结果。

在现有技术中，通常一个肝病组织中是否存在肿瘤物，可能需要病理科医生阅片上百张后才能确认，工作量很大，本发明实施例提供的肝细胞癌病理识别模型，可以快速准确的辅助临床医生进行肿瘤标注和疾病诊断，有效避免了漏诊或误诊现象。因此，本发明实施例提供的肝细胞癌病理识别模型的构建方法具有高效率、高可靠性等有益效果，并且可以改善偏远地区医疗资源不均衡的现状。

上面对本发明提供的肝细胞癌病理识别模型的构建方法及电子设备进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质内容的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种肝细胞癌病理识别模型的构建方法，其特征在于包括如下步骤：

2.如权利要求1所述的肝细胞癌病理识别模型的构建方法，其特征在于所述步骤（1）包括如下子步骤：

3.如权利要求1所述的肝细胞癌病理识别模型的构建方法，其特征在于所述步骤（2）中，所述HCCM卷积神经网络包括18个卷积层和全连接层、Softmax激活层。

4.如权利要求1所述的肝细胞癌病理识别模型的构建方法，其特征在于所述步骤（3）包括如下子步骤：

（31）通过梯度下降法进行循环调参；

（32）移除原始Softmax激活层；

（33）引入基于多示例学习的肝癌标注分类器；

（34）保留特征提取层中的参数设定。

5.如权利要求1所述的肝细胞癌病理识别模型的构建方法，其特征在于所述步骤（5）还包括如下子步骤：

采用验证集对所述肝细胞癌病理识别模型进行参数调整和效果验证。

6.如权利要求1所述的肝细胞癌病理识别模型的构建方法，其特征在于所述步骤（5）中，在进行所述数量扩增后，设置界值参数的初始值；所述界值参数与模型识别结果中每个图像块包含肝细胞癌的概率成正相关，初始值设置为0.5。

7.如权利要求1所述的肝细胞癌病理识别模型的构建方法，其特征在于所述步骤（5）中，在机器标注的所述图像块数据中随机抽取预设数量的样本，对其中的机器标注进行人工校准，然后将校准结果回带到所述肝细胞癌病理识别模型中，反复对所述肝细胞癌病理识别模型进行迭代优化。

8.如权利要求7所述的肝细胞癌病理识别模型的构建方法，其特征在于：

当两次人工校准标注之间，所述肝细胞癌病理识别模型的AIC指标的变化小于0.01时，结束模型优化工作。

9.一种基于深度学习的肝细胞癌病理辅助识别方法，基于权利要求1～8中任意一项所述的肝细胞癌病理识别模型的构建方法实现，其特征在于包括如下步骤：

首先，选取肝病患者的典型病理切片，并将其转换为全视野数字切片图像数据；然后，将所述全视野数字切片图像数据输入至所述肝细胞癌病理识别模型进行识别，得到包含肝细胞癌组织标注信息的病理识别图像。

10.一种电子设备，其特征在于包括处理器和存储器，所述存储器与所述处理器耦接；其中，

所述存储器用于存储计算机程序，当该计算机程序被所述处理器执行时，用于实现权利要求1～8中任意一项所述的肝细胞癌病理识别模型的构建方法。