CN116310637A

CN116310637A - 宫颈液基细胞图像的数据集生成、模型训练、图像识别系统

Info

Publication number: CN116310637A
Application number: CN202310180591.4A
Authority: CN
Inventors: 王晓梅; 章万韩; 陈自强
Original assignee: Hangzhou Yice Technology Co ltd
Current assignee: Hangzhou Yice Technology Co ltd
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-06-23

Abstract

本发明涉及人工智能模型训练技术领域，具体涉及宫颈液基细胞图像的数据集生成系统、模型训练、图像识别系统，包括：采集模块，获取病理图像以及病理图像的诊断结果；分割模块，对病理图像中的病理区域进行分割得到多个图像块；标注模块，对图像块中的阳性细胞生成细胞标注；标签生成模块，添加对应于诊断结果的第一标签、对应于图像块和细胞标注的第二标签以生成标注图像，并将标注图像添加至数据集中。有益效果在于：通过获取诊断结果和细胞标注来分别对病理图像生成对应于图像整体的第一标签和对应于图像块中的细胞的第二标签，使得训练过程中能够同时根据第一标签和第二标签来调整模型，避免模型因为个别细胞的阳性结果对玻片整体赋予假阳性。

Description

宫颈液基细胞图像的数据集生成、模型训练、图像识别系统

技术领域

本发明涉及人工智能模型训练技术领域，具体涉及宫颈液基细胞图像的数据集生成系统、模型训练、图像识别系统。

背景技术

人工神经网络(Artificial Neural Networks，简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model)，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。在数字化医疗领域，采用神经网络模型进行辅助阅片已成为较为常见的技术手段。

现有技术中，在对染色切片图像进行识别时，为实现较好的识别效果，通常是针对要识别的组织切片设计相关的模型结构，随后获取相关的数字病理图像来构建训练模型用的数据集，并采用人工或计算机的方式在数据中添加标注，用于向模型指示需要识别的对象及可能的识别结果。其中，标注方式主要有2种：一种为将玻片划分成多个大小一致的图像块，目标区域中的各类阳性病变的细胞进行局部性标注。最后保存的是每个图像块中的每个阳性病变细胞的坐标与类别信息。另一种为将玻片划分成多个大小一致的图像，直接对每个图像块进行类别的标注，最后保存的是每个图像块的类别信息。随后，采用数据集对模型进行训练并验证模型是否能够正常识别、对模型的结构和相关参数来进行调整，以此来实现对待检查区域较好的识别效果。

但是，在实际实施过程中，发明人发现，当针对宫颈液基细胞图像进行识别时，由于上述两种方式丢失了玻片的整体信息，仅对划分后的图像进行标注，从始至终都是片面的信息。再根据先验知识也就是后处理方式，对玻片进行判断的效果并不好。且先验知识通常是医生的经验，在算法上并不适用。同时，仅做图像块里的细胞标注或是直接做图像块标签，就相当于将所有信息局限在每一张图像块之中。通过每个图像块单独的信息，给予玻片标签是存在极大误差的。一张玻片，经过算法的预测后，会产生大量的细胞预测框，细胞的数量较大，最终，在汇总图像块信息的时候，会因为图像块级别分类结果的误差，而出现玻片级别的假阳性结果，因此无法给出正确的诊断。

发明内容

针对现有技术中存在的上述问题，现提供一种宫颈液基细胞图像的数据集生成系统；另一方面，还提供应用该数据集生成系统的模型训练系统；另一方面，还提供应用该数据集生成系统的图像识别系统。

具体技术方案如下：

一种宫颈液基细胞图像的数据集生成系统，用于生成数据集，所述数据集用于训练神经网络模型，包括：

采集模块，所述采集模块获取病理图像以及所述病理图像的诊断结果；

分割模块，所述分割模块连接所述采集模块，所述分割模块对所述病理图像中的病理区域进行分割得到多个图像块；

标注模块，所述标注模块连接所述分割模块，所述标注模块对所述图像块中的阳性细胞生成细胞标注；

标签生成模块，所述标签生成模块分别连接所述采集模块、所述分割模块和所述标注模块，所述标签生成模块对所述病理图像添加对应于所述诊断结果的第一标签、对应于所述图像块和所述细胞标注的第二标签以生成标注图像，并将所述标注图像添加至数据集中。

另一方面，所述标签生成模块包括：

第一生成模块，所述第一生成模块根据所述诊断结果生成所述第一标签；

第二生成模块，所述第二生成模块根据所述细胞标注于所述图像块中添加所述第二标签；

合并模块，所述合并模块分别连接所述第一生成模块和所述第二生成模块，所述合并模块根据所述第一标签、所述第二标签和所述病理图像生成所述标注图像。

另一方面，所述第一生成模块包括：

第一类别提取模块，所述第一类别提取模块接收所述诊断结果，并根据所述诊断结果生成所述病理图像的疾病类别；

标签添加模块，所述标签添加模块连接所述第一类别提取模块，所述标签添加模块根据所述疾病类别生成所述第一标签。

另一方面，所述第二生成模块包括：

第二类别提取模块，所述第二类别提取模块获取所述细胞标注，并提取对应于所述细胞标注的细胞类别；

细胞标注模块，所述细胞标注模块连接所述第二类别提取模块，所述细胞标注模块根据所述细胞类别对所述图像块和所述细胞标注添加所述第二标签。

一种模型训练系统，用于实施上述的数据集生成系统，包括：

模型训练模块，所述模型训练模块采用预先生成的数据集对待训练模型进行训练；

所述数据集中包含多张病理图像；

特征提取模块，所述特征提取模块连接所述模型训练模块，所述特征提取模块获取所述待训练模型的训练数据并从所述训练数据中提取融合特征；

分类模块，所述分类模块连接所述特征提取模块，所述分类模块根据所述融合特征生成总体预测结果；

所述模型训练模块连接所述分类模块，所述模型训练模块根据所述预测结果调整所述待训练模型的训练过程。

另一方面，所述特征提取模块包括：

检测网络，所述检测网络于所述训练数据中获取所述待训练模型的滑窗图像块，所述检测网络对所述滑窗图像块提取图像特征并存储；

融合模块，所述融合模块连接所述检测网络，所述融合模块对同一个所述病理图像中的多个所述滑窗图像块的所述图像特征进行融合得到所述融合特征。

另一方面，所述分类模块包括全连接神经网络，所述全连接神经网络对所述融合特征进行预测得到对应于所述病理图像的所述总体预测结果。

另一方面，所述模型训练模块包括：

训练模块，所述训练模块采用所述数据集对所述待训练模型进行训练并生成所述训练数据和对应于所述病理图像的模型预测结果；

衡量模块，所述衡量模块连接所述训练模块，所述衡量模块依照所述模型预测结果和所述总体预测结果生成所述待训练模型的衡量结果；

所述训练模型依照所述衡量结果对所述待训练模型中各层的模型权重进行调整。

另一方面，所述模型训练模块采用交叉熵损失函数对所述模型预测结果和所述总体预测结果进行计算以得到所述衡量结果。

一种宫颈液基细胞图像的图像识别系统，包括神经网络模型，所述神经网络模型接收输入的病理图像并生成识别结果；

所述神经网络模型采用上述的数据集生成系统生成的数据集进行训练。

上述技术方案具有如下优点或有益效果：

针对现有技术中的数据集标注方法在标注过程中通常仅关注图像块级别的细胞标注，进而使得模型在训练过程中容易因为个别阳性细胞导致对整体玻片的诊断结果发生偏差的问题，本方案通过在对病理图像进行标注的过程中，通过获取诊断结果和细胞标注来分别对病理图像生成对应于图像整体的第一标签和对应于图像块中的细胞的第二标签，从而使得训练过程中能够同时根据该数据集的第一标签和第二标签来调整模型的训练过程，避免了训练得到的模型因为个别细胞的阳性结果导致对整体玻片的误判。

附图说明

参考所附附图，以更加充分的描述本发明的实施例。然而，所附附图仅用于说明和阐述，并不构成对本发明范围的限制。

图1为本发明实施例中数据集生成系统示意图；

图2为本发明实施例中标签生成模块示意图；

图3为本发明实施例中第一生成模块示意图；

图4为本发明实施例中第二生成模块示意图；

图5为本发明实施例中模型训练系统示意图；

图6为本发明实施例中特征提取模块示意图；

图7为本发明实施例中模型训练模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本发明包括：

一种宫颈液基细胞图像的数据集生成系统，用于生成数据集，数据集用于训练神经网络模型，如图1所示，包括：

采集模块1，采集模块1获取病理图像以及病理图像的诊断结果；

分割模块2，分割模块2连接采集模块1，分割模块2对病理图像中的病理区域进行分割得到多个图像块；

标注模块3，标注模块3连接分割模块2，标注模块3对图像块中的阳性细胞生成细胞标注；

标签生成模块4，标签生成模块4分别连接采集模块1、分割模块2和标注模块3，标签生成模块4对病理图像添加对应于诊断结果的第一标签、对应于图像块和细胞标注的第二标签以生成标注图像，并将标注图像添加至数据集中。

具体地，针对现有技术中的模型在识别过程中容易因为个别细胞的阳性识别结果导致对整体拨片的分类结果出错的问题，本实施例中，通过构建上述的数据集生成系统，依次通过采集模块1获取输入的病理图像以及对应于病理图像的诊断结果，随后，分割模块2通过对存在阳性细胞的病理区域进行切分，得到若干个统一规格的图像块，再采用标注模块3针对每个图像块中的阳性细胞生成对应的细胞标注。当完成上述标注过程后，采用标签生成模块4根据细胞标注对图像块中的细胞添加对应于个别细胞的第二标签，从而生成标注图像作为数据集进行保存，使得后续模型的训练过程中，可依照第一标签和第二标签实现较好的训练效果，提高对整体玻片识别的准确度。

在实施过程中，上述数据集生成系统作为一个软件实施例设置在特定的计算机设备中，用于通过软件接口接收病理图像并制作神经网络模型训练用的数据集后输出。病理图像为对应于宫颈液基细胞的组织切片的扫描图像，其在处理之前已预先通过相关的切片、染色方法制作玻片，并采用扫描仪对玻片进行扫描得到数字化的病理图像。分割模块2所采用的分割方法可以是通过简单的图像处理算法，比如通过色彩范围提取或分割模型去除了无关区域得到的若干图像块，也可是通过滑动窗口法对整体病理图像进行扫描得到的图像块。在一个实施例中，图像块为3072*3072像素大小的矩形图像块。标注模块3可采用已预先训练好的分割模型和分类模型来实现，其通过分割模型将细胞自图像块中的背景图像中进行分离，随后通过分类模型来判别阳性细胞以及阳性细胞所对应的疾病种类从而生成细胞标注，包括用于表征阳性细胞在图像块中的位置的标注框和对应于阳性细胞种类的种类信息

在一个实施例中，如图2所示，标签生成模块4包括：

第一生成模块41，第一生成模块41根据诊断结果生成第一标签；

第二生成模块42，第二生成模块42根据细胞标注于图像块中添加第二标签；

合并模块43，合并模块43分别连接第一生成模块41和第二生成模块42，合并模块43根据第一标签、第二标签和病理图像生成标注图像。

具体地，针对现有技术中的模型训练过程容易导致模型因个别阳性细胞对玻片整体发生误判的问题，本实施例中，通过在标签生成模块4中采用第一生成模块41和第二生成模块42分别生成对应于玻片整体的第一标签和对应于细胞标注的第二标签，从而使得合并模块43最终创建的标注图像同时表征了玻片整体的诊断结果和阳性细胞，使得模型在训练过程中能够避免对玻片整体发生误判的问题。

在一个实施例中，如图3所示，第一生成模块41包括：

第一类别提取模块411，第一类别提取模块411接收诊断结果，并根据诊断结果生成病理图像的疾病类别；

标签添加模块412，标签添加模块412连接第一类别提取模块411，标签添加模块412根据疾病类别生成第一标签。

具体地，为实现较好的标注效果，本实施例中，在生成对应于玻片整体的第一标签的过程中，通过第一类别提取模块411抓取预先录入的诊断结果，并采用标签添加模块412生成对应于疾病类别的第一标签，从而实现了较好的标注效果。

在实施过程中，针对宫颈液基细胞，预先划分有5个疾病类别，包括HSIL，ASC-US，LSIL，ASC-H和AGC，针对所有的病理图像集合S构建有：

式中，S为所有的玻片的病理图像集合，S_i为第i张玻片的病理图像，R1为所有的玻片的总数，m为第i张玻片在诊断结果中的诊断类别的序号，R2为可能存在的诊断类别的总数，在该实施例中，R2的数值为5。通过定义该病理图像集，并依照该形式对病理图像进行采集，使得后续的标签生成模块4能够采用相应的方式生成标签。具体来说，在第一标签生成模块41中，由于在输入的病理图像集合中添加了诊断类别的序号，因此，第一类别提取模块能够直接获取诊断结果添加至标注集合G_i中。

在一个实施例中，如图4所示，第二生成模块42包括：

第二类别提取模块421，第二类别提取模块421获取细胞标注，并提取对应于细胞标注的细胞类别；

细胞标注模块422，细胞标注模块422连接第二类别提取模块421，细胞标注模块422根据细胞类别对图像块和细胞标注添加第二标签。

具体地，为实现较好的标注效果，在获取到输入的病理图像集合S后，通过分割模块2对每一张玻片的病理图像S_i进行分割，得到对应于第i张玻片的病理图像S_i的图像块集合P_i，则有：

P_i＝{p_i1,p_i2,p_i3…p_in},n∈R3；

式中，P_i为第i张玻片的病理图像S_i的图像块集合，p_in为第i张玻片的病理图像中的第n张图像块，R3为病理图像中的图像块总数。

随后，通过标注模块3，对每个图像块中的阳性细胞进行识别，从而得到细胞标注，可得到：

p_in＝{L_in1,L_in2,L_in3...L_inm},m∈R2；

式中，p_in为第i张玻片的病理图像中的第n张图像块、L_inm为第i张玻片的病理图像中的第n张图像块下第m个疾病类别的集合，R2为可能存在的诊断类别的总数以及：L_inm＝{l₁,l₂,l₃...l_k},k∈R4；

式中：L_inm为第i张玻片的病理图像中的第n张图像块下第m个疾病类别的集合，l_k第m个疾病类别中的第k个标注，R4为标注的数量。

因此，第二生成模块可基于每个图像块中的细胞标注，包括细胞类别来生成第二标签，以使得合并模块43能够根据第一标签和第二标签生成标签集合G_i；G_i＝{S_i+P_i}；

式中，G_i为对应于第i个标注图像的标签集合，S_i为对应于第i个标注图像的第一标签，P_i为添加了第二标签的图像块集合，以此来实现较好的标注效果。

一种模型训练系统，用于实施上述的数据集生成系统，如图5所示，包括：

模型训练模块A1，模型训练模块A1采用预先生成的数据集对待训练模型进行训练；

数据集中包含多张病理图像；

特征提取模块A2，特征提取模块A2连接模型训练模块A1，特征提取模块A2获取待训练模型的训练数据并从训练数据中提取融合特征；

分类模块A3，分类模块A3连接特征提取模块A2，分类模块A3根据融合特征生成总体预测结果；

模型训练模块A1连接分类模块A3，模型训练模块A1根据预测结果调整待训练模型的训练过程。

具体地，针对现有技术中的神经网络模型容易因为个别阳性细胞导致对玻片整体的分类情况造成偏差的问题，本实施例中，在模型训练系统中额外增加了特征提取模块A2和分类模块A3所在的分支。其中，模型训练模块A1采用现有的训练方法通过标注过的数据集对待训练模型进行训练。同时，在识别完一张病理图像后，模型训练模块A1固定当前的待训练模型的参数，并由特征提取模块A2依照模型的训练数据来提取融合特征，该融合特征为对应于待训练模型当前的输入图像的特征。随后，分类模块A3依照融合特征来得到对应于玻片整体的总体预测结果，以使得模型训练模块A1能够根据分类模块A3的分类结果与待训练模型的预测结果进行判别、调整，以此来实现对待训练模型的总体预测性能较好的调整效果。

在一个实施例中，如图6所示，特征提取模块A2包括：

检测网络A21，检测网络A21于训练数据中获取待训练模型的滑窗图像块，检测网络A21对滑窗图像块提取图像特征并存储；

融合模块A22，融合模块A22连接检测网络A21，融合模块A22对同一个病理图像中的多个滑窗图像块的图像特征进行融合得到融合特征。

具体地，为实现对病理图像的全局情况较好的预测效果，本实施例中，通过设置检测模块A21对训练数据进行处理。由于待训练模型通常会采用多个不同大小的卷积层来对图像块中的图像特征进行提取、识别，因此，本实施例zho能够，通过在特征提取模块A2中设置检测网络A21，对训练数据中待训练模型滑窗分割得到的图像块进行截取，并进行特征提取，从而能够获取到待训练模型进行分类时所采用的图像特征。在一个实施例中，为获取到较多的图像特征，检测网络A21可以进一步地挑选训练数据中位于相对中间位置的卷积层的数据，比如倒数第二层，来扩大感受野。随后，当获取到待训练模型针对一张病理图像划分出的多个滑窗图像块的图像特征后，采用融合模块A22对多个滑窗图像块的图像特征进行融合，从而得到对应于病理图像全局的融合特征。

在一个实施例中，分类模块A3包括全连接神经网络，全连接神经网络对融合特征进行预测得到对应于病理图像的总体预测结果。

具体地，在模型训练的过程中，为实现较好的预测效果，本实施例中通过在分类模型A3中配置全连接神经网络，在特征融合的基础上进一步地通过全连接神经网络对全局的融合特征进行分类，从而较为准确地得出当前的病理图像所对应的疾病类别，以此来作为总体预测结果。

在一个实施例中，如图7所示，模型训练模块A1包括：

训练模块A11，训练模块A11采用数据集对待训练模型进行训练并生成训练数据和对应于病理图像的模型预测结果；

衡量模块A12，衡量模块A12连接训练模块A11，衡量模块A12依照模型预测结果和总体预测结果生成待训练模型的衡量结果；

训练模型依照衡量结果对待训练模型中各层的模型权重进行调整。

在本实施例中，模型训练模块A1采用交叉熵损失函数对模型预测结果和总体预测结果进行计算以得到衡量结果。

具体地，现有技术中的模型在对病理图像进行识别的过程中，由于是采用了对单图像块进行分别识别、赋予阳性标签的方案，这导致了切片图像中存在较多的、小型的阳性图像块时会发生时识别出错的问题。这一问题主要是因为每个病人个体的差异性所致，而传统根据图像块的阳性结果赋予玻片对应的阳性结果是不可靠的，因此，在本实施例中，训练模型时需要综合考虑每个阳性区域之间的联系。通过在模型训练的过程中，依照现有技术生成模型的训练数据，包括分割得到的图像块、对图像块的识别结果和依照现有的方法对整体玻片赋予的整体的模型预测结果。随后，衡量模块A12采用交叉熵损失是函数的方法对模型预测结果和总体预测结果进行计算，从而将该部分loss作为衡量结果，进而作为调整模型的依据。通过该方式对模型进行调整，会使得模型了解每个个体更关注在哪些阳性区域上，相比以往的根据一个阳性图像块，对整张切片得到对应的阳性结果，显然是更加灵活，且更加准确。

神经网络模型采用上述的数据集生成系统生成的数据集进行训练。

具体地，针对现有技术中的神经网络模型在对病理图像进行识别时容易因为图像块中的个别阳性细胞导致对整体玻片赋予假阳性结果的问题，本实施例中，通过采用上述的数据集生成系统生成数据集并进行训练，使得神经网络模型能够实现较好的准确度。

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种宫颈液基细胞图像的数据集生成系统，用于生成数据集，所述数据集用于训练神经网络模型，其特征在于，包括：

标签生成模块，所述标签生成模块分别连接所述采集模块、所述分割模块和所述标注模块，所述标签生成模块对所述病理图像添加对应于所述诊断结果的第一标签、对应于所述图像块和所述细胞标注的第二标签以生成标注图像，并将所述标注图像添加至所述数据集中。

2.根据权利要求1所述的数据集生成系统，其特征在于，所述标签生成模块包括：

3.根据权利要求2所述的数据集生成系统，其特征在于，所述第一生成模块包括：

4.根据权利要求2所述的数据集生成系统，其特征在于，所述第二生成模块包括：

5.一种模型训练系统，其特征在于，用于实施如权利要求1-4任意一项所述的数据集生成系统，包括：

所述数据集中包含多张病理图像；

6.根据权利要求5所述的模型训练系统，其特征在于，所述特征提取模块包括：

7.根据权利要求6所述的模型训练系统，其特征在于，所述分类模块包括全连接神经网络，所述全连接神经网络对所述融合特征进行预测得到对应于所述病理图像的所述总体预测结果。

8.根据权利要求5所述的模型训练系统，其特征在于，所述模型训练模块包括：

9.根据权利要求8所述的模型训练系统，其特征在于，所述模型训练模块采用交叉熵损失函数对所述模型预测结果和所述总体预测结果进行计算以得到所述衡量结果。

10.一种宫颈液基细胞图像的图像识别系统，其特征在于，包括神经网络模型，所述神经网络模型接收输入的病理图像并生成识别结果；

所述神经网络模型采用如权利要求1-4任意一项所述的数据集生成系统生成的数据集进行训练。