CN114140651A

CN114140651A - 胃部病灶识别模型训练方法、胃部病灶识别方法

Info

Publication number: CN114140651A
Application number: CN202111498821.9A
Authority: CN
Inventors: 张霄; 陈庆瑜; 阚述贤
Original assignee: Shenzhen Jifu Medical Technology Co ltd
Current assignee: Shenzhen Jifu Medical Technology Co ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-03-04

Abstract

本发明公开一种胃部病灶识别模型训练方法、胃部病灶识别方法及存储介质，应用于胶囊内窥镜，该模型训练包括：标注样本图像的病灶区域的轮廓及病灶标签，得到训练样本集；将该训练样本集输入初始模型，该初始模型包括输入端、主干网络、颈部网络和预测网络；通过该输入端对该训练样本集进行预处理，得到处理后的训练样本集；通过该主干网络提取该处理后的训练样本集的特征；通过该颈部网络增强该处理后的训练样本集的该特征；通过该预测网络进行胃部病灶的分类和预测框的回归，得到胃部病灶识别模型。本发明实施例采用Yolov5模型作为初始模型，经训练后得到的胃部病灶识别模型预测精度高，可以实现对胃部病灶的自动、精准识别。

Description

胃部病灶识别模型训练方法、胃部病灶识别方法

技术领域

本发明涉及医疗器械技术械领域，尤其涉及一种胃部病灶识别模型训练方法、病灶识别方法、装置及存储介质。

背景技术

目前，传统的内窥镜及胶囊内窥镜是早期胃癌筛查的主要方式，基于传统的内窥镜或者胶囊内窥镜采集的图像进行病灶的识别，目前主要以医生识别为主，导致识别结果受到医生的经验影响较大，导致造成误诊、漏诊的几率增大。胃癌的早发现和及时治疗可显著提高患者的手术效果和生活质量。近几年深度学习技术已被广泛应用于医学影像，但在胃部病灶识别上还鲜有涉及。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提供一种胃部病灶识别模型训练方法、胃部病灶识别方法及存储介质，应用于胶囊内窥镜，旨在能够通过训练后的胃部病灶识别模型对胶囊内窥镜采集的图像进行病灶识别，排除病灶识别结果受人为因素的影响，提高病灶识别的准确性及识别的效率。

本发明实施例提供一种胃部病灶识别模型训练方法，应用于胶囊内窥镜，包括：标注样本图像的病灶区域的轮廓及病灶标签，得到训练样本集，所述训练样本集包括至少两个已标注的样本图像；

将所述训练样本集输入初始模型，所述初始模型包括输入端、主干网络、颈部网络和预测网络；

通过所述输入端对所述训练样本集进行预处理，得到处理后的训练样本集；

通过所述主干网络提取所述处理后的训练样本集的特征；

通过所述颈部网络增强所述处理后的训练样本集的所述特征；

通过所述预测网络进行胃部病灶的分类和预测框的回归，得到胃部病灶识别模型。

在一些实施例中，通过所述输入端对所述训练样本集进行预处理，得到处理后的训练样本集，包括：

对所述处理后的训练样本集进行增强处理，得到增强后的训练样本集；

根据所述已标注的样本图像的病灶区域的轮廓，采用K均值算法确定预设锚定框；

根据图像的长宽比，对增强后的训练样本集中的所述已标注样本图像进行缩放处理，得到处理后的训练样本集。

在一些实施例中，通过主干网络提取所述处理后的训练样本集的特征，包括：

通过Focus网络对所述处理后的训练样本集进行切片和卷积操作，得到多个特征图像；

通过CBL模块对所述多个特征图像进行卷积、第一正则化和激活处理，得到处理后的多个特征图像；

通过CSP模块对所述处理后的多个特征图像进行合并处理，得到合并后的多个特征图像；

通过Dropblock模块对所述合并后的多个特征图像进行第二正则化处理，得到正则化后的多个特征图像。

在一些实施例中，通过所述颈部网络增强所述处理后的训练样本集的所述特征，包括：

通过SPP模块对所述正则化处理后的多个特征图像进行池化和合并处理，得到池化和合并后的多个特征图像；

采用FPN与PAN模块对所述池化和合并后的多个特征图像进行融合，得到融合后的多个特征图像。

在一些实施例中，通过所述预测网络进行胃部病灶的分类和预测框的回归，得到胃部病灶识别模型包括：

采用非极大值抑制的方法对每个所述特征图像的多个预测框进行删减；

当预测框损失函数满足预设条件时，停止训练，得到所述胃部病灶识别模型。

在一些实施例中，所述的胃部病灶识别模型训练方法还包括：

将测试样本集输入所述胃部病灶识别模型，得到识别结果，其中，所述测试样本集包括正常图像及病灶图像；

对于所述正常图像，当识别结果为正常时，所述识别结果正确；

对于所述正常图像，当识别结果为病灶，则选取置信度最高的所述预测框，所述识别结果错误；

对于所述病灶图像，当识别结果为正常时，所述识别结果错误；

对于所述病灶图像，当识别结果为病灶时，计算每个病灶区域的轮廓与对应的所述预测框的IOU；

当所述IOU小于预设IOU阈值时，所述识别结果不纳入统计；

当所述IOU大于或等于预设IOU阈值时，选取置信度最高的预测框；

当所述置信度最高的预测框对应的所述识别结果中的病灶类型正确时，所述识别结果正确；

当所述置信度最高的预测框对应的所述识别结果中的病灶类型错误时，所述识别结果错误。

本发明实施例提供一种应用上述任意一实施例所述的胃部病灶识别模型进行胃部病灶识别的方法，包括：

将胶囊内窥镜拍摄的胃部图像输入胃部病灶识别模型；

通过所述胃部病灶识别模型对所述胃部图像进行识别，得到识别结果，所述识别结果包括：病灶类型、预测框坐标信息及置信度。

本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述任意一实施例所述的方法中所执行的操作。

本发明实施提供一种胃部病灶识别模型训练方法，应用于胶囊内窥镜，包括：标注样本图像的病灶区域的轮廓及病灶标签，得到训练样本集，所述训练样本集包括至少两个已标注的样本图像；将所述已标注的样本图像输入初始模型，所述初始模型包括输入端、主干网络、颈部网络和预测网络；通过所述输入端对所述训练样本集进行预处理，得到处理后的训练样本集；通过所述主干网络提取所述处理后的训练样本集的特征；通过所述颈部网络增强所述处理后的训练样本集的所述特征；通过所述预测网络进行胃部病灶的分类和预测框的回归，得到胃部病灶识别模型。本发明实施例采用Yolov5模型作为初始模型，经训练后得到的胃部病灶识别模型预测精度高，可以实现对胃部病灶的自动、精准识别。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。

图1为本发明实施例中一种胃部病灶识别模型训练方法的流程图；

图2为本发明实施例中另一种胃部病灶识别模型训练方法的流程图；

图3为本发明实施例中又一种胃部病灶识别模型训练方法的流程图；

图4为本发明实施例中又一种胃部病灶识别模型训练方法的流程图；

图5为本发明实施例中又一种胃部病灶识别模型训练方法的流程图；

图6为本发明实施例中一种胃部病灶识别方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例，把胃部病灶分为了六大类，分别为：早期胃癌、进展期胃癌、息肉、溃疡、非上皮性肿瘤或肿瘤样病变、糜烂，以及正常的无病灶部位图像作为负样本。发明实施例以Yolov(You only look once)第五代版本作为初始模型。如图1所示，本发明实施例提供一种胃部病灶识别模型训练方法，应用于胶囊内窥镜，包括：标注样本图像的病灶区域的轮廓及病灶标签，得到训练样本集，所述训练样本集包括至少两个已标注的样本图像；将所述训练样本集输入初始模型，所述初始模型包括输入端、主干网络、颈部网络和预测网络；通过所述输入端对所述训练样本集进行预处理，得到处理后的训练样本集；通过所述主干网络提取所述处理后的训练样本集的特征；通过所述颈部网络增强所述处理后的训练样本集的所述特征；通过所述预测网络进行胃部病灶的分类和预测框的回归，得到胃部病灶识别模型。

具体地，采用多边形框圈出样本图像中病灶区域的轮廓，并标注病灶标签，病灶标签可以是早期胃癌、进展期胃癌、息肉、溃疡、非上皮性肿瘤或肿瘤样病变、糜烂中的一种。

Yolov5模型包括输入端、主干网络、颈部网络和预测网络。通过所述主干网络提取所述处理后的训练样本集的特征；通过所述颈部网络增强所述处理后的训练样本集的所述特征；通过所述预测网络进行胃部病灶的分类和检测框体预测框的回归，得到胃部病灶识别模型。

如图2所示，在一些实施例中，通过所述输入端对所述训练样本集进行预处理，得到处理后的训练样本集，包括：对所述处理后的训练样本集进行增强处理，得到增强后的训练样本集；根据所述已标注的样本图像的病灶区域的轮廓，采用K均值算法确定预设锚定框；根据图像的长宽比，对增强后的训练样本集中的所述已标注样本图像进行缩放处理，得到处理后的训练样本集。

具体地，通过Mosaic数据增强模块将4张已标注的样本图像，随机缩放、随机剪裁和随机排布的方式进行拼接。通过这种方式，可以丰富训练样本集，缓解训练样本集中，小、中、大病灶区域的占比不均衡问题，特别是随机缩放增加了很多小病灶区域，小病灶例如息肉、糜烂，大病灶区域例如进展期胃癌等，使得模型的鲁棒性更好。另一方面，使用Mosaic数据增强训练时，可以直接计算4张图片的数据，使得Mini-batch大小并不需要太大，单块GPU就可以达到比较好的训练效果。

在训练时，模型在初始锚框的基础上输出预测框，进而和真实框(标注的病灶区域的轮廓)进行对比，计算两者的差距，再反向更新，迭代模型参数。在Yolov5中，对于不同数据集，采用k均值算法进行分析，获得适合数据集中病灶边界框预测的预设锚定框。

为了提高模型推理速度，Yolov5提出自适应图像缩放，即根据长宽对比样本图像进行缩放，并添加最少的黑边，以减少计算量。

如图3所示，在一些实施例中，通过主干网络提取所述处理后的训练样本集的特征，包括：通过Focus网络对所述处理后的训练样本集进行切片和卷积操作，得到多个特征图像；通过CBL(Convolution,Batch Normalization,Leaky ReLU)模块对所述多个特征图像进行卷积、第一正则化和激活处理，得到处理后的多个特征图像；通过CSP(Cross StagePartial Network)模块对所述处理后的多个特征图像进行合并处理，得到合并后的多个特征图像；通过Dropblock模块对所述合并后的多个特征图像进行第二正则化处理，得到正则化后的多个特征图像。具体地，Focus模块是Yolov5新加入的模块，该Focus模块将输入该模块内的特征图像分成多个切片，再进行并排处理后输入到CBL模块中。以Yolov5x为例，608*608*3的特征图像输入Focus模块，通过切片操作，先变成304*304*12的特征图像，再经过一次80个卷积核的卷积操作，最终变成304*304*80的特征图像。

CBL模块由卷积(conv)、样本正则化(Batch Normalization)和激活函数(LeakyReLu)构成，其中每一个卷积核的大小都是3*3，步长(stride)都为2，因此可以起到下采样的作用。

从CBL模块处理后输出结果，该结果输入CSP模块。Yolov5中设计了两种CSP结构，CSP1_X结构应用于Backbone主干网络，另一种CSP2_X结构则应用于Neck颈部网络。CSPNet的全称是Cross Stage Partial Network，主要从网络结构设计的角度解决推理运算量过大的问题，先将基础层的特征映射分为两部分，然后通过跨阶段层次结构将它们合并，在减少计算量的同时可以保证预测的准确率。CSP网络中也包含CBL模块，CBL模块卷积(conv)、样本正则化(Batch Normalization)和激活函数(Leaky ReLu)构成，其中每一个卷积核的大小都是3*3，步长(stride)都为2，因此可以起到下采样的作用。

Yolov5中使用了Dropblock，和常见网络中的Dropout功能类似，也是缓解过拟合的一种正则化方式。传统的Dropout方法是通过随机减少神经元的数量，使网络变得简单。然而卷积层对于这种随机舍弃的方式并不敏感，因为卷积层通常是三层连用：卷积——激活——池化，池化层是对相邻单元起作用，并且卷积层可以从相邻的激活单元学习到相同的信息。因此Dropblock的方法则是对整个局部区域进行删减丢弃，取得了优于Dropout方法的效果。

如图4所示，在一些实施例中，通过所述颈部网络增强所述处理后的训练样本集的所述特征，包括：通过SPP模块对所述正则化处理后的多个特征图像进行池化和合并处理，得到池化和合并后的多个特征图像；采用FPN与PAN模块对所述池化和合并后的多个特征图像进行融合，得到融合后的多个特征图像。

具体地，SPP(Spatial Pyramid Pooling)模块采用k＝{1*1，5*5，9*9，13*13}的最大池化方式，再将不同尺度的特征图像进行合并排列操作。这里的最大池化采用了填充(padding)操作，移动的步长(stride)为1，填充的大小根据池化核大小而定，例如：13*13的输入特征图像，使用5*5大小的池化核池化，padding＝2，从而池化后的特征图像大小依旧为13*13。比起使用固定单一的k*k最大池化方法，Yolov5使用的SPP模块更有效的增加主干特征的接收范围，显著的分离了最重要的上下文特征。

FPN(Feature Pyramid Network)是自顶而下的，将高层的特征信息通过上采样的方式进行传递融合，得到第一组特征图像(1)76*76*255。在FPN层之后，Yolov5又添加了一个自底向上的特征金字塔，其中包括两个PAN(Path Aggregation Network)结构，从而得到另外的两组特征图像(2)38*38*255和(3)19*19*255。这样的结合操作，FPN层自顶向下传递强语义特征，而特征金字塔则自底向上传递强定位特征，两两联手，从不同的主干层对不同的检测层进行参数融合，取得较好的训练效果。原本PANet网络中的PAN结构，两个特征图结合采用的是捷径直连(shortcut)操作，而Yolov5则采用了合并排列(concatenate)的方式，融合后的特征图尺寸发生了变化。三组特征图(1)76*76*255，(2)38*38*255，(3)19*19*255用于预测部分的训练。

如图5所示，在一些实施例中，通过所述预测网络进行胃部病灶的分类和预测框的回归，得到胃部病灶识别模型包括：采用非极大值抑制的方法对每个所述特征图像的多个预测框进行删减；当预测框损失函数满足预设条件时，停止训练，得到所述胃部病灶识别模型。

非极大值抑制(Non-Maximum Suppression，NMS)指的是搜索局部极大值，抑制非极大值元素。在Yolov5中，三条预测分支的最后一个卷积层的卷积核个数都为255，原因是针对COCO数据集的80个分类：3*(80+4+1)＝255，3表示1个网格中包含3个bounding box，4表示预测框的4个坐标信息，1表示置信度得分。对于本发明实施例中的6种病灶类型，卷积核个数变为3*(6+4+1)＝33。对于每一个预测分支，得到所有的预测框之后，首先对置信度得分小于预设置信度阈值的清零，该预设置信度阈值可以为0.001，然后重新排序，再使用NMS算法去掉重复率过大的预测框。具体来说，对于某一个类别，选择置信度得分最高的一个预测框，然后计算该置信度得分最高的预测框和其他预测框的IOU(Intersection overUnion)值，如果大于预设IOU阈值，该预设IOU阈值可以为0.6，说明重复率过大，把该置信度得分最高的预测框的置信度得分设置为0，反之则不改。这样一轮过后，剩下一个置信度得分最高且与其他框体重合度不超过预设IOU阈值的预测框体，将该预测框体作为输出，并重复以上过程直至训练结束。

Yolov5使用GIOU作为预测框Bounding box的损失函数，定义如下：

差集＝C-B；

C为真实标注框与预测框的最小外接矩形；B为真实标注框与预测框的并集，IOU(Intersection over Union)是指预测框体与真实标注框体的重合度，真实标注框体即为标注的样本图像的病灶区域的轮廓。

当该预测框的损失函数满足预设的下降趋势时，结束训练，得到胃部病灶识别模型。也可以是当满足预设的训练周期时，结束训练，得到胃部病灶识别模型。在一些实施例中，所述胃部病灶识别模型训练方法还包括：将测试样本集输入所述胃部病灶识别模型，得到识别结果，其中，所述测试样本集包括正常图像及病灶图像；对于所述正常图像，当识别结果为正常时，所述识别结果正确；对于所述正常图像，当识别结果为病灶，则选取置信度最高的所述预测框，所述识别结果错误；对于所述病灶图像，当识别结果为正常时，所述识别结果错误；对于所述病灶图像，当识别结果为病灶时，计算每个病灶区域的轮廓与对应的所述预测框的IOU；当所述IOU小于预设IOU阈值时，所述识别结果不纳入统计；当所述IOU大于或等于预设IOU阈值时，选取置信度最高的预测框；当所述置信度最高的预测框对应的所述识别结果中的病灶类型正确时，所述识别结果正确；当所述置信度最高的预测框对应的所述识别结果中的病灶类型错误时，所述识别结果错误。

具体地，测试样本集也已经标注了病灶区域的轮廓和病灶标签。这是对最终得到的胃部病灶识别模型进行评价的方法。对于正常的图像，即没有病灶的图像，当胃部病灶识别模型识别出了病灶，则选取所有识别中置信度最高的一个作为结果纳入预测错误的统计中。对于病灶图像，以每一张病灶图像的每一个真实标注框为单位，当胃部病灶识别模型没有识别出病灶，则直接判定该识别结果错误；当胃部病灶识别模型识别出病灶，则计算每一个真实标注框与对应的预测框的IOU，如果该IOU低于预设的IOU阈值，则该结果不纳入统计，若大于或等于预设IOU阈值，则选取其中置信度最高的预测框作为结果，如果所述置信度最高的预测框对应的所述识别结果中的病灶类型正确，则判定识别结果正确，反之则识别结果错误。关于低于预设IOU阈值就不纳入统计这一条规则，是基于真实标注框有漏标的情况而设计的。预设IOU阈值比如可以为0.05。最终根据识别结果正确的统计数量及识别结果错误的统计数量来评价胃部病灶识别模型的好坏，比如可以根据统计数量来计算该胃部病灶识别模型的召回率Recall及精确率Precision，对于每一类的真实标签(包括正常图像)，召回率为被正确识别的数量占真实标签数量的百分比；精确率为被识别为某种病灶中真实为该种病灶的百分比。计算公式如下：

TP:True positive，FN:False negative，FP:False positive

以早癌为例，真实的标注框数量为201个，胃部病灶识别模型识别出了176个，而识别结果正确的为162个，由此计算可得：召回率＝162/201＝80.6％，精确率＝162/176＝92.0％。

如图6所示，本发明实施例提供一种应用上述实施例得到的胃部病灶识别模型进行胃部病灶识别的方法，包括：将胶囊内窥镜拍摄的胃部图像输入胃部病灶识别模型；通过所述胃部病灶识别模型对所述胃部图像进行识别，得到识别结果，所述识别结果包括：病灶类型、预测框坐标信息及置信度。其中，病灶类型可以是早期胃癌、进展期胃癌、息肉、溃疡、非上皮性肿瘤或肿瘤样病变、糜烂中的一种；预测框坐标信息包括预测框的X坐标和Y坐标；置信度是指预测为该病灶类型的把握程度confidence。采用训练好的胃部病灶识别模型对胶囊内窥镜采集的图像进行识别，识别结果不受人为影响，识别准确性高，识别效率高。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述实施例的胃部病灶识别模型训练方法中所具有的操作。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述实施例的胃部病灶识别方法中所具有的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一种计算机可以存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种胃部病灶识别模型训练方法，应用于胶囊内窥镜，其特征在于，包括：

标注样本图像的病灶区域的轮廓及病灶标签，得到训练样本集，所述训练样本集包括至少两个已标注的样本图像；

通过所述主干网络提取所述处理后的训练样本集的特征；

2.根据权利要求1所述的胃部病灶识别模型训练方法，其特征在于，通过所述输入端对所述训练样本集进行预处理，得到处理后的训练样本集，包括：

3.根据权利要求1所述的胃部病灶识别模型训练方法，其特征在于，通过主干网络提取所述处理后的训练样本集的特征，包括：

4.根据权利要求3所述的胃部病灶识别模型训练方法，其特征在于，通过所述颈部网络增强所述处理后的训练样本集的所述特征，包括：

5.根据权利要求4所述的胃部病灶识别模型训练方法，其特征在于，通过所述预测网络进行胃部病灶的分类和预测框的回归，得到胃部病灶识别模型包括：

6.根据权利要求1所述的胃部病灶识别模型训练方法，其特征在于，所述方法还包括：

当所述IOU小于预设IOU阈值时，所述识别结果不纳入统计；

7.一种应用权利要求1至6所述的胃部病灶识别模型进行胃部病灶识别的方法，其特征在于，包括：

将胶囊内窥镜拍摄的胃部图像输入胃部病灶识别模型；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至6所述的方法中所执行的操作。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求7所述的方法中所执行的操作。