CN112950601A

CN112950601A - 用于食管癌模型训练的图片的筛选方法、系统及存储介质

Info

Publication number: CN112950601A
Application number: CN202110264294.9A
Authority: CN
Inventors: 肖潇; 刘敬家
Original assignee: Chengdu Weizhi Medical Equipment Co ltd
Current assignee: Chengdu Weizhi Medical Equipment Co ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-06-11
Anticipated expiration: 2041-03-11
Also published as: CN112950601B

Abstract

用于食管癌模型训练的图片的筛选方法、系统及存储介质，该方法包括以下步骤：输入待筛选的静态图片；根据所述静态图片的特征，采用聚类算法对静态图片进行聚类，得到若干类静态图片；采用距离函数对各聚类中的静态图片进行筛选，得到相似程度低的静态图片作为用于建立食管癌识别模型的训练样本。本发明在输入静态图片时能够允许采用更大的样本量以解决模型泛化能力差的问题，同时，通过聚类算法对大样本的静态图片进行聚类，再通过距离函数筛选各聚类中相似程度低的静态图片，最终在样本覆盖率不受显著影响的前提下实现了从大样本到小样本的转变，得到适于训练识别窄带成像下的食管鳞癌病变图片。

Description

用于食管癌模型训练的图片的筛选方法、系统及存储介质

技术领域

本发明涉及智能医疗技术领域，具体涉及用于食管癌模型训练的图片的筛选方法、系统及存储介质。

背景技术

食管癌是世界上常见的消化道恶性肿瘤之一，其病理类型主要包括食管鳞状细胞癌(ESCC)和食管腺癌(EADC)，而我国食管癌患者中约九成为食管鳞状细胞癌。上消化道内镜检查结合组织病理学是食管鳞癌诊断的金标准。对于难以发现的病变主要依靠色素内镜以及电子染色内镜发现，然后靶向活检，通过组织病理学进行诊断。

随着图像识别技术的发展，通过筛选、归类病变图片，训练和深度学习病变和非病变图片的特征以建立深度学习模型，利用深度学习模型能够替代传统依靠经验丰富的内镜医师肉眼浏览图片进行诊断的方式，实现对内镜检查过程中采集的静态图片和动态视频做出提示和判定，进而辅助内镜医师快速地诊断癌前病变。

为了提高深度学习模型的判断准确性，通常需要构建大量的神经网络。然而，神经网络的复杂化通常会造成过拟合，陷入局部最优，即在训练图片上的表现很好，但对于未见到的图片表现很差，泛化能力差。目前，增加样本病变图片的数量是避免模型过拟合的主要途径。但是，若要样本数据完全覆盖住样本空间，需要的数据量将呈指数增加。大样本训练的模型不仅计算量激增，而且不同类别的数据量差别大，若控制不好样本的均衡同样会造成模型泛化能力差，同时样本数据内部，各种样本例如阴性样本和阳性样本互相干扰导致模型的敏感性和特异性低，造成模型训练以失败而告终。

发明内容

本发明的目的在于提供用于食管癌模型训练的图片的筛选方法、系统及存储介质，该方法采用距离函数从由聚类算法分类好的大样本中筛选得到适于训练识别窄带成像下的食管鳞癌病变的小样本，从而摒弃直接采用大样本进行模型训练的方式，有效地减少了由于大样本训练导致的模型泛化能力差、敏感性和特异性低的问题，实现降低样本数据之间的非主观影响，以筛选更有利于识别窄带成像下的食管鳞癌癌前病变及早期食道鳞状细胞癌模型训练的小样本，更好地完成该食管鳞状细胞癌辅助诊断软件的训练与开发。

本发明通过下述技术方案实现：

用于食管癌模型训练的图片的筛选方法，包括以下步骤：

输入待筛选的静态图片；

根据所述静态图片的特征，采用聚类算法对静态图片进行聚类，得到若干类静态图片；

采用距离函数对各聚类中的静态图片进行筛选，得到相似程度低的静态图片作为用于建立食管癌识别模型的训练样本。

本技术方案中，静态图片选自癌前病变或ESCC食管视频，以及正常食管的视频。所述视频可以是放大视频，也可以是非放大视频。所述视频的光源可以是白光，也可以窄带成像光。

在输入了数量能够覆盖样本空间的静态图片后，首先采用聚类算法根据静态图片的特征进行聚类，以将静态图片聚类为多个类别，各类别中的静态图片拥有相似或相同的图片特征。所述聚类算法可以是现有技术中的任一种能够实现图像特征识别的聚类算法，优选采用基于密度函数的聚类算法，例如OPTICS算法、DBSCAN算法，MeanShift算法。在一个或多个实施例中，所述聚类算法可以应用一次，也可以应用多次。以MeanShift算法为例，可以确定第一移动窗口半径，并从样本中随机选择点C₀作为起始点开始漂移，每次漂移均向密度更高的区域移动直至收敛，最终形成N个第一聚类，之后再确定比第一移动窗口半径更小的第二移动窗口半径，并将每个第一聚类的样本输入Mean Shift算法，得到M个第二聚类，重复上述步骤，直至各聚类的样本数据量达到能够应用距离函数的要求。

形成的每个聚类中的静态图片具有较高的相似度。然而，同一聚类中的静态图片往往容易出现图片内容相似或相同的图片，例如一段食管视频中的连续几帧静态图像，这类图片在进行模型训练时不仅不会提高模型的泛化能力，反而会因为重复计算而提高计算量，造成模型泛化能力差、敏感性和特异性低等问题。因此，在采用距离函数分别对各个聚类中的静态图片进行筛选，得到距离值较大的静态图片作为训练样本，这类距离值较大的静态图片相似度低，更具有代表性，不仅能够反映所在聚类的静态图片的特征，而且显著地降低了训练样本数据量。

通过上述筛选方式，在输入静态图片时能够允许采用更大的样本量以解决模型泛化能力差的问题，同时，通过聚类算法对大样本的静态图片进行聚类，再通过距离函数筛选各聚类中相似程度低的静态图片，最终在样本覆盖率不受显著影响的前提下实现了从大样本到小样本的转变，得到适于训练识别窄带成像下的食管鳞癌病变图片。

进一步地，所述采用距离函数筛选各聚类中的静态图片的步骤包括：

利用距离函数计算同一聚类中所有静态图片之间的距离值，所述距离函数为：

其中，P_i和P_j分别为同一聚类中的第i张静态图片和第j张静态图片，P_i(m,n)为第i张图片上的位于第m行和第n列的点，P_j(m,n)为第j张图片上的位于第m行和第n列的点；

同一聚类中的所有距离值构成距离数据集

令距离数据集

的中位数为M；

在该聚类中选取第一张静态图片P₁，筛选出与第一张静态图片P₁的距离值大于或等于中位数M的静态图片；在该聚类剩余的静态图片中选取第二张静态图片P₂，筛选出与第二张静态图片P₂的距离值大于或等于中位数M的静态图片；以此类推，直至筛选为该聚类中的所有相似程度低的静态图片；

重复上述步骤，直至从所有聚类中筛选得到相似程度低的静态图片。

本技术方案中，每个聚类中的图片之间可能具有高度的重复性且容易出现相互干扰，不利于模型训练。因此，采用距离函数计算同一聚类中任意两张静态图片之间的距离值，当距离值小于阈值时则判定为两张静态图片相似，反之则判定为两张静态图片不相似。

具体地，以聚类A为例，利用距离函数计算聚类A中的任意两张静态图片P_i和P_j的距离值。由距离函数的公式可知，两张静态图片在计算距离值时，是将静态图片作为一个具有m行和n列的矩阵，矩阵中包含多个数值。同一位置处的数值之间的差值的平方值求和即得到两张静态图片之间的距离值。因此，P_i和P_j之间的距离值

而同一张静态图片例如P_i与自身的距离值

聚类A中的所有距离值共同构成距离数据集

所述距离数据集为一个有限非负实数集，令距离数据集

的中位数为M，之后对聚类A中的静态图片进行筛选。

具体筛选步骤为，在聚类A中任意选择第一张静态图片P₁，之后挑选出聚类A中所有与第一张静态图片P₁的距离值大于或等于中位数M的静态图片，得到第一筛选组；之后，在聚类A中排除第一筛选组所剩余的静态图片中选取第二张静态图片P₂，筛选出与第二张静态图片P₂的距离值大于或等于中位数M的静态图片，得到第二筛选组；同理地，继续在聚类A中排除第一、第二筛选组所剩余的静态图片中选取第三张静态图片P₃，并基于相同的条件得到第三筛选组，依次类推直至聚类A中所有的静态图片选择完毕。之后合并所有的筛选组，即得到从聚类A中筛选的静态图片，这类静态图片相互之间相似程度低，各个图像差异明显。最后，重复上述步骤完成所有聚类的静态图片筛选。

进一步地，所述聚类算法为均值漂移聚类算法。Mean shift聚类算法是一种基于聚类中心的聚类算法，无需预先制定类别数。在一个或多个实施例中，仅进行一次MeanShift聚类算法的操作步骤为：确定移动窗口半径，并从样本中随机选择一个点作为滑动起始点开始漂移，每次漂移均向点密度更高的区域移动直至收敛，每次移动均采用shift向量表示，向量的方向指向点密度更大的区域，向量的大小是每次移动的距离，当向量的大小足够小时即收敛，每次移动均计算窗口内的均值作为新的中心点。在部分实施例中，根据样本聚类情况，可在聚类完成后，缩小移动窗口半径对每一个聚类中的静态图片再次聚类，以得到更加细分的多个聚类。

进一步地，所述均值漂移聚类算法用于提取所述静态图像的颜色特征和纹理特征。优选地，所述静态图像的颜色特征为图像直方图，将图像转换为HSV色彩空间，提取图像颜色直方图特征，颜色直方图描述了不同色彩在整个静态图片中所占的比例。所述静态图像的纹理特征为灰度共生矩阵，所述灰度共生矩阵应用的特征标量包括：对比度、ASM能量、相关度、逆差矩和熵中的至少一种。灰度共生矩阵是对灰度图像延某方向上保持某距离的两个像素分别具有的灰度状况进行统计得到。其中，对比度是灰度共生矩阵主对角线附件的惯性矩，它体现了矩阵的值如何分布，反映了图像的清晰程度和纹理沟纹的深浅。对比度值越大则图像亮度变化越快，视觉效果也更清晰；ASM能量反应了图像灰度分布的均匀程度和纹理的粗细程度，其值越大表明纹理越粗，反之越细；相关度反应了纹理在方向上的一致性，如果图像具有某个方向上的纹理，那么该方向上的相关度值就会较大；逆差矩反应了图像纹理的同质性，度量图像纹理局部变化的多少，逆差矩值大则说明图像不同纹理区域间缺少变化，局部均匀；熵反应了图像的信息量，图像噪声越多，信息量越少，熵越大。通过聚类算法，将具有相似或相同的颜色特征或纹理特征的静态图像进行聚类，得到多个适于进一步筛选的聚类。

进一步地，输入的待筛选的静态图片包括白光下的正常图片和病变图片，以及窄带成像下的正常图片和病变图片。为进一步提高聚类和筛选的准确性和效率，所输入的静态图片包括前述四类图片。具体地，在部分实施例中，静态图片包含内镜下少部分含咽部的食管组织结构的图像、内镜下大部以及全部为食管组织结构的图像、内镜下少部分含胃的食管组织结构的图像、内镜下正常食管组织结构的图像、内镜下部分除食道癌病变的图像、内镜下的食管癌前病变及早期食道鳞状细胞癌的图像、内镜下的食管浅表性ESCC的图像中的至少一种在白光和窄带成像下的图像。其中，内镜下部分除食道癌病变的图像包括慢性食管炎、Barrett食管、食管上皮增生、食管黏膜损伤、Plummer-Vinson综合征、食管憩室、食管息肉、食管溃疡、食管静脉曲张、食管白斑中的至少一种。

基于前述任一种筛选方法，本发明还提供一种用于食管癌模型训练的图片的筛选系统，该系统包括：

输入模块，用于输入待筛选的静态图片；

筛选模块，用于应用聚类算法聚类所述静态图片得到若干类静态图片，采用距离函数对各聚类中的静态图片进行筛选，得到相似程度低的静态图片作为用于建立食管癌识别模型的训练样本；

输出模块，输出筛选得到的训练样本。

进一步地，所述筛选模块采用距离函数筛选各聚类中的静态图片的步骤包括：

同一聚类中的所有距离值构成距离数据集

令距离数据集

的中位数为M；

进一步地，输入的待筛选的静态图片包括白光下的正常图片和病变图片，以及窄带光下的正常图片和病变图片。

本发明基于前述筛选方法，还提供了一种存储介质，包括存储的计算机程序，其中，在所述计算机程序运行时，控制所述存储介质所在的设备执行前述任一种所述的筛选方法。

本发明与现有技术相比，具有如下的优点和有益效果：在输入静态图片时能够允许采用更大的样本量以解决模型泛化能力差的问题，同时，通过聚类算法对大样本的静态图片进行聚类，再通过距离函数筛选各聚类中相似程度低的静态图片，最终在样本覆盖率不受显著影响的前提下实现了从大样本到小样本的转变，得到适于训练识别窄带成像下的食管鳞癌病变图片。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明具体实施例中筛选方法的流程框图；

图2为本发明实施例4中各验证组的静态图片示例。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

在本发明的描述中，需要理解的是，术语“前”、“后”、“左”、“右”、“上”、“下”、“竖直”、“水平”、“高”、“低”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制。

此外，在本文中使用的术语“连接”在不进行特别说明的情况下，可以是直接相连，也可以使经由其他部件间接相连。

实施例1：

如图1所示的用于食管癌模型训练的图片的筛选方法，包括以下步骤：

输入待筛选的静态图片；

在所述采用距离函数筛选各聚类中的静态图片的步骤包括：

同一聚类中的所有距离值构成距离数据集

令距离数据集

的中位数为M；

在部分实施例中，所述聚类算法为现有技术中任一种基于密度函数的聚类算法。在一个或多个实施例中，所述聚类算法采用均值漂移聚类算法。在一个或多个实施例中，所述聚类算法可以应用一次，也可以应用多次。

在部分实施例中，所述均值漂移聚类算法用于提取所述静态图像的颜色特征和纹理特征。其中，所述静态图像的颜色特征为图像直方图，所述静态图像的纹理特征为灰度共生矩阵，所述灰度共生矩阵应用的特征标量包括：对比度、ASM能量、相关度、逆差矩和熵中的至少一种。

在一个或多个实施例中，仅进行一次Mean Shift聚类算法的操作步骤为：确定移动窗口半径，并从样本中随机选择一个点作为滑动起始点开始漂移，每次漂移均向点密度更高的区域移动直至收敛，每次移动均采用shift向量表示，向量的方向指向点密度更大的区域，向量的大小是每次移动的距离，当向量的大小足够小时即收敛，每次移动均计算窗口内的均值作为新的中心点。在部分实施例中，根据样本聚类情况，可在聚类完成后，缩小移动窗口半径对每一个聚类中的静态图片再次聚类，以得到更加细分的多个聚类。

在部分实施例中，输入的待筛选的静态图片包括白光下的正常图片和病变图片，以及窄带成像下的正常图片和病变图片。在部分实施例中，静态图片包含内镜下少部分含咽部的食管组织结构的图像、内镜下大部以及全部为食管组织结构的图像、内镜下少部分含胃的食管组织结构的图像、内镜下正常食管组织结构的图像、内镜下部分除食道癌病变的图像、内镜下的食管癌前病变及早期食道鳞状细胞癌的图像、内镜下的食管浅表性ESCC的图像中的至少一种在白光和窄带成像光下的图像。

在输入静态图片时能够允许采用更大的样本量以解决模型泛化能力差的问题，同时，通过聚类算法对大样本的静态图片进行聚类，再通过距离函数筛选各聚类中相似程度低的静态图片，最终在样本覆盖率不受显著影响的前提下实现了从大样本到小样本的转变，得到适于训练识别窄带成像光下的食管鳞癌病变图片。

实施例2：

用于食管癌模型训练的图片的筛选系统，包括：

输入模块，用于输入待筛选的静态图片；

输出模块，输出筛选得到的训练样本；

所述筛选模块采用距离函数筛选各聚类中的静态图片的步骤包括：

同一聚类中的所有距离值构成距离数据集

令距离数据集

的中位数为M；

在部分实施例中，输入的待筛选的静态图片包括白光下的正常图片和病变图片，以及窄带成像光下的正常图片和病变图片。

实施例3：

一种存储介质，包括存储的计算机程序，其中，在所述计算机程序运行时，控制所述存储介质所在的设备执行前述任一实施例中所述的筛选方法。

本实施例中，上述存储介质为计算机可读存储介质，所述肠镜检查质量评估装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

实施例4：

为进一步详述本发明的筛选方法，进行以下实验。

实验方法：

输入80万张选自癌前病变或ESCC食管视频，以及正常食管的视频的静态图片，所述静态图片包含白光下的正常图片和病变图片，以及窄带成像光下的正常图片和病变图片共四类图片。

利用Mean Shift算法提取图像的颜色特征和纹理特征，输出特征向量S，迭代提取的特征S进行聚类。具体地，将80万张静态图片输入Mean Shift算法形成大样本G，按照该算法的聚类过程，确定第一移动窗口半径，经过5.8万次迭代后大样本G中的静态图片收敛为A、B、C、D、E共五类。之后确定半径较第一移动窗口半径更小的第二移动窗口半径，将A类静态图片输入至Mean Shift算法进行约4.5万次迭代后，数据样本收敛为A₁、A₂、A₃、A₄、A₅、A₆共六类；以此类推，将B、C、D、E通过第二移动窗口半径聚类，B类静态图片收敛为5类，C类静态图片收敛为3类，D类静态图片收敛为8类，E类静态图片收敛为11类。经过聚类算法聚类的静态图片最终共33类，如表1所示：

表1：

聚类完成后，利用距离函数对33类静态图片分别进行筛选。以聚类A为例，利用距离函数计算聚类A中的任意两张静态图片P_i和P_j的距离值。聚类A中的所有距离值共同构成距离数据集

令距离数据集

的中位数为M，之后对聚类A中的静态图片进行筛选。

筛选步骤为，在聚类A中任意选择第一张静态图片P₁，之后挑选出聚类A中所有与第一张静态图片P₁的距离值大于或等于中位数M的静态图片，得到第一筛选组；之后，在聚类A中排除第一筛选组所剩余的静态图片中选取第二张静态图片P₂，筛选出与第二张静态图片P₂的距离值大于或等于中位数M的静态图片，得到第二筛选组；同理地，继续在聚类A中排除第一、第二筛选组所剩余的静态图片中选取第三张静态图片P₃，并基于相同的条件得到第三筛选组，依次类推直至聚类A中所有的静态图片选择完毕。之后合并所有的筛选组，即得到从聚类A中筛选的静态图片，这类静态图片相互之间相似程度低，各个图像差异明显。最后，重复上述步骤完成所有聚类的静态图片筛选。

重复上述步骤，将Mean Shift算法分出的剩余32类全部筛选一遍，最终图片相似程度低、差异具有代表性的13950张图片，其中包括白光7150张，窄带成像6800张图片。为开发窄带成像下的辅助诊断软件，因此选择窄带成像图像作为最终训练样本。

样本验证：

从筛选得到的6800张静态图片中进一步剔除掉视野遮挡、图片相似度仍较高等不利于模型训练的图片约300张，将剩余图片约6500张由专业医生对存在ESCC病变进行标注，并将标注好的静态图片作为训练组进行窄带成像下的食管鳞癌癌前病变及早期食道鳞状细胞癌病变深度学习模型的训练。

完成模型训练后，采用四个验证组对训练好的模型进行验证。其中，第一验证组包括连续癌前病变或ESCC中的1480张恶性窄带成像图像，第二验证组包括正常粘膜或者食管良性病变的5191张窄带成像图像，第三验证组包括27个非放大的窄带成像视频和20个放大的窄带成像视频，第四验证组包括33例正常食管视频。四个验证组的示例性图片如图2所示。

经过识别后，训练模型在第一验证组的敏感性为98.04％，在第二训练组的特异性为95.03％，ROC曲线下面积为0.989。对于第三验证组的27个非放大视频，每帧的敏感性为60.8％，每例病变敏感性为100％，对于第三验证组的20个放大视频，每帧的敏感性为96.1％，每例病变敏感性为100％。对于第四验证组未剪辑的全段正常食管录像包括33个录像，每帧特异性为99.9％，每例特异性为90.9％。

由此可见，采用前述筛选方法筛选得到的小样本构建的训练组构建的训练模型在内窥镜图像及视频数据集中都表现出很高的敏感性及特异性，能够很好地辅助内镜医师诊断癌前病变及ESCC。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。