CN112950601A - 用于食管癌模型训练的图片的筛选方法、系统及存储介质 - Google Patents

用于食管癌模型训练的图片的筛选方法、系统及存储介质 Download PDF

Info

Publication number
CN112950601A
CN112950601A CN202110264294.9A CN202110264294A CN112950601A CN 112950601 A CN112950601 A CN 112950601A CN 202110264294 A CN202110264294 A CN 202110264294A CN 112950601 A CN112950601 A CN 112950601A
Authority
CN
China
Prior art keywords
pictures
static
picture
cluster
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110264294.9A
Other languages
English (en)
Other versions
CN112950601B (zh
Inventor
肖潇
刘敬家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Weizhi Medical Equipment Co ltd
Original Assignee
Chengdu Weizhi Medical Equipment Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Weizhi Medical Equipment Co ltd filed Critical Chengdu Weizhi Medical Equipment Co ltd
Priority to CN202110264294.9A priority Critical patent/CN112950601B/zh
Publication of CN112950601A publication Critical patent/CN112950601A/zh
Application granted granted Critical
Publication of CN112950601B publication Critical patent/CN112950601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Image Analysis (AREA)

Abstract

用于食管癌模型训练的图片的筛选方法、系统及存储介质,该方法包括以下步骤:输入待筛选的静态图片;根据所述静态图片的特征,采用聚类算法对静态图片进行聚类,得到若干类静态图片;采用距离函数对各聚类中的静态图片进行筛选,得到相似程度低的静态图片作为用于建立食管癌识别模型的训练样本。本发明在输入静态图片时能够允许采用更大的样本量以解决模型泛化能力差的问题,同时,通过聚类算法对大样本的静态图片进行聚类,再通过距离函数筛选各聚类中相似程度低的静态图片,最终在样本覆盖率不受显著影响的前提下实现了从大样本到小样本的转变,得到适于训练识别窄带成像下的食管鳞癌病变图片。

Description

用于食管癌模型训练的图片的筛选方法、系统及存储介质
技术领域
本发明涉及智能医疗技术领域,具体涉及用于食管癌模型训练的图片的筛选方法、系统及存储介质。
背景技术
食管癌是世界上常见的消化道恶性肿瘤之一,其病理类型主要包括食管鳞状细胞癌(ESCC)和食管腺癌(EADC),而我国食管癌患者中约九成为食管鳞状细胞癌。上消化道内镜检查结合组织病理学是食管鳞癌诊断的金标准。对于难以发现的病变主要依靠色素内镜以及电子染色内镜发现,然后靶向活检,通过组织病理学进行诊断。
随着图像识别技术的发展,通过筛选、归类病变图片,训练和深度学习病变和非病变图片的特征以建立深度学习模型,利用深度学习模型能够替代传统依靠经验丰富的内镜医师肉眼浏览图片进行诊断的方式,实现对内镜检查过程中采集的静态图片和动态视频做出提示和判定,进而辅助内镜医师快速地诊断癌前病变。
为了提高深度学习模型的判断准确性,通常需要构建大量的神经网络。然而,神经网络的复杂化通常会造成过拟合,陷入局部最优,即在训练图片上的表现很好,但对于未见到的图片表现很差,泛化能力差。目前,增加样本病变图片的数量是避免模型过拟合的主要途径。但是,若要样本数据完全覆盖住样本空间,需要的数据量将呈指数增加。大样本训练的模型不仅计算量激增,而且不同类别的数据量差别大,若控制不好样本的均衡同样会造成模型泛化能力差,同时样本数据内部,各种样本例如阴性样本和阳性样本互相干扰导致模型的敏感性和特异性低,造成模型训练以失败而告终。
发明内容
本发明的目的在于提供用于食管癌模型训练的图片的筛选方法、系统及存储介质,该方法采用距离函数从由聚类算法分类好的大样本中筛选得到适于训练识别窄带成像下的食管鳞癌病变的小样本,从而摒弃直接采用大样本进行模型训练的方式,有效地减少了由于大样本训练导致的模型泛化能力差、敏感性和特异性低的问题,实现降低样本数据之间的非主观影响,以筛选更有利于识别窄带成像下的食管鳞癌癌前病变及早期食道鳞状细胞癌模型训练的小样本,更好地完成该食管鳞状细胞癌辅助诊断软件的训练与开发。
本发明通过下述技术方案实现:
用于食管癌模型训练的图片的筛选方法,包括以下步骤:
输入待筛选的静态图片;
根据所述静态图片的特征,采用聚类算法对静态图片进行聚类,得到若干类静态图片;
采用距离函数对各聚类中的静态图片进行筛选,得到相似程度低的静态图片作为用于建立食管癌识别模型的训练样本。
本技术方案中,静态图片选自癌前病变或ESCC食管视频,以及正常食管的视频。所述视频可以是放大视频,也可以是非放大视频。所述视频的光源可以是白光,也可以窄带成像光。
在输入了数量能够覆盖样本空间的静态图片后,首先采用聚类算法根据静态图片的特征进行聚类,以将静态图片聚类为多个类别,各类别中的静态图片拥有相似或相同的图片特征。所述聚类算法可以是现有技术中的任一种能够实现图像特征识别的聚类算法,优选采用基于密度函数的聚类算法,例如OPTICS算法、DBSCAN算法,MeanShift算法。在一个或多个实施例中,所述聚类算法可以应用一次,也可以应用多次。以MeanShift算法为例,可以确定第一移动窗口半径,并从样本中随机选择点C0作为起始点开始漂移,每次漂移均向密度更高的区域移动直至收敛,最终形成N个第一聚类,之后再确定比第一移动窗口半径更小的第二移动窗口半径,并将每个第一聚类的样本输入Mean Shift算法,得到M个第二聚类,重复上述步骤,直至各聚类的样本数据量达到能够应用距离函数的要求。
形成的每个聚类中的静态图片具有较高的相似度。然而,同一聚类中的静态图片往往容易出现图片内容相似或相同的图片,例如一段食管视频中的连续几帧静态图像,这类图片在进行模型训练时不仅不会提高模型的泛化能力,反而会因为重复计算而提高计算量,造成模型泛化能力差、敏感性和特异性低等问题。因此,在采用距离函数分别对各个聚类中的静态图片进行筛选,得到距离值较大的静态图片作为训练样本,这类距离值较大的静态图片相似度低,更具有代表性,不仅能够反映所在聚类的静态图片的特征,而且显著地降低了训练样本数据量。
通过上述筛选方式,在输入静态图片时能够允许采用更大的样本量以解决模型泛化能力差的问题,同时,通过聚类算法对大样本的静态图片进行聚类,再通过距离函数筛选各聚类中相似程度低的静态图片,最终在样本覆盖率不受显著影响的前提下实现了从大样本到小样本的转变,得到适于训练识别窄带成像下的食管鳞癌病变图片。
进一步地,所述采用距离函数筛选各聚类中的静态图片的步骤包括:
利用距离函数计算同一聚类中所有静态图片之间的距离值,所述距离函数为:
Figure BDA0002971436620000021
其中,Pi和Pj分别为同一聚类中的第i张静态图片和第j张静态图片,Pi(m,n)为第i张图片上的位于第m行和第n列的点,Pj(m,n)为第j张图片上的位于第m行和第n列的点;
同一聚类中的所有距离值构成距离数据集
Figure BDA0002971436620000031
令距离数据集
Figure BDA0002971436620000032
的中位数为M;
在该聚类中选取第一张静态图片P1,筛选出与第一张静态图片P1的距离值大于或等于中位数M的静态图片;在该聚类剩余的静态图片中选取第二张静态图片P2,筛选出与第二张静态图片P2的距离值大于或等于中位数M的静态图片;以此类推,直至筛选为该聚类中的所有相似程度低的静态图片;
重复上述步骤,直至从所有聚类中筛选得到相似程度低的静态图片。
本技术方案中,每个聚类中的图片之间可能具有高度的重复性且容易出现相互干扰,不利于模型训练。因此,采用距离函数计算同一聚类中任意两张静态图片之间的距离值,当距离值小于阈值时则判定为两张静态图片相似,反之则判定为两张静态图片不相似。
具体地,以聚类A为例,利用距离函数计算聚类A中的任意两张静态图片Pi和Pj的距离值。由距离函数的公式可知,两张静态图片在计算距离值时,是将静态图片作为一个具有m行和n列的矩阵,矩阵中包含多个数值。同一位置处的数值之间的差值的平方值求和即得到两张静态图片之间的距离值。因此,Pi和Pj之间的距离值
Figure BDA0002971436620000033
而同一张静态图片例如Pi与自身的距离值
Figure BDA0002971436620000034
聚类A中的所有距离值共同构成距离数据集
Figure BDA0002971436620000035
所述距离数据集为一个有限非负实数集,令距离数据集
Figure BDA0002971436620000036
的中位数为M,之后对聚类A中的静态图片进行筛选。
具体筛选步骤为,在聚类A中任意选择第一张静态图片P1,之后挑选出聚类A中所有与第一张静态图片P1的距离值大于或等于中位数M的静态图片,得到第一筛选组;之后,在聚类A中排除第一筛选组所剩余的静态图片中选取第二张静态图片P2,筛选出与第二张静态图片P2的距离值大于或等于中位数M的静态图片,得到第二筛选组;同理地,继续在聚类A中排除第一、第二筛选组所剩余的静态图片中选取第三张静态图片P3,并基于相同的条件得到第三筛选组,依次类推直至聚类A中所有的静态图片选择完毕。之后合并所有的筛选组,即得到从聚类A中筛选的静态图片,这类静态图片相互之间相似程度低,各个图像差异明显。最后,重复上述步骤完成所有聚类的静态图片筛选。
进一步地,所述聚类算法为均值漂移聚类算法。Mean shift聚类算法是一种基于聚类中心的聚类算法,无需预先制定类别数。在一个或多个实施例中,仅进行一次MeanShift聚类算法的操作步骤为:确定移动窗口半径,并从样本中随机选择一个点作为滑动起始点开始漂移,每次漂移均向点密度更高的区域移动直至收敛,每次移动均采用shift向量表示,向量的方向指向点密度更大的区域,向量的大小是每次移动的距离,当向量的大小足够小时即收敛,每次移动均计算窗口内的均值作为新的中心点。在部分实施例中,根据样本聚类情况,可在聚类完成后,缩小移动窗口半径对每一个聚类中的静态图片再次聚类,以得到更加细分的多个聚类。
进一步地,所述均值漂移聚类算法用于提取所述静态图像的颜色特征和纹理特征。优选地,所述静态图像的颜色特征为图像直方图,将图像转换为HSV色彩空间,提取图像颜色直方图特征,颜色直方图描述了不同色彩在整个静态图片中所占的比例。所述静态图像的纹理特征为灰度共生矩阵,所述灰度共生矩阵应用的特征标量包括:对比度、ASM能量、相关度、逆差矩和熵中的至少一种。灰度共生矩阵是对灰度图像延某方向上保持某距离的两个像素分别具有的灰度状况进行统计得到。其中,对比度是灰度共生矩阵主对角线附件的惯性矩,它体现了矩阵的值如何分布,反映了图像的清晰程度和纹理沟纹的深浅。对比度值越大则图像亮度变化越快,视觉效果也更清晰;ASM能量反应了图像灰度分布的均匀程度和纹理的粗细程度,其值越大表明纹理越粗,反之越细;相关度反应了纹理在方向上的一致性,如果图像具有某个方向上的纹理,那么该方向上的相关度值就会较大;逆差矩反应了图像纹理的同质性,度量图像纹理局部变化的多少,逆差矩值大则说明图像不同纹理区域间缺少变化,局部均匀;熵反应了图像的信息量,图像噪声越多,信息量越少,熵越大。通过聚类算法,将具有相似或相同的颜色特征或纹理特征的静态图像进行聚类,得到多个适于进一步筛选的聚类。
进一步地,输入的待筛选的静态图片包括白光下的正常图片和病变图片,以及窄带成像下的正常图片和病变图片。为进一步提高聚类和筛选的准确性和效率,所输入的静态图片包括前述四类图片。具体地,在部分实施例中,静态图片包含内镜下少部分含咽部的食管组织结构的图像、内镜下大部以及全部为食管组织结构的图像、内镜下少部分含胃的食管组织结构的图像、内镜下正常食管组织结构的图像、内镜下部分除食道癌病变的图像、内镜下的食管癌前病变及早期食道鳞状细胞癌的图像、内镜下的食管浅表性ESCC的图像中的至少一种在白光和窄带成像下的图像。其中,内镜下部分除食道癌病变的图像包括慢性食管炎、Barrett食管、食管上皮增生、食管黏膜损伤、Plummer-Vinson综合征、食管憩室、食管息肉、食管溃疡、食管静脉曲张、食管白斑中的至少一种。
基于前述任一种筛选方法,本发明还提供一种用于食管癌模型训练的图片的筛选系统,该系统包括:
输入模块,用于输入待筛选的静态图片;
筛选模块,用于应用聚类算法聚类所述静态图片得到若干类静态图片,采用距离函数对各聚类中的静态图片进行筛选,得到相似程度低的静态图片作为用于建立食管癌识别模型的训练样本;
输出模块,输出筛选得到的训练样本。
进一步地,所述筛选模块采用距离函数筛选各聚类中的静态图片的步骤包括:
利用距离函数计算同一聚类中所有静态图片之间的距离值,所述距离函数为:
Figure BDA0002971436620000051
其中,Pi和Pj分别为同一聚类中的第i张静态图片和第j张静态图片,Pi(m,n)为第i张图片上的位于第m行和第n列的点,Pj(m,n)为第j张图片上的位于第m行和第n列的点;
同一聚类中的所有距离值构成距离数据集
Figure BDA0002971436620000052
令距离数据集
Figure BDA0002971436620000053
的中位数为M;
在该聚类中选取第一张静态图片P1,筛选出与第一张静态图片P1的距离值大于或等于中位数M的静态图片;在该聚类剩余的静态图片中选取第二张静态图片P2,筛选出与第二张静态图片P2的距离值大于或等于中位数M的静态图片;以此类推,直至筛选为该聚类中的所有相似程度低的静态图片;
重复上述步骤,直至从所有聚类中筛选得到相似程度低的静态图片。
进一步地,输入的待筛选的静态图片包括白光下的正常图片和病变图片,以及窄带光下的正常图片和病变图片。
本发明基于前述筛选方法,还提供了一种存储介质,包括存储的计算机程序,其中,在所述计算机程序运行时,控制所述存储介质所在的设备执行前述任一种所述的筛选方法。
本发明与现有技术相比,具有如下的优点和有益效果:在输入静态图片时能够允许采用更大的样本量以解决模型泛化能力差的问题,同时,通过聚类算法对大样本的静态图片进行聚类,再通过距离函数筛选各聚类中相似程度低的静态图片,最终在样本覆盖率不受显著影响的前提下实现了从大样本到小样本的转变,得到适于训练识别窄带成像下的食管鳞癌病变图片。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明具体实施例中筛选方法的流程框图;
图2为本发明实施例4中各验证组的静态图片示例。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
在本发明的描述中,需要理解的是,术语“前”、“后”、“左”、“右”、“上”、“下”、“竖直”、“水平”、“高”、“低”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制。
此外,在本文中使用的术语“连接”在不进行特别说明的情况下,可以是直接相连,也可以使经由其他部件间接相连。
实施例1:
如图1所示的用于食管癌模型训练的图片的筛选方法,包括以下步骤:
输入待筛选的静态图片;
根据所述静态图片的特征,采用聚类算法对静态图片进行聚类,得到若干类静态图片;
采用距离函数对各聚类中的静态图片进行筛选,得到相似程度低的静态图片作为用于建立食管癌识别模型的训练样本。
在所述采用距离函数筛选各聚类中的静态图片的步骤包括:
利用距离函数计算同一聚类中所有静态图片之间的距离值,所述距离函数为:
Figure BDA0002971436620000061
其中,Pi和Pj分别为同一聚类中的第i张静态图片和第j张静态图片,Pi(m,n)为第i张图片上的位于第m行和第n列的点,Pj(m,n)为第j张图片上的位于第m行和第n列的点;
同一聚类中的所有距离值构成距离数据集
Figure BDA0002971436620000062
令距离数据集
Figure BDA0002971436620000063
的中位数为M;
在该聚类中选取第一张静态图片P1,筛选出与第一张静态图片P1的距离值大于或等于中位数M的静态图片;在该聚类剩余的静态图片中选取第二张静态图片P2,筛选出与第二张静态图片P2的距离值大于或等于中位数M的静态图片;以此类推,直至筛选为该聚类中的所有相似程度低的静态图片;
重复上述步骤,直至从所有聚类中筛选得到相似程度低的静态图片。
在部分实施例中,所述聚类算法为现有技术中任一种基于密度函数的聚类算法。在一个或多个实施例中,所述聚类算法采用均值漂移聚类算法。在一个或多个实施例中,所述聚类算法可以应用一次,也可以应用多次。
在部分实施例中,所述均值漂移聚类算法用于提取所述静态图像的颜色特征和纹理特征。其中,所述静态图像的颜色特征为图像直方图,所述静态图像的纹理特征为灰度共生矩阵,所述灰度共生矩阵应用的特征标量包括:对比度、ASM能量、相关度、逆差矩和熵中的至少一种。
在一个或多个实施例中,仅进行一次Mean Shift聚类算法的操作步骤为:确定移动窗口半径,并从样本中随机选择一个点作为滑动起始点开始漂移,每次漂移均向点密度更高的区域移动直至收敛,每次移动均采用shift向量表示,向量的方向指向点密度更大的区域,向量的大小是每次移动的距离,当向量的大小足够小时即收敛,每次移动均计算窗口内的均值作为新的中心点。在部分实施例中,根据样本聚类情况,可在聚类完成后,缩小移动窗口半径对每一个聚类中的静态图片再次聚类,以得到更加细分的多个聚类。
在部分实施例中,输入的待筛选的静态图片包括白光下的正常图片和病变图片,以及窄带成像下的正常图片和病变图片。在部分实施例中,静态图片包含内镜下少部分含咽部的食管组织结构的图像、内镜下大部以及全部为食管组织结构的图像、内镜下少部分含胃的食管组织结构的图像、内镜下正常食管组织结构的图像、内镜下部分除食道癌病变的图像、内镜下的食管癌前病变及早期食道鳞状细胞癌的图像、内镜下的食管浅表性ESCC的图像中的至少一种在白光和窄带成像光下的图像。
在输入静态图片时能够允许采用更大的样本量以解决模型泛化能力差的问题,同时,通过聚类算法对大样本的静态图片进行聚类,再通过距离函数筛选各聚类中相似程度低的静态图片,最终在样本覆盖率不受显著影响的前提下实现了从大样本到小样本的转变,得到适于训练识别窄带成像光下的食管鳞癌病变图片。
实施例2:
用于食管癌模型训练的图片的筛选系统,包括:
输入模块,用于输入待筛选的静态图片;
筛选模块,用于应用聚类算法聚类所述静态图片得到若干类静态图片,采用距离函数对各聚类中的静态图片进行筛选,得到相似程度低的静态图片作为用于建立食管癌识别模型的训练样本;
输出模块,输出筛选得到的训练样本;
所述筛选模块采用距离函数筛选各聚类中的静态图片的步骤包括:
利用距离函数计算同一聚类中所有静态图片之间的距离值,所述距离函数为:
Figure BDA0002971436620000081
其中,Pi和Pj分别为同一聚类中的第i张静态图片和第j张静态图片,Pi(m,n)为第i张图片上的位于第m行和第n列的点,Pj(m,n)为第j张图片上的位于第m行和第n列的点;
同一聚类中的所有距离值构成距离数据集
Figure BDA0002971436620000082
令距离数据集
Figure BDA0002971436620000083
的中位数为M;
在该聚类中选取第一张静态图片P1,筛选出与第一张静态图片P1的距离值大于或等于中位数M的静态图片;在该聚类剩余的静态图片中选取第二张静态图片P2,筛选出与第二张静态图片P2的距离值大于或等于中位数M的静态图片;以此类推,直至筛选为该聚类中的所有相似程度低的静态图片;
重复上述步骤,直至从所有聚类中筛选得到相似程度低的静态图片。
在部分实施例中,输入的待筛选的静态图片包括白光下的正常图片和病变图片,以及窄带成像光下的正常图片和病变图片。
实施例3:
一种存储介质,包括存储的计算机程序,其中,在所述计算机程序运行时,控制所述存储介质所在的设备执行前述任一实施例中所述的筛选方法。
本实施例中,上述存储介质为计算机可读存储介质,所述肠镜检查质量评估装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
实施例4:
为进一步详述本发明的筛选方法,进行以下实验。
实验方法:
输入80万张选自癌前病变或ESCC食管视频,以及正常食管的视频的静态图片,所述静态图片包含白光下的正常图片和病变图片,以及窄带成像光下的正常图片和病变图片共四类图片。
利用Mean Shift算法提取图像的颜色特征和纹理特征,输出特征向量S,迭代提取的特征S进行聚类。具体地,将80万张静态图片输入Mean Shift算法形成大样本G,按照该算法的聚类过程,确定第一移动窗口半径,经过5.8万次迭代后大样本G中的静态图片收敛为A、B、C、D、E共五类。之后确定半径较第一移动窗口半径更小的第二移动窗口半径,将A类静态图片输入至Mean Shift算法进行约4.5万次迭代后,数据样本收敛为A1、A2、A3、A4、A5、A6共六类;以此类推,将B、C、D、E通过第二移动窗口半径聚类,B类静态图片收敛为5类,C类静态图片收敛为3类,D类静态图片收敛为8类,E类静态图片收敛为11类。经过聚类算法聚类的静态图片最终共33类,如表1所示:
表1:
Figure BDA0002971436620000091
聚类完成后,利用距离函数对33类静态图片分别进行筛选。以聚类A为例,利用距离函数计算聚类A中的任意两张静态图片Pi和Pj的距离值。聚类A中的所有距离值共同构成距离数据集
Figure BDA0002971436620000092
令距离数据集
Figure BDA0002971436620000093
的中位数为M,之后对聚类A中的静态图片进行筛选。
筛选步骤为,在聚类A中任意选择第一张静态图片P1,之后挑选出聚类A中所有与第一张静态图片P1的距离值大于或等于中位数M的静态图片,得到第一筛选组;之后,在聚类A中排除第一筛选组所剩余的静态图片中选取第二张静态图片P2,筛选出与第二张静态图片P2的距离值大于或等于中位数M的静态图片,得到第二筛选组;同理地,继续在聚类A中排除第一、第二筛选组所剩余的静态图片中选取第三张静态图片P3,并基于相同的条件得到第三筛选组,依次类推直至聚类A中所有的静态图片选择完毕。之后合并所有的筛选组,即得到从聚类A中筛选的静态图片,这类静态图片相互之间相似程度低,各个图像差异明显。最后,重复上述步骤完成所有聚类的静态图片筛选。
重复上述步骤,将Mean Shift算法分出的剩余32类全部筛选一遍,最终图片相似程度低、差异具有代表性的13950张图片,其中包括白光7150张,窄带成像6800张图片。为开发窄带成像下的辅助诊断软件,因此选择窄带成像图像作为最终训练样本。
样本验证:
从筛选得到的6800张静态图片中进一步剔除掉视野遮挡、图片相似度仍较高等不利于模型训练的图片约300张,将剩余图片约6500张由专业医生对存在ESCC病变进行标注,并将标注好的静态图片作为训练组进行窄带成像下的食管鳞癌癌前病变及早期食道鳞状细胞癌病变深度学习模型的训练。
完成模型训练后,采用四个验证组对训练好的模型进行验证。其中,第一验证组包括连续癌前病变或ESCC中的1480张恶性窄带成像图像,第二验证组包括正常粘膜或者食管良性病变的5191张窄带成像图像,第三验证组包括27个非放大的窄带成像视频和20个放大的窄带成像视频,第四验证组包括33例正常食管视频。四个验证组的示例性图片如图2所示。
经过识别后,训练模型在第一验证组的敏感性为98.04%,在第二训练组的特异性为95.03%,ROC曲线下面积为0.989。对于第三验证组的27个非放大视频,每帧的敏感性为60.8%,每例病变敏感性为100%,对于第三验证组的20个放大视频,每帧的敏感性为96.1%,每例病变敏感性为100%。对于第四验证组未剪辑的全段正常食管录像包括33个录像,每帧特异性为99.9%,每例特异性为90.9%。
由此可见,采用前述筛选方法筛选得到的小样本构建的训练组构建的训练模型在内窥镜图像及视频数据集中都表现出很高的敏感性及特异性,能够很好地辅助内镜医师诊断癌前病变及ESCC。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.用于食管癌模型训练的图片的筛选方法,其特征在于,包括以下步骤:
输入待筛选的静态图片;
根据所述静态图片的特征,采用聚类算法对静态图片进行聚类,得到若干类静态图片;
采用距离函数对各聚类中的静态图片进行筛选,得到相似程度低的静态图片作为用于建立食管癌识别模型的训练样本。
2.根据权利要求1所述的筛选方法,其特征在于,所述采用距离函数筛选各聚类中的静态图片的步骤包括:
利用距离函数计算同一聚类中所有静态图片之间的距离值,所述距离函数为:
Figure FDA0002971436610000011
其中,Pi和Pj分别为同一聚类中的第i张静态图片和第j张静态图片,Pi(m,n)为第i张图片上的位于第m行和第n列的点,Pj(m,n)为第j张图片上的位于第m行和第n列的点;
同一聚类中的所有距离值构成距离数据集
Figure FDA0002971436610000012
令距离数据集
Figure FDA0002971436610000013
的中位数为M;
在该聚类中选取第一张静态图片P1,筛选出与第一张静态图片P1的距离值大于或等于中位数M的静态图片;在该聚类剩余的静态图片中选取第二张静态图片P2,筛选出与第二张静态图片P2的距离值大于或等于中位数M的静态图片;以此类推,直至筛选为该聚类中的所有相似程度低的静态图片;
重复上述步骤,直至从所有聚类中筛选得到相似程度低的静态图片。
3.根据权利要求2所述的筛选方法,其特征在于,所述聚类算法为均值漂移聚类算法。
4.根据权利要求3所述的筛选方法,其特征在于,所述均值漂移聚类算法用于提取所述静态图像的颜色特征和纹理特征。
5.根据权利要求4所述的筛选方法,其特征在于,所述静态图像的颜色特征为图像直方图,所述静态图像的纹理特征为灰度共生矩阵,所述灰度共生矩阵应用的特征标量包括:对比度、ASM能量、相关度、逆差矩和熵中的至少一种。
6.根据权利要求1所述的筛选方法,其特征在于,输入的待筛选的静态图片包括白光下的正常图片和病变图片,以及窄带成像下的正常图片和病变图片。
7.用于食管癌模型训练的图片的筛选系统,其特征在于,包括:
输入模块,用于输入待筛选的静态图片;
筛选模块,用于应用聚类算法聚类所述静态图片得到若干类静态图片,采用距离函数对各聚类中的静态图片进行筛选,得到相似程度低的静态图片作为用于建立食管癌识别模型的训练样本;
输出模块,输出筛选得到的训练样本。
8.根据权利要求7所述的筛选系统,其特征在于,所述筛选模块采用距离函数筛选各聚类中的静态图片的步骤包括:
利用距离函数计算同一聚类中所有静态图片之间的距离值,所述距离函数为:
Figure FDA0002971436610000021
其中,Pi和Pj分别为同一聚类中的第i张静态图片和第j张静态图片,Pi(m,n)为第i张图片上的位于第m行和第n列的点,Pj(m,n)为第j张图片上的位于第m行和第n列的点;
同一聚类中的所有距离值构成距离数据集
Figure FDA0002971436610000022
令距离数据集
Figure FDA0002971436610000023
的中位数为M;
在该聚类中选取第一张静态图片P1,筛选出与第一张静态图片P1的距离值大于或等于中位数M的静态图片;在该聚类剩余的静态图片中选取第二张静态图片P2,筛选出与第二张静态图片P2的距离值大于或等于中位数M的静态图片;以此类推,直至筛选为该聚类中的所有相似程度低的静态图片;
重复上述步骤,直至从所有聚类中筛选得到相似程度低的静态图片。
9.根据权利要求7所述的筛选系统,其特征在于,输入的待筛选的静态图片包括白光下的正常图片和病变图片,以及窄带成像下的正常图片和病变图片。
10.一种存储介质,其特征在于,包括存储的计算机程序,其中,在所述计算机程序运行时,控制所述存储介质所在的设备执行如权利要求1~6中任一项所述的筛选方法。
CN202110264294.9A 2021-03-11 2021-03-11 用于食管癌模型训练的图片的筛选方法、系统及存储介质 Active CN112950601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110264294.9A CN112950601B (zh) 2021-03-11 2021-03-11 用于食管癌模型训练的图片的筛选方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110264294.9A CN112950601B (zh) 2021-03-11 2021-03-11 用于食管癌模型训练的图片的筛选方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN112950601A true CN112950601A (zh) 2021-06-11
CN112950601B CN112950601B (zh) 2024-01-09

Family

ID=76228549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110264294.9A Active CN112950601B (zh) 2021-03-11 2021-03-11 用于食管癌模型训练的图片的筛选方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN112950601B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554641A (zh) * 2021-07-30 2021-10-26 江苏盛泽医院 一种儿科咽部图像采集方法及装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578292A (zh) * 2017-09-19 2018-01-12 上海财经大学 一种用户画像构建系统
CN108121781A (zh) * 2017-12-18 2018-06-05 辽宁师范大学 基于高效样本选取与参数优化的相关反馈图像检索方法
US20180165809A1 (en) * 2016-12-02 2018-06-14 Panagiotis Stanitsas Computer vision for cancerous tissue recognition
CN109036547A (zh) * 2018-06-11 2018-12-18 燕山大学 一种基于聚类分析的肺部ct图像计算机辅助系统及方法
KR20190027461A (ko) * 2017-09-07 2019-03-15 주식회사 스마트데이터복구에스디알 정지영상을 위한 통합 클라우드 시스템
CN109472267A (zh) * 2018-03-23 2019-03-15 苏州诺登德智能科技有限公司 图片相似度比对算法
CN110427825A (zh) * 2019-07-01 2019-11-08 上海宝钢工业技术服务有限公司 基于关键帧与快速支持向量机融合的视频火焰识别方法
CN110991389A (zh) * 2019-12-16 2020-04-10 西安建筑科技大学 判断目标行人在非重叠相机视角中出现的匹配方法
WO2020173379A1 (zh) * 2019-02-27 2020-09-03 华为技术有限公司 一种图片分组方法及设备
CN111967325A (zh) * 2020-07-16 2020-11-20 长沙理工大学 一种基于增量优化的无监督跨域行人重识别方法
CN112001909A (zh) * 2020-08-26 2020-11-27 北京科技大学 基于图像特征融合的粉末床缺陷视觉检测方法
CN112015937A (zh) * 2020-08-31 2020-12-01 核工业北京地质研究院 一种图片地理定位方法及系统
CN112465024A (zh) * 2020-11-26 2021-03-09 西安电子科技大学 基于特征聚类的图像模式挖掘方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165809A1 (en) * 2016-12-02 2018-06-14 Panagiotis Stanitsas Computer vision for cancerous tissue recognition
KR20190027461A (ko) * 2017-09-07 2019-03-15 주식회사 스마트데이터복구에스디알 정지영상을 위한 통합 클라우드 시스템
CN107578292A (zh) * 2017-09-19 2018-01-12 上海财经大学 一种用户画像构建系统
CN108121781A (zh) * 2017-12-18 2018-06-05 辽宁师范大学 基于高效样本选取与参数优化的相关反馈图像检索方法
CN109472267A (zh) * 2018-03-23 2019-03-15 苏州诺登德智能科技有限公司 图片相似度比对算法
CN109036547A (zh) * 2018-06-11 2018-12-18 燕山大学 一种基于聚类分析的肺部ct图像计算机辅助系统及方法
WO2020173379A1 (zh) * 2019-02-27 2020-09-03 华为技术有限公司 一种图片分组方法及设备
CN110427825A (zh) * 2019-07-01 2019-11-08 上海宝钢工业技术服务有限公司 基于关键帧与快速支持向量机融合的视频火焰识别方法
CN110991389A (zh) * 2019-12-16 2020-04-10 西安建筑科技大学 判断目标行人在非重叠相机视角中出现的匹配方法
CN111967325A (zh) * 2020-07-16 2020-11-20 长沙理工大学 一种基于增量优化的无监督跨域行人重识别方法
CN112001909A (zh) * 2020-08-26 2020-11-27 北京科技大学 基于图像特征融合的粉末床缺陷视觉检测方法
CN112015937A (zh) * 2020-08-31 2020-12-01 核工业北京地质研究院 一种图片地理定位方法及系统
CN112465024A (zh) * 2020-11-26 2021-03-09 西安电子科技大学 基于特征聚类的图像模式挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
N. SHARMA: "Automatic construction health image library using information retrieval technique", 《 2014 CONFERENCE ON IT IN BUSINESS, INDUSTRY AND GOVERNMENT (CSIBIG)》 *
梁慧琳: "基于颜色纹理特征的均值漂移图像分割改进算法研究", 《中国知网硕士电子期刊》, no. 3 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554641A (zh) * 2021-07-30 2021-10-26 江苏盛泽医院 一种儿科咽部图像采集方法及装置
CN113554641B (zh) * 2021-07-30 2022-04-12 江苏盛泽医院 一种儿科咽部图像采集方法及装置

Also Published As

Publication number Publication date
CN112950601B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
Ribeiro et al. Colonic polyp classification with convolutional neural networks
Seguí et al. Generic feature learning for wireless capsule endoscopy analysis
Ribeiro et al. Exploring deep learning and transfer learning for colonic polyp classification
Iakovidis et al. An intelligent system for automatic detection of gastrointestinal adenomas in video endoscopy
Cong et al. Deep sparse feature selection for computer aided endoscopy diagnosis
Sekuboyina et al. A convolutional neural network approach for abnormality detection in wireless capsule endoscopy
Jain et al. Detection of abnormality in wireless capsule endoscopy images using fractal features
Häfner et al. Delaunay triangulation-based pit density estimation for the classification of polyps in high-magnification chromo-colonoscopy
Goel et al. Investigating the significance of color space for abnormality detection in wireless capsule endoscopy images
Rakotomamonjy et al. Scattering features for lung cancer detection in fibered confocal fluorescence microscopy images
Souaidi et al. A new automated polyp detection network MP-FSSD in WCE and colonoscopy images based fusion single shot multibox detector and transfer learning
CN114266786A (zh) 基于生成对抗网络的胃病变分割方法及系统
KR20200038121A (ko) 실시간으로 획득되는 위 내시경 이미지를 기반으로 위 병변을 진단하는 내시경 장치 및 방법
Naz et al. Recognizing gastrointestinal malignancies on WCE and CCE images by an ensemble of deep and handcrafted features with entropy and PCA based features optimization
Shin et al. Automatic polyp frame screening using patch based combined feature and dictionary learning
CN105657580A (zh) 一种胶囊内镜视频摘要生成方法
Naz et al. Detection and classification of gastrointestinal diseases using machine learning
Boubakar Khalifa Albargathe et al. Blood vessel segmentation and extraction using H-minima method based on image processing techniques
Naz et al. Segmentation and Classification of Stomach Abnormalities Using Deep Learning.
CN112950601B (zh) 用于食管癌模型训练的图片的筛选方法、系统及存储介质
Tashk et al. An innovative polyp detection method from colon capsule endoscopy images based on a novel combination of RCNN and DRLSE
Shen et al. Automatic polyp image segmentation and cancer prediction based on deep learning
CN116963657A (zh) 使用左右耳膜耳镜检查图像进行自动耳镜检查图像分析以诊断耳部病理的系统和方法
Van Der Sommen et al. Computer-aided detection of early cancer in the esophagus using HD endoscopy images
CN111476312B (zh) 一种基于卷积神经网络的病变图像的分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant