CN111598830A - 一种基于无监督学习的皮肤癌疾病检测方法 - Google Patents

一种基于无监督学习的皮肤癌疾病检测方法 Download PDF

Info

Publication number
CN111598830A
CN111598830A CN202010097921.XA CN202010097921A CN111598830A CN 111598830 A CN111598830 A CN 111598830A CN 202010097921 A CN202010097921 A CN 202010097921A CN 111598830 A CN111598830 A CN 111598830A
Authority
CN
China
Prior art keywords
encoder
image
input
skin cancer
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010097921.XA
Other languages
English (en)
Inventor
邹强
李旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010097921.XA priority Critical patent/CN111598830A/zh
Publication of CN111598830A publication Critical patent/CN111598830A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30088Skin; Dermal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion

Abstract

本发明公开了一种基于无监督学习的皮肤癌疾病检测方法,其定义一种基于Keras中Layer类的聚类层,将训练后的自编码器网络,移除解码器部分,将编码器的输出作为聚类层的输入,以编码器的输入作为输入,以聚类层的输出作为输出,组成新的神经网络;根据聚类层的输入定义一种目标函数作为参考值,以聚类结果与目标函数之间JS散度作为训练的损失函数,对新的神经网络进行训练;结束训练后,利用该神经网络即可对目标医学图像进行分类,辨别该图像的皮肤癌疾病类型。相较于传统的聚类算法,大大提升了无监督学习的准确度。

Description

一种基于无监督学习的皮肤癌疾病检测方法
技术领域
本发明涉及医学图像分类领域,具体涉及一种基于无监督学习的皮肤癌疾病检测方法。
背景技术
皮肤癌是最常见的人类恶性肿瘤,主要是在视觉上诊断出来的,从最初的临床筛选开始,随后进行皮肤镜分析、活检和组织病理学检查。使用图像的皮肤损伤的自动分类是一项具有挑战性的任务,主要原因在于皮肤损伤的外观上的细粒度可变性。皮肤癌根据肿瘤细胞的来源不同而有不同的命名,包括表皮、皮肤附属器、皮肤软组织、周围神经、黑素细胞、皮肤淋巴网状组织和造血组织等。还有一部分是发生在其他组织转移到皮肤的转移性肿瘤。主要分类包括黑色素细胞痣、黑色素瘤、良性角化样病变、基底细胞癌、光化角化症、血管病变、皮肤纤维瘤。医学图像的标注需要足够的先验知识,所以标注难度和成本相比其他图像分类任务更高,因此无监督学习是医学图像分类的发展趋势。
图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。特征空间的分类方法—首先将原图像经过某种变换如K-L变换,小波变换等变换到特征空间,然后在特征空间提取图像的高层特征以实现图像的分类。基于深度学习的图像分类,通常使用卷积神经网络对输入图像进行特征提取,映射到新的特征空间,然后利用softmax等分类器进行分类。
无监督学习的特点是,模型学习的数据没有标签,因此无监督学习的目标是通过对这些无标签样本的学习来揭示数据的内在特性及规律,其代表就是聚类。聚类算法是机器学习中涉及对数据进行分组的一种算法。在理论上,相同的组的数据之间有相同的属性或者是特征,不同组数据之间的属性或者特征相差就会比较大。K均值聚类算法是最常见的聚类算法。k-均值聚类算法的核心思想是通过迭代把数据对象划分到不同的簇中,以求目标函数最小化,从而使生成的簇尽可能地紧凑和独立。首先,随机选取k个对象作为初始的k个簇的质心;然后,将其余对象根据其与各个簇质心的距离分配到最近的簇;再求新形成的簇的质心。这个迭代重定位过程不断重复,直到目标函数最小化为止。
自编码器(autoencoder,AE)是一类在半监督学习和无监督学习中使用的人工神经网络,其功能是通过将输入信息作为学习目标,对输入信息进行表征学习。自编码器包含编码器(encoder)和解码器(decoder)两部分。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于无监督学习的皮肤癌疾病检测方法。
本发明是通过以下技术方案实现的:
一种基于无监督学习的皮肤癌疾病检测方法,包括以下步骤:
步骤一:对图像数据集进行处理;
步骤二:搭建基于卷积神经网络的自编码器网络,包括编码器与解码器,以解码器还原的图像与原始输入数据之间的逐个像素均方误差作为损失函数,以经过步骤一处理后的图像数据集作为输入,进行循环训练;
步骤三:定义一种基于Keras中Layer类的聚类层,将训练后的自编码器网络,移除解码器部分,将编码器的输出作为聚类层的输入,以编码器的输入作为输入,以聚类层的输出作为输出,组成新的神经网络;根据聚类层的输入定义一种目标函数作为参考值,以聚类结果与目标函数之间JS散度作为训练的损失函数,对新的神经网络进行训练;以聚类更新程度作为是否停止训练的参考,若聚类结果更新度小于设定的阈值,则结束训练;
步骤四:结束训练后,利用该神经网络即可对目标医学图像进行分类,辨别该图像的皮肤癌疾病类型。
在上述技术方案中,步骤一中的图像为包含7类主要皮肤癌疾病的皮肤癌图像,将每一张图像存为一个三维矩阵,对图像进行采样放缩,转化为(75,100,3)的三维矩阵;所有图像按照顺序存进一个四维的数组,维度为(10015,75,100,3),将图像数据每一个像素除以255,转化为0到1的值;其次对图像进行均值方差归一化处理,每张图片减去数据值的均值并除以数据集的方差,为使得自编码器输出与输入尺寸相同,将图像最后一行像素进行复制作为新的一行,使得每张图像维度为偶数(76,100,3)。
在上述技术方案中,步骤二中,编码器部分采用卷积核个数分别为32,64,128的3个卷积层,以RELU作为激活函数,之后利用展开层将数据展平,通过全连接层输出维度为10的特征向量;解码器部分采用与编码器完全对称相反的结构设计,以还原成与输入图像维度相同的图像数据。
在上述技术方案中,步骤三中,将Keras中的可训练权重设置为与分类类别数量相同的聚类中心,采用统计学中的T分布,根据特征向量与聚类中心之间的距离进行属于各类概率的计算,进行归一化处理,输出一个7维向量,向量中各个值对应着属于各类的概率,总和为1。
本发明的优点和有益效果为:
本发明提出的一种无监督学习的皮肤癌检测算法,在皮肤癌图像分类数据集的基础之上,利用基于卷积神经网络的自编码器进行特征提取,利用编码器将输入的高维数据映射到低维特征空间。在低维特征空间上进行K均值算法聚类从而得出分类结果,其中聚类网络利用神经网络框架中的可训练权值进行定义,可以对编码器及聚类网络进行端到端的训练。相较于传统的聚类算法,大大提升了无监督学习的准确度,在没有任何先验知识的支撑下,仅仅对图像数据本身的训练,可以达到有监督学习85%的效果,避免了医学图像中难度较大成本较高的标注难题。
附图说明
图1是本发明的整个神经网络的结构示意图。
图2是步骤二中搭建的基于卷积神经网络的自编码器网络的结构示意图。
图3是步骤三的神经网络的结构示意图。
对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据以上附图获得其他的相关附图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合具体实施例进一步说明本发明的技术方案。
一种基于无监督学习的皮肤癌疾病检测方法,包括以下步骤:
步骤一:对图像数据集进行处理。这些图像为包含7类主要皮肤癌疾病(黑色素细胞痣、黑色素瘤、良性角化样病变、基底细胞癌、光化角化症、血管病变、皮肤纤维瘤)的皮肤癌图像,将每一张图像存为一个三维矩阵,对图像进行采样放缩,转化为(75,100,3)的三维矩阵;所有图像按照顺序存进一个四维的数组,维度为(10015,75,100,3),将图像数据每一个像素除以255,转化为0到1的值;其次对图像进行均值方差归一化处理,每张图片减去数据值的均值并除以数据集的方差,为使得自编码器输出与输入尺寸相同,将图像最后一行像素进行复制作为新的一行,使得每张图像维度为偶数(76,100,3)。
步骤二:搭建基于卷积神经网络的自编码器网络,包括编码器与解码器,结构如图2所示。编码器部分采用卷积核个数分别为32,64,128的3个卷积层,以RELU作为激活函数,之后利用展开层将数据展平,通过全连接层输出维度为10的特征向量;解码器部分采用与编码器完全对称相反的结构设计,以还原成与输入图像维度相同的图像数据。以解码器还原的图像与原始输入数据之间的逐个像素均方误差作为损失函数,采用Adam梯度优化算法,并设置学习率递减的回调函数,批尺寸设为20,以经过步骤一处理后的图像数据集作为输入,进行150次循环训练。
步骤三:定义一种基于Keras中Layer类的聚类层,将Keras中的可训练权重设置为与分类类别数量相同的聚类中心,采用统计学中的T分布,根据特征向量与聚类中心之间的距离进行属于各类概率的计算,进行归一化处理,输出一个7维向量,向量中各个值对应着属于各类的概率,总和为1;将训练后的自编码器网络,移除解码器部分,将编码器的输出作为聚类层的输入,以编码器的输入作为输入,以聚类层的输出作为输出,组成新的神经网络(如图3所示);根据聚类层的输入定义一种目标函数作为参考值,以聚类结果与目标函数之间JS散度作为训练的损失函数,对新的神经网络进行训练。例如采用学习率为0.01,动量为0.9的随机梯度下降算法,批尺寸设为1,进行8000次循环训练,每150次循环对目标函数进行更新,以聚类更新程度作为是否停止训练的参考(例如,将聚类层输出的7维向量取最大值得出分类,根据当前分类结果与上一次分类结果进行比较,若分类结果变化的标签占数据集小于阈值0.001,则训练结束。)
步骤四:结束训练后,利用该神经网络即可对目标医学图像进行分类,辨别该图像的皮肤癌疾病类型。
以上对本发明做了示例性的描述,应该说明的是,在不脱离本发明的核心的情况下,任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。

Claims (5)

1.一种基于无监督学习的皮肤癌疾病检测方法,其特征在于,包括以下步骤:
步骤一:对图像数据集进行处理;
步骤二:搭建基于卷积神经网络的自编码器网络,包括编码器与解码器,以解码器还原的图像与原始输入数据之间的逐个像素均方误差作为损失函数,以经过步骤一处理后的图像数据集作为输入,进行循环训练;
步骤三:定义一种基于Keras中Layer类的聚类层,将训练后的自编码器网络,移除解码器部分,将编码器的输出作为聚类层的输入,以编码器的输入作为输入,以聚类层的输出作为输出,组成新的神经网络;根据聚类层的输入定义一种目标函数作为参考值,以聚类结果与目标函数之间JS散度作为训练的损失函数,对新的神经网络进行训练;以聚类更新程度作为是否停止训练的参考,若聚类结果更新度小于设定的阈值,则结束训练;
步骤四:结束训练后,利用该神经网络即可对目标医学图像进行分类,辨别该图像的皮肤癌疾病类型。
2.根据权利要求1所述的基于无监督学习的皮肤癌疾病检测方法,其特征在于:步骤一中的图像为包含7类主要皮肤癌疾病的皮肤癌图像。
3.根据权利要求1所述的基于无监督学习的皮肤癌疾病检测方法,其特征在于:步骤一中,将每一张图像存为一个三维矩阵,对图像进行采样放缩,转化为(75,100,3)的三维矩阵;所有图像按照顺序存进一个四维的数组,维度为(10015,75,100,3),将图像数据每一个像素除以255,转化为0到1的值;其次对图像进行均值方差归一化处理,每张图片减去数据值的均值并除以数据集的方差,为使得自编码器输出与输入尺寸相同,将图像最后一行像素进行复制作为新的一行,使得每张图像维度为偶数(76,100,3)。
4.根据权利要求1所述的基于无监督学习的皮肤癌疾病检测方法,其特征在于:步骤二中,编码器部分采用卷积核个数分别为32,64,128的3个卷积层,以RELU作为激活函数,之后利用展开层将数据展平,通过全连接层输出维度为10的特征向量;解码器部分采用与编码器完全对称相反的结构设计,以还原成与输入图像维度相同的图像数据。
5.根据权利要求1所述的基于无监督学习的皮肤癌疾病检测方法,其特征在于:步骤三中,将Keras中的可训练权重设置为与分类类别数量相同的聚类中心,采用统计学中的T分布,根据特征向量与聚类中心之间的距离进行属于各类概率的计算,进行归一化处理,输出一个7维向量,向量中各个值对应着属于各类的概率,总和为1。
CN202010097921.XA 2020-02-18 2020-02-18 一种基于无监督学习的皮肤癌疾病检测方法 Pending CN111598830A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010097921.XA CN111598830A (zh) 2020-02-18 2020-02-18 一种基于无监督学习的皮肤癌疾病检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010097921.XA CN111598830A (zh) 2020-02-18 2020-02-18 一种基于无监督学习的皮肤癌疾病检测方法

Publications (1)

Publication Number Publication Date
CN111598830A true CN111598830A (zh) 2020-08-28

Family

ID=72191029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010097921.XA Pending CN111598830A (zh) 2020-02-18 2020-02-18 一种基于无监督学习的皮肤癌疾病检测方法

Country Status (1)

Country Link
CN (1) CN111598830A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449810A (zh) * 2021-07-15 2021-09-28 东南大学 一种基于自监督和语义风格解耦的图像聚类方法
CN114266911A (zh) * 2021-12-10 2022-04-01 四川大学 基于可微k-均值的嵌入式可解释图像聚类方法
CN115146689A (zh) * 2021-03-16 2022-10-04 天津大学 一种基于深度学习的动力系统高维测量数据降维方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898180A (zh) * 2018-06-28 2018-11-27 中国人民解放军国防科技大学 一种面向单颗粒冷冻电镜图像的深度聚类方法
CN109919204A (zh) * 2019-02-23 2019-06-21 华南理工大学 一种面向噪声图像的深度学习聚类方法
CN109948662A (zh) * 2019-02-27 2019-06-28 浙江工业大学 一种基于K-means和MMD的人脸图像深度聚类方法
US20190228312A1 (en) * 2018-01-25 2019-07-25 SparkCognition, Inc. Unsupervised model building for clustering and anomaly detection
CN110223275A (zh) * 2019-05-28 2019-09-10 陕西师范大学 一种task-fMRI引导的大脑白质纤维深度聚类方法
CN110309853A (zh) * 2019-05-20 2019-10-08 湖南大学 基于变分自编码器的医学图像聚类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190228312A1 (en) * 2018-01-25 2019-07-25 SparkCognition, Inc. Unsupervised model building for clustering and anomaly detection
CN108898180A (zh) * 2018-06-28 2018-11-27 中国人民解放军国防科技大学 一种面向单颗粒冷冻电镜图像的深度聚类方法
CN109919204A (zh) * 2019-02-23 2019-06-21 华南理工大学 一种面向噪声图像的深度学习聚类方法
CN109948662A (zh) * 2019-02-27 2019-06-28 浙江工业大学 一种基于K-means和MMD的人脸图像深度聚类方法
CN110309853A (zh) * 2019-05-20 2019-10-08 湖南大学 基于变分自编码器的医学图像聚类方法
CN110223275A (zh) * 2019-05-28 2019-09-10 陕西师范大学 一种task-fMRI引导的大脑白质纤维深度聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FRANCESCO RUNDO等: "Evaluation of Levenberg–Marquardt neural networks and stacked autoencoders clustering for skin lesion analysis, screening and follow-up", 《IET COMPUTER VISION》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146689A (zh) * 2021-03-16 2022-10-04 天津大学 一种基于深度学习的动力系统高维测量数据降维方法
CN113449810A (zh) * 2021-07-15 2021-09-28 东南大学 一种基于自监督和语义风格解耦的图像聚类方法
CN113449810B (zh) * 2021-07-15 2022-11-18 东南大学 一种基于自监督和语义风格解耦的图像聚类方法
CN114266911A (zh) * 2021-12-10 2022-04-01 四川大学 基于可微k-均值的嵌入式可解释图像聚类方法

Similar Documents

Publication Publication Date Title
Kumar et al. An empirical study of handcrafted and dense feature extraction techniques for lung and colon cancer classification from histopathological images
Yu et al. Melanoma recognition in dermoscopy images via aggregated deep convolutional features
CN110084318B (zh) 一种结合卷积神经网络和梯度提升树的图像识别方法
Khan et al. An integrated framework of skin lesion detection and recognition through saliency method and optimal deep neural network features selection
CN107154043B (zh) 一种基于3dcnn的肺结节假阳性样本抑制方法
Yin et al. Scene classification based on single-layer SAE and SVM
Duchenne et al. Segmentation by transduction
Ortiz et al. Segmentation of brain MRI using SOM-FCM-based method and 3D statistical descriptors
CN111598830A (zh) 一种基于无监督学习的皮肤癌疾病检测方法
Swiderski et al. Novel methods of image description and ensemble of classifiers in application to mammogram analysis
Zheng et al. Hyperspectral image classification with small training sample size using superpixel-guided training sample enlargement
Villaruz Deep convolutional neural network feature extraction for berry trees classification
Keceli et al. Combining 2D and 3D deep models for action recognition with depth information
Selvathi et al. Automatic segmentation and classification of liver tumor in CT images using adaptive hybrid technique and contourlet based ELM classifier
Kurmi et al. Classification of magnetic resonance images for brain tumour detection
Sun et al. An image segmentation framework for extracting tumors from breast magnetic resonance images
Bhalerao et al. A novel approach for detection of lung cancer using digital image processing and convolution neural networks
Jiang et al. Automatic multilevel thresholding for image segmentation using stratified sampling and Tabu Search
Yang et al. Color texture segmentation based on image pixel classification
Wang et al. DBLCNN: Dependency-based lightweight convolutional neural network for multi-classification of breast histopathology images
CN111695455B (zh) 一种基于耦合判别流形对齐的低分辨人脸识别方法
Subramanian et al. Multimodal fusion using sparse CCA for breast cancer survival prediction
Ma et al. Hyper-convolution networks for biomedical image segmentation
Pang et al. Sparse contribution feature selection and classifiers optimized by concave-convex variation for HCC image recognition
Hosny et al. Skin melanoma classification using deep convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200828

RJ01 Rejection of invention patent application after publication