CN114093507A - 边缘计算网络中基于对比学习的皮肤病智能分类方法 - Google Patents
边缘计算网络中基于对比学习的皮肤病智能分类方法 Download PDFInfo
- Publication number
- CN114093507A CN114093507A CN202111420600.XA CN202111420600A CN114093507A CN 114093507 A CN114093507 A CN 114093507A CN 202111420600 A CN202111420600 A CN 202111420600A CN 114093507 A CN114093507 A CN 114093507A
- Authority
- CN
- China
- Prior art keywords
- training
- network
- samples
- encoder
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000017520 skin disease Diseases 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000003745 diagnosis Methods 0.000 claims abstract description 51
- 230000006870 function Effects 0.000 claims abstract description 38
- 238000009826 distribution Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000001413 cellular effect Effects 0.000 claims description 2
- 238000013500 data storage Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims 2
- 206010048768 Dermatosis Diseases 0.000 claims 1
- 230000009977 dual effect Effects 0.000 claims 1
- 201000001441 melanoma Diseases 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000004195 computer-aided diagnosis Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000003902 lesion Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 206010040882 skin lesion Diseases 0.000 description 3
- 231100000444 skin lesion Toxicity 0.000 description 3
- 206010004146 Basal cell carcinoma Diseases 0.000 description 2
- 208000001126 Keratosis Diseases 0.000 description 2
- 206010027145 Melanocytic naevus Diseases 0.000 description 2
- 208000003351 Melanosis Diseases 0.000 description 2
- 206010040844 Skin exfoliation Diseases 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003748 differential diagnosis Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 208000013165 Bowen disease Diseases 0.000 description 1
- 208000019337 Bowen disease of the skin Diseases 0.000 description 1
- 206010008570 Chloasma Diseases 0.000 description 1
- 206010014970 Ephelides Diseases 0.000 description 1
- 208000007256 Nevus Diseases 0.000 description 1
- 208000009077 Pigmented Nevus Diseases 0.000 description 1
- 208000035977 Rare disease Diseases 0.000 description 1
- 208000009621 actinic keratosis Diseases 0.000 description 1
- 230000036626 alertness Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001617 migratory effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明是一种边缘计算网络中基于对比学习的皮肤病智能分类方法,包括如下步骤:步骤1:构建基于边缘计算的皮肤病智能诊断网络;步骤2:构建基于对比学习的智能皮肤病诊断网络,该智能皮肤病诊断网络为由两个特征提取网络和一个分类器组成的双编码器网络;步骤3:构建基于最大均值差异(MMD)的监督式对比损失函数,它将每一类数据集表示为特定概率分布的采样,并把不同类别之间的差异表示为这些分布的距离。该方法构为临近用户提供方便快捷的在线诊断服务;通过充分利用无标签样本来提高模型性能,克服训练样本缺乏的问题;可以高效地学习样本中复杂的类内、类间差异。
Description
技术领域
本发明涉及物联网技术领域,具体的说是涉及一种边缘计算网络中基于对比学习的智能皮肤病分类方法。
背景技术
皮肤病是人类最普遍的疾病之一,影响几乎所有群体中各个年龄段30%到70%的人。恶性皮肤病,如黑色素瘤,具有恶化速度快、死亡率高的特点。而早期诊断可使该病的生存率从14%提高到99%。由于此类疾病的发生往往伴随着皮肤颜色的变化,因此容易引起患者的注意和警觉,也带来了巨大的诊断需求。一些皮肤病如雀斑和黄褐斑是常见的,而其他一些皮肤病如黑素瘤和鲍文氏病的发病率相对较低。因此,这类罕见疾病的临床病例很少,所以不同类型的皮损往往分布不平衡。此外,皮肤病的病变外观具有类间方差,类内方差大的特点,这导致人工检查的误诊率高。研究表明,全科医生的诊断正确率为24%~70%,专业皮肤科医生的诊断正确率为77%~96%。因此在计算机辅助诊断(CAD)的帮助下,可以显著提高诊断的准确性和效率。
随着CAD技术的快速发展,由于深度学习方法在诊断精度和服务效率方面具有优势,将深度学习应用于皮肤病变诊断是一种日益发展的趋势。目前,现有的基于深度神经网络的医学图像分类诊断方案大致可以分为以下三类:
第一类方案采用单一CNN模型研究病变诊断问题。虽然该类别在一些皮肤病数据集上取得了显著的性能提升,但上述研究受到单一学习模型设计的特征挖掘和分类决策能力的限制。
为了克服第一类的不足,第二类方案结合多个CNN模型研究分类诊断问题。虽然这类方案提高了分类识别准确率,但数据集的类别不平衡和标注数据数量不足仍然是阻碍识别准确率从根本上提高的主要问题。
针对第二类存在的问题,第三类方案提出了高效的数据增强策略和方法,进一步提高了网络的分类和分割性能。针对训练数据集缺乏的问题,研究了生成对抗网络(GAN)综合现有训练数据的方法。尽管这类方案为克服皮肤病诊断中训练样本不足的问题提供了一种更加先进的解决方案,但它大大增加了实现的难度,其中低质量的合成数据还会显著恶化网络性能。在以上方法中,并未考虑到使用大量的未标记数据来有效地提高网络的诊断性能。
发明内容
为了解决上述问题,本发明提供了一种边缘计算网络中基于对比学习的皮肤病智能分类方法,该方法构建一种基于边缘计算的皮肤病智能诊断网络,为临近用户提供方便快捷的在线诊断服务;同时设计一种基于对比学习的双编码器网络,通过充分利用无标签样本来提高模型性能,克服训练样本缺乏的问题;随后,设计一个基于最大均值差异(MMD)的监督对比损失函数,它可以高效地学习样本中复杂的类内、类间差异。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种边缘计算网络中基于对比学习的皮肤病智能分类方法,包括如下步骤:
步骤1:构建基于边缘计算的皮肤病智能诊断网络,该网络由用户、边缘节点和数据基站组成;
步骤2:构建基于对比学习的智能皮肤病诊断网络,该智能皮肤病诊断网络为由两个特征提取网络和一个分类器组成的双编码器网络,所述双编码器网络集成了自监督和监督式对比学习,以生成更多的分类判别特征,同时,可以在不同类别之间获得更均衡的分类精度,充分利用未标记样本;
步骤3:构建基于最大均值差异(MMD)的监督式对比损失函数,它将每一类数据集表示为特定概率分布的采样,并把不同类别之间的差异表示为这些分布的距离。
本发明的进一步改进在于:所述步骤2具体包括如下内容:
在边缘计算环境下,本发明设计了一个基于对比学习的智能皮肤病诊断网络。为了充分利用标签数据、无标签数据或两者兼有的数据形式,将传统的监督网络扩展为由两个特征提取网络和一个分类器组成的双编码器网络。
编码器和分类器的训练细节如下。去除ResNet-50的全连接层和softmax输出层,并将其作为我们框架中的编码器。根据效用和训练方法的不同,将网络中的编码器定义为Sup-Encoder(supEnc(·))和Self-Encoder(selfEnc(·)),它们是用不同的数据集和损失函数分别进行训练。具体而言,将有标签数据集{xl,yl},和无标签数据集{xu}划分为两个训练集:监督训练集{xl,yl}和自监督训练集{xl+u}。
自监督对比训练(Self-Encoder):在训练阶段,对每幅图像进行多次增强和使用增强。输入图像经编码器编码为2048维表示向量,并归一化为单位球。使用Sup-Encoder作为一个实例。
wi=supEnc(xi),
其中P(i)表示第i个原始样本的增广样本。这种损失称为信息噪声对比估计(infoNCE)。
在训练过程中,Self-Encoder学习从相同原始图像的不同增强中提取相似特征,以及从不同原始图像的不同增强中提取不同特征。
监督对比学习(Sup-Encoder):在这种情况下,对训练集进行了增强操作,与自监督情况不同,在监督情况下,将归一化的特征向量按其标签进行分组,对于特征集中的每一组,将其定义为正分布P的样本,并将其他所有组合合并为负分布Q,准确地说,对于每一批由N个样本组成,样本i的损失形式如下。
其中P(i)表示与样本i同组的样本集合,N(i)是与样本i不同组的样本集合。dist(·,·)是两个特征向量的距离函数。关于监督对比损失的更多细节将在第二小节中显示。在框架中,可以并行训练Sup-Encoder和Self-Encoder。
分类器训练:在编码器训练后,使用标记数据集进行分类器训练。在框架中,标记数据被转发到两个编码器,输出特征向量被连接到医学图像的全局表示(4096维),然后,分类器通过交叉熵损失评价表征
在实际应用中,使用数据基站中的标签数据和未标签数据训练编码器和分类器。在服务运行期间,边缘节点对请求图像进行编码并进行分类。然后,根据分类结果的确定性,将这些图像存储在数据基站的不同数据集中,为了提高服务效果和性能,边缘节点定期从数据基站下载新的训练数据,对诊断网络进行训练。
本发明的有益效果:
本发明提出了一种基于边缘计算网络的皮肤病诊断系统,为附近用户提供方便快捷的在线诊断服务;
本发明设计了一种基于对比学习的双编码器网络,通过充分利用无标签样本来提高模型性能,克服训练样本不足的问题;
本发明设计了一个基于最大均值差异(MMD)基于MMD的监督对比损失函数,有效地探索各种皮肤病的类内和类间差别。
通过仿真结果表明,与现有的方法进行了比较,表明本文提出的方法是可行的,可以显著提高诊断的准确性,缓解无标记数据的失衡性能。
附图说明
图1是本发明基于边缘计算的皮肤病智能诊断模型图。
图2是本发明皮肤病变诊断的培训与实施程序图。
图3为CL-ISLD无Sup-Encoder、CL-ISLD无Self-Encoder和(c)CL-ISLD的混淆矩阵三种混淆矩阵。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
本发明是一种边缘计算网络中基于对比学习的皮肤病智能分类方法,方法包括如下步骤:
步骤1:构建基于边缘计算的皮肤病智能诊断网络,该网络由用户、边缘节点和数据基站组成。简单来说,用户从边缘节点获取服务,数据基站为边缘节点提供训练数据和数据存储,模型的三个组成部分如图1所示。
用户:不同类型的用户获取皮肤病诊断服务的目的是不同的。具体来说,个人用户通过蜂窝网络或无线局域网(WLAN)将手机拍摄的皮肤照片上传至边缘节点发送诊断请求;此外,专业用户通过专业计算机传输皮肤镜图像来获取辅助诊断信息,专业用户主要是全科医生或皮肤科医生。
边缘节点:在我们的模型中,诊断网络部署在边缘节点上,边缘节点具有网络训练和诊断服务两个功能。对于网络训练,边缘节点从数据基础设施中获取初始训练样本,并在提供服务前执行训练操作。在服务时,在边缘端使用训练好的网络顺序处理用户的诊断请求。为了保证诊断服务的有效性,将识别结果按照置信度进行过滤,并将诊断输出响应给客户端。由于边缘节点完成了自动诊断,所有的诊断样本都被传送到数据基站。具有高度可信分类结果的样本存储在标记数据库中,而难分样本则存储在未标记数据库中。为了维护和提高服务性能,边缘节点定期从数据基站下载标签和未标签数据,对神经网络作提升训练。
数据基站:我们设置数据基站来存储训练数据,它保存两种类型的数据集:无标签数据集和有标签数据集。一般来说,数据集中的数据来自两个主要的数据源。一是医疗机构的皮肤镜图像,另一个则是客户端上传用于诊断的数据。医疗机构的皮肤科医生则定期处理未标记数据库中难以识别的请求数据,并将这些样本添加到已标记数据库中。
步骤2:在边缘计算环境下,本发明设计了一个基于对比学习的智能皮肤病诊断网络。为了充分利用标签数据、无标签数据或两者兼有的数据形式,本发明将传统的监督网络扩展为由两个特征提取网络和一个分类器组成的双编码器网络。在边缘计算环境下,设计了一个基于对比学习的智能皮肤病诊断网络。为了充分利用标签数据、无标签数据或两者兼有的数据形式,将传统的监督网络扩展为由两个特征提取网络和一个分类器组成的双编码器网络。
编码器和分类器的训练细节如下。去除ResNet-50的全连接层和softmax输出层,并将其作为框架中的编码器。根据效用和训练方法的不同,将网络中的编码器定义为Sup-Encoder(supEnc(·))和Self-Encoder(selfEnc(·)),它们是用不同的数据集和损失函数分别进行训练。具体而言,将有标签数据集{xl,yl},和无标签数据集{xu}划分为两个训练集:监督训练集{xl,yl}和自监督训练集{xl+u}。
自监督对比训练(Self-Encoder):在训练阶段,对每幅图像进行多次增强和使用增强,输入图像经编码器编码为2048维表示向量,并归一化为单位球。
使用Sup-Encoder作为一个实例
wi=supEnc(xi), (1)
其中P(i)表示第i个原始样本的增广样本。这种损失称为信息噪声对比估计(infoNCE)。
在训练过程中,Self-Encoder学习从相同原始图像的不同增强中提取相似特征,以及从不同原始图像的不同增强中提取不同特征。
监督对比学习(Sup-Encoder):在这种情况下,对训练集进行了增强操作。与自监督情况不同,在监督情况下,将归一化的特征向量按其标签进行分组。对于特征集中的每一组,将其定义为正分布P的样本,并将其他所有组合合并为负分布Q。准确地说,对于每一批由N个样本组成,样本i的损失形式如下。
其中P(i)表示与样本i同组的样本集合,N(i)是与样本i不同组的样本集合。dist(·,·)是两个特征向量的距离函数。关于监督对比损失的更多细节将在第二小节中显示。在我们的框架中,可以并行训练Sup-Encoder和Self-Encoder。
分类器训练:在编码器训练后,使用标记数据集进行分类器训练。在框架中,标记数据被转发到两个编码器,输出特征向量被连接到医学图像的全局表示即4096维。然后,分类器通过交叉熵损失评价表征。
在实际应用中,使用数据基站中的标签数据和未标签数据训练编码器和分类器。在服务运行期间,边缘节点对请求图像进行编码并进行分类。然后,根据分类结果的确定性,将这些图像存储在数据基站的不同数据集中。为了提高服务效果和性能,边缘节点定期从数据基站下载新的训练数据,对诊断网络进行训练。
步骤3:构建基于最大均值差异(MMD)的监督式对比损失函数,它将每一类数据集表示为特定概率分布的采样,并把不同类别之间的差异表示为这些分布的距离。
最常用的监督对比损失函数是(3)中infoNCE的修改,它鼓励编码器对来自同一类的所有条目呈现类似的表示。但是(3)中内积对复杂特征的学习能力是有限的,这些损失函数集中于每个样本的个体表示,而不是把每一类图像看作是一个整体的数据分布。
提出一个更有效的对比损失函数来探索样本之间的类内和类间方差。具体地说,将每一类数据看作来自一个典型概率分布的样本,并使用积分概率度量(IPM)来度量不同分布的距离。通过IPM,P和Q两个分布之间的距离可以表示为:
Δ(P,Q)=supf∈FEx~P[f(x)]-Ez~Q[f(z)], (6)
其中函数f可以被改变为几个距离,如Wasserstein,Total Variation和MMD。在本申请中设计了一种MMD的变体来代替(6)中函数f用于医学图像分析。
MMD作为两种分布之间的有效距离度量,已广泛应用于深度学习领域,特别是迁移学习和神经网络。定义P和Q两个分布的MMD距离的平方为:
在μP和μQ是核希尔伯特空间(RKHS)中P和Q的平均嵌入,从概率的角度来看,式(7)可以写成
其中x和y是P和Q的随机变量,f是一个将样本映射到RKHS的函数。
在机器学习中,我们使用核函数将样本映射到无限维空间。因此,MMD距离可以表示为
其中xi和xj是P的两个随机样本,yi和yj是Q的两个随机样本,k(·,·)是核函数,如高斯径向基函数(RBF),计算两个样本的相似性。
在MMD对比损失中,分解MMD这三个不同部分,并抛弃第三项。距离方程(9)的松弛公式定义如下:
Mc(P,Q)=EP[k(x,x′)]-2EP,Q[k(x,y)], (10)
其中P是正分布,Q是负分布。
根据式(4)、(10),定义MMD对比损失函数如下。
其中系数λ和μ为控制两项尺度的超参数。通过最小化式(11),编码器学会减少类内差距,增加类间差距。
在MMD中,主要使用RBF内核作为内核函数,RBF的扩展形式如下。
其中2范数项可展开为式(13),其中在单位球面上a·a、b·b等于1。
为简单起见,设η=σ2且x=a·b,则(12)式可表示为:
根据上式,可以很容易地得到输入特征向量的2范数梯度,如下所示
此外,在单位球面上,x的值以区间[-1,1]为界。相应地,梯度取范围:
式(16)显现了两个问题,第一个问题是负样本比正样本贡献的梯度信息更少。第二个问题是当各正样本在特征空间中非常接近时,其梯度仍旧保持最大值。这两个缺点会导致训练不稳定,并导致特征分散程度不够,容易产生过拟合。
为解决这两个问题,重新定义了损耗函数公式和引入铰链损失函数。
如式(17)所示,gb(x)和fb(x)的梯度表示如下:
利用式(18)和式(19)的控制机制,式(17)的梯度在训练期间动态变化。具体来说,随着训练的进行,过滤表现良好的样本,使其并不贡献梯度信息,这一特性有助于特征分散和复杂特征提取。另一方面,(18)和(19)中的铰链项可以有效地稳定训练。
步骤4:在HAM10000数据集上对所提出的CL-ISLD方案进行了训练和评估。该数据集包含七种互斥的类别:黑色素瘤(melanoma,MEL)、黑素细胞痣(melanocytic nevus,NV)、基底细胞癌(basal cell carcinoma,BCC)、光化性角化病(actinic keratoses,AKIEC)、良性角化病(benign keratosis,BKL)、皮肤纤维瘤(dermatofibroma,DF)和血管病变(vascular lesions,VASC)。为了评估方案的特征提取能力,本发明在不进行数据集预处理的情况下,对诊断网络进行1000epoch的训练。在自我监督对比训练中,本发明将损失函数(3)的参数τ设为0.07,使用无标记数据进行训练。对于监督对比训练损失(17),我们设置参数元组为(1,3,0.2,0.8)。
本发明将CL-ISLD的结果与文献相比较,这些文件使用了相同的实验数据集HAM10000,包括PNSNet for skin lesion classification(PNSN-SLC),combination ofResNet-50和gcForest for disease classification(RNF-DC),MobileNet based skinlesion classification(MN-SLC)和Bayesian DenseNet-169 based risk-awarediagnosis(BDN-RD)。此外,本发明将基于infoNCE的自监督对比学习的CL-ISLD即无Sup-Encoder的CL-ISLD的实验结果与基于MMD的监督对比学习的CL-ISLD即无Self-Encoder的CL-ISLD)的实验结果进行了比较。
表1分类诊断结果
在HAM10000上的分类诊断结果如表1所示,列出了所提出方案和对比文献的诊断准确率。在本表中,CL-ISLD法的准确率最高,为86.77%,其他方法的准确率为76.00%~83.59%。表1中PNSN-SKC(76.00%)和CL-ISLD without Sup-Encoder(75.24%)低于其他方法。这说明在皮肤病诊断应用中,自监督方法与预训练微调方法相比,在特征提取方面存在局限性。另一方面,在无自监督编码器的情况下,CL-ISLD的诊断准确率为84.65%,而在有监督学习模型下,CL-ISLD的诊断准确率为86.77%,高于BDN-RD的83.59%。上述结果反映了我们设计的基于MMD的对比损失在复杂特征提取方面的优势,以及双编码器网络设计能够在此基础上进一步提高精度的特点。
为了进一步评价在单独类别上的诊断精度,本发明分析了图3中不同方案的混淆矩阵。这些矩阵汇总结了HAM10000中所有类的测试结果,矩阵的纵轴表示样本的真标签,横轴表示样本的预测标签,每个小数为预测标签占真标签的比例。
图3(a)为没有Sup-Encoder的CL-ISLD混淆矩阵,MEL、AKIEC、BKL和DF类的正确分类比例均在60%以下,而VASC类的正确率为91%。图3(b)显示了混淆矩阵没有Self-Encoder的CL-ISLD。与不使用Sup-Encoder的CL-ISLD相比,该方法将MEL类、AKIEC类、BKL类和DF类的准确率分别提高到61%、61%、63%和57%。最高的等级(如VASC)的准确率高达100%。从这两幅图中可以看出,与公式(3)所示infoNCE损耗相比,提出的基于MMD的对比损耗(即式(17))更适合在皮肤病诊断应用中进行类内和类间对比特征挖掘。
图3(c)给出了CL-ISLD的诊断结果,与上述两种方案相比,大部分病变类别的准确率都有提高,尤其是MEL、BKL和DF。而且,使用CL-ISLD后,各个类别的分类性能相对更加平衡。主要原因是类间对比信息和图像间对比信息的结合,增强了对复杂特征的辨别能力,尽管标注的数据不够充分和不平衡。在服务时间上,这一特性保证了CL-ISLD无论有无标记数据的增加,都能不断提高诊断准确性,也进一步减轻了人工标记的负担。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。
Claims (6)
1.一种边缘计算网络中基于对比学习的皮肤病智能分类方法,其特征在于:所述智能皮肤病分类方法包括如下步骤:
步骤1:构建基于边缘计算的皮肤病智能诊断网络,该网络由用户、边缘节点和数据基站组成;
步骤2:构建基于对比学习的智能皮肤病诊断网络,该智能皮肤病诊断网络为由两个特征提取网络和一个分类器组成的双编码器网络,所述双编码器网络集成了自监督和监督式对比学习,以生成更多的分类判别特征,同时,可以在不同类别之间获得更均衡的分类精度,充分利用未标记样本;
步骤3:构建基于最大均值差异(MMD)的监督式对比损失函数,它将每一类数据集表示为特定概率分布的采样,并把不同类别之间的差异表示为这些分布的距离。
2.根据权利要求1所述边缘计算网络中基于对比学习的皮肤病智能分类方法,其特征在于:所述步骤1中的皮肤病智能诊断网络中用户从边缘节点获取服务,数据基站为边缘节点提供训练数据和数据存储,具体为:
用户:用户分为个人用户和专业用户,个人用户通过蜂窝网络或无线局域网(WLAN)将手机拍摄的皮肤照片上传至边缘节点发送诊断请求;专业用户通过专业计算机传输皮肤镜图像来获取辅助诊断信息;
边缘节点:边缘节点具有网络训练和诊断服务两个功能,所述网络训练是指边缘节点从数据基础设施中获取初始训练样本,并在提供诊断服务前执行训练操作,所述诊断服务是指边缘端使用训练好的网络顺序处理用户的诊断请求;
数据基站:数据基站保存无标签数据集和有标签数据集,数据集中的数据主要来自医疗机构的皮肤镜图像或客户端上传用于诊断的数据,医疗机构的皮肤科医生则定期处理未标记数据库中难以识别的请求数据,并将这些样本添加到已标记数据库中。
3.根据权利要求2所述边缘计算网络中基于对比学习的皮肤病智能分类方法,其特征在于:在边缘节点的网络训练中,将识别结果按照置信度进行过滤,并将诊断输出响应给边缘端,由于边缘节点完成了自动诊断,所有的诊断样本都被传送到数据基站,具有高度可信分类结果的样本存储在标记数据库中,而难分样本则存储在未标记数据库中,为了维护和提高服务性能,边缘节点定期从数据基站下载标签和未标签数据,对神经网络作提升训练。
4.根据权利要求1所述边缘计算网络中基于对比学习的皮肤病智能分类方法,其特征在于:编码器为自监督对比训练(Self-Encoder)和监督对比学习(Sup-Encoder),它们是用不同的数据集和损失函数分别进行训练,即将有标签数据集{xl,yl},和无标签数据集{xu}划分为两个训练集即监督训练集{xl,yl}和自监督训练集{xl+u}。
5.根据权利要求4所述边缘计算网络中基于对比学习的皮肤病智能分类方法,其特征在于:所述双编码器具体的训练如下:
所述自监督对比训练(Self-Encoder)具体为:在训练阶段,对每幅图像进行多次增强和使用增强,输入图像经编码器编码为2048维表示向量,并归一化为单位球,在训练过程中,所述自监督对比训练学习从相同原始图像的不同增强中提取相似特征,以及从不同原始图像的不同增强中提取不同特征;
监督对比学习(Sup-Encoder)具体为:在监督情况下,将自监督对比训练中的归一化特征向量按其标签进行分组,对于特征集中的每一组,将其定义为正分布P的样本,并将其他所有组合合并为负分布Q,对于每一批由N个样本组成,样本i的损失形式如下:
其中P(i)表示与样本i同组的样本集合,N(i)是与样本i不同组的样本集合,dist(·,·)是两个特征向量的距离函数;
分类器训练:在编码器训练后,使用标记数据集进行分类器训练,所述标记数据集被转发到两个编码器,输出特征向量被连接到医学图像的全局表示即4096维,然后,分类器通过交叉熵损失评价表征
6.根据权利要求5所述边缘计算网络中基于对比学习的皮肤病智能分类方法,其特征在于:所述步骤3具体包括如下步骤:
步骤3-1:设计一个监督式对比损失函数来探索样本之间的类内和类间方差,将每一类数据看作来自一个典型概率分布的样本,并使用积分概率度量(IPM)来度量不同分布的距离,通过积分概率度量,P和Q两个分布之间的距离可以表示为:
步骤3-2:定义P和Q两个分布的MMD距离的平方为:
在μP和μQ是核希尔伯特空间(RKHS)中P和Q的平均嵌入,从概率的角度来看,上式可以写成
其中x和y是P和Q的随机变量,f是一个将样本映射到RKHS的函数;
步骤3-3:使用核函数将样本映射到无限维空间,最大均值差异(MMD)的距离表示为
其中xi和xj是P的两个随机样本,yi和yj是Q的两个随机样本,k(·,·)是核函数,计算两个样本的相似性;
步骤3-4:分解最大均值差异(MMD),最大均值差异(MMD)的距离方程式的松弛公式定义为:
Mc(P,Q)=EP[k(x,x′)]-2EP,Q[k(x,y)],
其中P是正分布,Q是负分布;
步骤3-5:根据样本i的损失形式和最大均值差异(MMD)的距离方程式的松弛公式,定义最大均值差异(MMD)对比损失函数:
其中系数λ和μ为控制两项尺度的超参数,通过最小化上式,编码器学会减少类内差距,增加类间差距;
步骤3-6:使用RBF内核作为内核函数,RBF的扩展形式如下
其中2范数项展开为下式,其中在单位球面上a·a、b·b等于1
设η=σ2且x=a·b,则RBF的扩展形式公式表示为:
根据上式,输入特征向量的2范数梯度,如下所示
此外,在单位球面上,x的值以区间[-1,1]为界,相应地,梯度取范围:
步骤3-7:重新定义损耗函数公式和引入铰链损失函数
如上式所示,gb(x)和fb(x)的梯度表示如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111420600.XA CN114093507B (zh) | 2021-11-26 | 2021-11-26 | 边缘计算网络中基于对比学习的皮肤病智能分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111420600.XA CN114093507B (zh) | 2021-11-26 | 2021-11-26 | 边缘计算网络中基于对比学习的皮肤病智能分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114093507A true CN114093507A (zh) | 2022-02-25 |
CN114093507B CN114093507B (zh) | 2024-02-13 |
Family
ID=80304965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111420600.XA Active CN114093507B (zh) | 2021-11-26 | 2021-11-26 | 边缘计算网络中基于对比学习的皮肤病智能分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114093507B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019923A (zh) * | 2022-07-11 | 2022-09-06 | 中南大学 | 一种基于对比学习的电子病历数据预训练方法 |
CN115186720A (zh) * | 2022-09-07 | 2022-10-14 | 中国科学技术大学 | 预训练模型、无线感知模型的训练方法及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102162683B1 (ko) * | 2020-01-31 | 2020-10-07 | 주식회사 에프앤디파트너스 | 비정형 피부질환 영상데이터를 활용한 판독보조장치 |
CN112948611A (zh) * | 2021-03-01 | 2021-06-11 | 北京航空航天大学 | 一种基于柯西抗旋转损失函数的皮肤镜图像检索方法 |
-
2021
- 2021-11-26 CN CN202111420600.XA patent/CN114093507B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102162683B1 (ko) * | 2020-01-31 | 2020-10-07 | 주식회사 에프앤디파트너스 | 비정형 피부질환 영상데이터를 활용한 판독보조장치 |
CN112948611A (zh) * | 2021-03-01 | 2021-06-11 | 北京航空航天大学 | 一种基于柯西抗旋转损失函数的皮肤镜图像检索方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019923A (zh) * | 2022-07-11 | 2022-09-06 | 中南大学 | 一种基于对比学习的电子病历数据预训练方法 |
CN115019923B (zh) * | 2022-07-11 | 2023-04-28 | 中南大学 | 一种基于对比学习的电子病历数据预训练方法 |
CN115186720A (zh) * | 2022-09-07 | 2022-10-14 | 中国科学技术大学 | 预训练模型、无线感知模型的训练方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114093507B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11200982B2 (en) | Method for analysing medical treatment data based on deep learning and intelligence analyser thereof | |
WO2020114118A1 (zh) | 面部属性识别方法、装置、存储介质及处理器 | |
CN112949786A (zh) | 数据分类识别方法、装置、设备及可读存储介质 | |
CN109977955A (zh) | 一种基于深度学习的宫颈癌前病变识别的方法 | |
Darapureddy et al. | Optimal weighted hybrid pattern for content based medical image retrieval using modified spider monkey optimization | |
TWI723868B (zh) | 一種抽樣後標記應用在類神經網絡訓練模型之方法 | |
CN114093507A (zh) | 边缘计算网络中基于对比学习的皮肤病智能分类方法 | |
CN114494195A (zh) | 用于眼底图像分类的小样本注意力机制并行孪生方法 | |
CN115496720A (zh) | 基于ViT机制模型的胃肠癌病理图像分割方法及相关设备 | |
CN116129141A (zh) | 医学数据处理方法、装置、设备、介质和计算机程序产品 | |
CN116228759B (zh) | 肾细胞癌类型的计算机辅助诊断系统及设备 | |
Meng et al. | Clinical applications of graph neural networks in computational histopathology: A review | |
Guo et al. | Zero shot augmentation learning in internet of biometric things for health signal processing | |
CN116433679A (zh) | 一种基于空间位置结构先验的内耳迷路多级标注伪标签生成与分割方法 | |
CN116188435A (zh) | 一种基于模糊逻辑的医学图像深度分割方法 | |
Lin et al. | FocAnnot: patch-wise active learning for intensive cell image segmentation | |
Wu et al. | Medical image retrieval based on combination of visual semantic and local features | |
Wang et al. | An image retrieval method of mammary cancer based on convolutional neural network | |
Alrais et al. | Support vector machine (SVM) for medical image classification of tumorous | |
Zhang et al. | Nucleus image segmentation method based on GAN network and FCN model | |
Shi et al. | Contrastive learning based intelligent skin lesion diagnosis in edge computing networks | |
Su et al. | Whole slide cervical image classification based on convolutional neural network and random forest | |
CN111815554A (zh) | 一种基于边缘搜索mrf模型的宫颈细胞图像分割方法 | |
Yin et al. | A study on skin tumor classification based on dense convolutional networks with fused metadata | |
CN116935388B (zh) | 一种皮肤痤疮图像辅助标注方法与系统、分级方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |