CN113792807A - 皮肤病分类模型训练方法、系统、介质和电子设备 - Google Patents
皮肤病分类模型训练方法、系统、介质和电子设备 Download PDFInfo
- Publication number
- CN113792807A CN113792807A CN202111091481.8A CN202111091481A CN113792807A CN 113792807 A CN113792807 A CN 113792807A CN 202111091481 A CN202111091481 A CN 202111091481A CN 113792807 A CN113792807 A CN 113792807A
- Authority
- CN
- China
- Prior art keywords
- data
- classification
- training
- classification model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及人工智能技术,提出一种皮肤病分类模型训练方法、系统、介质和电子设备,方法包括:获取样本数据、高质量分类标注数据及高质量检测标注数据;建立回归模型,根据高质量检测标注数据对其进行训练,通过训练后的回归模型获取热力图标签;建立分类模型,根据高质量分类标注数据对其进行训练,通过训练后的分类模型获取独热标签;根据全量数据、热力图标签及独热标签对分类模型进行二次训练。本发明使用高质量的检测框标注来训练密集标签,充分利用像素级标注信息,将其应用在海量脏标签数据上,结合分类监督与前景预测监督,强弱监督相结合,提供了更强的监督信息,在患者自拍等图像内容复杂场景下能显著提升模型的收敛速度和分类精度。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种皮肤病分类模型训练方法、系统、介质和电子设备。
背景技术
在拥有海量图像数据和充足标注的情况下,基于卷积神经网络去训练一个分类器已经是一个鲁棒且优秀的解决方案。但现实场景中的数据与公开数据集存在较大差异,就皮肤病场景来说,我们的数据集来自合作单位在问诊过程中收集到的海量数据(如120万),以及少量的请医生标注的高质量数据(如10万),以及更少量的进一步标注出患处检测框的高质量数据(如1万)。此外,绝大部分图像数据来自手机拍摄,照片受到拍摄角度、拍摄环境以及拍摄设备的影响。海量数据存在脏标签,相关或者不相关、皮肤病或者非皮肤病、患病或者不患病的图像均可能被打成皮肤病标签,少量高质量数据存在则多模态标注,基友分类标签又有检测标签,包含不同程度的监督信息。疾病标签数量由发病率及问诊率决定,其分布类别不均衡。
脏标签、多模态、数据分布不均是皮肤病场景下数据集的主要特点,我们希望尽可能多的利用上所有数据,提升模型的鲁棒性,同时充分提取不同模态标签所包含的信息,避免脏标签对模型质量带来影响。但是,现有的人工智能皮肤病问诊技术至少存在以下不足:
(1)、对皮肤病分类产品的缺陷:没有海量数据支撑,覆盖病种不全,模型精度不高;
(2)、对长尾分布及脏标签分类的不足:大部分在特征层面聚类,然后选择/丢弃样本,不是end-to-end,效率低;
(3)、对无标签、无监督训练的不足:基于teacher-student的方法,需要在线多次迭代效率低,而且模型受到伪标签质量影响大,基于对比学习的方法,不适用于海量数据,模型质量受到memory bank和batch size影响。
(4)、对检测标签和分类标签结合的调研:通常是先用分类标签去训练一个backbone,然后tuning一个检测模型,没有用检测标签去强化分类模型的技术。
因此,如何基于现有脏标签、多模态、数据分布不均的图像数据集对皮肤病分类模型进行精准高效地训练,是目前亟需解决的问题。
发明内容
鉴于以上现有技术存在的问题,本发明提供一种皮肤病分类模型训练方案,用于解决据上述技术问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种皮肤病分类模型训练方法,包括:
获取皮肤病图像的样本数据,所述样本数据包括全量数据,对所述样本数据进行标注,分别获取高质量分类标注数据及高质量检测标注数据;
预先建立回归模型,根据所述高质量检测标注数据对其进行训练,并通过训练后的回归模型,获取用于表征皮肤病图像前景的热力图标签;
预先建立分类模型,根据所述高质量分类标注数据对其进行训练,并通过训练后的分类模型,获取用于表征皮肤病类别的独热标签;
根据所述全量数据、所述热力图标签及所述独热标签,对所述分类模型进行二次训练,完成分类模型训练。
可选地,所述全量数据包括问诊过程中获取的皮肤病图像数据,所述对所述样本数据进行标注,分别获取高质量分类标注数据及高质量检测标注数据包括:
通过对部分所述全量数据进行皮肤病类型标注,得到所述高质量分类标注数据;
通过对部分所述高质量分类标注数据进行患处检测框标注,得到所述高质量检测标注数据。
可选地,所述预先建立回归模型,根据所述高质量检测标注数据对其进行训练,并通过训练后的回归模型,获取用于表征所述皮肤病图像前景的热力图标签包括:
建立所述回归模型;
针对多个所述高质量检测标注数据,将其具有硬边界的患处检测框转化成热力图,得到多个预处理热力图标签;
按照皮肤病类别,将多个所述预处理热力图标签分别置于所述回归模型的不同的类别回归通道上,并根据多个所述预处理热力图标签对所述回归模型进行训练,得到多个所述热力图标签。
可选地,所述回归模型包括多类回归模型,所述多类回归模型包括多个所述类别回归通道,所述多类回归模型包括两个用于回归患处中心在正交方向上的两个内径的回归通道。
可选地,所述预先建立分类模型,根据所述高质量分类标注数据对其进行训练,并通过训练后的分类模型,获取用于表征皮肤病类别的独热标签包括:
构建所述分类模型;
根据多个所述高质量分类标注数据训练所述分类模型,得到所述独热标签。
可选地,所述构建所述分类模型包括:
建立用于皮肤病分类的基线模型;
预设参数限制条件,所述参数限制条件包括内存和计算量大小;
在所述参数限制条件下,通过复合缩放对所述基线模型的深度、宽度、图片大小同时进行缩放,得到所述分类模型。
可选地,所述根据所述全量数据、所述热力图标签及所述独热标签,对所述分类模型进行二次训练,完成皮肤病分类模型训练包括:
根据所述全量数据对所述分类模型进行二次训练;
将所述独热标签作为所述分类模型二次训练时的强监督信息,使所述分类模型显式地拟合分类标签,进行类别概率预测;
将所述热力图标签作为所述分类模型二次训练时的随机的弱监督信息,使所述分类模型隐式地拟合数据偏移,进行前景提取。
可选地,在对所述分类模型进行二次训练之前,所述皮肤病分类模型训练方法还包括:
在样本层面上进行数据分布调整,根据所述独热标签对所述全量数据进行分类;
将分类结果按照预测概率降序排列,并按照训练集的每类数据占比在所述全量数据中同比例提取样本。
一种皮肤病分类模型训练系统,包括:
数据采集单元,用于获取皮肤病图像的样本数据,所述样本数据包括全量数据;
标注单元,用于对所述样本数据进行标注,分别获取高质量分类标注数据及高质量检测标注数据;
模型构建单元,用于预先建立回归模型与分类模型;
模型训练单元,用于根据所述高质量检测标注数据对所述回归模型进行训练,并通过训练后的回归模型,获取用于表征皮肤病图像前景的热力图标签,以及用于根据所述高质量分类标注数据对所述分类模型进行训练,并通过训练后的分类模型,获取用于表征皮肤病类别的独热标签,还用于根据所述全量数据、所述热力图标签及所述独热标签对所述分类模型进行二次训练。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。
一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
如上所述,本发明提供的皮肤病分类模型训练方法、系统、介质和电子设备,至少具有以下有益效果:
在基于高质量的分类标注训练分类模型得到独热标签这一强监督的基础上,使用高质量的检测框标注来训练密集标签,充分利用了像素级的标注信息,将其应用在海量的脏标签数据上,为弱监督信息,生成的离线的密集重标签相比较于现有的软伪标签/硬伪标签,标签稳定无需迭代更新,且强弱监督相结合,在分类监督的基础上加入前景预测监督,提供了更强的监督信息,在患者自拍这种图像内容复杂的场景下,使得皮肤病分类模型的收敛速度和分类精度显著提升;充分利用所有的图像和标注信息,海量数据支撑提升了模型的鲁棒性,分类模型的适用范围比较广。
附图说明
图1为本发明一实施例中皮肤病分类模型训练方法的步骤示意图。
图2为本发明一实施例中皮肤病分类模型训练方法的流程示意图。
图3为本发明一实施例中皮肤病分类模型训练方法中步骤S2的步骤示意图。
图4为本发明一实施例中皮肤病分类模型训练方法中步骤S4的步骤示意图。
图5为本发明一实施例中皮肤病分类模型训练方法系统的结构框图。
图6为本发明一实施例中用户终端的结构框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1-图2,本发明提供一种皮肤病分类模型训练方法,其包括步骤:
S1、获取皮肤病图像的样本数据,样本数据包括全量数据,对样本数据进行标注,分别获取高质量分类标注数据及高质量检测标注数据;
S2、预先建立回归模型,根据高质量检测标注数据对其进行训练,并通过训练后的回归模型,获取用于表征皮肤病图像前景的热力图标签;
S3、预先建立分类模型,根据高质量分类标注数据对其进行训练,并通过训练后的分类模型,获取用于表征皮肤病类别的独热标签;
S4、根据全量数据、热力图标签及独热标签,对分类模型进行二次训练,完成分类模型训练。
在本发明的一可选实施例中,全量数据包括问诊过程中获取的皮肤病图像数据,对样本数据进行标注,分别获取高质量分类标注数据及高质量检测标注数据的步骤S1进一步包括:
S11、通过对部分全量数据进行皮肤病类型标注,得到高质量分类标注数据;
S12、通过对部分高质量分类标注数据进行患处检测框标注,得到高质量检测标注数据。
详细地,在步骤S1中,需要获取皮肤病分类模型训练所需的样本数据集,该样本数据集至少包括全量数据、高质量分类标注数据及高质量检测标注数据。其中,全量数据至少包括合作单位在问诊过程中收集到的大量皮肤病图像数据,高质量分类标注数据为从全量数据中筛选出的按照皮肤病类型进行了标注的少量皮肤病图像数据,高质量检测标注数据为从高质量分类标注数据中筛选出的进一步标注出患处检测框的更少量的皮肤病图像数据。
此外,在步骤S1中,高质量检测标注数据也可以完全是直接从全量数据中筛选出的既标注皮肤病类别又标注患处检测框的少量皮肤病图像数据,即高质量检测标注数据可以完全不依赖于高质量分类标注数据;高质量分类标注数据及高质量检测标注数据也可以是从样本数据中除开全量数据的数据中标注获取的。
需要说明的是,由于移动设备的普及,绝大部分图像数据来自手机拍摄,照片受到拍摄角度、拍摄环境以及拍摄设备的影响。全量数据存在脏标签,相关/不相关、皮肤病/非皮肤病、患病/不患病图像均可能被打上皮肤病标签,少量高质量数据存在则多模态标注,既存在分类标签又存在检测框标签,其包含不同程度的监督信息,而疾病标签数量由发病率及问诊率决定,影响因素太多,导致其分布类别不均衡。
详细地,如图3所示,预先建立回归模型,根据高质量检测标注数据对其进行训练,并通过训练后的回归模型,获取用于表征皮肤病图像前景的热力图标签的步骤S2进一步包括:
S21、建立回归模型;
S22、针对多个高质量检测标注数据,将其具有硬边界的患处检测框转化成热力图,得到多个预处理热力图标签;
S23、按照皮肤病类别,将多个预处理热力图标签分别置于回归模型的不同的类别回归通道上,并根据多个预处理热力图标签对回归模型进行训练,得到多个热力图标签。
需要说明的是,高质量的检测标注作为像素级别的标注,不仅提供了皮肤病种类信息,还提供了患处信息,这是非常有价值的监督信息,尤其是面向患者自拍这种图像质量内容都十分复杂的场景。
更详细地,在步骤S21中,预先构建一个回归模型,该回归模型包括多类回归模型,多类回归模型包括多个类别回归通道,多个类别回归通道与多种不同的皮肤病类别一一对应,多类回归模型还包括两个用来回归患处中心在正交方向上的两个内径的回归通道(相对于原图长宽的归一化值)。
其中,回归模型架构可酌情选择设计,如在本发明的一可选实施例中按照centerNet的多类回归模型架构构建回归模型,在此不作限定。
更详细地,在步骤S22中,考虑到皮肤病的皮损表现通常呈现不规则的区域状分布,越靠近皮损区域边缘皮损程度越低,首先将具有硬边界的检测框转化成具有过渡性质的预处理热力图(heat map)标签。在本发明的一可选实施例中,以每个检测框中心作为患处中心,设定heat map值为1,以检测框长宽作为两个正交方向上的椭圆内径,椭圆区域内以每个像素到患处中心的距离对heat map值进行衰减,将椭圆区域外围内径//2个像素宽的椭圆环设定为盲区,在训练回归模型时不参与梯度回传,盲区圆环以外的区域heat map值为0,作为背景,相互覆盖的前景区域取最大值作为前景值。
更详细地,在步骤S23中,按照皮肤病类别,将多个预处理热力图标签分别置于回归模型的不同的类别回归通道上,并根据多个预处理热力图标签对回归模型进行训练,得到多个能预测全量数据前景的热力图标签。
在步骤S2中,训练多类回归模型,得到热力图标签目的是从复杂的图片中提取具有皮损征象的皮肤前景,基于该皮肤前景能确定患处的位置信息,这个患处位置信息指的是皮损部位相对于整张图片的位置信息。回归模型训练完成之后,可以观察到,虽然该回归模型对皮肤病类别的预测较差,但是对患处的预测十分准确,我们舍弃尺度和类别信息,将其作为“前景标注器”,用来预测和保存全量数据的热力图(heat map),为了节省内存,可保存8倍下采样的单通道heat map(14x14)。
详细地,预先建立分类模型,根据高质量分类标注数据对其进行训练,并通过训练后的分类模型,获取用于表征皮肤病类别的独热标签的步骤S3进一步包括:
S31、构建分类模型;
S32、根据多个高质量分类标注数据训练分类模型,得到独热标签。
在本发明的一可选实施例中,分类模型使用基于efficientNetv2的分类模型架构,EfficientNet系列模型是图片分类精度最高的模型。EfficientNetV2在EfficientNet的基础上,引入了Fused-MBConv到搜索空间中,同时为渐进式学习引入了自适应正则强度调整机制,它在多个基准数据集上取得了SOTA性能,与以前的模型相比,它具有更快的训练速度和更好的参数效率,比如其取得了87.3%的top1精度且训练速度快5-11倍。
具体地,在本发明的一可选实施例中,构建分类模型的步骤S31进一步包括:
S311、建立用于皮肤病分类的基线模型,如使用强化学习算法实现的MnasNet模型生成基线模型EfficientNet-B0;
S312、预设参数限制条件,该参数限制条件包括内存和计算量大小;
S313、在参数限制条件下,通过复合缩放对基线模型EfficientNet-B0的深度、宽度(特征图的通道数)、图片大小同时进行缩放,这三个维度的缩放比例由网格搜索得到,最终得到分类模型EfficientNet模型。
这一阶段的数据因为每类数据量少,不包含脏标签,同时数据一致性较高,能够训练得到分类精度较高的过拟合分类模型。
在步骤S3中,训练基于efficientNetv2的皮肤病分类模型,观察其在测试集上的CAM可以看到部分样本在患处梯度响应最强,也有部分样本在随机的什么地方响应最强(比如图像一角),模型在海量测试数据上,对表征接近的数据能够预测相对准确,对前背景复杂/图像表现与训练集存在一定差异的图像则表现的不那么稳定,总的来说可解释性不强,模型缺乏鲁棒性,我们用它来预测和保存全量数据的独热标签(one-hot标签)。
有时我们的样本标签,都是标记从0开始直至到类别的个数。在模型训练的时候,这些样本标签需要变成one hot向量,这样才能够跟soft max出来的概率做互熵损失,计算损失函数loss。
详细地,如图4所示,根据全量数据、热力图标签及独热标签,对分类模型进行二次训练的步骤S4进一步包括:
S41、根据全量数据对分类模型进行二次训练;
S42、将独热标签作为分类模型二次训练时的强监督信息,使分类模型显式地拟合分类标签,进行类别概率预测;
S43、将热力图标签作为分类模型二次训练时的随机的弱监督信息,使分类模型隐式地拟合数据偏移,进行前景提取。
更详细地,在步骤S4中,我们使用海量的脏标签数据和前两步产生的有效标注来强化分类模型,使用对前景预测较为准确的回归模型为海量脏数据创建了前景标注,使用对类别预测较为准确的分类模型为其创建类别标注,考虑到伪标签始终不是金标准,我们使用一种强弱监督结合的方式来训练这个分类器:不直接引导分类模型学习两个硬标签,而是使用同样的类别标注作为强监督信息,显式地拟合分类标签,从而获得类别概率预测的能力,同时将前景标注作为一种先验信息随机加/不加在样本上,使得分类模型隐式地去拟合这种数据偏移,从而获得提取前景的能力。使用这种强弱监督结合的方式,能够防止模型过分拟合这个标签,同时驱动模型提取到高级的语义信息。
其中,强监督是指基于高质量分类标注数据训练得到的分类模型中获取的独热标签对分类模型的监督纠正,弱监督是指基于高质量检测标注数据训练得到的回归模型中获取的热力图标签对分类模型的监督纠正。
更详细地,在步骤S4中,在由高质量分类标注数据得到的强监督信息独热标签结合全量数据进行训练时,分类模型显式地拟合分类标签,从而获得类别概率预测的能力;同时,再结合由高质量检测标注数据得到的弱监督信息热力图标签进行分类模型训练,分类模型能隐式地去拟合数据偏移,从而获得提取前景的能力,基于前景位置的预测辅助,能进一步提高分类模型的分类精度和收敛速度。
此外,在获取独热标签之后,在对分类模型进行二次训练之前,即在步骤S3与步骤S4之间,所述皮肤病分类模型训练方法还包括步骤:
Stp1、在样本层面上进行数据分布调整,根据独热标签对全量数据进行分类;
Stp2、将分类结果按照预测概率降序排列,并按照训练集的每类数据占比在全量数据中同比例提取样本。
在第一次训练分类模型的基础之上,基于训练集数据分布在全量数据中同比例采样新的扩充训练集对分类模型进行二次训练;如此,针对图像数据分布类别不均衡问题引入离线排序采样,保证了分类模型两次训练时的数据的分布相同,维持了分类模型对不同类别图像数据的敏感度。
由上述分析可知,本发明提出的皮肤病分类模型训练方法能够充分利用所有的图像和标注信息,海量数据支撑提升了模型的鲁棒性,至少覆盖了50类以上的常见皮肤病大类,在所有皮肤病问诊数据中覆盖量达到80%,训练得到的皮肤病分类模型对见过的病种能够精准预测,对没见过的疾病图像不会胡乱分类。
请参阅图5,基于上述设计思路,本发明还提供了一种皮肤病分类模型训练系统,用于执行前述方法实施例中所述的皮肤病分类模型训练方法,由于系统实施例的技术原理与前述方法实施例的技术原理相似,因而不再对同样的技术细节做重复性赘述。
如图5所示,在本发明的一可选实施例中,皮肤病分类模型训练系统包括:
数据采集单元11,用于获取皮肤病图像的样本数据,样本数据包括全量数据;
标注单元12,用于对样本数据进行标注,分别获取高质量分类标注数据及高质量检测标注数据;
模型构建单元13,用于预先建立回归模型与分类模型;
模型训练单元14,用于根据高质量检测标注数据对回归模型进行训练,并通过训练后的回归模型,获取用于表征皮肤病图像前景的热力图标签,以及用于根据高质量分类标注数据对分类模型进行训练,并通过训练后的分类模型,获取用于表征皮肤病类别的独热标签,还用于根据全量数据、热力图标签及独热标签对分类模型进行二次训练。
其中,数据采集单元11用于执行前述方法实施例介绍的步骤S1的部分,标注单元12用于执行前述方法实施例介绍的步骤S1的另一部分,模型构建单元13用于执行前述方法实施例介绍的步骤S2的一部分与步骤S3的一部分,模型训练单元14用于执行前述方法实施例介绍的步骤S2的另一部分、步骤S3的另一部分及步骤S4。
进一步地,在本发明的一可选实施例中,模型构建单元13包括第一模型构建模块131、第二模型构建模块132,第一模型训练模块131用于建立回归模型,第二模型构建模块131用于建立分类模型。
进一步地,在本发明的一可选实施例中,模型训练单元14包括第一模型训练模块141和第二模型训练模块142;第一模型训练模块141用于根据高质量检测标注数据创建患处的预处理热力图标签,并根据预处理热力图标签训练回归模型,得到热力图标签;第二模型训练模块142用于根据高质量分类标注数据训练分类模型,得到独热标签;第二模型训练模块142还用于根据全量数据、热力图标签及独热标签,再次训练分类模型。
基于前述实施例相同的发明构思,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本实施例中任一项所述的皮肤病分类模型训练方法。
其中,计算机可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
基于前述实施例相同的发明构思,本发明还提供了一种电子设备,该电子设备包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使电子设备执行本实施例中任一项所述的皮肤病分类模型训练方法。
在实际应用中,该电子设备可以作为用户终端,也可以作为服务器,用户终端的例子可以包括:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本申请实施例对于具体的设备不加以限制。
图6为本发明一可选实施例提供的用户终端的硬件结构示意图。如图6所示,该用户终端可以包括:输入设备200、处理器201、输出设备202、存储器203和至少一个通信总线204。通信总线204用于实现元件之间的通信连接。存储器203可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,存储器203中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,处理器201例如可以为中央处理器(Central Processing Unit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,处理器201通过有线或无线连接耦合到输入设备200和输出设备202。
可选的,输入设备200可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;输出设备202可以包括显示器、音响等输出设备。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
综上所述,在本发明所提供的皮肤病分类模型训练方法、系统、介质和电子设备中,在基于高质量的分类标注训练皮肤病分类模型得到独热预测标签这一强监督的基础上,使用高质量的检测框标注来训练密集标签,充分利用了像素级的标注信息,将其应用在海量的脏标签数据上,为弱监督信息,生成的离线的密集重标签相比较于现有的软伪标签/硬伪标签,标签稳定无需迭代更新,且强弱监督相结合,在分类监督的基础上加入前景预测监督,提供了更强的监督信息,在患者自拍这种图像内容复杂的场景下,对皮肤病分类模型的收敛速度和分类精度有显著提升;能够充分利用所有的图像和标注信息,海量数据支撑提升了模型的鲁棒性,皮肤病分类模型的适用范围比较广;同时,针对数据类别分布不均衡问题,引入离线排序采样,保证了皮肤病分类模型两次训练数据的同分布,维持了皮肤病分类模型对不同类别图像数据的敏感度。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (11)
1.一种皮肤病分类模型训练方法,其特征在于,包括:
获取皮肤病图像的样本数据,所述样本数据包括全量数据,对所述样本数据进行标注,分别获取高质量分类标注数据及高质量检测标注数据;
预先建立回归模型,根据所述高质量检测标注数据对其进行训练,并通过训练后的回归模型,获取用于表征皮肤病图像前景的热力图标签;预先建立分类模型,根据所述高质量分类标注数据对其进行训练,并通过训练后的分类模型,获取用于表征皮肤病类别的独热标签;
根据所述全量数据、所述热力图标签及所述独热标签,对所述分类模型进行二次训练,完成分类模型训练。
2.根据权利要求1所述的皮肤病分类模型训练方法,其特征在于,所述全量数据包括问诊过程中获取的皮肤病图像数据,所述对所述样本数据进行标注,分别获取高质量分类标注数据及高质量检测标注数据包括:
通过对部分所述全量数据进行皮肤病类型标注,得到所述高质量分类标注数据;
通过对部分所述高质量分类标注数据进行患处检测框标注,得到所述高质量检测标注数据。
3.根据权利要求2所述的皮肤病分类模型训练方法,其特征在于,所述预先建立回归模型,根据所述高质量检测标注数据对其进行训练,并通过训练后的回归模型,获取用于表征所述皮肤病图像前景的热力图标签包括:
建立所述回归模型;
针对多个所述高质量检测标注数据,将其具有硬边界的患处检测框转化成热力图,得到多个预处理热力图标签;
按照皮肤病类别,将多个所述预处理热力图标签分别置于所述回归模型的不同的类别回归通道上,并根据多个所述预处理热力图标签对所述回归模型进行训练,得到多个所述热力图标签。
4.根据权利要求3所述的皮肤病分类模型训练方法,其特征在于,所述回归模型包括多类回归模型,所述多类回归模型包括多个所述类别回归通道,所述多类回归模型包括两个用于回归患处中心在正交方向上的两个内径的回归通道。
5.根据权利要求3所述的皮肤病分类模型训练方法,其特征在于,所述预先建立分类模型,根据所述高质量分类标注数据对其进行训练,并通过训练后的分类模型,获取用于表征皮肤病类别的独热标签包括:
构建所述分类模型;
根据多个所述高质量分类标注数据训练所述分类模型,得到所述独热标签。
6.根据权利要求5所述的皮肤病分类模型训练方法,其特征在于,所述构建所述分类模型包括:
建立用于皮肤病分类的基线模型;
预设参数限制条件,所述参数限制条件包括内存和计算量大小;
在所述参数限制条件下,通过复合缩放对所述基线模型的深度、宽度、图片大小同时进行缩放,得到所述分类模型。
7.根据权利要求6所述的皮肤病分类模型训练方法,其特征在于,所述根据所述全量数据、所述热力图标签及所述独热标签,对所述分类模型进行二次训练,完成皮肤病分类模型训练包括:
根据所述全量数据对所述分类模型进行二次训练;
将所述独热标签作为所述分类模型二次训练时的强监督信息,使所述分类模型显式地拟合分类标签,进行类别概率预测;
将所述热力图标签作为所述分类模型二次训练时的随机的弱监督信息,使所述分类模型隐式地拟合数据偏移,进行前景提取。
8.根据权利要求7所述的皮肤病分类模型训练方法,其特征在于,在对所述分类模型进行二次训练之前,所述皮肤病分类模型训练方法还包括:
在样本层面上进行数据分布调整,根据所述独热标签对所述全量数据进行分类;
将分类结果按照预测概率降序排列,并按照训练集的每类数据占比在所述全量数据中同比例提取样本。
9.一种皮肤病分类模型训练系统,其特征在于,包括:
数据采集单元,用于获取皮肤病图像的样本数据,所述样本数据包括全量数据;
标注单元,用于对所述样本数据进行标注,分别获取高质量分类标注数据及高质量检测标注数据;
模型构建单元,用于预先建立回归模型与分类模型;
模型训练单元,用于根据所述高质量检测标注数据对所述回归模型进行训练,并通过训练后的回归模型,获取用于表征皮肤病图像前景的热力图标签,以及用于根据所述高质量分类标注数据对所述分类模型进行训练,并通过训练后的分类模型,获取用于表征皮肤病类别的独热标签,还用于根据所述全量数据、所述热力图标签及所述独热标签对所述分类模型进行二次训练。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。
11.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111091481.8A CN113792807B (zh) | 2021-09-16 | 2021-09-16 | 皮肤病分类模型训练方法、系统、介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111091481.8A CN113792807B (zh) | 2021-09-16 | 2021-09-16 | 皮肤病分类模型训练方法、系统、介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113792807A true CN113792807A (zh) | 2021-12-14 |
CN113792807B CN113792807B (zh) | 2023-06-27 |
Family
ID=79183839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111091481.8A Active CN113792807B (zh) | 2021-09-16 | 2021-09-16 | 皮肤病分类模型训练方法、系统、介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792807B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116310600A (zh) * | 2023-05-18 | 2023-06-23 | 杭州目乐医疗科技股份有限公司 | 眼底图像多病变分类方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200143248A1 (en) * | 2017-07-12 | 2020-05-07 | Tencent Technology (Shenzhen) Company Limited | Machine learning model training method and device, and expression image classification method and device |
WO2020259213A1 (zh) * | 2019-06-25 | 2020-12-30 | 平安科技(深圳)有限公司 | 行为识别的方法、装置、终端设备及存储介质 |
CN112560999A (zh) * | 2021-02-18 | 2021-03-26 | 成都睿沿科技有限公司 | 一种目标检测模型训练方法、装置、电子设备及存储介质 |
US20210272681A1 (en) * | 2019-04-10 | 2021-09-02 | Tencent Technology (Shenzhen) Company Limited | Image recognition model training method and apparatus, and image recognition method, apparatus, and system |
-
2021
- 2021-09-16 CN CN202111091481.8A patent/CN113792807B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200143248A1 (en) * | 2017-07-12 | 2020-05-07 | Tencent Technology (Shenzhen) Company Limited | Machine learning model training method and device, and expression image classification method and device |
US20210272681A1 (en) * | 2019-04-10 | 2021-09-02 | Tencent Technology (Shenzhen) Company Limited | Image recognition model training method and apparatus, and image recognition method, apparatus, and system |
WO2020259213A1 (zh) * | 2019-06-25 | 2020-12-30 | 平安科技(深圳)有限公司 | 行为识别的方法、装置、终端设备及存储介质 |
CN112560999A (zh) * | 2021-02-18 | 2021-03-26 | 成都睿沿科技有限公司 | 一种目标检测模型训练方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
郑宝玉;王雨;吴锦雯;周全;: "基于深度卷积神经网络的弱监督图像语义分割", 南京邮电大学学报(自然科学版), no. 05, pages 5 - 16 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116310600A (zh) * | 2023-05-18 | 2023-06-23 | 杭州目乐医疗科技股份有限公司 | 眼底图像多病变分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113792807B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113095124B (zh) | 一种人脸活体检测方法、装置以及电子设备 | |
CN105869173B (zh) | 一种立体视觉显著性检测方法 | |
KR102385463B1 (ko) | 얼굴 특징 추출 모델 학습 방법, 얼굴 특징 추출 방법, 장치, 디바이스 및 저장 매체 | |
CN111179419B (zh) | 三维关键点预测及深度学习模型训练方法、装置及设备 | |
CN110796018B (zh) | 一种基于深度图像和彩色图像的手部运动识别方法 | |
CN112052186A (zh) | 目标检测方法、装置、设备以及存储介质 | |
CN106462572A (zh) | 用于分布式光学字符识别和分布式机器语言翻译的技术 | |
CN111160350A (zh) | 人像分割方法、模型训练方法、装置、介质及电子设备 | |
CN110796199A (zh) | 一种图像处理方法、装置以及电子医疗设备 | |
CN115699082A (zh) | 缺陷检测方法及装置、存储介质及电子设备 | |
CN110991412A (zh) | 人脸识别的方法、装置、存储介质及电子设备 | |
Cheng et al. | A global and local context integration DCNN for adult image classification | |
CN113298018A (zh) | 基于光流场和脸部肌肉运动的假脸视频检测方法及装置 | |
CN108875500A (zh) | 行人再识别方法、装置、系统及存储介质 | |
CN113792807A (zh) | 皮肤病分类模型训练方法、系统、介质和电子设备 | |
Abualkishik et al. | Intelligent Gesture Recognition System for Deaf People by using CNN and IoT. | |
Marjusalinah et al. | Classification of finger spelling American sign language using convolutional neural network | |
CN115035313A (zh) | 黑颈鹤识别方法、装置、设备及存储介质 | |
CN115147434A (zh) | 图像处理方法、装置、终端设备及计算机可读存储介质 | |
CN113763315A (zh) | 玻片图像的信息获取方法、装置、设备及介质 | |
CN112233017A (zh) | 一种基于生成对抗网络的病态人脸数据增强方法 | |
EP3973476A1 (en) | Systems and methods to train a cell object detector | |
CN111461248A (zh) | 一种摄影构图线匹配方法、装置、设备及存储介质 | |
CN115908464B (zh) | 一种舌体图像分割方法及系统 | |
CN111666878B (zh) | 一种对象检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |