CN114511759A - 一种皮肤状态图像的类别识别和特征确定方法及系统 - Google Patents

一种皮肤状态图像的类别识别和特征确定方法及系统 Download PDF

Info

Publication number
CN114511759A
CN114511759A CN202210131708.5A CN202210131708A CN114511759A CN 114511759 A CN114511759 A CN 114511759A CN 202210131708 A CN202210131708 A CN 202210131708A CN 114511759 A CN114511759 A CN 114511759A
Authority
CN
China
Prior art keywords
skin state
determining
value
training set
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210131708.5A
Other languages
English (en)
Inventor
许艳
马园庭
翁福添
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202210131708.5A priority Critical patent/CN114511759A/zh
Publication of CN114511759A publication Critical patent/CN114511759A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Abstract

本发明公开了一种皮肤状态图像的类别识别和特征确定方法及系统,涉及图像分析领域,包括:获取待识别皮肤状态图;将待识别皮肤状态图输入到类别识别模型中,识别待识别皮肤状态图的类别;类别识别模型是根据历史皮肤状态图,对卷积神经网络进行训练后得到的;在待识别皮肤状态图的类别为非健康状态时,利用Shapley值法确定识别结果依据的特征。本发明能够确定识别结果依据的特征,提高了皮肤状态图像类别的识别精度和可解释性。

Description

一种皮肤状态图像的类别识别和特征确定方法及系统
技术领域
本发明涉及图像分析技术领域,特别是涉及一种皮肤状态图像的类别识别和特征确定方法及系统。
背景技术
皮肤病的智能辅助诊疗是一个数字化、远程医疗和信息学相互作用日益增强的交叉领域,需要对皮肤状态图像进行分类。相比于传统的统计和机器学习方法,深度学习模型能更好地从复杂的高维数据中学习非线性表示,捕获数据中的复杂结构信息。在图像分类、语义分割、目标检测和目标定位等方面已经有了非常出色地表现。但由于深度学习的复杂性和低透明性,“黑匣子”的话题一直是深度学习在医疗领域应用的一个争议。即深度学习仅能够识别出皮肤状态图像中皮肤状态的类别,但不具备可解释性,即无给出确定皮肤状态图像的类别时依据的特征,(类别包括健康状态和非健康状态中的多种皮肤病状态)造成用户难以信服,对于高精度的模型,如果无法判断模型是否抓住了皮肤病图像的“正确特征”,难以真正地被认可。可以说,模型的可解释性和精度是同等重要的。
发明内容
本发明的目的是提供一种皮肤状态图像的类别识别和特征确定方法及系统,能够确定出识别皮肤状态类别依据的特征,提高了皮肤状态图像类别的识别精度和可解释性。
为实现上述目的,本发明提供了如下方案:
一种皮肤状态图像的类别识别和特征确定方法,包括:
获取待识别皮肤状态图;
将所述待识别皮肤状态图输入到类别识别模型中,识别待识别皮肤状态图的类别;所述类别识别模型是根据历史皮肤状态图,对卷积神经网络进行训练后得到的;
在待识别皮肤状态图的类别为非健康状态时,根据所述待识别皮肤状态图上每个像素点的像素值,利用Shapley值法确定识别结果依据的特征。
可选的,在所述获取待识别皮肤状态图之前,还包括:
获取多张历史皮肤状态图;
对多张所述历史皮肤状态图的种类进行标注,得到多张历史皮肤状态标注图作为训练集;
以所述训练集为输入,以所述训练集中多张图片的种类为输出,对卷积神经网络进行训练,得到类别识别模型。
可选的,所述以所述训练集为输入,以所述训练集中多张图片的种类为输出,对卷积神经网络进行训练,得到类别识别模型,具体包括:
构建卷积神经网络为第0阶类别识别模型;
令迭代次数m等于1;
将所述训练集为输入到第m-1阶类别识别模型中,得到第m阶类别识别模型和多张历史皮肤状态伪标注图;
根据所述训练集和多张所述历史皮肤状态伪标注图,利用公式
Figure BDA0003502912600000021
Figure BDA0003502912600000022
确定第m次迭代的损失函数;
判断第m次迭代的损失函数是否小于损失函数阈值,得到判断结果;
若所述判断结果为否,则根据多张所述历史皮肤状态伪标注图更新所述训练集,令迭代次数m的数值增加1,并返回步骤“将所述训练集为输入到第m-1阶类别识别模型中,得到第m阶类别识别模型和多张历史皮肤状态伪标注图”;
若所述判断结果为是,则确定第m阶类别识别模型为类别识别模型;
式中,Loss为损失函数;n为样本数量;x为第m次迭代时训练集中的图片;y为训练中集图片的标注结果;a为第m-1阶类别识别模型的识别结果。
可选的,所述根据多张所述历史皮肤状态伪标注图更新所述训练集,具体包括:
确定预测精度大于预测精度阈值的多张历史皮肤状态伪标注图为备用集;
确定所述训练集中每种皮肤状态种类对应的图片的数量;
按照对应的图片的数量对多种皮肤状态种类进行升序排列;
确定前第一预设个数个皮肤状态种类为待更新皮肤状态种类;
在所述备用集中选取每种待更新皮肤状态种类对应的多张历史皮肤状态伪标注图添加到所述训练集中。
可选的,所述在待识别皮肤状态图的类别为非健康状态时,根据所述待识别皮肤状态图上每个像素点的像素值,利用Shapley值法确定识别结果依据的特征,具体包括:
构建加权线性回归模型和优化函数;
根据所述待识别皮肤状态图上每个像素点的像素值,利用所述优化函数对所述加权线性回归模型进行优化,确定所述优化函数最小时对应的估计系数组为所述待识别皮肤状态图上每个像素点的Shapley值;
确定Shapley值不等于0的像素点的像素值为识别结果依据的特征;
其中,
所述加权线性回归模型为:
Figure BDA0003502912600000031
所述优化函数为
Figure BDA0003502912600000032
其中,g(.)为加权线性回归模型,即解释模型;z'为示性函数;z'∈{0,1}M;M为最大联盟的规模;φ0为Shapley值的平均数;φj为第j个像素点的Shapley值;z'j为第j个像素点的示性函数值,z'j为1表示第j个像素点的像素值大于0,z'j为0表示第j个像素点的像素值等于0;L(.)为优化函数,优化函数的估计系数组为g(.)中j取1到M时对应的多个φj的取值;f(.)表示被解释模型的预测值,h(.)表示映射函数,即将示性函数z'映射到要解释的像素点x的像素值;πx(.)为核函数,
Figure BDA0003502912600000033
一种皮肤状态图像的类别识别和特征确定系统,包括:
待识别皮肤状态图获取模块,用于获取待识别皮肤状态图;
图像类别识别模块,用于将所述待识别皮肤状态图输入到类别识别模型中,识别待识别皮肤状态图的类别;所述类别识别模型是根据历史皮肤状态图,对卷积神经网络进行训练后得到的;
特征确定模块,用于在待识别皮肤状态图的类别为非健康状态时,根据所述待识别皮肤状态图上每个像素点的像素值,利用Shapley值法确定识别结果依据的特征。
可选的,所述系统,还包括:
历史皮肤状态图获取模块,用于获取多张历史皮肤状态图;
标注模块,用于对多张所述历史皮肤状态图的种类进行标注,得到多张历史皮肤状态标注图作为训练集;
类别识别模型构建模块,用于以所述训练集为输入,以所述训练集中多张图片的种类为输出,对卷积神经网络进行训练,得到类别识别模型。
可选的,所述类别识别模型构建模块,具体包括:
第0阶类别识别模型构建单元,用于构建卷积神经网络为第0阶类别识别模型;
迭代次数赋值单元,用于令迭代次数m等于1;
训练单元,用于将所述训练集为输入到第m-1阶类别识别模型中,得到第m阶类别识别模型和多张历史皮肤状态伪标注图;
损失函数计算单元,用于根据所述训练集和多张所述历史皮肤状态伪标注图,利用公式
Figure BDA0003502912600000041
确定第m次迭代的损失函数;
判断单元,用于判断第m次迭代的损失函数是否小于损失函数阈值,得到判断结果;若所述判断结果为否,则调用训练集更新单元;若所述判断结果为是,则调用类别识别模型确定单元;
训练集更新单元,用于根据多张所述历史皮肤状态伪标注图更新所述训练集,令迭代次数m的数值增加1,并调用所述训练单元;
类别识别模型确定单元,用于确定第m阶类别识别模型为类别识别模型;
式中,Loss为损失函数;n为样本数量;x为第m次迭代时训练集中的图片;y为训练中集图片的标注结果;a为第m-1阶类别识别模型的识别结果。
可选的,所述训练集更新单元,具体包括:
备用集确定子单元,用于确定预测精度大于预测精度阈值的多张历史皮肤状态伪标注图为备用集;
数量确定子单元,用于确定所述训练集中每种皮肤状态种类对应的图片的数量;
排序子单元,用于按照对应的图片的数量对多种皮肤状态种类进行升序排列;
待更新皮肤状态种类确定子单元,用于确定前第一预设个数个皮肤状态种类为待更新皮肤状态种类;
训练集更新子单元,用于在所述备用集中选取每种待更新皮肤状态种类对应的多张历史皮肤状态伪标注图添加到所述训练集中。
可选的,所述特征确定模块,具体包括
模型构建单元,用于构建加权线性回归模型和优化函数;
Shapley值确定单元,用于根据所述待识别皮肤状态图上每个像素点的像素值,利用所述优化函数对所述加权线性回归模型进行优化,确定所述优化函数最小时对应的估计系数组为所述待识别皮肤状态图上每个像素点的Shapley值;
识别结果依据特征确定单元,用于确定Shapley值不等于0的像素点的像素值为识别结果依据的特征;
其中,
所述加权线性回归模型为:
Figure BDA0003502912600000051
所述优化函数为
Figure BDA0003502912600000052
其中,g(.)为加权线性回归模型,即解释模型;z'为示性函数;z'∈{0,1}M;M为最大联盟的规模;φ0为Shapley值的平均数;φj为第j个像素点的Shapley值;z'j为第j个像素点的示性函数值,z'j为1表示第j个像素点的像素值大于0,z'j为0表示第j个像素点的像素值等于0;L(.)为优化函数,优化函数的估计系数组为g(.)中j取1到M时对应的多个φj的取值;f(.)表示被解释模型的预测值,h(.)表示映射函数,即将示性函数z'映射到要解释的像素点x的像素值;πx(.)为核函数,
Figure BDA0003502912600000061
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明中利用训练卷积神经网络训练得到类别识别模型以识别皮肤状态类别,并在待识别皮肤状态图的类别为非健康状态时,利用Shapley值法确定识别结果依据的特征,提高了皮肤状态图像类别的识别精度和可解释性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中皮肤状态图像的类别识别和特征确定方法流程图;
图2为本发明实施例中技术方案总框架示意图;
图3为本发明实施例中皮肤病智能诊断系统设计图;
图4为本发明实施例中算法流程图;
图5为本发明实施例中模型ROC曲线及AUC指标示意图;
图6本发明实施例中皮肤病图像SHAP值解释例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种皮肤状态图像的类别识别和特征确定方法及系统,能够确定出识别皮肤状态类别依据的特征,提高了皮肤状态图像类别的识别精度和可解释性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
传统的深度学习模型应用于皮肤病智能辅助诊断仍存在以下问题:(1)缺乏足够的临床数据样本,限制了深度学习在皮肤病诊断中的广泛应用,尽管可以从公开皮肤病数据集和网站上获得大量的无标记数据,但皮肤状态种类的标记工作需要专业医学知识,操作难度大,成本高;(2)样本类别不平衡问题导致模型的预测结果偏向多数类,而造成模型的识别精度低。(3)深度学习模型的高精度预测依赖于复杂的网络模型,庞大的参数量使模型在训练和使用过程中并不高效。如图1,本发明提供了一种皮肤状态图像的类别识别和特征确定方法,包括:
步骤101:获取待识别皮肤状态图;
步骤102:将待识别皮肤状态图输入到类别识别模型中,识别待识别皮肤状态图的类别;类别识别模型是根据历史皮肤状态图,对卷积神经网络进行训练后得到的;
步骤103:在待识别皮肤状态图的类别为非健康状态时,根据待识别皮肤状态图上每个像素点的像素值,利用Shapley值法确定识别结果依据的特征。
在步骤101之前,还包括:
获取多张历史皮肤状态图;
对多张历史皮肤状态图的种类进行标注,得到多张历史皮肤状态标注图作为训练集;
以训练集为输入,以训练集中多张图片的种类为输出,对卷积神经网络进行训练,得到类别识别模型。
其中,以训练集为输入,以训练集中多张图片的种类为输出,对卷积神经网络进行训练,得到类别识别模型,具体包括:
构建卷积神经网络为第0阶类别识别模型;
令迭代次数m等于1;
将训练集为输入到第m-1阶类别识别模型中,得到第m阶类别识别模型和多张历史皮肤状态伪标注图;
根据训练集和多张历史皮肤状态伪标注图,利用公式
Figure BDA0003502912600000071
Figure BDA0003502912600000072
确定第m次迭代的损失函数;
判断第m次迭代的损失函数是否小于损失函数阈值,得到判断结果;
若判断结果为否,则根据多张历史皮肤状态伪标注图更新训练集,令迭代次数m的数值增加1,并返回步骤“将训练集为输入到第m-1阶类别识别模型中,得到第m阶类别识别模型和多张历史皮肤状态伪标注图”;
若判断结果为是,则确定第m阶类别识别模型为类别识别模型;
式中,Loss为损失函数;n为样本数量;x为第m次迭代时训练集中的图片;y为训练中集图片的标注结果;a为第m-1阶类别识别模型的识别结果。
具体的,根据多张历史皮肤状态伪标注图更新训练集,具体包括:
确定预测精度大于预测精度阈值的多张历史皮肤状态伪标注图为备用集;
确定训练集中每种皮肤状态种类对应的图片的数量;
按照对应的图片的数量对多种皮肤状态种类进行升序排列;
确定前第一预设个数个皮肤状态种类为待更新皮肤状态种类;
在备用集中选取每种待更新皮肤状态种类对应的多张历史皮肤状态伪标注图添加到训练集中。
此外,本发明提供的皮肤状态图像的类别识别和特征确定方法,步骤103,具体包括:
构建加权线性回归模型和优化函数;
根据待识别皮肤状态图上每个像素点的像素值,利用优化函数对加权线性回归模型进行优化,确定优化函数最小时对应的估计系数组为待识别皮肤状态图上每个像素点的Shapley值;
确定Shapley值不等于0的像素点的像素值为识别结果依据的特征;
其中,
加权线性回归模型为:
Figure BDA0003502912600000081
优化函数为
Figure BDA0003502912600000082
其中,g(.)为加权线性回归模型,即解释模型;z'为示性函数;z'∈{0,1}M;M为最大联盟的规模;φ0为Shapley值的平均数;φj为第j个像素点的Shapley值;z'j为第j个像素点的示性函数值,z'j为1表示第j个像素点的像素值大于0,z'j为0表示第j个像素点的像素值等于0;L(.)为优化函数,优化函数的估计系数组为g(.)中j取1到M时对应的多个φj的取值;f(.)表示被解释模型的预测值,h(.)表示映射函数,即将示性函数z'映射到要解释的像素点x的像素值;πx(.)为核函数,
Figure BDA0003502912600000091
如图2-4,本发明共分为七个部分:数据获取、数据预处理、Teachermodel(教师模型)的构建与训练、无标签样本伪标注、增强训练、模型评估和最终模型解释。
(一)数据预处理
本发明需要通过医疗站点的接入,获取皮肤病图像样本数据,并对皮肤病图像进行标注,具体包括:
1.记录保存皮肤病图像的Dicom,png或jpeg格式的数据。2.对已经获得的皮肤病图像,由皮肤病专家进行标注。以下9种皮肤病为例AK(日光性角化)标记为0,BCC(基底细胞癌)标记为1,BKL(良性角化样病变)标记为2,DF(皮肤纤维瘤)标记为3,MEL(黑色素瘤)标记为4,NV(黑色素细胞痣)标记为5,SCC(鳞状细胞癌)标记为6,Unknown(未知或不确定)标记为7,VASC(血管病变)标记为8。各类皮肤病的全称、简写、疾病名称及对应的标注符号如表1所示:
表1皮肤状态图像标注
Figure BDA0003502912600000092
Figure BDA0003502912600000101
(二)数据预处理
根据标注将皮肤病图像划分为不同皮肤病集合,再将数据划分为训练集和测试集。具体包括,根据标注将图像划分为若干集合,同时将所有类型的图像80%作为训练集,20%作为测试集对模型进行评估,且此后模型的评估均基于测试集和训练集的综合考量。将无标注图像单独划分至无标注皮肤病图像数据集合,作为之后数据增强数据集使用。
(三)Teachermodel的构建与训练
Model Scaling(模型扩展)一直以来都是提高卷积神经网络效果的重要方法,本发明试图基于高效的EfficientNet神经网络架构建Teachermodel。在较高准确率的Teacher model的基础上,对大量无标注皮肤病图像标注伪标签,并在此基础上以特定概率分布将不同类别的皮肤病样本加入到训练集中继续训练,最终得到高精度的皮肤病预测模型。具体包括:
1.建立训练样本集
Figure BDA0003502912600000104
2.建立模型,基于神经网络初始模型,模型架构基于MBConv(小基准卷积)包括:32个3×3卷积核的卷积层,16个MBConv6,k3×3,24个MBConv6,k3×3,40个MBConv6,k5×5,80个MBConv6,k3×3,112个MBConv6,k5×5,192个MBConv6,k5×5,320个MBConv6,k3×3,1280个1×1卷积核的卷积层(Conv1×1),一个平均池化层(Pooling)以及一个输出为9的全连接层(FC),EfficientNet神经网络结构和mobile-size baseline结构分别如如表2和表3所示,其中每个mobile-size baseline的参数k参照表2中channels数值。
表2 EfficientNet结构
Figure BDA0003502912600000103
Figure BDA0003502912600000111
表3 mobile-size baseline结构
Figure BDA0003502912600000112
3.构造模型输出a与样本标签y的损失函数:
Figure BDA0003502912600000113
4.基于训练样本,使用RMSprop优化器求解模型的最优参数,同时在迭代训练过程中使用验证集对模型从AUC指标、准确率指标、损失函数值等指标对模型效果进行评估;
5.选取训练过程中表现最优的模型作为Teacher model对无标注皮肤病图像标注伪标签;
6.将带伪标签的皮肤病图像样本以概率
Figure BDA0003502912600000121
入训练集中:其中,α为自定义参数,Nl为伪标签数据集中第l类疾病的样本数量(各类疾病按样本数量降序排序);N1为最大类别样本量,NL为最小最少类别的样本量,此处下标即为降序排列后所处的索引。
7.在步骤6扩展后的数据集上继续训练模型,直到模型准确率上升趋势不在明显为止(即达到收敛),保存较高准确率模型权重备选。
(四)模型验证
测试模型在测试集上的预测性能,评估最终模型的泛化能力,具体包括以下两个方面:
1.模型验证,基于测试集,对备选模型权重分别从ROC曲线、AUC、准确率、精确率、召回率、损失函数值几个方面进行模型评估。表4列出了单类皮肤病的预测结果的所有可能性。
表4单类皮肤病预测结果实例
Figure BDA0003502912600000122
其中,
准确率为:
Figure BDA0003502912600000123
精确率(precision)为:
Figure BDA0003502912600000124
召回率(recall)和true positive rate(TPR,真阳性率)为:
Figure BDA0003502912600000125
Figure BDA0003502912600000126
false positive rate(FPR,假阳性率)为:
Figure BDA0003502912600000131
传统的准确率指标在模型训练中只能起到参考作用,就具体问题来讲,医学诊断的主要内容是将患有疾病的患者诊断为阳性,此时TPR越大越好。而把未患病的患者误诊为有病的,也就指标FPR要越低越好。因此在皮肤病诊断中召回率、精确率和准确率都是模型评估的重要标准。ROC(Receiver Operating Characteristic,受试者工作特征)曲线衡量了分类模型false positive rate(FPR)和true positive rate(TPR)的相对关系。基于备选的模型,根据其在测试集数据上的表现得到一个TPR和FPR点对,以此来映射成ROC平面上的一个点。调整这个分类器分类时候使用的阈值(从0到1),就可以得到一个经过(0,0),(1,1)的ROC曲线。AUC数值则为该曲线下方的面积,如图5。
2.模型选取,根据评估结果,选取备选模型中预测表现最佳的模型作为最终皮肤病智能诊断模型。
图5中横坐标为假阳性率,纵坐标为真阳性率,roc为受试者工作特征,aera为对应曲线下方的面积,图中不同曲线代表了在不同阈值分类器下的模型表现下“真阳性率”和“假阳性率”的相对关系,曲线越靠近左上角则代表模型的效果越理想,同时,AUC数值则代表了对应ROC曲线下的区域面积,数值越靠近1,代表模型对这一类样本的识别能力越强。实例中所有类别皮肤病在测试集下的AUC数值都达到了0.99,此时的模型表现能力优异,以此将其作为最终的预测模型。
(五)模型解释
通过SHAP(沙普利解释)方法对最优机器学习模型的预测结果进行解释,计算皮肤病图像中各个像素点对预测结果的贡献度。
SHAP将解释定义为:
Figure BDA0003502912600000132
其中,g(.)是解释模型,z'∈{0,1}M是联盟向量,M是最大联盟向量,φj∈R是特征j的特征归因Shapley值。
同时设定联盟向量,输入1表示相应的特征(即像素点的像素值)存在,而输入0表示不存在,对于感兴趣的实例(即像素点)x,联盟向量x'是全为1的向量,即所有特征值均为存在,该公式简化为:
Figure BDA0003502912600000141
通过SHAP来计算Shapley值,同时建立SHAP核:
Figure BDA0003502912600000142
其中,M是最大联盟向量,|z′|是实例z′中当前特征(输入变量)的数量。
然后建立加权线性回归模型:
Figure BDA0003502912600000143
通过优化以下优化函数L来训练线性模型g:
Figure BDA0003502912600000144
其中,L(.)为优化函数,f(.)表示被解释模型的预测值,h(.)表示映射函数,即将示性函数z'(0或1)映射到要解释的实例x的对应值;Z是训练数据,通过对线性模型进行优化的误差平方和,模型的估计系数φj即为需要求解的Shapley值,也即为皮肤病预测模型输入图像各个像素点对最终结果的贡献率。当需要输入图像各个像素点全局重要性时,根据Shapley值的可加性质,我们可以在数据中对每个特征的Shapley绝对值取平均值:
Figure BDA0003502912600000145
Ij表示平均贡献度。
图6中,在给定的四张皮肤病图像下,从左到右依次为可能性最高的前三类疾病预测结果。以第二行四张图片为例,第一张为输入图像,第二张图表明,该图像最大可能是良性角化样病变(BKL),这也是模型的最终预测结果,图像中红色和蓝色像素点表示该像素点对这一结果的SHAP值,红色表示该像素点对这一结果起到正向的贡献,蓝色表示该像素点最这一结果的贡献是负向的,颜色越深表示贡献率越大,右面两张图也同样解释。对比来看,中间病变区域小块对最终预测值的贡献为负,而这次结果的贡献为正,周围其他泛红的病变皮肤对最终结果贡献为正,这也说明,模型是因为周围泛红的病变皮肤将该皮肤病图片识别为良性角化样病变而不是黑色素细胞痣(NV)。
此外,本发明还提供了一种皮肤状态图像的类别识别和特征确定系统,包括:
待识别皮肤状态图获取模块,用于获取待识别皮肤状态图;
图像类别识别模块,用于将待识别皮肤状态图输入到类别识别模型中,识别待识别皮肤状态图的类别;类别识别模型是根据历史皮肤状态图,对卷积神经网络进行训练后得到的;
特征确定模块,用于在待识别皮肤状态图的类别为非健康状态时,根据待识别皮肤状态图上每个像素点的像素值,利用Shapley值法确定识别结果依据的特征。
此外,本发明提供的皮肤状态图像的类别识别和特征确定系统,还包括:
历史皮肤状态图获取模块,用于获取多张历史皮肤状态图;
标注模块,用于对多张历史皮肤状态图的种类进行标注,得到多张历史皮肤状态标注图作为训练集;
类别识别模型构建模块,用于以训练集为输入,以训练集中多张图片的种类为输出,对卷积神经网络进行训练,得到类别识别模型。
具体的,类别识别模型构建模块,具体包括:
第0阶类别识别模型构建单元,用于构建卷积神经网络为第0阶类别识别模型;
迭代次数赋值单元,用于令迭代次数m等于1;
训练单元,用于将训练集为输入到第m-1阶类别识别模型中,得到第m阶类别识别模型和多张历史皮肤状态伪标注图;
损失函数计算单元,用于根据训练集和多张历史皮肤状态伪标注图,利用公式
Figure BDA0003502912600000151
确定第m次迭代的损失函数;
判断单元,用于判断第m次迭代的损失函数是否小于损失函数阈值,得到判断结果;若判断结果为否,则调用训练集更新单元;若判断结果为是,则调用类别识别模型确定单元;
训练集更新单元,用于根据多张历史皮肤状态伪标注图更新训练集,令迭代次数m的数值增加1,并调用训练单元;
类别识别模型确定单元,用于确定第m阶类别识别模型为类别识别模型;
式中,Loss为损失函数;n为样本数量;x为第m次迭代时训练集中的图片;y为训练中集图片的标注结果;a为第m-1阶类别识别模型的识别结果。
进一步地,训练集更新单元,具体包括:
备用集确定子单元,用于确定预测精度大于预测精度阈值的多张历史皮肤状态伪标注图为备用集;
数量确定子单元,用于确定训练集中每种皮肤状态种类对应的图片的数量;
排序子单元,用于按照对应的图片的数量对多种皮肤状态种类进行升序排列;
待更新皮肤状态种类确定子单元,用于确定前第一预设个数个皮肤状态种类为待更新皮肤状态种类;
训练集更新子单元,用于在备用集中选取每种待更新皮肤状态种类对应的多张历史皮肤状态伪标注图添加到训练集中。
此外,特征确定模块,具体包括
模型构建单元,用于构建加权线性回归模型和优化函数;
Shapley值确定单元,用于根据待识别皮肤状态图上每个像素点的像素值,利用优化函数对加权线性回归模型进行优化,确定优化函数最小时对应的估计系数组为待识别皮肤状态图上每个像素点的Shapley值;
识别结果依据特征确定单元,用于确定Shapley值不等于0的像素点的像素值为识别结果依据的特征;
其中,
加权线性回归模型为:
Figure BDA0003502912600000161
优化函数为
Figure BDA0003502912600000162
其中,g(.)为加权线性回归模型,即解释模型;z'为示性函数;z'∈{0,1}M;M为最大联盟的规模;φ0为Shapley值的平均数;φj为第j个像素点的Shapley值;z'j为第j个像素点的示性函数值,z'j为1表示第j个像素点的像素值大于0,z'j为0表示第j个像素点的像素值等于0;L(.)为优化函数,优化函数的估计系数组为g(.)中j取1到M时对应的多个φj的取值;f(.)表示被解释模型的预测值,h(.)表示映射函数,即将示性函数z'映射到要解释的像素点x的像素值;πx(.)为核函数,
Figure BDA0003502912600000171
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种皮肤状态图像的类别识别和特征确定方法,其特征在于,所述方法,包括:
获取待识别皮肤状态图;
将所述待识别皮肤状态图输入到类别识别模型中,识别待识别皮肤状态图的类别;所述类别识别模型是根据历史皮肤状态图,对卷积神经网络进行训练后得到的;
在待识别皮肤状态图的类别为非健康状态时,根据所述待识别皮肤状态图上每个像素点的像素值,利用Shapley值法确定识别结果依据的特征。
2.根据权利要求1所述的皮肤状态图像的类别识别和特征确定方法,其特征在于,在所述获取待识别皮肤状态图之前,还包括:
获取多张历史皮肤状态图;
对多张所述历史皮肤状态图的种类进行标注,得到多张历史皮肤状态标注图作为训练集;
以所述训练集为输入,以所述训练集中多张图片的种类为输出,对卷积神经网络进行训练,得到类别识别模型。
3.根据权利要求2所述的皮肤状态图像的类别识别和特征确定方法,其特征在于,所述以所述训练集为输入,以所述训练集中多张图片的种类为输出,对卷积神经网络进行训练,得到类别识别模型,具体包括:
构建卷积神经网络为第0阶类别识别模型;
令迭代次数m等于1;
将所述训练集为输入到第m-1阶类别识别模型中,得到第m阶类别识别模型和多张历史皮肤状态伪标注图;
根据所述训练集和多张所述历史皮肤状态伪标注图,利用公式
Figure FDA0003502912590000011
Figure FDA0003502912590000012
确定第m次迭代的损失函数;
判断第m次迭代的损失函数是否小于损失函数阈值,得到判断结果;
若所述判断结果为否,则根据多张所述历史皮肤状态伪标注图更新所述训练集,令迭代次数m的数值增加1,并返回步骤“将所述训练集为输入到第m-1阶类别识别模型中,得到第m阶类别识别模型和多张历史皮肤状态伪标注图”;
若所述判断结果为是,则确定第m阶类别识别模型为类别识别模型;
式中,Loss为损失函数;n为样本数量;x为第m次迭代时训练集中的图片;y为训练中集图片的标注结果;a为第m-1阶类别识别模型的识别结果。
4.根据权利要求2所述的皮肤状态图像的类别识别和特征确定方法,其特征在于,所述根据多张所述历史皮肤状态伪标注图更新所述训练集,具体包括:
确定预测精度大于预测精度阈值的多张历史皮肤状态伪标注图为备用集;
确定所述训练集中每种皮肤状态种类对应的图片的数量;
按照对应的图片的数量对多种皮肤状态种类进行升序排列;
确定前第一预设个数个皮肤状态种类为待更新皮肤状态种类;
在所述备用集中选取每种待更新皮肤状态种类对应的多张历史皮肤状态伪标注图添加到所述训练集中。
5.根据权利要求2所述的皮肤状态图像的类别识别和特征确定方法,其特征在于,所述在待识别皮肤状态图的类别为非健康状态时,根据所述待识别皮肤状态图上每个像素点的像素值,利用Shapley值法确定识别结果依据的特征,具体包括:
构建加权线性回归模型和优化函数;
根据所述待识别皮肤状态图上每个像素点的像素值,利用所述优化函数对所述加权线性回归模型进行优化,确定所述优化函数最小时对应的估计系数组为所述待识别皮肤状态图上每个像素点的Shapley值;
确定Shapley值不等于0的像素点的像素值为识别结果依据的特征;
其中,
所述加权线性回归模型为:
Figure FDA0003502912590000021
所述优化函数为
Figure FDA0003502912590000022
其中,g(.)为加权线性回归模型,即解释模型;z'为示性函数;z'∈{0,1}M;M为最大联盟的规模;φ0为Shapley值的平均数;φj为第j个像素点的Shapley值;z'j为第j个像素点的示性函数值,z'j为1表示第j个像素点的像素值大于0,z'j为0表示第j个像素点的像素值等于0;L(.)为优化函数,优化函数的估计系数组为g(.)中j取1到M时对应的多个φj的取值;f(.)表示被解释模型的预测值,h(.)表示映射函数,即将示性函数z'映射到要解释的像素点x的像素值;πx(.)为核函数,
Figure FDA0003502912590000031
6.一种皮肤状态图像的类别识别和特征确定系统,其特征在于,所述系统,包括:
待识别皮肤状态图获取模块,用于获取待识别皮肤状态图;
图像类别识别模块,用于将所述待识别皮肤状态图输入到类别识别模型中,识别待识别皮肤状态图的类别;所述类别识别模型是根据历史皮肤状态图,对卷积神经网络进行训练后得到的;
特征确定模块,用于在待识别皮肤状态图的类别为非健康状态时,根据所述待识别皮肤状态图上每个像素点的像素值,利用Shapley值法确定识别结果依据的特征。
7.根据权利要求6所述的皮肤状态图像的类别识别和特征确定系统,其特征在于,所述系统,还包括:
历史皮肤状态图获取模块,用于获取多张历史皮肤状态图;
标注模块,用于对多张所述历史皮肤状态图的种类进行标注,得到多张历史皮肤状态标注图作为训练集;
类别识别模型构建模块,用于以所述训练集为输入,以所述训练集中多张图片的种类为输出,对卷积神经网络进行训练,得到类别识别模型。
8.根据权利要求7所述的皮肤状态图像的类别识别和特征确定系统,其特征在于,所述类别识别模型构建模块,具体包括:
第0阶类别识别模型构建单元,用于构建卷积神经网络为第0阶类别识别模型;
迭代次数赋值单元,用于令迭代次数m等于1;
训练单元,用于将所述训练集为输入到第m-1阶类别识别模型中,得到第m阶类别识别模型和多张历史皮肤状态伪标注图;
损失函数计算单元,用于根据所述训练集和多张所述历史皮肤状态伪标注图,利用公式
Figure FDA0003502912590000041
确定第m次迭代的损失函数;
判断单元,用于判断第m次迭代的损失函数是否小于损失函数阈值,得到判断结果;若所述判断结果为否,则调用训练集更新单元;若所述判断结果为是,则调用类别识别模型确定单元;
训练集更新单元,用于根据多张所述历史皮肤状态伪标注图更新所述训练集,令迭代次数m的数值增加1,并调用所述训练单元;
类别识别模型确定单元,用于确定第m阶类别识别模型为类别识别模型;
式中,Loss为损失函数;n为样本数量;x为第m次迭代时训练集中的图片;y为训练中集图片的标注结果;a为第m-1阶类别识别模型的识别结果。
9.根据权利要求7所述的皮肤状态图像的类别识别和特征确定系统,其特征在于,所述训练集更新单元,具体包括:
备用集确定子单元,用于确定预测精度大于预测精度阈值的多张历史皮肤状态伪标注图为备用集;
数量确定子单元,用于确定所述训练集中每种皮肤状态种类对应的图片的数量;
排序子单元,用于按照对应的图片的数量对多种皮肤状态种类进行升序排列;
待更新皮肤状态种类确定子单元,用于确定前第一预设个数个皮肤状态种类为待更新皮肤状态种类;
训练集更新子单元,用于在所述备用集中选取每种待更新皮肤状态种类对应的多张历史皮肤状态伪标注图添加到所述训练集中。
10.根据权利要求7所述的皮肤状态图像的类别识别和特征确定系统,其特征在于,所述特征确定模块,具体包括
模型构建单元,用于构建加权线性回归模型和优化函数;
Shapley值确定单元,用于根据所述待识别皮肤状态图上每个像素点的像素值,利用所述优化函数对所述加权线性回归模型进行优化,确定所述优化函数最小时对应的估计系数组为所述待识别皮肤状态图上每个像素点的Shapley值;
识别结果依据特征确定单元,用于确定Shapley值不等于0的像素点的像素值为识别结果依据的特征;
其中,
所述加权线性回归模型为:
Figure FDA0003502912590000051
所述优化函数为
Figure FDA0003502912590000052
其中,g(.)为加权线性回归模型,即解释模型;z'为示性函数;z'∈{0,1}M;M为最大联盟的规模;φ0为Shapley值的平均数;φj为第j个像素点的Shapley值;z'j为第j个像素点的示性函数值,z'j为1表示第j个像素点的像素值大于0,z'j为0表示第j个像素点的像素值等于0;L(.)为优化函数,优化函数的估计系数组为g(.)中j取1到M时对应的多个φj的取值;f(.)表示被解释模型的预测值,h(.)表示映射函数,即将示性函数z'映射到要解释的像素点x的像素值;πx(.)为核函数,
Figure FDA0003502912590000053
CN202210131708.5A 2022-02-14 2022-02-14 一种皮肤状态图像的类别识别和特征确定方法及系统 Pending CN114511759A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210131708.5A CN114511759A (zh) 2022-02-14 2022-02-14 一种皮肤状态图像的类别识别和特征确定方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210131708.5A CN114511759A (zh) 2022-02-14 2022-02-14 一种皮肤状态图像的类别识别和特征确定方法及系统

Publications (1)

Publication Number Publication Date
CN114511759A true CN114511759A (zh) 2022-05-17

Family

ID=81552414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210131708.5A Pending CN114511759A (zh) 2022-02-14 2022-02-14 一种皮肤状态图像的类别识别和特征确定方法及系统

Country Status (1)

Country Link
CN (1) CN114511759A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129199A (zh) * 2023-04-13 2023-05-16 西南石油大学 一种可解释性的皮肤癌分类方法、装置、介质及设备
CN116763259A (zh) * 2023-08-17 2023-09-19 普希斯(广州)科技股份有限公司 美容设备的多维度控制方法、装置及美容设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129199A (zh) * 2023-04-13 2023-05-16 西南石油大学 一种可解释性的皮肤癌分类方法、装置、介质及设备
CN116763259A (zh) * 2023-08-17 2023-09-19 普希斯(广州)科技股份有限公司 美容设备的多维度控制方法、装置及美容设备
CN116763259B (zh) * 2023-08-17 2023-12-08 普希斯(广州)科技股份有限公司 美容设备的多维度控制方法、装置及美容设备

Similar Documents

Publication Publication Date Title
CN107516110B (zh) 一种基于集成卷积编码的医疗问答语义聚类方法
CN107506761B (zh) 基于显著性学习卷积神经网络的脑部图像分割方法及系统
Wells et al. Artificial intelligence in dermatopathology: Diagnosis, education, and research
CN109460473B (zh) 基于症状提取和特征表示的电子病历多标签分类方法
WO2016192612A1 (zh) 基于深度学习对医疗数据进行分析的方法及其智能分析仪
CN111209384B (zh) 基于人工智能的问答数据处理方法、装置及电子设备
CN109165692B (zh) 一种基于弱监督学习的用户性格预测装置及方法
WO2019015246A1 (zh) 图像特征获取
CN111090764B (zh) 基于多任务学习和图卷积神经网络的影像分类方法及装置
CN102422324B (zh) 年龄估计设备和方法
CN114511759A (zh) 一种皮肤状态图像的类别识别和特征确定方法及系统
CN109492750B (zh) 基于卷积神经网络和因素空间的零样本图像分类方法
CN113077434B (zh) 基于多模态信息的肺癌识别方法、装置及存储介质
CN113706434B (zh) 基于深度学习对胸部增强ct图像的后处理方法
CN110689523A (zh) 基于元学习个性化图像信息评价方法、信息数据处理终端
CN109935337A (zh) 一种基于相似性度量的病案查找方法及系统
WO2021114818A1 (zh) 基于傅里叶变换的oct图像质量评估方法、系统及装置
CN113722474A (zh) 文本分类方法、装置、设备及存储介质
Li et al. Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes
CN115797694A (zh) 基于多尺度孪生神经网络的显示面板微缺陷分类方法
CN116956138A (zh) 一种基于多模态学习的影像基因融合分类方法
CN116664932A (zh) 一种基于主动学习的结直肠癌病理组织图像分类方法
CN116403706A (zh) 一种融合知识扩展和卷积神经网络的糖尿病预测方法
CN113361494B (zh) 基于人脸识别的自助服务方法及自助服务系统
CN114287910A (zh) 一种基于多阶段图卷积融合的脑功能连接分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination