CN117315379A - 面向深度学习的医学影像分类模型公平性评估方法及装置 - Google Patents
面向深度学习的医学影像分类模型公平性评估方法及装置 Download PDFInfo
- Publication number
- CN117315379A CN117315379A CN202311612473.2A CN202311612473A CN117315379A CN 117315379 A CN117315379 A CN 117315379A CN 202311612473 A CN202311612473 A CN 202311612473A CN 117315379 A CN117315379 A CN 117315379A
- Authority
- CN
- China
- Prior art keywords
- model
- data set
- fairness
- deep learning
- patient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 41
- 238000013145 classification model Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 61
- 238000012360 testing method Methods 0.000 claims abstract description 60
- 201000010099 disease Diseases 0.000 claims abstract description 47
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 47
- 238000013135 deep learning Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000011088 calibration curve Methods 0.000 claims description 8
- 238000007635 classification algorithm Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013475 authorization Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 150000001450 anions Chemical class 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 150000001768 cations Chemical class 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向深度学习的医学影像分类模型公平性评估方法及装置,该方法包括:采集患者X光影像,所述患者X光影像中包括一个或多个标签;构造单标签二分类数据集,并将所述单标签二分类数据集分为训练数据集和测试数据集;所述单标签二分类数据集中的数据样本包括患者身份信息;利用所述训练数据集训练得到基于深度学习的患病预测模型;利用所述测试数据集对所述患病预测模型进行测试,得到测试结果;根据所述测试结果确定模型的公平性。利用本发明方案,可以有效地评估模型的公平性。
Description
技术领域
本发明涉及计算机视觉技术和算法治理领域,具体涉及一种面向深度学习的医学影像分类模型公平性分析方法及装置。
背景技术
人工智能技术在赋能行业发展的同时,也引发了一系列的伦理冲突议题,如算法偏见,因此研究算法公平性是一个极具意义的方向。算法公平性指的是在算法的设计和应用过程中,确保决策和预测不对特定群体产生不公平的影响。
算法在给医疗领域进步与发展带来重大利好的同时,也带来了以算法偏见为代表的隐患。在医疗领域,算法的公平性意味着这些算法应该在面对所有个体应用时遵循公正的标准,避免对不同人群施加任何形式的偏见。如果算法基于患者身份信息中的相关因素对患者进行评估,而非基于科学和客观的医学指标,就会带来不准确和偏见的诊断结果。因此,一些患者可能被错误地诊断或漏诊,从而延误了治疗的时机,给他们的生命和健康造成风险。
现有的深度学习算法在医疗诊断场景中取得了重要的技术突破,能够较好地辅助医生完成疾病的评估,实现快速精准的医学判断。但是同时也存在一些问题,例如:难追溯性、过程难以理解性、结果不确定性和数据驱动性的技术特征使得模型的决策结果模糊性太高,也难以公平驱动系统运行。
综上所述,基于深度学习算法在医学影像上实现智能诊断,在保证模型准确度的情况下,能够综合评估模型是否公平,以及追溯造成不公平诊断的原因是一个亟待解决的问题。
发明内容
本发明提供一种面向深度学习的医学影像分类模型公平性评估方法及装置,在保证模型准确度的情况下,能够有效地评估模型的公平性。
为此,本发明提供如下技术方案:
一种面向深度学习的医学影像分类模型公平性评估方法,所述方法包括:
采集患者X光影像,所述患者X光影像中包括一个或多个标签;
构造单标签二分类数据集,并将所述单标签二分类数据集分为训练数据集和测试数据集;所述单标签二分类数据集中的数据样本包括患者身份信息,获取患者身份信息需经患者同意或授权;
利用所述训练数据集训练得到基于深度学习的患病预测模型;
利用所述测试数据集对所述患病预测模型进行测试,得到测试结果;
根据所述测试结果确定模型的公平性。
可选地,所述构造单标签二分类数据集包括:
从所述患者X光影像中筛选出具有设定标签的X光影像,生成二分类数据集;所述设定标签用于标识所述患者是否患有设定疾病;
以患者编号为主键进行多表关联,获得所述二分类数据集中各患者的相关信息;所述相关信息包括:患者X光影像、患病信息、以及身份信息;
对所述设定标签进行编码,得到编码信息;
根据所述二分类数据集及所述编码信息构造单标签二分类数据集,所述单标签二分类数据集中的每一条数据样本包括:所述X光影像信息、患者信息、以及所述设定标签的编码信息。
可选地,所述构造单标签二分类数据集还包括:
以所述患者编号为索引对所述单标签二分类数据集中的数据样本进行去重处理;
剔除所述单标签二分类数据集中患者X光影像尺寸小于设定值的数据样本,并将所有患者X光影像转换成统一模式;
对所述单标签二分类数据集中的患者X光影像进行变换,实现数据样本增强。
可选地,所述对所述单标签二分类数据集中的患者X光影像进行变换包括以下任意一种或多种:随机水平翻转、随机仿射变换、随机锐度调整和随机旋转。
可选地,所述利用所述训练数据集训练得到基于深度学习的患病预测模型包括:
利用所述训练数据集训练多种不同的基于深度学习的患病预测模型;
从所述多种不同的基于深度学习的患病预测模型选择最优模型。
可选地,所述利用所述训练数据集训练多种不同的基于深度学习的患病预测模型包括:
基于以下任意两种或多种网络结构作为特征提取器:ResNet-152、Inception-v4、SE-ResNeXt-101、DenseNet-121;
将原始激活函数替换成适合二分类算法的Sigmoid函数,利用所述训练数据集训练得到对应的患病预测模型。
可选地,所述利用所述训练数据集训练得到基于深度学习的患病预测模型还包括:
从所述多种不同患病预测模型选择最优模型之前,对所述多种不同患病预测模型进行优化;或者
对选择的最优模型进行优化。
可选地,所述身份信息中包括多种不同敏感属性;
所述根据所述测试结果确定模型的公平性包括:
对不同敏感属性及敏感属性组合分别计算加权误分类率;
根据所述加权误分类率确定模型的公平性。
可选地,按以下方式计算各组的加权误分类率:
其中,是组/>的假阳数量,/>是组/>的假阴数量,/>是组/>的观测次数;/>是表示假阳性严重程度的假阳性权重,/>是确保所述加权误分类率∈[0,1]的归一化常数。
可选地,所述根据所述测试结果确定模型的公平性还包括:
根据所述测试结果构建混淆矩阵;
根据所述混淆矩阵计算公平性评价指标参数,所述公平性评价指标参数包括以下任意一种或多种:真阳性率、正预测值、负预测值、误报率、错误发现率、错误遗漏率;
根据所述公平性评价指标参数确定模型是否违反公平性准则,所述公平性准则包括以下任意一种或多种:分离性准则、充分性准则、独立性准则;其中:
所述分离性准则是指在敏感组之间的假阳性率和假阴性率不同时,模型违反分离性准则;
所述充分性准则是指在敏感组之间的错误发现率或错误遗漏率不平衡时,模型违反充分性准则;
所述独立性准则是指在所有敏感组的预测阳性或等效预测阳性分数不相同时,模型违反独立性准则。
可选地,所述根据所述公平性评价指标参数确定模型是否违反公平性准则包括:
利用ROC曲线确定模型在选取不同阈值时各敏感组的敏感性和特异性的趋势走向,根据所述趋势走向确定模型是否违反所述分离性准则;
利用校准曲线分析模型预测概率和实际概率的一致性,确定模型是否违反所述充分性准则;所述校准曲线以每个敏感组中所有样本预测概率的平均值为横坐标,每个敏感组内阳例的概率为纵坐标;
利用正预测值或负预测值分析各组的预测阳性率或预测阴性率,确定模型是否违反独立性准则。
一种面向深度学习的医学影像分类模型公平性评估装置,所述装置包括:
数据采集模块,用于采集患者X光影像,所述患者X光影像中包括一个或多个标签;
数据集生成模块,用于构造单标签二分类数据集,并将所述单标签二分类数据集分为训练数据集和测试数据集;所述单标签二分类数据集中的数据样本包括患者身份信息;
模型训练模块,用于利用所述训练数据集训练得到基于深度学习的患病预测模型;
测试模块,用于利用所述测试数据集对所述患病预测模型进行测试,得到测试结果;
公平性评估模块,用于根据所述测试结果确定模型的公平性。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行前面所述面向深度学习的医学影像分类模型公平性评估方法的步骤。
本发明提供的面向深度学习的医学影像分类模型公平性评估方法及装置,将问题转化为“患病”和“未患病”的二分类问题,构造单标签二分类数据集并将其分为训练数据集和测试数据集,利用训练数据集训练深度学习模型对患者X光影像进行患病预测,利用测试数据集对模型进行测试,根据测试结果确定模型的公平性。由于数据集中包含了患者的身份信息,因此根据模型的测试结果和患者的敏感属性信息,对模型的公平性进行有效地评估。
进一步地,通过多模型对比,选择最优预测模型,从而尽可能提升模型分类准确度。在保证模型分类结果准确性的基础上,可以使对模型公平性的评估结果更准确。
进一步地,基于最优模型的推理结果结合患者的其他敏感属性构建混淆矩阵与公平评估指标,多层次多维度分析模型面向不同评估指标的分类是否公平,而且还可追溯造成不公平分类的敏感属性。
附图说明
图1是本发明提供的面向深度学习的医学影像分类算法公平性评估方法的一种流程图;
图2是本发明实施例中构造单标签二分类数据集的一种流程图;
图3是本发明提供的面向深度学习的医学影像分类算法公平性评估装置的一种结构示意图。
具体实施方式
为了更清楚地说明本发明实施方式或现有技术中的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图和具体实施方式对本发明作详细地描述,实施方式不能在此一一赘述,但本发明的实施方式并不因此限定于以下实施方式。
如图1所示,是本发明实施中面向深度学习的医学影像分类算法公平性评估方法的一种流程图,包括以下步骤:
步骤101,采集患者X光影像,所述患者X光影像中包括一个或多个标签。
步骤102,构造单标签二分类数据集,并将所述单标签二分类数据集分为训练数据集和测试数据集;所述单标签二分类数据集中的数据样本包括患者身份信息。需要说明的是,获取患者身份信息需经患者同意或授权。
步骤103,利用所述训练数据集训练得到基于深度学习的患病预测模型。
步骤104,利用所述测试数据集对所述患病预测模型进行测试,得到测试结果。
步骤105,根据所述测试结果确定模型的公平性。
如图2所示,是本发明实施例中构造单标签二分类数据集的一种流程图,包括以下步骤:
步骤201,从所述患者X光影像中筛选出具有设定标签的X光影像,生成二分类数据集;所述设定标签用于标识所述患者是否患有设定疾病。
步骤202,以患者编号为主键进行多表关联,获得所述二分类数据集中各患者的相关信息;所述相关信息包括:患者X光影像、患病信息、以及身份信息。
其中,身份信息中包括多种不同敏感属性。
步骤203,对所述设定标签进行编码,得到编码信息。
比如,可以采用U-zeros编码方式对是否患病标签进行编码。
步骤204,根据所述二分类数据集及所述编码信息构造单标签二分类数据集,所述单标签二分类数据集中的每一条数据样本包括:所述X光影像信息、患者信息、以及所述设定标签的编码信息。
进一步地,为了提高单标签二分类数据集中的数据质量,还可对数据集中数据进行去重、筛选、增强等处理。比如:
以所述患者编号为索引对所述单标签二分类数据集中的数据样本进行去重处理;
剔除所述单标签二分类数据集中患者X光影像尺寸小于设定值(比如尺寸小于(224,224))的数据样本,并将所有患者X光影像转换成统一模式;
对所述单标签二分类数据集中的患者X光影像进行变换,实现数据样本增强。比如可以采用以下任意一种或多种变换方式:随机水平翻转、随机仿射变换、随机锐度调整和随机旋转等。
在上述步骤103中利用所述训练数据集训练基于深度学习的患病预测模型时,可以采用多种方式确定最终模型。在训练基于深度学习的患病预测模型时,选取相应的网络结构后,可以将原始激活函数替换成适合二分类算法的Sigmoid函数,利用所述训练数据集训练得到对应的患病预测模型。
比如,在一种非限制性实施例中,可以选取一种神经网络,比如DenseNet-121网络,将其作为特征提取器进行迭代训练,基于手动设置一组待优化的超参数候选值列表,对所极的参数进行穷举搜索,并使用Early-Stopping方式防止模型训练过拟合,最终选择具有最佳性能的参数组合作为DenseNet-121最优模型的超参数。
再比如,在另一种非限制性实施例中,可以利用所述训练数据集训练多种不同的基于深度学习的患病预测模型;从所述多种不同患病预测模型选择最优模型。进一步地,还可以从所述多种不同患病预测模型选择最优模型之前,对所述多种不同患病预测模型进行优化;或者对选择的最优模型进行优化。
比如,选取以下任意两种或多种网络结构作为特征提取器:ResNet-152、Inception-v4、SE-ResNeXt-101、DenseNet-121;在不更改任何参的情况下分别训练多种模型,从中选取一个最优模型使用网络搜索的方式进行不同参数组合的穷举搜索,并使用Early-Stopping方式防止模型训练过拟合,最终得到适用于本训练数据集的最优模型。
再比如,选取以下任意两种或多种网络结构作为特征提取器:ResNet-152、Inception-v4、SE-ResNeXt-101、DenseNet-121;用Optuna自动地选择最优的超参数组合,采用二进制交叉熵损失对网络进行训练,在相同训练集和验证集上进行多种模型对比,选出适用于本训练数据集的最优模型。
在选择最优模型时,可以根据相应的混淆矩阵进行选择。所述混淆矩阵可以表示如下表1所示,其中TP为将正类预测为正类的数量,FN为将正类预测为负类的数量,FP为将负类预测为正类的数量,TN为将负类预测为负类的数量。
表1
基于上述混淆矩阵,使用对模型的性能进行评估,该指标是精确率(Precision)和召回率(Recall)的调和均值,计算公式如下:
比如,选出的最优分类模型为卷积神经网络DenseNet-121。
相应地,利用所述测试数据集对该卷积神经网络DenseNet-121进行测试,得到测试结果,然后可以根据测试结果确定模型的公平性。
在本发明方案中,对模型的公平性的评价可以从多种不同角度进行综合判断。
比如,在一种非限制性实施例中,可以对不同敏感属性及敏感属性组合分别计算加权误分类率(WMR);根据所述加权误分类率确定模型的公平性,根据不同组的WMR值还可确定不公平的程度。
WMR的计算公式如下:
其中,是组/>的假阳数量,/>是组/>的假阴数量,/>是组/>的观测次数,/>是用于表示假阳性严重程度的假阳性权重,/>是确保WMR∈[0,1]的归一化常数。
也就是说,需要根据测试结果统计各组的假阳数量和假阴数量、以及观测次数,计算各组的WMR。如果不同组的WMR值相差较大,比如大于设定的阈值,则确定该模型存在不公平性。进一步地,根据两组WMR的差值,还可判断模型存在不公平的程度,差值越大,不公平的程度越高。
再比如,在另一种非限制性实施例中,还可根据所述测试结果构建上述表1所示的混淆矩阵,根据所述混淆矩阵计算公平性评价指标参数,所述公平性评价指标参数包括以下任意一种或多种:真阳性率(TPR)、正预测值(PPV)、负预测值(NPV)、误报率(FPR)、错误发现率(FDR)、错误遗漏率(FOR);基于所述公平性评价指标参数确定模型是否违反公平性准则,所述公平性准则包括以下任意一种或多种:分离性准则、充分性准则、独立性准则。下面对这三种情况分别进行说明。
(1)所述分离性准则是指在敏感组之间的假阳性率和假阴性率不同时,模型违反分离性(separation)准则。
对于是否违反分离性准则的判断,可以利用ROC (receiver operatingcharacteristiccurve,受试者工作曲线,又称为感受性曲线)确定模型在选取不同阈值时各敏感组的敏感性和特异性的趋势走向,根据所述趋势走向确定模型是否违反所述分离性准则。
ROC曲线是医学诊断试验、预测模型性能区分度评价的最核心指标。ROC曲线代表了无数个分类器。ROC曲线的横坐标和纵坐标不具有相关性,可以将ROC曲线看成是无数个点,每个点都代表一个分类器,每个点对应的x、y轴代表了这个分类器的性能。ROC曲线就是分类器性能随着阈值的变化而变化的过程。
例如,以特征性别为敏感组,/>表示女性,/>表示男性,可以使用FPR1或者TPR0来评估模型在女性和男性上的公平性。其中,FPR1表示基于女性特征的FPR值,TPR0表示基于男性特征的FPR值。
在本发明实施例中,ROC曲线是以TPR为纵坐标,FPR为横坐标绘制的。ROC曲线下的面积越大,表示模型的分离性越好。
FPR和TPR的计算公式如下:
式中,是假阳数量,/>是假阴数量,/>是真阳数量。
所述真阳是指将“患有疾病”预测为“患有疾病”的数量;假阳是指将“未患疾病”预测为“患有疾病”的数量。
(2)所述充分性(sufficiency)准则是指在敏感组之间的错误发现率或错误遗漏率不平衡时,模型违反充分性准则。
对于是否违反充分性准则的判断,可以利用校准曲线(Calibrationcurve)分析模型预测概率和实际概率的一致性,确定模型是否违反充分性准则。所述校准曲线是实际发生率和预测发生率的散点图,以每个敏感组中所有样本预测概率的平均值为横坐标,每个敏感组内阳例的概率为纵坐标。
在本发明实施例中,校准曲线横坐标为预测发生率,纵坐标为实际发生率,通过绘制出来的曲线可以观测出不同敏感组的错误遗漏率和错误发现率,从而进一步判断是否违背了充分性准则。
校准曲线能够显示阈值对错误遗漏率(FOR)和错误发现率(FDR)的影响,可以看出哪些敏感组的错误遗漏率更高,从而判断是否违背了充分性准则,并追溯违背充分性准则的敏感属性。
FDR和FOR的计算公式如下:
(3)所述独立性准则是指在所有敏感组的预测阳性或等效预测阳性分数不相同时,模型违反独立性准则。
具体地,可以利用正预测值(PPV)或负预测值(NPV)分析各组的预测阳性率或预测阴性率,确定模型是否违反充分性准则。
PPV和NPV的计算公式如下:
需要说明的是,在具体应用中,可以根据应用需求,对模型的公平性进行多角度的分析,对此本发明实施例不做限定。
本发明提供的面向深度学习的医学影像分类模型公平性评估方法及装置,将问题转化为“患病”和“未患病”的二分类问题,构造单标签二分类数据集并将其分为训练数据集和测试数据集,利用训练数据集训练深度学习模型对患者X光影像进行患病预测,利用测试数据集对模型进行测试,根据测试结果确定模型的公平性。由于数据集中包含了患者的身份信息,因此根据模型的测试结果和患者的敏感属性信息,对模型的公平性进行有效地评估。
相应地,本发明实施例还提供一种面向深度学习的医学影像分类模型公平性评估装置,如图3所示,是该装置的一种结构示意图。
该装置300包括以下各模块:
数据采集模块301,用于采集患者X光影像,所述患者X光影像中包括一个或多个标签;
数据集生成模块302,用于构造单标签二分类数据集,并将所述单标签二分类数据集分为训练数据集和测试数据集;所述单标签二分类数据集中的数据样本包括患者身份信息;
模型训练模块303,用于利用所述训练数据集训练得到基于深度学习的患病预测模型;
测试模块304,用于利用所述测试数据集对所述患病预测模型进行测试,得到测试结果;
公平性评估模块305,用于根据所述测试结果确定模型的公平性。
上述各模块的具体实现方式可参见前面本发明方法实施例中的描述,在此不再赘述。
本发明实施例中出现的“多个”是指两个或两个以上。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语 “包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的模块和单元可以是或者也可以不是物理上分开的,即可以位于一个网络单元上,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
在具体实施中,关于上述实施例中描述的各个装置、产品包含的各个模块/单元,其可以是软件模块/单元,也可以是硬件模块/单元,或者也可以部分是软件模块/单元,部分是硬件模块/单元。
例如,对于应用于或集成于芯片的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于芯片模组的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片模组内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于终端的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于终端内同一组件(例如,芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于终端内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理布置,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的部分步骤。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统,其仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围,本说明书内容不应理解为对本发明的限制。因此,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (13)
1.一种面向深度学习的医学影像分类模型公平性评估方法,其特征在于,所述方法包括:
采集患者X光影像,所述患者X光影像中包括一个或多个标签;
构造单标签二分类数据集,并将所述单标签二分类数据集分为训练数据集和测试数据集;所述单标签二分类数据集中的数据样本包括患者身份信息;
利用所述训练数据集训练得到基于深度学习的患病预测模型;
利用所述测试数据集对所述患病预测模型进行测试,得到测试结果;
根据所述测试结果确定模型的公平性。
2.根据权利要求1所述的面向深度学习的医学影像分类模型公平性评估方法,其特征在于,所述构造单标签二分类数据集包括:
从所述患者X光影像中筛选出具有设定标签的X光影像,生成二分类数据集;所述设定标签用于标识所述患者是否患有设定疾病;
以患者编号为主键进行多表关联,获得所述二分类数据集中各患者的相关信息;所述相关信息包括:患者X光影像、患病信息、以及身份信息;
对所述设定标签进行编码,得到编码信息;
根据所述二分类数据集及所述编码信息构造单标签二分类数据集,所述单标签二分类数据集中的每一条数据样本包括:所述X光影像信息、患者信息、以及所述设定标签的编码信息。
3.根据权利要求2所述的面向深度学习的医学影像分类模型公平性评估方法,其特征在于,所述构造单标签二分类数据集还包括:
以所述患者编号为索引对所述单标签二分类数据集中的数据样本进行去重处理;
剔除所述单标签二分类数据集中患者X光影像尺寸小于设定值的数据样本,并将所有患者X光影像转换成统一模式;
对所述单标签二分类数据集中的患者X光影像进行变换,实现数据样本增强。
4.根据权利要求3所述的面向深度学习的医学影像分类模型公平性评估方法,其特征在于,所述对所述单标签二分类数据集中的患者X光影像进行变换包括以下任意一种或多种:随机水平翻转、随机仿射变换、随机锐度调整和随机旋转。
5.根据权利要求2所述的面向深度学习的医学影像分类模型公平性评估方法,其特征在于,所述利用所述训练数据集训练得到基于深度学习的患病预测模型包括:
利用所述训练数据集训练多种不同的基于深度学习的患病预测模型;
从所述多种不同的基于深度学习的患病预测模型选择最优模型。
6.根据权利要求5所述的面向深度学习的医学影像分类模型公平性评估方法,其特征在于,所述利用所述训练数据集训练多种不同的基于深度学习的患病预测模型包括:
基于以下任意两种或多种网络结构作为特征提取器:ResNet-152、Inception-v4、SE-ResNeXt-101、DenseNet-121;
将原始激活函数替换成适合二分类算法的Sigmoid函数,利用所述训练数据集训练得到对应的患病预测模型。
7.根据权利要求6所述的面向深度学习的医学影像分类模型公平性评估方法,其特征在于,所述利用所述训练数据集训练得到基于深度学习的患病预测模型还包括:
从所述多种不同患病预测模型选择最优模型之前,对所述多种不同患病预测模型进行优化;或者
对选择的最优模型进行优化。
8.根据权利要求2所述的面向深度学习的医学影像分类模型公平性评估方法,其特征在于,所述身份信息中包括多种不同敏感属性;
所述根据所述测试结果确定模型的公平性包括:
对不同敏感属性及敏感属性组合分别计算加权误分类率;
根据所述加权误分类率确定模型的公平性。
9.根据权利要求8所述的面向深度学习的医学影像分类模型公平性评估方法,其特征在于,按以下方式计算各组的加权误分类率:
其中,是组/>的假阳数量,/>是组/>的假阴数量,/>是组/>的观测次数;/>是表示假阳性严重程度的假阳性权重,/>是确保所述加权误分类率∈[0,1]的归一化常数。
10.根据权利要求2至9任一项所述的面向深度学习的医学影像分类模型公平性评估方法,其特征在于,所述根据所述测试结果确定模型的公平性还包括:
根据所述测试结果构建混淆矩阵;
根据所述混淆矩阵计算公平性评价指标参数,所述公平性评价指标参数包括以下任意一种或多种:真阳性率、正预测值、负预测值、误报率、错误发现率、错误遗漏率;
根据所述公平性评价指标参数确定模型是否违反公平性准则,所述公平性准则包括以下任意一种或多种:分离性准则、充分性准则、独立性准则;其中:
所述分离性准则是指在敏感组之间的假阳性率和假阴性率不同时,模型违反分离性准则;
所述充分性准则是指在敏感组之间的错误发现率或错误遗漏率不平衡时,模型违反充分性准则;
所述独立性准则是指在所有敏感组的预测阳性或等效预测阳性分数不相同时,模型违反独立性准则。
11.根据权利要求10所述的面向深度学习的医学影像分类模型公平性评估方法,其特征在于,所述根据所述公平性评价指标参数确定模型是否违反公平性准则包括:
利用ROC曲线确定模型在选取不同阈值时各敏感组的敏感性和特异性的趋势走向,根据所述趋势走向确定模型是否违反所述分离性准则;
利用校准曲线分析模型预测概率和实际概率的一致性,确定模型是否违反所述充分性准则;所述校准曲线以每个敏感组中所有样本预测概率的平均值为横坐标,每个敏感组内阳例的概率为纵坐标;
利用正预测值或负预测值分析各组的预测阳性率或预测阴性率,确定模型是否违反独立性准则。
12.一种面向深度学习的医学影像分类模型公平性评估装置,其特征在于,所述装置包括:
数据采集模块,用于采集患者X光影像,所述患者X光影像中包括一个或多个标签;
数据集生成模块,用于构造单标签二分类数据集,并将所述单标签二分类数据集分为训练数据集和测试数据集;所述单标签二分类数据集中的数据样本包括患者身份信息;
模型训练模块,用于利用所述训练数据集训练得到基于深度学习的患病预测模型;
测试模块,用于利用所述测试数据集对所述患病预测模型进行测试,得到测试结果;
公平性评估模块,用于根据所述测试结果确定模型的公平性。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至11中任一项所述面向深度学习的医学影像分类模型公平性评估方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311612473.2A CN117315379B (zh) | 2023-11-29 | 2023-11-29 | 面向深度学习的医学影像分类模型公平性评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311612473.2A CN117315379B (zh) | 2023-11-29 | 2023-11-29 | 面向深度学习的医学影像分类模型公平性评估方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117315379A true CN117315379A (zh) | 2023-12-29 |
CN117315379B CN117315379B (zh) | 2024-03-12 |
Family
ID=89281522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311612473.2A Active CN117315379B (zh) | 2023-11-29 | 2023-11-29 | 面向深度学习的医学影像分类模型公平性评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117315379B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649565A (zh) * | 2024-01-30 | 2024-03-05 | 安徽大学 | 一种模型训练方法、训练装置及医学影像分类方法 |
CN117649565B (zh) * | 2024-01-30 | 2024-05-28 | 安徽大学 | 一种模型训练方法、训练装置及医学影像分类方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200302524A1 (en) * | 2019-03-18 | 2020-09-24 | Zestfinance, Inc. | Systems and methods for model fairness |
CN112562860A (zh) * | 2020-12-08 | 2021-03-26 | 中国科学院深圳先进技术研究院 | 分类模型的训练方法及装置、冠心病辅助筛查方法及装置 |
CN112818118A (zh) * | 2021-01-22 | 2021-05-18 | 大连民族大学 | 基于反向翻译的中文幽默分类模型 |
CN113298254A (zh) * | 2021-06-10 | 2021-08-24 | 浙江工业大学 | 面向深度迁移学习的去偏方法及其装置 |
US20220114399A1 (en) * | 2020-10-08 | 2022-04-14 | Royal Bank Of Canada | System and method for machine learning fairness testing |
CN114639046A (zh) * | 2022-03-18 | 2022-06-17 | 中电科大数据研究院有限公司 | 一种基于时间序列检测的打斗行为识别方法 |
CN115345248A (zh) * | 2022-08-24 | 2022-11-15 | 浙江工业大学 | 一种面向深度学习的数据去偏方法及装置 |
CN116028803A (zh) * | 2022-08-24 | 2023-04-28 | 浙江工业大学 | 一种基于敏感属性再平衡的去偏方法 |
CN116663680A (zh) * | 2023-08-02 | 2023-08-29 | 数据空间研究院 | 一种提高机器学习公平性的方法、电子设备及存储介质 |
-
2023
- 2023-11-29 CN CN202311612473.2A patent/CN117315379B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200302524A1 (en) * | 2019-03-18 | 2020-09-24 | Zestfinance, Inc. | Systems and methods for model fairness |
US20220114399A1 (en) * | 2020-10-08 | 2022-04-14 | Royal Bank Of Canada | System and method for machine learning fairness testing |
CN112562860A (zh) * | 2020-12-08 | 2021-03-26 | 中国科学院深圳先进技术研究院 | 分类模型的训练方法及装置、冠心病辅助筛查方法及装置 |
CN112818118A (zh) * | 2021-01-22 | 2021-05-18 | 大连民族大学 | 基于反向翻译的中文幽默分类模型 |
CN113298254A (zh) * | 2021-06-10 | 2021-08-24 | 浙江工业大学 | 面向深度迁移学习的去偏方法及其装置 |
CN114639046A (zh) * | 2022-03-18 | 2022-06-17 | 中电科大数据研究院有限公司 | 一种基于时间序列检测的打斗行为识别方法 |
CN115345248A (zh) * | 2022-08-24 | 2022-11-15 | 浙江工业大学 | 一种面向深度学习的数据去偏方法及装置 |
CN116028803A (zh) * | 2022-08-24 | 2023-04-28 | 浙江工业大学 | 一种基于敏感属性再平衡的去偏方法 |
CN116663680A (zh) * | 2023-08-02 | 2023-08-29 | 数据空间研究院 | 一种提高机器学习公平性的方法、电子设备及存储介质 |
Non-Patent Citations (6)
Title |
---|
KEWEN PENG等: "FraiMask:Better Fairness via Model-Based Rebalancing of Protected Attributes", 《IEEE TRANSACTIONS ON SOFTWARE ENGINEERING》, pages 2426 - 2439 * |
RICARDS MARCINKEVICS等: "Debiasing Deep Chest X-Ray Classifiers using Intra- and Post-processing Methods", 《HTTPS://ARXIV.ORG/ABS/2208.00781》, pages 1 - 33 * |
TIM RAZ等: "Group Fairness:Independence Revisited", 《PROCEEDINGS OF THE 2021 ACM CONFERENCE ON FAIRNESS, ACCOUNTABILITY, AND TRANSPARENCY》, pages 2 * |
刘璇等: "AI治理中的公平性及其评价方法研究", 《情报资料工作》, vol. 43, no. 5, pages 24 - 33 * |
王昱颖等: "深度学习模型中的公平性研究", 《软件学报》, vol. 34, no. 9, pages 4037 - 4055 * |
陈晋音等: "面向深度学习的公平性研究综述", 《计算机研究与发展》, vol. 58, no. 2, pages 264 - 280 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649565A (zh) * | 2024-01-30 | 2024-03-05 | 安徽大学 | 一种模型训练方法、训练装置及医学影像分类方法 |
CN117649565B (zh) * | 2024-01-30 | 2024-05-28 | 安徽大学 | 一种模型训练方法、训练装置及医学影像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117315379B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Automatic detection of diabetic retinopathy in retinal fundus photographs based on deep learning algorithm | |
Gargeya et al. | Automated identification of diabetic retinopathy using deep learning | |
CN101517602A (zh) | 使用基于分类器集成的遗传算法进行特征选择的方法 | |
CN111009321A (zh) | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 | |
CN103345633A (zh) | 一种用于阿尔兹海默病早期发现的结构性核磁共振影像处理方法 | |
WO2023198224A1 (zh) | 一种精神障碍类磁共振图像初步筛查模型构建方法 | |
CN113674862A (zh) | 一种基于机器学习的急性肾功能损伤发病预测方法 | |
CN113269230A (zh) | 一种基于时序高维特征提取的多肺炎ct分类方法及装置 | |
Goldstein et al. | Covid-19 classification of x-ray images using deep neural networks | |
CN113796877A (zh) | 脑卒中预测值获取方法、装置及存储介质 | |
CN112861881A (zh) | 一种基于改进MobileNet模型的蜂窝肺识别方法 | |
Tabarisaadi et al. | A deep bayesian ensembling framework for COVID-19 detection using chest CT images | |
CN117315379B (zh) | 面向深度学习的医学影像分类模型公平性评估方法及装置 | |
Thiyagarajan et al. | Comparative analysis of classifier Performance on MR brain images. | |
JP2023143875A (ja) | 医療用画像解析方法 | |
CN114529759B (zh) | 一种甲状腺结节的分类方法、装置及计算机可读介质 | |
CN111414930A (zh) | 深度学习模型训练方法及装置、电子设备及存储介质 | |
CN114936204A (zh) | 一种特征筛选方法、装置、存储介质及电子设备 | |
de Oliveira Martins et al. | Classification of breast masses in mammogram images using Ripley’s K function and support vector machine | |
CN113080929A (zh) | 一种基于机器学习的抗nmdar脑炎图像特征分类方法 | |
Sujathakumari et al. | Detection of MCI from MRI using gradient boosting classifier | |
Raghav et al. | Autism Spectrum Disorder Detection in Children Using Transfer Learning Techniques | |
Marasco et al. | Accounting for demographic differentials in forensic error rate assessment of latent prints via covariate-specific ROC regression | |
Hamaamin et al. | Classification of COVID-19 on Chest X-Ray Images Through the Fusion of HOG and LPQ Feature Sets | |
CN113555118B (zh) | 一种病症程度的预测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |