CN114612389B - 基于多源多尺度特征融合的眼底图像质量评价方法和装置 - Google Patents
基于多源多尺度特征融合的眼底图像质量评价方法和装置 Download PDFInfo
- Publication number
- CN114612389B CN114612389B CN202210155190.9A CN202210155190A CN114612389B CN 114612389 B CN114612389 B CN 114612389B CN 202210155190 A CN202210155190 A CN 202210155190A CN 114612389 B CN114612389 B CN 114612389B
- Authority
- CN
- China
- Prior art keywords
- fundus image
- fundus
- quality evaluation
- image quality
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
- G06T7/0014—Biomedical image inspection using an image reference approach
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
- G06V10/993—Evaluation of the quality of the acquired pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Eye Examination Apparatus (AREA)
Abstract
本发明公开了一种基于多源多尺度特征融合的眼底图像质量评价方法,包括:步骤1:获取多源域眼底图像,并对多源域眼底图像进行关于亮度、模糊程度、对比程度以及图像的总体质量四个评价维度的标签标注,将眼底图像与标注标签组成训练样本;步骤2:构建眼底图像质量评价网络,包括特征提取模块、融合模块、注意力模块以及评价模块;步骤3:利用训练样本对眼底图像质量评价网络进行训练,获得眼底图像质量评价模型;步骤4:将待测眼底图像输入到眼底图像质量评价模型中,经计算输出质量评价结果。本发明还提供了基于上述方法的眼底图像质量评价装置。通过本发明提供的方法,在考虑多种成像环境的条件下,对眼底图像进行全面客观的评价。
Description
技术领域
本发明属于医学图像处理技术领域,具体涉及一种基于多源多尺度特征融合的眼底图像质量评价方法和装置。
背景技术
眼底照相(Fundus photography)是诊断糖尿病视网膜病变、青光眼、与年龄相关的黄斑变性和其他眼病的最重要成像方式。随着人工智能的发展,通过眼底图像进行自动疾病筛查已成为当前研究的热门话题。因此,眼底图像的质量对诊断模型的性能具有重大意义,图像质量评估对于自动化诊断系统非常必要。虽然通过专家手动评价质量是最可靠的方法,但它成本高昂且耗时,使自动诊断系统变得低效而失去意义。
由于临床场景的复杂性,临床实践中有多种眼底成像方式,如彩色眼底摄影(Color fundus photography,CFP)、便携式数字眼底摄影(Portable digital fundusphotography)和激光广角眼底成像(Ultra-wide fundus photography,UWF)。彩色眼底摄影是最主要的成像方法,许多人工智能模型都基于彩色眼底照。尽管如此,彩色眼底摄影需要桌面式的成像仪器,从而限制了其在初级卫生保健的应用。便携式数字眼底摄影设备可以手持,因此更适用于低级别的卫生服务中心,尤其是在发展中国家的乡村地区较为实用。但便携式摄像机的图像可能缺乏病变的细节,且通常会出现伪影。激光广角眼底摄影是一项新技术,与标准眼底摄影相比,其单张图像可捕获多达200°的视野,且快速、高效、易于使用,不需要散瞳。激光广角眼底摄影图像也有潜在的预后意义,因为其可以检测外周病变。然而,该类激光广角眼底摄影机器较为昂贵,其成本效益仍然是一个重要的考虑因素。考虑到上述方法的利弊,作为一个全面的眼底图像质量评价系统,应该能处理以上三种基本图像,以满足各种临床需求。
先前的研究已经提出了几种方法来自动评估眼底图像的质量,可以分为基于整体相似性的方法和基于局部结构细分的方法,但仍存在一些问题需要解决。首先,每种质量评估方法的通用性是不确定的。许多研究在单中心数据集上训练他们的模型,忽略了成像设备的类型、眼睛状况和成像环境。其次,目前的图像质量评价方法侧重于局部或整体信息中的一个,但对医生来说这两者同样重要。第三,由于深度学习网络的"黑匣子"特征,最近的运用深度学习评估图像质量的算法不够可解释,而常用的解释方法,如热力图,可能不够有说服力。
发明内容
为了解决上述问题,本发明提出了一种基于多源多尺度融合的眼底图像质量评价方法,该方法以人眼视觉系统,采用多个具有代表性的数据源,同时结合空间加权和自加权的眼底图像质量评价网络,对眼底图像进行全面客观的评价。
一种基于多源多尺度特征融合的眼底图像质量评价方法,包括:
步骤1:获取多源域眼底图像,并对多源域眼底图像进行关于亮度、模糊程度、对比程度以及图像的总体质量四个评价维度的标签标注,将眼底图像与标注标签组成训练样本;
步骤2:构建眼底图像质量评价网络,包括特征提取模块、融合模块、注意力模块以及评价模块,所述特征提取模块包括多尺度特征提取器,用于提取眼底图像的多尺度图像特征,所述融合模块用于融合多尺度图像特征得到融合特征,所述注意力模块用于对输入的融合特征进行注意力操作,并将注意力操作结果与输入的融合特征点乘后输入至评价模块,所述评价模块用于对输入的特征进行预测计算,以输出质量评价结果,所述质量评价结果包括亮度评价结果、模糊程度评价结果、对比度评价结果以及图像总体质量评价结果;
步骤3:利用训练样本对眼底图像质量评价网络进行训练,训练结束后,获得眼底图像质量评价模型;
步骤4:将待测眼底图像输入到眼底图像质量评价模型中,经计算输出质量评价结果。
具体的,所述多源域眼底图像包括由普通相机拍摄的普通彩色眼底照、由便携式眼底照相机拍摄的眼底照以及由激光广角相机拍摄的激光广角眼底照,所述多源域眼底图像来自于健康受试者、糖尿病性视网膜病变患者与青光眼患者的就诊数据。
优选的,所述眼底图像输入眼底图像质量评价网络之前,进行眼底图像的预处理,包括裁剪、缩放以及获取眼部区域掩膜,预处理后的眼底图像输入至眼底图像质量评价网络,从而提高多尺度特征提取器对眼底图像特征提取的效果。
优选的,所述特征提取模块包括4个尺度的特征提取器,对应输入眼底图像的尺寸分别为原图像分辨率的1/4,1/8,1/16,1/32,每个特征提取器通过输入的眼底图像进行卷积操作,以得到图像特征,特征提取器输出的图像特征维度相同,尺寸相同,便于后续的图像拼接与融合。
优选的,所述每个特征提取器输出的图像特征经过拼接后输入至融合模块,融合模块采用卷积层,通过对拼接后图像特征进行卷积操作,得到融合特征。
优选的,所述评价模块为MLP分类器,采用MLP分类器对输入的特征进行预测计算,以输出质量评价结果。
优选的,训练时,针对每个评价维度,以标注标签与评价结果的交叉熵作为单评价维度的损失函数,综合考虑四个评价维度的损失函数更新眼底图像质量评价网络的参数。
具体的,训练时,优化器选用Adam,初始学习率设置为0.001,每20个epoch衰减0.0005倍。
本发明还提供了一种眼底图像质量评价装置,包括:
计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器中采用上述的眼底图像质量评价模型;所述计算机处理器执行所述计算机程序时实现以下步骤:将待检测的眼底图像输入至眼底图像质量评价模型中,经计算输出眼底图像质量的评价结果。
与现有技术相比,本发明的有益效果:
(1)本发明提出了多源多尺度特征融合的图像质量评价方法,完成基于多类型眼底照数据库、不同成像设备以及成像环境下对图像质量评价的鲁棒性。
(2)本发明以人眼视觉系统为基础,输出亮度、模糊程度、对比度以及图像总质量作为评价指标,模仿医生识别眼底图像时的评价思路,从而使得评价结果更加符合实际情况。
附图说明
图1为本发明提供的眼底图像质量评价方法的流程示意图;
图2为多源异构眼底照数据库的空间散点分布示意图;
图3为本发明提供的用于眼底图像质量评价的多源多尺度特征融合的DNN网络总体结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
在一个实施例中,如图1所示,提供了一种基于多源多尺度特征融合的眼底图像质量评价方法,该方法包括以下步骤:
步骤1:获取多源域眼底图像,并对多源域眼底图像进行关于亮度、模糊程度、对比度以及图像的总体质量四个评价维度的标签标注,将眼底图像与标注标签组成训练样本;
其中,所述多源域眼底图像包括由普通相机拍摄的普通彩色眼底照、由便携式眼底照相机拍摄的眼底照以及由激光广角相机拍摄的激光广角眼底照;
普通彩色眼底照由三部分组成:第一部分来自于浙江大学医学院附属医院眼科中,包含医院PACS系统中的187张来自于糖尿病性视网膜病变患者(DR-CFP)、52张来自青光眼患者(GLU)和26张来自正常受试者(NORMAL)的眼底照片,这些照片均由TRC-NW8桌面式眼底相拍摄,视野为50°,分辨率为1924*1556;
第二部分来自于西安交通大学附属第二医院眼科,包含235张来自糖尿病性视网膜病变患者的眼底图片(DR-CFP),由Kowa Nonmyd眼底相机拍摄,视野为45°,分辨率为1924*1556;
第三部分来自于公共数据库,分别为DRIMD数据库的216张图片,视野60°,分辨率为570*760以及DRIVE数据库的40张图片,视野45°,分辨率565*584。
便携照相机眼底照来自于浙江大学医学院附属第二医院眼科中心,由302张DEC200便携式相机拍摄的正常受试者眼底图像(LOCAL1&COCAL2)组成,视野为60°,分辨率为2560*1960.
激光广角眼底照来自于浙江大学医学院附属第二医院眼科中心,由500张Optos激光广角相机拍摄的糖尿病性视网膜病变患者的眼底图像(DR-UWF)组成,视野为200°,分辨率为1924*1556。
如图2所示,将上述所有图片从RGB色彩空间转至Lab色彩空间,其中a通道代表红-绿对立色强度,正值越高越偏红,负值越高越偏绿,b通道代表黄-蓝对立色强度,正值越高越偏黄,负值越高越偏蓝;由图2可知,上述图像之间的差异是非常大。
对训练样本中的眼底图像进行预处理,包括:1、裁剪待估计图像左右空白区域,使其宽、高相等;2、将裁剪后图像放缩至分辨率512x512;3、通过亮度信息和边缘信息获取眼部区域掩膜(即alpha通道,记为MASK)。
步骤2:如图3所示,构建眼底图像质量评价网络,包括特征提取模块、融合模块、注意力模块以及评价模块:
特征提取模块包括4个尺度的特征提取器,用于提取眼底图像的多尺度图像特征,对应输入眼底图像尺度分别为原图像分辨的1/4,1/8,1/16,1/32,每个特征提取器通过输入的眼底图像进行卷积操作,以得到图像特征维度相同,尺寸相同的图像特征,并将每个特征提取器输出的图像特征通过拼接后输入至融合模块。
融合模块用于融合多尺度图像特征得到融合特征,采用卷积层对拼接后图像特征进行卷积操作,得到具有空间一致性、包含多尺度信息的融合特征,并将融合特征输入至注意力模块。
注意力模块用于对输入的融合特征进行注意力操作,并将注意力操作结果与输入的融合特征点乘后输入至评价模块。
评价模块采用MLP分类器,用于对注意力模块输入的特征进行预测计算,输出质量评价结果包括亮度评价结果、模糊程度评价结果、对比度评价结果以及图像总体质量评价结果。
基于上述4个模块构建的眼底图像质量评价网络,眼底图像质量评价的具体步骤如下:
步骤2.1:将原眼底图像尺寸[W,H,3]进行划分:
尺度1的特征尺寸为[W/4,H/4,256];
尺度2的特征尺寸为[W/8,H/8,512];
尺度3的特征尺寸为[W/16,H/16,1024];
尺度4的特征尺寸为[W/32,H/32,2048];
步骤2.2:通过4个尺度的特征提取器对各尺度图像进行特征提取;
步骤2.3:将尺度1信号的空间信息保留特征提取,在空域上将其不交叠地分割为64个[W/32,H/32,256]的特征块,并将64个特征块在第三维度上依次拼接得到尺寸为[W/32,H/32,256*64]的特征,利用组别数量为64的分组卷积对得到的特征进行通道信息融合,最终得到尺寸为[W/32,H/32,128]的图像特征,其中该卷积层的卷积核大小为1,步长为1,输入通道数为256*64,输出特征通道数为128,卷积过程中第1~2个通道的输出特征仅和第1~64个通道的输入特征有关,第3~4个通道的输出特征仅和第65~128个通道的输出特征有关,以此类推;
将尺度2信号的空间信息保留特征提取,在空域上将其不交叠地分割为16个[W/32,H/32,512]的特征块,并将16个特征块在第三维度上依次拼接,得到尺寸为[W/32,H/32,512*16]的特征,利用组别数量为16的分组卷积对得到的特征进行通道信息融合,最终得到尺寸为[W/32,H/32,128]的图像特征,其中该卷积层的卷积核大小为1,步长为1,输入通道数为512*16,输出特征通道数为128,卷积过程中第1~8个通道的输出特征仅和第1~512个通道的输入特征有关,第9~16个通道的输出特征仅和第513~1024个通道的输出特征有关,以此类推;
将尺度3信号的空间信息保留特征提取,在空域上将其不交叠地分割为4个[W/32,H/32,1024]的特征块,并将4个特征块在第三维度上依次拼接,得到尺寸为[W/32,H/32,1024*4]的特征,利用组别数量为4的分组卷积对得到的特征进行通道信息融合,最终得到尺寸为[W/32,H/32,128]的图像特征,其中该卷积层的卷积核大小为1,步长为1,输入通道数为1024*4,输出特征通道数为128,卷积过程中第1~32个通道的输出特征仅和第1~1024个通道的输入特征有关,第33~64个通道的输出特征仅和第1025~2048个通道的输出特征有关,以此类推;
步骤2.4:将尺度4信号的空间信息保留特征提取,利用1x1的卷积层对大小为[W/32,H/32,2048]的尺度4信号进行提取,得到尺寸为[W/32,H/32,128]的特征信号;其中该卷积层输入通道2048,输出通道128;
步骤2.5:将步骤2.3与步骤2.4获得图像特征在第三维度进行拼接,得到具有空间一致性、包含多尺度信息的融合特征,其中特征尺寸为[W/32,H/32,512];
步骤2.6:基于上述特征尺寸为[W/32,H/32,512]的融合特征,放入输入通道数为512,输出通道数为2048,卷积核大小为3,步长为1的卷积层,通过分组卷积的方式控制其第1~4个输出通道仅和第1输入通道信号决定,第5~8个输出通道仅和第2输入通道信号决定,以此类推,输出特征尺寸为[W/32,H/32,2048]的融合特征;
步骤2.7:基于步骤2.6的输出结果,放入输入通道数为2048,输出通道数为2048,卷积核大小为3,步长为1的卷积层,通过分组卷积的方式控制其第1个输出通道仅和第1输入通道信号决定,第2个输出通道仅和第2输入通道信号决定,以此类推,输出特征尺寸为[W/32,H/32,2048]的融合特征;
步骤2.8:基于步骤2.7的输出结果,放入输入通道数为2048,输出通道数为512,卷积核大小为3,步长为1的卷积层,通过分组卷积的方式控制其第1个输出通道仅和第1~4输入通道信号决定,第2个输出通道仅和第5~8输入通道信号决定,以此类推,最终输出各空间位置权重信息;
步骤2.9:基于步骤2.5与步骤2.8,将融合特征与其对应的空间位置权重信息逐点相乘,并对各通道取平局值,得到维度为512的特征向量。
步骤2.10:将步骤2.9获得的特征向量放入维度为512-128-1的全连接层,通过Sigmoid激活函数将结果映射到0与1之间,具体的预测图像质量公式如下:
其中,X为输入图像,f(X;θ)为多尺度特征提取器,att(·;γ)为注意力模块,g(·;δ)为评价模块;
步骤3:利用训练样本对眼底图像质量评价网络进行训练,训练结束后,获得眼底图像质量评价模型:
训练时,针对每个评价维度,以标注标签与评价结果的交叉熵作为单评价维度的损失函数,综合考虑四个评价维度的损失函数更新眼底图像质量评价网路的参数,其中,优化器选用Adam,初始学习率设置为0.001,每20个epoch衰减0.0005。
步骤4:将待测眼底图像输入到眼底图像质量评价模型中,经计算输出值质量进行评价。
根据本实施例的眼底图像质量评价模型,还提供了一种眼底图像质量评价装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行所述计算机程序时实现以下步骤:将待检测的眼底图像输入至眼底图像质量评价模型中,经计算输出眼底图像质量的评价结果。
在测试中,本方法使用了多源域眼底照数据集,包括由普通相机拍摄的普通眼底照756张,由便携式眼底照相机拍摄眼底照202张,由激光广角相机拍摄的激光广角眼底照500张,其评价效果在亮度、模糊程度、对比度三个维度的准确性都超过92%,AUC均大于0.95,为人工智能辅助诊断的前置性工作提供了巨大的帮助,具有临床应用推广的潜力。
Claims (8)
1.一种基于多源多尺度特征融合的眼底图像质量评价方法,其特征在于,包括:
步骤1:获取多源域眼底图像包括由普通相机拍摄的普通彩色眼底照、由便携式眼底照相机拍摄的眼底照以及由激光广角相机拍摄的激光广角眼底照,并对多源域眼底图像进行关于亮度、模糊程度、对比程度以及图像的总体质量四个评价维度的标签标注,将眼底图像与标注标签组成训练样本;
步骤2:构建眼底图像质量评价网络,包括特征提取模块、融合模块、注意力模块以及评价模块,所述特征提取模块包括多尺度特征提取器,用于提取眼底图像的多尺度图像特征,所述融合模块用于融合多尺度图像特征得到融合特征,所述注意力模块用于对输入的融合特征进行注意力操作,并将注意力操作结果与输入的融合特征点乘后输入至评价模块,所述评价模块用于对输入的特征进行预测计算,以输出质量评价结果,所述质量评价结果包括亮度评价结果、模糊程度评价结果、对比度评价结果以及图像总体质量评价结果;
步骤3:利用训练样本对眼底图像质量评价网络进行训练,训练结束后,获得眼底图像质量评价模型;
步骤4:将待测眼底图像输入到眼底图像质量评价模型中,经计算输出质量评价结果。
2.根据权利要求1所述的基于多源多尺度特征融合的眼底图像质量评价方法,其特征在于,所述眼底图像输入眼底图像质量评价网络之前,进行眼底图像的预处理,包括裁剪、缩放以及获取眼部区域掩膜,预处理后的眼底图像输入至眼底图像质量评价网络。
3.根据权利要求1所述的基于多源多尺度特征融合的眼底图像质量评价方法,其特征在于,所述特征提取模块包括4个尺度的特征提取器,对应输入眼底图像的尺寸分别为原图像分辨率的1/4,1/8,1/16,1/32,每个特征提取器通过输入的眼底图像进行卷积操作,以得到图像特征,特征提取器输出的图像特征维度相同,尺寸相同。
4.根据权利要求3所述的基于多源多尺度特征融合的眼底图像质量评价方法,其特征在于,所述每个特征提取器输出的图像特征经过拼接后输入至融合模块,融合模块采用卷积层,通过对拼接后图像特征进行卷积操作,得到融合特征。
5.根据权利要求1所述的基于多源多尺度特征融合的眼底图像质量评价方法,其特征在于,所述评价模块为MLP分类器,采用MLP分类器对输入的特征进行预测计算,以输出质量评价结果。
6.根据权利要求1所述的基于多源多尺度特征融合的眼底图像质量评价方法,其特征在于,训练时,针对每个评价维度,以标注标签与评价结果的交叉熵作为单评价维度的损失函数,综合考虑四个评价维度损失函数更新眼底图像质量评价网络的参数。
7.根据权利要求1所述的基于多源多尺度特征融合的眼底图像质量评价方法,其特征在于,训练时,优化器选用Adam,初始学习率设置为0.001,每20个epoch衰减0.0005倍。
8.一种眼底图像质量评价装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机存储器中采用权利要求1-7 任一项所述的眼底图像质量评价模型;所述计算机处理器执行所述计算机程序时实现以下步骤:将待检测的眼底图像输入至眼底图像质量评价模型中,经计算输出眼底图像质量的评价结果。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210155190.9A CN114612389B (zh) | 2022-02-21 | 2022-02-21 | 基于多源多尺度特征融合的眼底图像质量评价方法和装置 |
PCT/CN2022/130452 WO2023155488A1 (zh) | 2022-02-21 | 2022-11-08 | 基于多源多尺度特征融合的眼底图像质量评价方法和装置 |
US18/191,088 US11842490B2 (en) | 2022-02-21 | 2023-03-28 | Fundus image quality evaluation method and device based on multi-source and multi-scale feature fusion |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210155190.9A CN114612389B (zh) | 2022-02-21 | 2022-02-21 | 基于多源多尺度特征融合的眼底图像质量评价方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114612389A CN114612389A (zh) | 2022-06-10 |
CN114612389B true CN114612389B (zh) | 2022-09-06 |
Family
ID=81858661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210155190.9A Active CN114612389B (zh) | 2022-02-21 | 2022-02-21 | 基于多源多尺度特征融合的眼底图像质量评价方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11842490B2 (zh) |
CN (1) | CN114612389B (zh) |
WO (1) | WO2023155488A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612389B (zh) | 2022-02-21 | 2022-09-06 | 浙江大学 | 基于多源多尺度特征融合的眼底图像质量评价方法和装置 |
CN117876890B (zh) * | 2024-03-11 | 2024-05-07 | 成都信息工程大学 | 一种基于多级特征融合的多源遥感图像分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108095683A (zh) * | 2016-11-11 | 2018-06-01 | 北京羽医甘蓝信息技术有限公司 | 基于深度学习的处理眼底图像的方法和装置 |
CN111127425A (zh) * | 2019-12-23 | 2020-05-08 | 北京至真互联网技术有限公司 | 基于视网膜眼底图像的目标检测定位方法和装置 |
CN111667490A (zh) * | 2020-05-07 | 2020-09-15 | 清华大学深圳国际研究生院 | 一种眼底图片视杯视盘分割方法 |
CN112766376A (zh) * | 2021-01-20 | 2021-05-07 | 重庆邮电大学 | 一种基于gacnn的多标签眼底图像识别方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9779492B1 (en) * | 2016-03-15 | 2017-10-03 | International Business Machines Corporation | Retinal image quality assessment, error identification and automatic quality correction |
WO2019082202A1 (en) * | 2017-10-23 | 2019-05-02 | Artificial Learning Systems India Private Limited | EARTHQUAKE IMAGE QUALITY ASSESSMENT SYSTEM |
US11138732B2 (en) * | 2018-12-21 | 2021-10-05 | Welch Allyn, Inc. | Assessment of fundus images |
WO2020183799A1 (ja) * | 2019-03-11 | 2020-09-17 | キヤノン株式会社 | 医用画像処理装置、医用画像処理方法及びプログラム |
CN110458829B (zh) * | 2019-08-13 | 2024-01-30 | 腾讯医疗健康(深圳)有限公司 | 基于人工智能的图像质控方法、装置、设备及存储介质 |
CN110837803B (zh) * | 2019-11-07 | 2022-11-29 | 复旦大学 | 基于深度图网络的糖尿病视网膜病变分级方法 |
CN111768362B (zh) * | 2020-05-13 | 2023-05-23 | 上海大学 | 基于多特征融合的全参考高动态图像质量评价方法 |
CN111784665B (zh) * | 2020-06-30 | 2024-05-07 | 平安科技(深圳)有限公司 | 基于傅里叶变换的oct图像质量评估方法、系统及装置 |
CN112434745B (zh) * | 2020-11-27 | 2023-01-24 | 西安电子科技大学 | 基于多源认知融合的遮挡目标检测识别方法 |
CN112634238B (zh) * | 2020-12-25 | 2024-03-08 | 武汉大学 | 一种基于注意力模块的图像质量评价方法 |
CN114612389B (zh) * | 2022-02-21 | 2022-09-06 | 浙江大学 | 基于多源多尺度特征融合的眼底图像质量评价方法和装置 |
-
2022
- 2022-02-21 CN CN202210155190.9A patent/CN114612389B/zh active Active
- 2022-11-08 WO PCT/CN2022/130452 patent/WO2023155488A1/zh unknown
-
2023
- 2023-03-28 US US18/191,088 patent/US11842490B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108095683A (zh) * | 2016-11-11 | 2018-06-01 | 北京羽医甘蓝信息技术有限公司 | 基于深度学习的处理眼底图像的方法和装置 |
CN111127425A (zh) * | 2019-12-23 | 2020-05-08 | 北京至真互联网技术有限公司 | 基于视网膜眼底图像的目标检测定位方法和装置 |
CN111667490A (zh) * | 2020-05-07 | 2020-09-15 | 清华大学深圳国际研究生院 | 一种眼底图片视杯视盘分割方法 |
CN112766376A (zh) * | 2021-01-20 | 2021-05-07 | 重庆邮电大学 | 一种基于gacnn的多标签眼底图像识别方法 |
Non-Patent Citations (2)
Title |
---|
"Human Visual System-Based Fundus Image Quality Assessment of Portable Fundus Camera Photographs";Shaoze Wang等;《IEEE TRANSACTIONS ON MEDICAL IMAGING》;20160430;第1046-1055页 * |
"Multi-scale PIIFD for Registration of Multi-source Remote Sensing Images";Chenzhong Gao等;《arXiv》;20210426;第1-7页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114612389A (zh) | 2022-06-10 |
US20230274427A1 (en) | 2023-08-31 |
US11842490B2 (en) | 2023-12-12 |
WO2023155488A1 (zh) | 2023-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Juneja et al. | Automated detection of Glaucoma using deep learning convolution network (G-net) | |
US20210191094A1 (en) | Real-time Pathological Microscopic Image Collection and Analysis System, Method and Device and Medium | |
Dias et al. | Retinal image quality assessment using generic image quality indicators | |
CN110211087B (zh) | 可分享的半自动糖尿病眼底病变标注方法 | |
CN114612389B (zh) | 基于多源多尺度特征融合的眼底图像质量评价方法和装置 | |
JP7366583B2 (ja) | 医用情報処理装置、方法及びプログラム | |
Figueiredo et al. | Computer-assisted bleeding detection in wireless capsule endoscopy images | |
CN111062947B (zh) | 一种基于深度学习的x光胸片病灶定位方法及系统 | |
CN114694236B (zh) | 一种基于循环残差卷积神经网络的眼球运动分割定位方法 | |
Shanthini et al. | Threshold segmentation based multi-layer analysis for detecting diabetic retinopathy using convolution neural network | |
Li et al. | Automated analysis of diabetic retinopathy images: principles, recent developments, and emerging trends | |
CN113012093B (zh) | 青光眼图像特征提取的训练方法及训练系统 | |
Karthiyayini et al. | Retinal image analysis for ocular disease prediction using rule mining algorithms | |
Yadav et al. | Computer‐aided diagnosis of cataract severity using retinal fundus images and deep learning | |
US20130222767A1 (en) | Methods and systems for detecting peripapillary atrophy | |
Gulati et al. | Comparative analysis of deep learning approaches for the diagnosis of diabetic retinopathy | |
Ríos et al. | A deep learning model for classification of diabetic retinopathy in eye fundus images based on retinal lesion detection | |
CN109711306B (zh) | 一种基于深度卷积神经网络获取面部特征的方法及设备 | |
Li et al. | Computer-aided Diagnosis (CAD) for cervical cancer screening and diagnosis: a new system design in medical image processing | |
AbdelMaksoud et al. | Diabetic retinopathy grading system based on transfer learning | |
CN116228660A (zh) | 胸部正片异常部位检测方法及装置 | |
Varnousfaderani et al. | Luminosity and contrast normalization in color retinal images based on standard reference image | |
Li et al. | A Deep-Learning-Enabled Monitoring System for Ocular Redness Assessment | |
Agarwal | Diabetic Retinopathy Segmentation in IDRiD using Enhanced U-Net | |
CN117541560A (zh) | 一种计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |