CN116563932A - 基于多任务学习的眼部图像识别方法及相关设备 - Google Patents

基于多任务学习的眼部图像识别方法及相关设备 Download PDF

Info

Publication number
CN116563932A
CN116563932A CN202310542883.8A CN202310542883A CN116563932A CN 116563932 A CN116563932 A CN 116563932A CN 202310542883 A CN202310542883 A CN 202310542883A CN 116563932 A CN116563932 A CN 116563932A
Authority
CN
China
Prior art keywords
task
eye
data
image
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310542883.8A
Other languages
English (en)
Inventor
王晓婷
刘新颖
栾欣泽
何星儒
胡深明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Dragonfly Health Technology Co ltd
Original Assignee
Liaoning Dragonfly Health Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Dragonfly Health Technology Co ltd filed Critical Liaoning Dragonfly Health Technology Co ltd
Priority to CN202310542883.8A priority Critical patent/CN116563932A/zh
Publication of CN116563932A publication Critical patent/CN116563932A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/197Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30041Eye; Retina; Ophthalmic

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Ophthalmology & Optometry (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本申请提出了一种基于多任务学习的眼部图像识别方法及相关设备,为了能够在屈光筛查的同时实现白内障筛查,在不增加额外投入,也不影响屈光筛查流程的情况下,提出依据不同领域的数据集进行多任务学习,得到同时适用于屈光度识别任务、瞳孔分割任务以及白内障识别任务的多任务图像识别模型,且相对于单任务图像识别模型,提高了图像识别性能,这样,在获得待识别眼睛的待识别眼部图像后,本申请可以直接依据这一个多任务图像识别模型对该待识别眼部图像进行处理,输出待识别眼睛在这三个任务中各自的任务参考数据,有效辅助医生快速且更精准地确定待识别眼睛在不同领域的任务识别结果。

Description

基于多任务学习的眼部图像识别方法及相关设备
技术领域
本发明主要涉及医学图像处理技术领域,尤其涉及一种基于多任务学习的眼部图像识别方法及相关设备。
背景技术
在眼睛观看外界物体时,物体发出或反射出来的光线进入眼睛的屈光系统(如角膜、晶状体等)屈折后,集合结像于视网膜。可见,眼睛的屈光程度决定了聚焦到视网膜上图像的清晰程度,如果屈光介质发生形变和/或混浊等变化,将会导致所观看到的物体扭曲、模糊,甚至不可见,严重影响患者的日常生活。
基于此,屈光检测已成为如白内障、青光眼、糖尿病以及屈光不正等各种眼科疾病的重要环节,通常是由医生可以通过观察偏心摄影验光设备所采集的患者眼部图像,结合临床经验确定患者眼睛是否患有屈光不正、白内障等眼科疾病,这对医生的专业水平要求较高,很容易因人为识别错误造成误诊。
发明内容
为了解决上述问题,本申请提出了以下技术方案:
一方面,本申请提出了一种基于多任务学习的眼部图像识别方法,所述方法包括:
获得待识别眼睛的待识别眼部图像;
依据已训练的多任务图像识别模型,对所述待识别眼部图像进行处理,获得所述待识别眼睛在不同领域的多个任务各自的任务参考数据;其中,所述多任务图像识别模型是依据所获得的所述不同领域的数据集进行多任务学习得到的,所述不同领域的数据集包括具有相应任务标签的不同眼部图像,所述多个任务包括屈光度识别任务、瞳孔分割任务以及白内障识别任务;
输出所述多个任务各自的任务参考数据,用以辅助确定所述待识别眼睛在所述不同领域的任务识别结果。
可选的,所述获得所述不同领域的数据集,包括:
获取多个样本眼睛的原始眼部图像;所述原始眼部图像是由偏心摄影验光设备采集得到;
对所述原始眼部图像进行分析,获得对应所述样本眼睛的屈光数据,将所述屈光数据确定为所述原始眼部图像的屈光度任务标签;所述屈光数据包括球镜度和柱镜度;
对所述原始眼部图像进行分割处理,获得对应所述样本眼睛的瞳孔掩膜图像以及瞳孔定位信息,将所述瞳孔定位信息确定为所述原始眼部图像的分割任务标签;
获取所述多个样本眼睛各自的晶状体浑浊数据和/或白内障类别信息,将所述晶状体混浊数据和/或所述白内障类别信息确定为相应所述原始眼部图像的白内障任务标签;所述晶状体浑浊数据和所述白内障类别信息是通过裂隙灯显微镜对相应所述样本眼睛的观察结果确定;
利用标注有所述屈光度任务标签的所述原始眼部图像、标注有所述分割任务标签和所述屈光度任务标签的瞳孔掩膜图像,以及标注有所述白内障任务标签的所述原始眼部图像,获得不同领域的数据集。
可选的,所述多任务图像识别模型包括共享编码器和属于不同领域的多个任务各自对应的解码器;
所述依据已训练的多任务图像识别模型,对所述待识别眼部图像进行处理,获得待识别眼睛在不同领域的多个任务各自的任务参考数据,包括:
将所述待识别图像输入所述共享编码器进行编码处理,获得针对所述多个任务的共享特征数据;所述共享特征数据能够表征所述多个任务之间的隐藏关系;
将所述共享特征数据分别输入所述多个任务各自对应的解码器进行处理,获得待识别眼睛在所述不同领域的多个任务各自的任务参考数据;
其中,所述多个任务各自对应的解码器的网络结构不同,且所述解码器的网络结构依据对应的所述任务类型确定。
可选的,所述将所述待识别图像输入所述共享编码器进行编码处理,获得针对所述多个任务的共享特征数据,包括:
将所述待识别图像输入所述共享编码器,通过第一尺度的卷积层进行特征提取,经过最大池化层处理后,得到第一特征图;
将所述第一特征图依次输入第二尺度的卷积层和所述第一尺度的卷积层进行特征提取,经过最大池化层处理后,得到第二特征图;
将所述第二特征图依次输入两个所述第一尺度的卷积层进行特征提取,经过最大池化层对得到的第三特征图的处理,得到针对所述多个任务的共享特征数据;
其中,所述第一尺度的卷积层中的卷积核按照第一步长进行卷积操作,所述第二尺度的卷积层中的卷积核按照第二步长进行卷积操作,所述第一步长小于所述第二步长,且所述卷积核的所述第一尺度小于所述第二尺度。
可选的,所述方法还包括:
确定所述待识别眼部图像的图像尺寸是否符合所述共享编码器的输入图像尺寸要求;
若不符合,按照所述输入图像尺寸要求对所述待识别眼部图像进行处理;
所述将所述待识别图像输入所述共享编码器,包括:
将处理后的符合所述输入图像尺寸要求的待识别眼部图像输入所述共享编码器。
可选的,所述将所述共享特征数据分别输入所述多个任务各自对应的解码器进行处理,获得待识别眼睛在所述不同领域的多个任务各自的任务参考数据,包括:
将所述共享特征数据输入针对所述屈光度识别任务的回归解码器,通过两个全连接层的回归处理,获得待识别眼睛的屈光参考数据;所述屈光参考数据包括表征所述待识别眼睛的屈光度的球镜度和柱镜度;
将所述共享特征数据输入针对所述白内障识别任务的分类解码器,通过两个全连接层的分类处理后,对分类结果进行归一化处理,获得所述待识别眼睛属于白内障类别的预测概率,和/或所述待识别眼睛的晶状体浑浊数据;所述晶状体混浊数据能够表征所述待识别眼睛的白内障级别;
将所述共享特征数据输入针对所述瞳孔分割任务的分割解码器,通过不同尺度的卷积层的特征提取后,经过多个上采样层或特征联合层对所连接的卷积层输出的特征图进行处理,将处理得到的特征图输入单位卷积层进行特征数据处理,获得所述待识别眼睛的瞳孔区域掩膜;
其中,所述不同尺度的卷积层包括多个所述第一尺度的卷积层和一个所述第二尺度的卷积层;所述特征联合层与所述共享编码器的对应卷积层连接,实现该卷积层输出的特征图与所述分割解码器中所连接的卷积层输出的特征图的特征联合操作,以增加该特征融合层在所述分割解码器中所连接的卷积层的特征提取过程所丢失的低阶特征数据。
可选的,所述依据获得的不同领域的数据集进行多任务学习,得到多任务图像识别模型,包括:
将不同领域的数据集包含的图像输入初始共享编码器进行特征提取,得到第一领域特征数据和第二领域特征数据;
对所述第一领域特征数据与所述第二领域特征数据进行最小化分布差异处理,获得针对相应样本眼睛的样本特征数据,以及所述第一领域特征数据与所述第二领域特征数据之间的最大均值差异MMD损失;
将所述样本特征数据分别输入针对所述屈光度识别任务的初始回归解码器、针对所述白内障识别任务的初始分类解码器,以及针对所述瞳孔分割任务的初始分割解码器进行处理,得到对应任务的样本参考数据;
获取不同的所述样本参考数据与输入的所述图像标注的对应任务标签之间的任务损失;
依据所述MMD损失和多个所述任务损失的加权总损失,对所述初始共享编码器、所述初始回归解码器、所述初始分类解码器和所述初始分割解码器各自的网络参数进行调整,以通过所述数据集中的图像对具有调整后的网络参数的共享编码器以及所述多个任务各自的解码器进行学习训练;
确定所述加权总损失满足训练约束条件,利用最终训练得到的共享编码器以及针对不同任务的回归解码器、分类解码器和分割解码器,获得多任务图像识别模型。
可选的,所述输出所述多个任务各自的任务参考数据,包括以下至少一种实现方式:
将所述待识别眼部图像发送至显示器进行显示,且在所述待识别眼部图像上显示所述多个任务各自的所述任务参考数据;
按照预设输出格式,生成包含所述多个任务各自的任务参考数据的眼部检测报告,输出所述眼部检测报告;
按照所述不同领域的任务识别规则,对所述多个任务各自的任务参考数据进行处理,输出所获得的相应任务识别结果。
另一方面,本申请还提出了一种基于多任务学习的眼部图像识别装置,所述装置包括
眼部图像获得模块,用于获得待识别眼睛的待识别眼部图像;
任务参考数据获得模块,用于依据已训练的多任务图像识别模型,对所述待识别眼部图像进行处理,获得所述待识别眼睛在不同领域的多个任务各自的任务参考数据;其中,所述多任务图像识别模型是依据所获得的所述不同领域的数据集进行多任务学习得到的,所述不同领域的数据集包括具有相应任务标签的不同眼部图像,所述多个任务包括屈光度识别任务、瞳孔分割任务以及白内障识别任务;
任务参考数据输出模块,用于输出所述多个任务各自的任务参考数据,用以辅助确定所述目标对象的待识别眼睛在不同领域的任务识别结果。
又一方面,本申请还提出了一种计算机设备,所述计算机设备包括:
通信接口;
存储器,用于存储实现如上述的基于多任务学习的眼部图像识别方法的程序;
处理器,用于加载执行所述存储器存储的程序,以实现如上述的基于多任务学习的眼部图像识别方法。
可见,本申请提出了一种基于多任务学习的眼部图像识别方法及相关设备,为了能够在屈光筛查的同时实现白内障筛查,在不增加额外投入,也不影响屈光筛查流程的情况下,提出依据不同领域的数据集进行多任务学习,得到适用于屈光度识别任务、瞳孔分割任务以及白内障识别任务这三个任务的多任务图像识别模型,且相对于单任务图像识别模型,提高了图像识别性能,这样,在获得待识别眼睛的待识别眼部图像后,本申请可以直接依据这一个多任务图像识别模型对该待识别眼部图像进行处理,输出待识别眼睛在这三个任务中各自的任务参考数据,有效辅助医生快速且更精准地确定待识别眼睛在不同领域的任务识别结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提出的基于多任务学习的眼部图像识别方法的一可选示例的流程示意图;
图2为本申请提出的基于多任务学习的眼部图像识别方法的另一可选示例的流程示意图;
图3为本申请提出的基于多任务学习的眼部图像识别方法的系统架构示意图;
图4为本申请提出的基于多任务学习的眼部图像识别方法的又一可选示例的流程示意图;
图5为本申请提出的多任务图像识别模型的网络结构示意图;
图6为本申请提出的基于多任务学习的眼部图像识别方法中,针对瞳孔分割任务的图像识别方法的网络结构示意图;
图7为本申请提出的基于多任务学习的眼部图像识别方法的又一可选示例的流程示意图;
图8为本申请提出的多任务图像识别模型的训练过程示意图。
图9为本申请提出的基于多任务学习的眼部图像识别装置的一可选示例的结构示意图;
图10为适用于本申请提出的基于多任务学习的眼部图像识别方法的计算机设备的一可选示例的硬件结构示意图;
图11为适用于本申请提出的基于多任务学习的眼部图像识别方法的计算机设备的另一可选示例的硬件结构示意图。
具体实施方式
针对背景技术部分的描述,随着人工智能技术的发展应用,本申请提出可以利用一种或多种人工智能算法,实现对偏心摄影验光设备所采集到的眼部图像的目标任务(辅助医生筛查如白内障、青光眼、糖尿病以及屈光近视等任一种眼科疾病的图像数据识别任务,本申请以屈光度识别任务、瞳孔分割任务以及白内障识别任务这三类任务为例进行说明)特征提取,据此分析得到该目标任务的任务参考数据,以辅助医生快速确定患者的病情,相对于医生凭借临床经验对患者眼部图像进行分析,获得相应任务参考数据的处理方式,这种基于人工智能算法的眼部图像识别方法,提高了识别效率和准确性,减少了人为因素造成的误诊情况的发生,能够可靠且有效辅助医生确定患者病情。
然而,在上文描述的眼部图像识别过程中,都是针对单一任务(如屈光度识别任务、瞳孔分割任务以及白内障识别任务之中的任一种)训练对应的图像识别模型,由于该模型训练过程中并不会考虑该任务与其他任务之间的隐藏关系,往往导致针对单一任务所提取的特征数据不准确和全面,这就回影响据此训练得到的针对该单一任务的图像识别模型的识别精准度,无法可靠且有效辅助医生识别患者病情,甚至可能会给临床经验不丰富的医生造成不利干扰。
为了改善上述问题,本申请提出采用多任务学习架构,训练多任务图像识别网络,在不增加硬件投入和检查步骤,也不会影响已有屈光筛查(即一个领域)流程的前提下,融入另一领域的筛查任务,同时满足不同领域的多任务筛查需求。经过研究可知,由于不同任务所具有的噪声模式不同,通过跨域多任务学习方式,能够获得更一般的特征表达;此外,在多任务之间具有紧密的隐藏表达,包含单一任务不具备的特征表达。
因此,通过跨领域的多任务学习方式,对来自不同领域的眼部图像样本进行训练学习,通过提取满足不同任务需求的更多且准确的特征数据,据此训练得到具有更高性能和泛化力的多任务图像识别模型。在实际应用中,依据该多任务图像识别模型对实际采集到的待识别眼部图像进行特征提取,获得满足多个任务识别需求的共享特征数据,之后,按照不同任务的处理需求,对该共享特征数据进行分析,可以准确得到多个任务各自的任务参考数据。
例如,在多任务图像识别模型所适用的多个任务包括屈光度识别任务、瞳孔分割任务以及白内障识别任务的情况下,由该模型直接输出的多个任务各自的任务参考数据可以为:待识别眼睛的屈光数据(如球镜度和柱镜度等)、晶状体浑浊程度(即白内障分级结果)和/或属于白内障类别的预测概率/分数等白内障类别信息、瞳孔分割结果(如瞳孔区域掩膜,用以满足各种瞳孔定位信息的获取需求,或直接识别得到对应的瞳孔定位信息)等,之后,可以输出这些任务参考数据,辅助医生快速且准确实现多种眼科疾病筛查,精准评估患者的实际病情。
可见,本申请可以在不增加硬件投入和检查步骤,也不影响正常屈光筛查流程的前提下,将白内障眼科疾病筛查融入到屈光筛查中,相对于针对每一眼科疾病筛查任务,训练对应任务的图像识别模型,对所采集的眼部图像进行处理,输出该任务参考数据的实现方法,本申请这种基于多任务学习的眼部图像识别方法,通过多个任务之间的共享特征数据,能够同时得到多个任务各自的任务参考数据,提高了视力筛查的效率、精准度和多样性,更好地辅助医生确定患者所具有的各眼科疾病。应该理解,在需要获得用于辅助筛查其他类型眼科疾病的任务参考数据时,可以按照本申请提出的基于多任务学习的眼部图像识别方法,获得对应的多任务图像识别模型实现,实现过程类似,本申请不做一一举例详述。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合,也就是说,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
其中,本发明中使用流程图用来说明根据本发明的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
结合上文对本发明提出的基于多任务学习的眼部图像识别方法的技术构思的相关描述,下面将结合因患者眼睛的屈光不正、晶状体浑浊等屈光系统功能障碍,导致近视、白内障、糖尿病眼部并发症、眼眶肿瘤等眼科疾病的应用场景为例,来详细说明本发明提出的基于多任务学习的眼部图像识别方法,其包括但并不局限于下文各实施例描述的实现方法。
参照图1,为本申请提出的基于多任务学习的眼部图像识别方法的一可选示例的流程示意图,该方法可以适用于计算机设备,该计算机设备可以是服务器,和/或是具有一定数据处理能力的终端设备。该服务器可以是独立的物理服务器,也可以是多个物理服务器集成的服务器集群,还可以是具有云计算能力的云服务器等;该终端设备可以包括但并不局限于:智慧医疗设备、机器人、台式计算机等,终端设备可以与服务器交互实现本申请提出的基于多任务学习的眼部图像识别方法,可以依据场景需求确定。
如图1所示,本实施例提出的基于多任务学习的眼部图像识别方法可以包括但并不局限于以下步骤:
步骤S11,获得待识别眼睛的待识别眼部图像;
本申请实际应用中,可以由偏心摄影验光设备(如红外偏心摄影验光仪)采集待识别眼睛的眼部图像(如红外瞳孔图像),记为待识别眼部图像,以便按照本申请提出的基于多任务学习的眼部图像识别方法,快速且准确从该待识别眼部图像中获得多个任务各自的任务参考数据,辅助医生筛查待识别眼睛是否具有屈光不正、白内障等眼部疾病。本申请对该偏心摄影验光设备的图像采集过程不做详述。
其中,在如偏心摄影验光设备等医学影像设备为上述计算机设备的情况下,可以直接对采集到的待识别眼部图像执行本申请提出的基于多任务学习的眼部图像识别方法。可选的,在该医学影像设备未配置实现本申请提出的基于多任务学习的眼部图像识别方法的指令代码的情况下,在医学影像设备采集到待识别眼部图像后,可以通过有线或无线通信网络,将该待识别眼部图像传输至计算机设备,此时,对于计算机设备来说,可以从该医学影像设备获得待识别眼部图像,执行本申请提出的基于多任务学习的眼部图像识别方法。本申请对步骤S11的实现方式不做限制。
步骤S12,依据已训练的多任务图像识别模型,对待识别眼部图像进行处理,获得待识别眼睛在不同领域的多个任务各自的任务参考数据;该多任务图像识别模型是依据所获得的不同领域的数据集进行多任务学习得到的,不同领域的数据集包括具有相应任务标签的不同眼部图像,多个任务包括屈光度识别任务、瞳孔分割任务以及白内障识别任务;
结合上文对本申请技术方案的相关描述,在对待识别眼睛的眼部图像进行分析过程中,为了能够同时预测出不同领域相关联的多个任务各自的任务参考数据,也就是在屈光检查过程中,即获得待识别眼部图像中的屈光数据的过程中,能够同时获得晶状体浑浊程度和/或属于白内障类别的预测概率/分数等白内障类别信息,来辅助医生筛查待识别眼睛是否患有白内障,可以先基于跨领域的多任务学习方法,对各类样本眼睛的眼部图像进行训练学习,得到适用于多任务图像识别需求的一个多任务图像识别模型,从而通过这一个多任务图像识别模型,完成用于屈光筛查和白内障筛查的任务参考数据的自动识别。关于该多任务图像识别模型的训练学习过程,可以参照但并不局限于下文实施例对应部分的描述,本实施例在此不做详述。
其中,在多任务图像识别模型的训练过程中,可以依据实际视力筛查需求,确定多个任务的类型及其所属领域,即筛查领域,本申请以屈光筛查领域和白内障筛查领域,以及对应的屈光度识别任务、瞳孔分割任务以及白内障识别任务这三个图像识别任务为例进行说明,对于其他筛查领域及其所需的图像识别任务类型的模型训练方法类似,本申请不做举例详述。
基于此,本申请可以将获得的待识别眼部图像输入已经训练好的多任务图像识别模型进行处理,利用屈光度识别任务、瞳孔分割任务以及白内障识别任务之间学习到的硬共享特性进行特征提取,获得同时符合屈光筛查和白内障筛查需求的图像数据,即共享特征数据,之后,按照不同任务实际识别需求,分别对该共享特征数据进行分析,可以获得对应的多个任务参考数据。相对于调用训练好的针对每一任务的图像识别模型对待识别眼部图像进行处理,获得满足该任务识别需求的任务参考数据的实现方法,提高了图像识别效率。且相对于单任务网络,多任务学习网络性能得到明显提升,经过跨领域多任务学习训练的网络,具有更高的准确率和敏感性,大大提高了待识别眼部图像的识别精准度。
需要说明,对于上述多任务图像识别模型可以是利用不同领域的训练数据集进行训练后,经过不同领域的验证数据集的模型验证,以及测试数据集的模型测试,优化后的多任务图像识别模型,以保证对实际采集到待识别眼部图像的处理结果的可靠性和精准度。
步骤S13,输出多个任务各自的任务参考数据,用以辅助确定待识别眼睛在不同领域的任务识别结果。
对于多任务图像识别模型对待识别眼部图像进行处理,所得到的多个任务各自的任务参考数据,可以直接在计算机设备的显示器上进行显示,如在该显示器所输出的待识别眼部图像上显示多个任务参考数据,或者在区别于待识别眼部图像所在的显示区域的另一显示区域输出多个任务参考数据,或者独自显示多个任务参考数据等,本申请对显示器输出多个任务参考数据的实现方式不做限制。
可选的,对于多任务图像识别模型输出结果,还可以按照预设输出格式,生成包含待识别眼睛的多个任务参考数据的眼部检测报告,再输出该眼部检测报告,如通过显示器显示输出、通过计算机设备配置的或通信连接的语音播放设备输出,或者计算机设备也可以发送至所连接的打印设备,由打印设备对该眼部检测报告进行打印输出,以方便患者或其他医生查看等,本申请对多个任务参考数据的输出方式不做限制,可以依据实际需求确定。
在一些实施例中,对于多任务图像识别模型同时获得的屈光度识别任务、瞳孔分割任务以及白内障识别任务各自的任务参考数据,可以按照但并不局限于上文描述的方法输出,还可以依据对应屈光筛查领域和白内障筛查领域各自的筛查规则,对相应的至少一个任务参考数据进行处理,得到相应领域的任务识别结果后输出,以辅助医生快速且准度地确定待识别眼睛的视力情况。
参照图2,为本申请提出的基于多任务学习的眼部图像识别方法的另一可选示例的流程示意图,本实施例可以对上文提出的基于多任务学习的眼部图像识别方法的一可选细化实现方式进行描述,如图2所示,该方法可以包括但并不局限于:
步骤S21,获得待识别眼睛的待识别眼部图像;
关于步骤S21的实现过程,可以参照上下文相应部分的描述,本实施例在此不做详述。
步骤S22,将待识别眼部图像输入已训练的多任务图像识别模型中的共享编码器进行编码处理,获得针对不同领域的多个任务的共享特征数据;该共享特征数据能够表征这多个任务之间的隐藏关系;
结合上下文对多任务图像识别模型的获得过程的相关描述,在跨领域的多任务学习过程中,所学习的编码器主要是以硬参数共享为主,记为共享编码器,参照图3所示的基于多任务学习的眼部图像识别方法的系统架构示意图,该硬参数共享是利用整个主干网络作为共享网络,对多个任务信息进行编码,即识别多个任务之间共享的一些信息,共享这些信息,将相关联的多个任务放在一起进行学习,以使所学习的网络具有更好的性能和泛力。
其中,共享编码器可以使用卷积神经网络构建,本实施例对其网络结构不做详述,可以依据不同领域的多个任务的特征(如领域特征和图像特征等)提取需求确定。在实际应用中,为了提取更加丰富、准确的特征,该共享编码器可以包括不同尺度的卷积层,通过不同大小的卷积核,按照不同的步长对所接收的特征图进行卷积操作,提取到不同尺度下的感受野信息,再经过上采样,得到更丰富的共享特征数据,实现过程本申请不做详述。
需要说明,由于共享编码器的学习过程中,是利用不同领域的数据集进行多任务学习得到,不仅考虑到每个任务所具有的特征表达,还考虑到相关联的多个任务之间具有紧密的隐藏关系,以及单个任务所不具有的特征表达,以使编码处理后的共享特征数据可以包括更丰富的领域特征和图像特征,能够满足不同领域的多个任务各自的识别需求。
步骤S23,将该共享特征数据输入该多任务图像识别模型中多个任务各自的解码器进行处理,获得待识别眼睛在不同领域的多个任务各自的任务参考数据;
继上文对多任务图像识别模型的相关描述,为了能够依据同一输入图像(即上述待识别眼部图像),通过这一个多任务图像识别模型,同时获得多个任务各自的任务参数数据,在构建多任务图像识别模型时,将为每一个任务配置了一个解码器,以学习从共享编码器得到的共享特征数据到模型输出的映射,分别预测得到同一待识别眼睛的不同任务的任务参考数据,如待识别眼睛的球镜度和柱镜度、瞳孔区域掩膜、瞳孔定位信息、晶状体浑浊程度/白内障类别信息等。
其中,上述列举的多个任务各自对应的解码器的网络结构可以不同,各解码器的网络结构依据对应的任务类型确定。可选的,如图3所示,屈光度识别任务的解码器可以采用回归网络构建,可以记为回归解码器;瞳孔分割任务的解码器可以采用分割网络构建,可以记为分割解码器;白内障识别任务的解码器可以采用分类网络构建,如二分类器等,可以记为分类解码器等,对于各解码器的网络结构内容可以参照但并不局限于下文实施例对应部分的描述,本实施例在此不做详述。
需要说明,由于上述共享编码器和多个任务各自对应的解码器是采用跨领域的多任务学习方式得到,在训练学习过程中,获得各网络输出损失后,对其进行加权求和,依据得到的总损失,调整各网络(即共享编码器和多个解码器)的参数,相对于单任务网络的训练学习方法,本申请这种基于跨域多任务学习的网络性能更高,且具有更高的准确率和敏感性,从而提高了多个任务参考数据的精准度,有效辅助医生获得不同领域的任务识别结果。
步骤S24,按照预设输出格式,生成包含多个任务各自的任务参考数据的眼部检测报告,输出该眼部检测报告。
对于多任务图像识别模型处理待识别眼部图像所得到的多个任务参考数据,可以依据医生以及患者的需求,确定其对应的输出方式,据此输出这多个任务参考数据,包括但并不局限于本申请上下文相应部分描述的输出实现方法。
在步骤S24中描述的任务参考数据的输出方法中,预设输出格式可以是视力筛查机构(如医院或社区等)或医学检测设备生产机构或筛查人员等确定的报告格式,通常可以记录不同类型的任务参考数据的显示方式、在整个显示区域中的显示位置(即不同任务参考数据之间的显示布局)等,计算机设备可以按照该预设输出格式,对获得的多个任务参考数据进行处理,得到待识别眼睛的眼部检测报告,通过计算机设备自身的显示器进行显示,或发送至其他设备(如预先绑定的终端设备)进行显示或打印输出等,本申请对眼部检测报告的输出方式不做限制,可视情况而定。
可选的,在上述眼部检测报告生成过程中,还可以按照不同领域的任务识别规则,对多个任务参考数据进行处理,获得对应的任务识别结果,如将所得到的球镜度和柱镜度,分别与对应的用于区分近视和远视的屈光阈值进行比较,来确定待识别眼睛属于近视类别或远视类别,还可以进一步确定近视或远视的屈光度等屈光识别结果,
对于晶状体浑浊程度这一任务参考数据,可以按照预设分级规则,将待识别眼睛的晶状体混浊程度与各晶状体混浊级别(即白内障级别)对应的晶状体浑浊程度范围进行比较,确定待识别眼睛所属的白内障级别,以辅助医生确定对待识别眼睛的治疗方式。同理,若该任务的任务参考数据是白内障类别信息,如待识别眼睛患有白内障的预测概率/预测分数等,可以将其或与对应白内障分类阈值的比较结果确定为任务识别结果,添加至眼部检测报告中对应任务参考数据的识别结果显示区域,以供医生和患者查看。
此外,对于瞳孔区域掩膜这一任务参考数据,可以对其进行分析,获得如瞳距、瞳孔大小、瞳孔收缩曲线等瞳孔定位信息,这样,在输出的眼部检测报告中不仅可以显示待识别眼睛的瞳孔区域掩膜,还可以显示对应的瞳孔定位信息,据此辅助医生实现待识别眼睛的视力筛查,提高了筛查结果的可靠性和准确性,也可以辅助医生确定白内障治疗方案等。
由此可见,对于上述眼部检测报告的内容,可以依据多个任务的识别需求确定,包括但并不局限于上文部分描述的内容及其输出方式,且根据实际需求的变化,可以对预设输出格式进行适应性调整,以更新所得眼部检测报告,实现过程不做详述。
参照图4,为本申请提出的基于多任务学习的眼部图像识别方法的又一可选示例的流程示意图,本实施例可以对上文提出的基于多任务学习的眼部图像识别方法的另一可选细化实现方式进行描述,如图4所示,该方法可以包括但并不局限于以下步骤:
步骤S41,获得待识别眼睛的待识别眼部图像;
关于步骤S41的实现过程,可以参照上下文相应部分的描述,本实施例在此不做详述。
步骤S42,将待识别眼部图像输入已训练的多任务图像识别模型中的共享编码器,通过第一尺度的卷积层进行特征提取,经过最大池化层处理后,得到第一特征图;
步骤S43,将第一特征图依次输入第二尺度的卷积层和第一尺度的卷积层进行特征提取,经过最大池化层处理后,得到第二特征图;
步骤S44,将第二特征图依次输入两个第一尺度的卷积层进行特征提取,经过最大池化层对得到的第三特征图的处理,得到针对多个任务的共享特征数据;
结合上文对多任务图像识别模型的相关描述,参照图5所示的多任务图像识别模型的网络结构示意图,共享编码器可以由多尺度的卷积神经网络构成,关于该卷积神经网络中各卷积层的卷积核尺度,可以依据待识别眼部图像(其可以是灰度图)的尺寸确定,本申请对各卷积核的尺度及其执行卷积操作的步长不做限制。其中,上述步骤描述的不同卷积层中卷积核的第一尺度小于第二尺度,第一尺度的卷积核按照第一步长进行卷积操作(如卷积核的滑动),第二尺度的卷积核可以按照第二步长进行卷积操作,该第一步长小于第二步长,本申请对各层网络的超参数数值不做限制,可视情况而定。
在一些实施例中,如图5所示,共享编码器可以依次由卷积核尺度为3×3(记为第一尺度)、步长为1的卷积层,MaxPool池化层(最大池化层),卷积核尺度为11×11(记为第二尺度)、步长为2的卷积层,卷积核尺度为3×3、步长为1的卷积层,MaxPool池化层,两个卷积核尺度为3×3、步长为1的卷积层,以及MaxPool池化层构成。其中,图5中各网络层表示的超参数依次可以表示为输入通道、卷积核大小、输出通道、步长以及填充,但并不局限于这些超参数类型及其表示形式。
基于此,待识别眼部图像输入共享编码器后,直接由大小为3×3、步长为1的卷积层)对待识别眼部图像的卷积操作,即特征提取操作,将所得到的特征数据输入MaxPool池化层处理,以减少计算量和防止过拟合,得到第一特征图后,顺次输入大小为11×11、步长为2的卷积层进行卷积操作,将得到的特征图继续输入大小为3×3、步长为1的卷积层进行卷积操作,实现不同尺度特征提取,再经过最大池化层处理,得到具有不同层级丰富的特征数据的第二特征图,再将其依次输入两个大小为3×3、步长为1的卷积层进行卷积操作,经过最大池化层对提取到的特征数据的处理,得到共享特征数据。关于上述各网络层对输入数据的处理过程,本申请实施例不做详述。
可见,相对于单一任务网络的编码器所得到的特征数据,本申请按照上述方法得到的共享特征数据包含更加丰富的领域特征和图像特征,更好地满足该单一任务的图像识别需求,同时也能够满足相关联的其他任务的图像识别需求,提高了对同一输入图像的多任务图像识别效率和准确性。
需要说明的是,在将待识别输入训练好的共享编码器之前,可以先确定待识别眼部图像的图像尺寸是否符合共享编码器的输入图像尺寸要求,若不符合,可以按照该输入图像尺寸要求对待识别眼部图像进行处理,再将处理后的符合该输入图像尺寸要求的待识别眼部图像输入共享编码器,按照上文描述的方法进行多尺度特征提取,得到预设的多个任务所需的共享特征数据,即共享特征图。
步骤S45,将共享特征数据输入针对屈光度识别任务的回归解码器,通过两个全连接层的回归处理,获得待识别眼睛的屈光参考数据;
在实际应用中,为了准确筛查待识别眼睛是否有屈光不正的视力问题,本申请构建的多任务图像识别模型包含有针对屈光度识别任务的回归解码器,对上述共享特征数据进行处理,获得待识别眼部图像中的屈光数据,作为待识别眼睛的屈光参考数据,如表征待识别眼睛的屈光度的球镜度和柱镜度等数值,由此辅助医生确定待识别眼睛是否近视或远视,即准确筛查待识别眼睛是否患有屈光不正。
步骤S46,将共享特征数据输入针对白内障识别任务的分类解码器,通过两个全连接层的分类处理后,对分类结果进行归一化处理,获得待识别眼睛属于白内障类别的预测概率;
由于白内障是一种屈光介质(晶状体)浑浊的眼科疾病,晶状体位于眼睛光通路的正中,若其浑浊将会直接影响患者的日常生活,提出将白内障筛查添加到屈光检查中,以便提早发现白内障患者,减少白内障致盲发生的可能。对此,按照上文描述的技术方案,本申请将在不增加硬件投入和检查步骤,且不影响正常屈光筛查流程的前提下,采用跨领域的多任务学习技术,获得用于屈光筛查和内障筛查的多任务图像识别模型,即在其解码网络中增加针对白内障识别任务的分类解码器,关于模型结构可以参照上下文相应部分的描述,本实施例不做详述。
基于此,按照上文描述的方法获得共享特征数据后,在进行屈光度识别过程中的同时,也可以将该共享特征数据输入分类解码器,在该分类解码器中,如图5所示,可以通过顺次连接的两个全连接层对输入特征数据进行分类处理,经过一个Softmax激活函数的归一化处理后,获得其在白内障类别和非白内障类别这两类标签上产生的概率分布,确定待识别眼睛属于白内障类别的预测概率,以便通过该预测概率与预设的白内障阈值(其可以是依据经验或大量试验确定的区分眼部图像是否为白内障患者眼部图像的临界概率,本申请对其数值不做限制)的比较结果,确定待识别眼睛是否患有白内障。
需要说明,对于上述分类解码器输出结果,包括但并不局限于步骤S46描述的预测概率,也可以是据此得到的预测分数,还可以是待识别眼睛的晶状体浑浊数据(如上述晶状体混浊程度),该晶状体混浊数据能够表征待识别眼睛的白内障级别。基于此,分类解码器也可以输出待识别眼睛属于白内障类别的预测概率和晶状体浑浊数据等白内障类别信息,本申请对分类解码器输出内容不做限制,可以依据实际需求调整模型训练过程中该白内障识别任务的任务标签内容,以使得分类解码器可以输出对应内容,实现过程本实施例不做详述。
步骤S47,将共享特征数据输入针对瞳孔分割任务的分割解码器,通过不同尺度的卷积层的特征提取后,经过多个上采样层或特征联合层对所连接的卷积层输出的特征图进行处理,将得到的特征图输入单位卷积层进行特征数据处理,获得待识别眼睛的瞳孔区域掩膜;
继上述分析,在屈光筛查过程中,为了准确获得如瞳孔大小、瞳孔位置、眼距信息、注视方向、瞳孔收缩曲线等瞳孔定位信息,还需要获得待识别眼部图像的瞳孔区域掩膜,即瞳孔区域的掩膜图像,因此,在构建多任务图像识别模型的解码网络时,还可以配置针对瞳孔分割任务的分割解码器,该分割解码器可以采用但并不局限于图像语义分割深度网络(如SegNet网络结构)构建。
基于此,参照图6所示的针对瞳孔分割任务的图像识别方法的网络结构示意图,在上文描述的共享编码器的网络结构的基础上,可以采用SegNet算法构建分割解码器,确定该分割解码器中各网络层的参数。如图6所示,由于分割解码器中某些网络层对输入数据的处理,需要依据共享编码器中对应卷积层的处理结果实现,以补充对应卷积层所执行的卷积操作过程中所丢失的低阶特征数据,可见,在共享编码器的网络结构发生变化后,分割解码器的网络结构可以对应调整,以保证输出结果的准确性,该调整过程可以通过模型训练过程中,共享编码器与各解码器的同步学习得到,本实施例在此不做详述。
因此,上述分割解码器中不同尺度的卷积层可以包括多个第一尺度的卷积层和一个第二尺度的卷积层;特征联合层与共享编码器的对应卷积层连接,实现该卷积层输出的特征图与分割解码器中所连接的卷积层输出的特征图的特征联合操作,以增加该特征融合层在分割解码器中所连接的卷积层的特征提取过程所丢失的低阶特征数据。
示例性的,结合图5所示的共享编码器中各网络层参数的相关描述,对于输入分割解码器的共享特征数据,按照构成该分割解码器的各网络层,可以先由卷积核大小为3×3、步长为1的卷积层对共享特征数据进行特征提取,以丰富特征数据,经过大小为2×2,步长为2的上采样层(可以是具有ReLU激活函数的upsampling层,该激活函数类型可以依据共享编码器中不同卷积层之间的池化层所采用的激活函数类型确定,并不局限于这一种激活函数,可以依据实际需求进行适应性调整)处理,还原图像原始尺寸,以使处理得到的特征图的尺寸符合下一层卷积层的输入图像尺寸要求,如图5所示,仍可以由卷积核大小为3×3、步长为1的卷积层对输入的特征图进行特征提取,实现过程本实施例不做详述。
为了弥补共享编码器对待识别眼部图像的编码处理过程中,各卷积层对输入特征图执行卷积操作所丢失的低阶特征数据,分割解码器的第四网络层可以采用特征联合层,其可以获得上一卷积层以及共享编码器中对应卷积层输出的特征图,对获得的特征图中的特征数据进行特征联合操作,即concatenate操作。
之后,可以按照上文描述的卷积层、上采样层、卷积层和特征联合层的顺次处理过程,重复四次处理,以重复还原图像特征数据,保证输出结果的精准度。需要说明,在该处理过程中,为了获得更大视野特征数据,在第三次重复执行该过程时,第二个卷积层的卷积核尺度可以是11×11,卷积操作的步长可以为2,但并不局限于此。
另外,对应最后一个特征联合层输出的特征数据,经过大小为3×3、步长为1的卷积层的特征提取操作后,可以采用带有sigmoid激活函数的单位卷积层进行特征提取,降低输出通道数量,得到待识别眼睛的瞳孔区域掩膜。关于分割解码器中各网络层对输入数据的处理过程,可以依据对应网络层的类型及其具有的网络参数实现,本实施例不做详述。
步骤S48,对瞳孔区域掩膜进行处理,获得待识别眼睛的瞳孔定位信息;
本申请可以依据实际所需的瞳孔定位信息内容,采用相应的计算方式,对瞳孔区域掩膜进行处理,如计算瞳距、识别瞳孔大小,通过连续多帧待识别眼部图像的瞳孔区域掩膜的瞳孔大小,构建瞳孔收缩曲线等,本申请对步骤S48的实现过程不做限制,可视情况而定。
步骤S49,输出待识别眼睛的屈光参考数据、属于白内障类别的预测概率、瞳孔区域掩膜以及瞳孔定位信息。
关于步骤S49的输出方式,可以参照上下文相应部分的描述实现,本实施例在此不做详述。另外,对于同一个多任务图像识别模型得到的待识别眼睛的不同任务参考数据,也可以采用不同的输出方式进行输出,可以依据实际需求确定。
参照图7,为本申请提出的基于多任务学习的眼部图像识别方法的又一可选示例的流程示意图,本实施例可以对上下文涉及到的多任务图像识别模型的训练学习过程进行描述,如图7所示,该方法可以包括:
步骤S71,获取多个样本眼睛的原始眼部图像;
结合上文对多任务图像识别模型的相关描述,本申请可以采用跨领域的多任务学习技术实现,在获得不同领域的数据集过程中,可以先通过偏心摄影验光设备等医学检测设备采集不同样本眼睛的原始眼部图像,如红外瞳孔图像,再获得对应的屈光筛查领域和白内障筛查领域各自的任务标签,得到具有不同领域的任务标签的眼部图像。
其中,为了提高模型训练可靠性和准确性,对于上述多个样本眼睛可以是不同类型的眼睛,如具有近视或远视或白内障等至少一种眼科疾病的患者的眼睛,对于患者的眼睛可以是不同程度眼科疾病患者的眼睛,还可以包括不具有眼科疾病的患者的眼睛等,本申请对多个样本眼睛的类型不做限制。
步骤S72,对原始眼部图像进行分析,获得对应样本眼睛的屈光数据,将屈光数据确定为原始眼部图像的屈光度任务标签;
其中,屈光数据可以包括球镜度和柱镜度等屈光度数值,本申请对如何从原始眼部图像中获得屈光数据的计算方法不做限制,可以依据对应屈光数据的计算原理确定。为了实现有监督训练方法,本申请可以将该屈光数据确定为对应样本眼睛的原始眼部图像的屈光度任务标签。
步骤S73,对原始眼部图像进行分割处理,获得对应样本眼睛的瞳孔掩膜图像以及瞳孔定位信息,将该瞳孔掩膜和瞳孔定位信息确定为原始眼部图像的分割任务标签;
本申请实施例中,可以采用分割算法对原始眼部图像进行分割处理,确定瞳孔区域掩膜图像,即瞳孔掩膜图像,根据需要还可以进一步对该瞳孔掩膜图像进行处理,获得如上文描述的瞳孔定位信息,以将该瞳孔掩膜图像和瞳孔定位信息确定为对应原始眼部图像的分割任务标签。
可选的,本申请也可以在获得同一样本眼睛的同一原始眼部图像的屈光数据和瞳孔定位信息后,将其添加至该原始眼部图像或其瞳孔掩膜图像上,将具有相应分割任务标签的图像确定为样本图像,用于实现后续的模型训练。
步骤S74,获取多个样本眼睛各自的白内障类别信息,将该白内障类别信息确定为相应原始眼部图像的白内障任务标签;
结合上文对本申请技术方案的相关描述,本申请希望在辅助实现屈光检查的同时实现白内障筛查,因此,在获取用于模型训练(根据需要还可以包括模型验证和模型测试)的数据集过程中,按照上文描述的方法,从原始眼部图像中,获得屈光筛查领域的屈光识别任务和瞳孔分割任务各自的任务标签的同时,还可以获得白内障筛查领域的白内障识别任务的白内障任务标签。
因此,对于上述多个样本眼睛的原始眼部图像,可以由医生依据专业技术从中确定出其是否为白内障患者的眼部图像,如可以使用裂隙灯显微镜观看对应样本眼睛,对裂隙灯显微镜采集到的该样本眼睛的图像数据进行分析,确定该样本眼睛是否为白内障患者的眼睛,将由此得到的白内障类别信息输入至计算机设备,确定为对应样本眼睛的各原始眼部图像的白内障任务标签,关于白内障类别信息的输入方式本申请不做限制,可视情况而定。
在又一些实施例中,在上述白内障类别信息的获取过程中,还可以从裂隙灯显微镜或偏心摄影验光设备等医学检测设备采集到的眼部图像中,获得对应样本眼睛的晶状体浑浊数据,如由专业医生通过裂隙灯显微镜对相应样本眼睛的观察结果确定,之后,可以将该晶状体浑浊数据和白内障类别信息确定为白内障任务标签,用以后续模型训练学习。
步骤S75,利用标注有屈光度任务标签的原始眼部图像、标注有分割任务标签和屈光度任务标签的瞳孔掩膜图像,以及标注有白内障任务标签的原始眼部图像,获得不同领域的数据集;
继上述分析,为了满足对同一眼睛在屈光筛查领域(为了方便描述记为第一领域)和白内障筛查领域(为了方便描述记为第二领域)的同时筛查需求,本申请将采用跨领域的多任务学习技术进行模型训练,在准备模型训练所需的数据集时,可以按照上文描述的方法分别获得不同领域各自的数据集,如对于每一样本眼睛的每一原始眼部图像,按照但并不局限于上文描述的方法,获得标注有屈光度任务标签的原始眼部图像、标注有分割任务标签和屈光度任务标签的瞳孔掩膜图像(其也可以是标注有分割任务标签的原始眼部图像,或者标注有分割任务标签和屈光度任务标签的原始眼部图像等),构成第一领域的数据集。同理,对于每一样本眼睛的每一原始眼部图像,按照但并不局限于上文描述的方法,获得白内障任务标签的原始眼部图像,构成第二领域的数据集。
步骤S76,基于跨领域的多任务学习方式,构建初始图像识别模型;该初始图像识别模型包括初始共享编码器,以及针对屈光度识别任务的初始回归解码器、针对白内障识别任务的初始分类解码器,以及针对瞳孔分割任务的初始分割解码器;
关于初始图像识别模型的网络结构,可以参照上文图5和图6的相关描述,本实施例在此不做详述。
应该理解,对于不同领域的数据集包含的各图像,即按照上述步骤描述的方法所获得的具有各任务标签的图像,其图像尺寸与上述初始图像识别模型对输入图像的图像尺寸要求一致,具体可以按照所获得的数据集包含的各图像的图像尺寸,确定初始图像识别模型中网络层对输入图像尺寸要求,以使得所构建的初始图像识别模型适应输入图像的尺寸,实现过程本申请不做详述。
步骤S77,将不同领域的数据集包含的图像输入初始共享编码器进行特征提取,得到第一领域特征数据和第二领域特征数据;
参照图8所示的多任务图像识别模型的训练过程示意图,按照上述方法获得第一领域的数据集和第二领域的数据集后,可以将来自不同领域的图像输入初始共享编码器进行跨领域的特征提取,实现过程可以结合上文对共享编码器的网络结构的相关描述,经过不同尺度的卷积层,以及部署在卷积层之间的最大池化层的处理后,可以得到第一领域特征数据(即特征向量)和第二领域特征数据(即特征向量),处理过程本实施例在此不做详述。
为了方便描述,对于上述获得的不同领域的数据集D可以表示为:
其中,可以表示第k个领域的数据集,由于本申请获得两个领域的数据集,因此,k=2;/>可以表示两个领域下的第m个任务的任务标签,本申请对图像的识别任务可以包括屈光度识别任务、白内障识别任务、瞳孔分割任务这三类任务,按照上述方法获得对应任务标签,因此,m=3。i可以表示数据集包含的图像数量。
基于此,上述公式(1)中,可以表示第一领域的数据集,/>可以表示第二领域的数据集,/>可以表示第i个图像的屈光度识别任务的任务标签;/>可以表示第i个图像的屈光度任务标签;/>可以表示第i个图像的分割任务标签;/>可以表示第i个图像的白内障任务标签。第k个任务的输出结果(即任务参考数据)可以表示为:
在对初始图像识别模型进行多任务学习过程中,所使用的损失函数可以表示为:
上述公式(3)中,ζ可以表示一个经验损失。模型中的每个任务(三个解码器各自对应的任务)都有自己的权重λ来平衡系统损失。在跨领域的多任务学习过程中,可以引入了最小化分布差异的方法,来统合不同领域引入的特征差异,因此,可以在公式(3)的基础上,可以增加最小化分布差异的损失计算,即共享编码器输出损失计算,以提高训练所得模型的输出准确性。
步骤S78,对第一领域特征数据与第二领域特征数据进行最小化分布差异处理,获得针对相应样本眼睛的样本特征数据,以及第一领域特征数据与第二领域特征数据之间的最大均值差异MMD损失;
继上述分析,为了减小不同领域的特征数据差异,本申请可以采用MMD(MaximumMean Discrepancy,最大均值差异)方式(即用于度量两个不同但相关的随机变量的分布的距离的损失函数),获得不同领域的特征分布之间的距离,通过不断缩小特征分布距离,来减小不同领域的特征差异,获得多任务学习的共享特征数据。若将上述两个领域中的一个领域作为源域,另一个领域可以作为目标域,两者各自的数据集可以分别记为Ds={x1,x2,...,xn}和Dt={y1,y2,...,ym},n和m分别为对应数据集包含的图像数量,本申请对其数值不做限制。
为了学习适用于上述三个任务的特征提取器即共享编码器,将输入图像空间x转换为可复制的再生希尔伯特空间(RKHS)Н,从而使源域特征分布Ds和目标域特征分布Dt之间的距离最小,即上述第一领域特征数据的分布与第二领域特征数据的分布之间的距离最小。其中,源域与目标域的特征分布之间的距离测量所采用的MMD计算公式可以为:
由于RKHS对特征空间的假设,有助于通过MMD统计量来平衡过拟合和欠拟合之间的权衡。在最小化分布差异的过程中可以采用MMD(Ds,DT)2的方式实现。对此,选用一个合适的核函数k,最小化MMD(Ds,DT)2,该计算过程可以表示为:
结合领域自适应的技术内容,为了学习领域不变的特征,对于用于捕获源域特征与目标域特征之间的关系的核函数k,本申请可以采用可学习的双线性核函数,即因此,上述公式(5)中的核函数k可以表示为:k(x,y)=xT(WTW+I)y+c,将其代入公式(5),实现MMD计算。
其中,上述核函数k的计算公式中的W可以表示一个可学习的非零权重矩阵,I可以表示单位矩阵,c可以是一个可学习的标量,在再生希尔伯特空间内,核函数中的(WTW+I)以保持正定。基于此,共享编码器的损失计算,即第一领域特征数据与第二领域特征数据之间的最大均值差异MMD损失,可以采用如下带约束的MMD损失计算公式得到:
LMMD=MMD(Ds,DT)2-log(||W||2)-log(c) (6)
在本申请实施例中,可以将上述第一领域特征数据和第二领域特征数据,代入上述公式(5)和公式(6),获得对应样本眼睛的样本特征数据,即共享特征向量。如公式(6)所示,在该计算过程中,对于上述W可以采用正则化处理方式,来避免W饱和为零,而c需要保持非负,计算过程本申请不做详述。
步骤S79,将样本特征数据分别输入针对屈光度识别任务的初始回归解码器、针对白内障识别任务的初始分类解码器,以及针对瞳孔分割任务的初始分割解码器进行处理,得到对应任务的样本参考数据;
结合上文对初始回归解码器、初始分类解码器和分割解码器各自的网络结构的相关描述,也就是说,针对上文描述的不同任务,可以利用构建的对应解码器分别对同一样本特征数据进行解码处理,来获得对应任务的参考数据,记为样本参考数据,该解码处理过程可以参照上文对任务参考数据的获取过程的相关描述,本实施例在此不做详述。
步骤S710,获取不同的样本参考数据与输入的图像上标注的对应任务标签之间的任务损失;
由于不同任务的解码器的网络结构不同,对不同任务的解码结果(如上述样本参考数据)处理要求可能不同,因此,对于不同解码器输出结果,可以采用不同的损失函数,获得对应任务损失。
可选的,本申请可以采用均方误差(MSE,mean squared error)作为屈光度识别任务的损失函数,获得屈光度识别任务的均方误差损失。因此,该屈光度识别任务的任务损失可以按照如下公式计算:
在公式(7)中,pb可以表示对应输入图像(如上述数据集包含的任一图像)标注的屈光度识别任务的屈光度任务标签内容,即对应样本眼睛的期望输出;可以表示回归解码器输出的预测结果,即上述预测得到的屈光度识别任务的样本参考数据,n可以表示数据集包含的图像数量,即样本数量。
可选的,对于上述瞳孔分割任务的任务损失计算,可以采用二分类交叉熵函数(Binary_Cross Entropy,BCE)作为其损失函数实现,因此,对于输入图像的瞳孔分割任务的任务损失ζBCE(o,s)的计算公式可以为:
ζBCE(o,s)=-(olog(s)+(1-o)·(log(1-s))) (8)
在公式(8)中,o可以表示分割任务标签,即真实的瞳孔掩膜图像,s可以表示分割解码器预测得到的瞳孔区域掩膜,即瞳孔分割任务的样本参考数据。
此外,对于上述白内障识别任务的任务损失的计算,可以采用交叉熵CE(categorical_Cross Entropy)作为其损失函数实现,因此,对于输入图像的白内障识别任务的任务损失可以表示为:
在公式(9)中,pc可以表示对应图像标注的白内障识别任务(即一种二分类任务)的白内障任务标签,可以表示分类解码器输出结果,即从输入图像中预测得到的对应样本眼睛是否患有白内障的预测概率/分数,和/或样本晶状体浑浊数据等样本参考数据,可以依据白内障任务标签内容确定,N可以表示分类类别数量。本申请可以为N。
需要说明,根据实际需要,在上述不同任务的解码器输出的样本参考数据的损失计算过程中,可以适应性调整所采用的损失函数,包括但并不局限于上文描述的损失函数类别。
步骤S711,依据MMD损失和多个任务损失的加权总损失,对初始共享编码器、初始回归解码器、初始分类解码器和初始分割解码器各自的网络参数进行调整,以通过数据集中的图像对具有调整后的网络参数的共享编码器以及所述多个任务各自的解码器进行学习训练;
步骤S712,确定加权总损失满足训练约束条件,利用最终训练得到的共享编码器以及针对不同任务的回归解码器、分类解码器和分割解码器,获得多任务图像识别模型。
结合上文对跨领域的多任务学习过程中网络损失函数的相关描述,可以采用如下公式,获得跨领域的多任务学习网络的总损失函数ζ:
ζ=ω1ζMSE2ζCE3ζBCE4ζMMD (10)
在公式(9)中,ζMSE可以表示用于获取屈光度识别任务的任务损失的损失函数,ζCE可以表示用于获取白内障识别任务的任务损失的损失函数,ζBCE可以表示用于获取瞳孔分割任务的任务损失的损失函数,ζMMD可以表示用于获得共享编码器输出结果的损失,即最小化不同领域的特征分布差异的损失函数。ω1、ω2、ω3、ω4分别表示对应任务的权重值,即优化常数,可以在图像识别模型的不断学习训练过程中进行优化,以降低总损失。
按照上述公式(10)对多个任务损失以及MMD损失进行加权求和,得到图像识别模型的加权总损失后,可以确定该加权总损失是否达到损失阈值,或是否满足训练约束条件等,若不满足,可以依据加权总损失,调整构成图像识别模型的共享编码器以及各解码器对应的网络参数,得到具有调整后的网络参数的图像识别模型后,可以按照上文描述的多任务学习方式,使用该新的图像识别模型对不同领域的数据集包含的图像进行处理,确定对应的加权总损失是否满足训练约束条件。
按照上述方法经过多次训练学习,在某一次训练学习得到的加权总损失满足训练约束条件,可以利用最终训练得到的共享编码器以及针对不同任务的回归解码器、分类解码器和分割解码器,构成多任务图像识别模型。每次对模型的训练学习过程类似,本申请不做详述。另外,关于上述训练约束条件,包括但并不局限于上文描述的加权总损失小于损失阈值,也可以是加权总损失收敛等,可以依据实际需求确定。
在实际应用中,在计算机设备训练得到多任务图像识别模型后,可以将其与多个任务各自的任务类型,或两个领域的领域类型进行关联后存储,在计算机设备不是服务器的情况下,可以训练得到的多任务图像识别模型上传至服务器进行存储,存储过程不做详述。这样,在需要对某待识别眼睛进行屈光筛查和白内障筛查时,在获得该待识别眼睛的待识别眼部图像后,可以调取已训练的多任务图像识别模型,将待识别眼部图像直接输入该多任务图像识别模型进行处理,直接输出多个任务参考数据,如屈光数据、瞳孔区域掩膜、白内障类别信息等,以辅助医生据此确定待识别眼睛是否有屈光不正、白内障等眼科疾病,还可以进一步据此确定合适的治疗方式等。
对于上述训练得到的多任务图像识别模型,还可以对其进行验证和测试,以保证所存储的多任务图像识别模型的输出结果可靠且准确。基于此,按照上文描述的方法获得不同领域的数据集,如包含890个样本眼睛的眼部图像,该眼部图像可以标注不同任务的任务标签,之后,可以按照一定比例(如7:2:1等,可以依据实际需求确定)对整个数据集进行分组,得到训练数据集(其可以包括623个样本眼睛的眼部图像)、验证数据集(其可以包括178个样本眼睛的眼部图像)和测试数据集(其可以包括89个样本眼睛的眼部图像)。
结合上文对不同领域的数据集获取过程的相关描述,在选择样本眼睛时,可以按照一定比例,选择晶状体浑浊的样本眼睛和晶状体透明的样本眼睛,如选择373个晶状体浑浊的样本眼睛以及517个晶状体透明的样本眼睛,在按照上述方法采集到对应的原始眼部图像,每一个样本眼睛可以采集多个原始眼部图像,在筛除部分不合格图像(如模糊图像、瞳孔区域不完整等图像)后,可以对合格的原始眼部图像进行处理,获得具有不同任务标签的图像构成数据集,如获得27253个原始眼部图像(如红外瞳孔图像),用于实现白内障识别,即识别晶状体浑浊的样本眼睛。
基于此,为了验证多任务图像识别模型在屈光识别任务中的性能,可以从总的数据集中,随机选出89个样本眼睛的10%的眼部图像构成测试数据集。在球镜度分类正确的样本数量(即样本眼睛的数量)为80,柱镜度的分类准确的样本数量为73的情况下,利用上述多任务图像识别模型,获得标注有球镜度为正或负,柱镜度为正或负的样本眼镜的屈光度的不同预测结果的数量,如下表1所示测试结果。可见,通过多任务图像识别模型预测样本眼睛为近视或远视的屈光识别上,具有较高的准确率,可以有效辅助医生确定样本眼睛是否患有屈光不正。
表1
项目 屈光筛查的球镜度 屈光筛查的柱镜度
屈光正预测正 7(7.87%) 0
屈光负预测负 73(82.01%) 73(82.02%)
屈光正预测负 4(4.49%) 0
屈光负预测正 5(5.62%) 16(17.98%)
屈光分类预测 80(89.89%) 73(82.02%)
样本眼睛总数量 89(100%) 89(100%)
表2
若以1.5D为屈光阈值,获得预测值和真实值之间差值的数量情况进行统计,仍以上述89个样本眼睛构成测试数据集为例进行说明,获得同一样本眼睛的不同屈光度(球镜度S、柱镜度C)中预测值(即多任务图像识别模型输出的预测结果)减去真实值(即标注的对应任务标签)得到的差值,将其与1.5D进行比较,统计不同比较结果的数量,如表2所示测试结果,预测值的准确性很高,能够满足屈光筛查场景的精度需求。
此外,继上文描述的测试数据集示例,本申请还可以统计预测值与真实值之间的平均差值的数量表,可以获得球镜度S的全部样本眼睛的预测值减去真实值的平均绝对误差S_MAE以及均方误差S_MSE,如表3所示,还可以获得其他项目各自对应的S_MAE和S_MSE;同理,也可以获得柱镜度C的多个项目各自对应的S_MAE和S_MSE,实现过程本申请不做详述。
表3
可见,如表3所示的内容,测试数据集中球镜度的预测偏差维持在0.5D左右,在真实值为正的样本眼睛中,误差表现的更小;且柱镜度的预测偏差也维持在0.5D左右,与球镜度中的误差表现接近,满足屈光度识别要求。
为了验证和优化多任务图像识别模型在白内障识别任务下的性能,即分类性能,分类器可以使用Adam优化器实现。对于来自890个样本眼睛的27253张眼部图像构成的总数据集,按照上述7:2:1的比例进行分组,获得包含19077张眼部图像的训练数据集,包含5451张眼部图像的验证数据集,包含2725张眼部图像的测试数据集。
在实际应用中,在确定样本眼睛的晶状体是否浑浊时,可以通过对该样本眼睛的多个眼部图像的多个识别结果确定,假设该样本图像的所有眼部图像中,超过50%的眼部图像的识别结果都是晶状体浑浊,可以认为该样本眼睛的晶状体浑浊;反之,超过50%的眼部图像的识别结果都是晶状体透明,可以认为该样本眼睛的晶状体透明。为了说明本申请上述多任务图像识别模型的分类性能,高于单任务图像识别模型的性能,可以通过上述验证数据集和测试数据集,对本申请提出的多任务图像识别模型与至少一种单任务图像识别模型,如Alexnet模型和DenseNet-161模型进行比对。
其中,验证数据集中各样本眼睛的眼部图像的白内障类别的预测识别结果的混淆矩阵可以为:
测试数据集中各样本眼睛的眼部图像的白内障类别的预测识别结果的混淆矩阵可以为:
表4
模型类型 准确率 特异性 敏感性 精度 F1值
AlexNet 87.07% 93.21% 78.63% 89.41% 83.68%
DenseNet-161 86.52% 93.90% 77.48% 91.21% 83.79%
多任务图像识别模型 94.39% 95.90% 92.53% 94.85% 93.68%
表5
模型类型 准确率 特异性 敏感性 精度 F1值
AlexNet 84.26% 90.39% 75.64% 84.85% 79.98%
DenseNet-161 83.16% 90.01% 74.37% 85.30% 79.46%
多任务图像识别模型 91.01% 92.03% 89.71% 89.78% 89.74%
基于上述验证数据集和测试数据集各自包含的眼部图像,将本申请提出的多任务图像识别模型,与Alexnet模型和DenseNet-161模型各自的识别结果的准确率、特异性、敏感性(召回率)、精度和F1值等多方面进行比较,如上表4以及表5所示内容。可见,在验证数据集和测试数据集上,本申请提出的多任务图像识别模型的效果都明显高于Alexnet模型和DenseNet-161模型这两个单任务图像识别模型的效果。
同理,对于多任务图像识别模型在瞳孔分割任务上的性能测试,利用测试数据集包含的各图像实现,即将该各图像依次输入该多任务图像识别模型进行处理,得到对应图像中瞳孔区域的瞳孔区域掩膜,结合输入图像标注的瞳孔掩膜图像这一分割任务标签,可以计算多任务图像识别模型的均交并比为0.8472,骰子系数为0.9637,据此可知瞳孔分割效果能够满足瞳孔定位信息的获取需求,
综上,本申请使用上述训练得到的多任务图像识别模型,能够同时获得屈光度识别任务、白内障识别任务以及瞳孔分割任务这三类任务所需的任务参考数据,且相对于单任务训练的图像识别模型所得到的输出结果,多任务图像识别模型的输出更可靠且准确,能够有效辅助医生快速且准确实现对待识别眼睛的屈光筛查和白内障筛查。
参照图9,为本申请提出的基于多任务学习的眼部图像识别装置的一可选示例的结构示意图,如图9所示,该装置可以包括
眼部图像获得模块91,用于获得待识别眼睛的待识别眼部图像;
任务参考数据获得模块92,用于依据已训练的多任务图像识别模型,对所述待识别眼部图像进行处理,获得所述待识别眼睛在不同领域的多个任务各自的任务参考数据;其中,所述多任务图像识别模型是依据所获得的所述不同领域的数据集进行多任务学习得到的,所述不同领域的数据集包括具有相应任务标签的不同眼部图像,所述多个任务包括屈光度识别任务、瞳孔分割任务以及白内障识别任务;
任务参考数据输出模块93,用于输出所述多个任务各自的任务参考数据,用以辅助确定所述目标对象的待识别眼睛在不同领域的任务识别结果。
在一些实施例中,用于获得不同领域的数据集的数据集获得模块可以包括:
屈光度任务标签确定单元,用于对所述原始眼部图像进行分析,获得对应所述样本眼睛的屈光数据,将所述屈光数据确定为所述原始眼部图像的屈光度任务标签;所述屈光数据包括球镜度和柱镜度;
分割任务标签确定单元,用于对所述原始眼部图像进行分割处理,获得对应所述样本眼睛的瞳孔掩膜图像以及瞳孔定位信息,将所述瞳孔定位信息确定为所述原始眼部图像的分割任务标签;
白内障任务标签确定单元,用于获取所述多个样本眼睛各自的晶状体浑浊数据和/或白内障类别信息,将所述晶状体混浊数据和/或所述白内障类别信息确定为相应所述原始眼部图像的白内障任务标签;所述晶状体浑浊数据和所述白内障类别信息是通过裂隙灯显微镜对相应所述样本眼睛的观察结果确定;
数据集获得单元,用于利用标注有所述屈光度任务标签的所述原始眼部图像、标注有所述分割任务标签和所述屈光度任务标签的瞳孔掩膜图像,以及标注有所述白内障任务标签的所述原始眼部图像,获得不同领域的数据集。
在又一些实施例中,上述多任务图像识别模型包括共享编码器和属于不同领域的多个任务各自对应的解码器;基于此,上述任务参考数据获得模块92可以包括:
共享特征数据获得单元,用于将所述待识别图像输入所述共享编码器进行编码处理,获得针对所述多个任务的共享特征数据;所述共享特征数据能够表征所述多个任务之间的隐藏关系;
任务参考数据获得单元,用于将所述共享特征数据分别输入所述多个任务各自对应的解码器进行处理,获得待识别眼睛在所述不同领域的多个任务各自的任务参考数据;
其中,所述多个任务各自对应的解码器的网络结构不同,且所述解码器的网络结构依据对应的所述任务类型确定。
可选的,共享特征数据获得单元可以包括:
第一特征图得到单元,用于将所述待识别图像输入所述共享编码器,通过第一尺度的卷积层进行特征提取,经过最大池化层处理后,得到第一特征图;
第二特征图得到单元,用于将所述第一特征图依次输入第二尺度的卷积层和所述第一尺度的卷积层进行特征提取,经过最大池化层处理后,得到第二特征图;
共享特征数据得到单元,用于将所述第二特征图依次输入两个所述第一尺度的卷积层进行特征提取,经过最大池化层对得到的第三特征图的处理,得到针对所述多个任务的共享特征数据;
其中,所述第一尺度的卷积层中的卷积核按照第一步长进行卷积操作,所述第二尺度的卷积层中的卷积核按照第二步长进行卷积操作,所述第一步长小于所述第二步长,且所述卷积核的所述第一尺度小于所述第二尺度。
可选的,上述装置还可以包括:
图像尺寸确定模块,用于确定所述待识别眼部图像的图像尺寸是否符合所述共享编码器的输入图像尺寸要求;
图像处理处理模块,用于在图像尺寸确定模块的确定结果为不符合的情况下,按照所述输入图像尺寸要求对所述待识别眼部图像进行处理;
基于此,上述所述第一特征图得到单元可以包括:
图像输入单元,用于将处理后的符合所述输入图像尺寸要求的待识别眼部图像输入所述共享编码器。
在又一些实施例中,上述任务参考数据获得单元可以包括:
第一解码单元,用于将所述共享特征数据输入针对所述屈光度识别任务的回归解码器,通过所述回归解码器中两个全连接层的回归处理,获得待识别眼睛的屈光参考数据;所述屈光参考数据包括表征所述待识别眼睛的屈光度的球镜度和柱镜度;
第二解码单元,用于将所述共享特征数据输入针对所述白内障识别任务的分类解码器,通过所述分类解码器中两个全连接层的分类处理后,对分类结果进行归一化处理,获得所述待识别眼睛属于白内障类别的预测概率,和/或所述待识别眼睛的晶状体浑浊数据;所述晶状体混浊数据能够表征所述待识别眼睛的白内障级别;
第三解码单元,用于将所述共享特征数据输入针对所述瞳孔分割任务的分割解码器,通过所述分割解码器中不同尺度的卷积层进行特征提取,经过多个上采样层或特征联合层对所连接的卷积层输出的特征图进行处理,将处理得到的特征图输入单位卷积层进行特征数据处理,获得所述待识别眼睛的瞳孔区域掩膜;
其中,所述不同尺度的卷积层包括多个所述第一尺度的卷积层和一个所述第二尺度的卷积层;所述特征联合层与所述共享编码器的对应卷积层连接,实现该卷积层输出的特征图与所述分割解码器中所连接的卷积层输出的特征图的特征联合操作,以增加该特征融合层在所述分割解码器中所连接的卷积层的特征提取过程所丢失的低阶特征数据。
结合上文对不同领域的数据集,用于依据获得的不同领域的数据集进行多任务学习,得到多任务图像识别模型的模型训练模块可以包括:
跨领域特征提取单元,用于将获得的不同领域的数据集包含的图像输入初始共享编码器进行特征提取,得到第一领域特征数据和第二领域特征数据;
MMD处理单元,用于对所述第一领域特征数据与所述第二领域特征数据进行最小化分布差异处理,获得针对相应样本眼睛的样本特征数据,以及所述第一领域特征数据与所述第二领域特征数据之间的最大均值差异MMD损失;
样本参考数据得到单元,用于将所述样本特征数据分别输入针对所述屈光度识别任务的初始回归解码器、针对所述白内障识别任务的初始分类解码器,以及针对所述瞳孔分割任务的初始分割解码器进行处理,得到对应任务的样本参考数据;
任务损失获取单元,用于获取不同的所述样本参考数据与所述样本图像标注的对应任务标签之间的任务损失;
网络参数调整单元,用于依据所述MMD损失和多个所述任务损失的加权总损失,对所述初始共享编码器、所述初始回归解码器、所述初始分类解码器和所述初始分割解码器各自的网络参数进行调整,以通过所述数据集中的图像对具有调整后的网络参数的图像识别模型进行学习训练;
多任务图像识别模型获得单元,用于确定所述加权总损失满足训练约束条件,利用最终训练得到的共享编码器以及针对不同任务的回归解码器、分类解码器和分割解码器,获得多任务图像识别模型。
基于上述实施例的描述,上述任务参考数据输出模块93可以包括一下至少一个输出单元:
第一输出单元,用于将所述待识别眼部图像发送至显示器进行显示,且在所述待识别眼部图像上显示所述多个任务各自的所述任务参考数据;
第二输出单元,用于按照预设输出格式,生成包含所述多个任务各自的任务参考数据的眼部检测报告,输出所述眼部检测报告;
第三输出单元,用于按照所述不同领域的任务识别规则,对所述多个任务各自的任务参考数据进行处理,输出所获得的相应任务识别结果。
需要说明的是,关于上述各装置实施例中的各种模块、单元等,均可以作为程序模块存储在存储器中,由处理器执行存储在存储器中的上述程序模块,以实现相应的功能,关于各程序模块及其组合所实现的功能,以及达到的技术效果,可以参照上述方法实施例相应部分的描述,本实施例不再赘述。
本发明还提供了一种计算机可读存储介质,其上可以存储计算机程序,该计算机程序可以被处理器调用并加载,以实现上述实施例描述的基于多任务学习的眼部图像识别方法的各个步骤,具体实现过程可以参照上述实施例相应部分的描述,本实施例不做赘述。
参照图10,为适用于本申请提出的基于多任务学习的眼部图像识别方法的计算机设备的一可选示例的硬件结构示意图,如图10所示,该计算机设备可以包括:通信接口101、存储器102及处理器103,其中:
通信接口101、存储器102及处理器103的数量均可以为至少一个,且通信接口101、存储器102及处理器103均可以连接通信总线,以通过该通信总线实现相互之间的数据交互,具体实现过程可以依据具体应用场景的需求确定,本发明不做详述。
通信接口101可以包括能够利用无线通信网络实现数据交互的通信接口,如WIFI模块、5G/6G(第五代移动通信网络/第六代移动通信网络)模块、GPRS模块等对应的通信接口,以实现计算机设备与其他设备之间的无线通信;当然,该通信接口101也可以是用于实现有线通信的数据接口,以使得该计算机设备可以通过相应类型的数据线连接其他设备,实现不同设备之间的数据传输。应该理解,上述通信接口101包括实现计算机设备内部组成部件之间的数据交互的通信接口,如USB接口、串/并口、多媒体传输接口等,本申请对通信接口101的类型及其数量不做限定。
在本申请实施例中,存储器102可以用于存储实现上述任一方法实施例描述的基于多任务学习的眼部图像识别方法的程序;处理器103可以加载并执行存储器102中存储的程序,以实现本申请上述任一方法实施例提出的基于多任务学习的眼部图像识别方法的各个步骤,具体实现过程可以参照上文相应实施例相应部分的描述,不再赘述。
在实际应用中,存储器102可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器103,可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路(application-specificintegrated circuit,ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等,可以依据实际需求确定存储器102和处理器103的类型。
应该理解的是,图10所示的计算机设备的结构并不构成对本发明实施例中计算机设备的限定,在实际应用中,计算机设备可以包括比图10所示的更多的部件,或者组合某些部件,可以依据该计算机设备的产品类型确定,在计算机设备为终端设备,如上述偏心摄影验光设备等医学检测设备的情况下,如图11所示,该计算机设备还可以包括:用于采集待识别眼部图像的图像采集组件104,用于输出多个任务各自的任务参考数据的显示器105、扬声器106等至少一个输出组件,根据需要还可以包括拾音器107、功能按钮等输入组件,以满足对计算机设备的不同输入操作,以及包含多种传感器的传感器模组、电源组件等,可以依据应用场景确定,本申请在此不做一一列举。
最后,需要说明,本发明中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换该词语。
如本发明和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
其中,在本发明实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本发明实施例的描述中,“多个”是指两个或多于两个。以下术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
此外,本说明书中各个实施例采用递进或并列的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、计算机设备而言,由于其与实施例公开的方法对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于多任务学习的眼部图像识别方法,其特征在于,所述方法包括:
获得待识别眼睛的待识别眼部图像;
依据已训练的多任务图像识别模型,对所述待识别眼部图像进行处理,获得所述待识别眼睛在不同领域的多个任务各自的任务参考数据;其中,所述多任务图像识别模型是依据获得的所述不同领域的数据集进行多任务学习得到的,所述不同领域的数据集包括具有相应任务标签的不同眼部图像,所述多个任务包括屈光度识别任务、瞳孔分割任务以及白内障识别任务;
输出所述多个任务各自的任务参考数据,用以辅助确定所述待识别眼睛在所述不同领域的任务识别结果。
2.根据权利要求1所述的方法,其特征在于,所述获得所述不同领域的数据集,包括:
获取多个样本眼睛的原始眼部图像;所述原始眼部图像是由偏心摄影验光设备采集得到;
对所述原始眼部图像进行分析,获得对应所述样本眼睛的屈光数据,将所述屈光数据确定为所述原始眼部图像的屈光度任务标签;所述屈光数据包括球镜度和柱镜度;
对所述原始眼部图像进行分割处理,获得对应所述样本眼睛的瞳孔掩膜图像以及瞳孔定位信息,将所述瞳孔定位信息确定为所述原始眼部图像的分割任务标签;
获取所述多个样本眼睛各自的晶状体浑浊数据和/或白内障类别信息,将所述晶状体混浊数据和/或所述白内障类别信息确定为相应所述原始眼部图像的白内障任务标签;所述晶状体浑浊数据和所述白内障类别信息是通过裂隙灯显微镜对相应所述样本眼睛的观察结果确定;
利用标注有所述屈光度任务标签的所述原始眼部图像、标注有所述分割任务标签和所述屈光度任务标签的瞳孔掩膜图像,以及标注有所述白内障任务标签的所述原始眼部图像,获得不同领域的数据集。
3.根据权利要求1或2所述的方法,其特征在于,所述多任务图像识别模型包括共享编码器和属于不同领域的多个任务各自对应的解码器;
所述依据已训练的多任务图像识别模型,对所述待识别眼部图像进行处理,获得待识别眼睛在不同领域的多个任务各自的任务参考数据,包括:
将所述待识别图像输入所述共享编码器进行编码处理,获得针对所述多个任务的共享特征数据;所述共享特征数据能够表征所述多个任务之间的隐藏关系;
将所述共享特征数据分别输入所述多个任务各自对应的解码器进行处理,获得待识别眼睛在所述不同领域的多个任务各自的任务参考数据;
其中,所述多个任务各自对应的解码器的网络结构不同,且所述解码器的网络结构依据对应的所述任务类型确定。
4.根据权利要求3所述的方法,其特征在于,所述将所述待识别图像输入所述共享编码器进行编码处理,获得针对所述多个任务的共享特征数据,包括:
将所述待识别图像输入所述共享编码器,通过第一尺度的卷积层进行特征提取,经过最大池化层处理后,得到第一特征图;
将所述第一特征图依次输入第二尺度的卷积层和所述第一尺度的卷积层进行特征提取,经过最大池化层处理后,得到第二特征图;
将所述第二特征图依次输入两个所述第一尺度的卷积层进行特征提取,经过最大池化层对得到的第三特征图的处理,得到针对所述多个任务的共享特征数据;
其中,所述第一尺度的卷积层中的卷积核按照第一步长进行卷积操作,所述第二尺度的卷积层中的卷积核按照第二步长进行卷积操作,所述第一步长小于所述第二步长,且所述卷积核的所述第一尺度小于所述第二尺度。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
确定所述待识别眼部图像的图像尺寸是否符合所述共享编码器的输入图像尺寸要求;
若不符合,按照所述输入图像尺寸要求对所述待识别眼部图像进行处理;
所述将所述待识别图像输入所述共享编码器,包括:
将处理后的符合所述输入图像尺寸要求的待识别眼部图像输入所述共享编码器。
6.根据权利要求3所述的方法,其特征在于,所述将所述共享特征数据分别输入所述多个任务各自对应的解码器进行处理,获得待识别眼睛在所述不同领域的多个任务各自的任务参考数据,包括:
将所述共享特征数据输入针对所述屈光度识别任务的回归解码器,通过两个全连接层的回归处理,获得待识别眼睛的屈光参考数据;所述屈光参考数据包括表征所述待识别眼睛的屈光度的球镜度和柱镜度;
将所述共享特征数据输入针对所述白内障识别任务的分类解码器,通过两个全连接层的分类处理后,对分类结果进行归一化处理,获得所述待识别眼睛属于白内障类别的预测概率,和/或所述待识别眼睛的晶状体浑浊数据;所述晶状体混浊数据能够表征所述待识别眼睛的白内障级别;
将所述共享特征数据输入针对所述瞳孔分割任务的分割解码器,通过不同尺度的卷积层的特征提取后,经过多个上采样层或特征联合层对所连接的卷积层输出的特征图进行处理,将处理后的特征图输入单位卷积层进行特征数据处理,获得所述待识别眼睛的瞳孔区域掩膜;
其中,所述不同尺度的卷积层包括多个所述第一尺度的卷积层和一个所述第二尺度的卷积层;所述特征联合层与所述共享编码器的对应卷积层连接,实现该卷积层输出的特征图与所述分割解码器中所连接的卷积层输出的特征图的特征联合操作,以增加该特征融合层在所述分割解码器中所连接的卷积层的特征提取过程所丢失的低阶特征数据。
7.根据权利要求2所述的方法,其特征在于,所述依据获得的不同领域的数据集进行多任务学习,得到多任务图像识别模型,包括:
将不同领域的数据集包含的图像输入初始共享编码器进行特征提取,得到第一领域特征数据和第二领域特征数据;
对所述第一领域特征数据与所述第二领域特征数据进行最小化分布差异处理,获得针对相应样本眼睛的样本特征数据,以及所述第一领域特征数据与所述第二领域特征数据之间的最大均值差异MMD损失;
将所述样本特征数据分别输入针对所述屈光度识别任务的初始回归解码器、针对所述白内障识别任务的初始分类解码器,以及针对所述瞳孔分割任务的初始分割解码器进行处理,得到对应任务的样本参考数据;
获取不同的所述样本参考数据与输入的所述图像标注的对应任务标签之间的任务损失;
依据所述MMD损失和多个所述任务损失的加权总损失,对所述初始共享编码器、所述初始回归解码器、所述初始分类解码器和所述初始分割解码器各自的网络参数进行调整,以通过所述数据集中的图像对具有调整后的网络参数的共享编码器以及所述多个任务各自的解码器进行学习训练;
确定所述加权总损失满足训练约束条件,利用最终训练得到的共享编码器以及针对不同任务的回归解码器、分类解码器和分割解码器,获得多任务图像识别模型。
8.根据权利要求3所述的方法,其特征在于,所述输出所述多个任务各自的任务参考数据,包括以下至少一种实现方式:
将所述待识别眼部图像发送至显示器进行显示,且在所述待识别眼部图像上显示所述多个任务各自的所述任务参考数据;
按照预设输出格式,生成包含所述多个任务各自的任务参考数据的眼部检测报告,输出所述眼部检测报告;
按照所述不同领域的任务识别规则,对所述多个任务各自的任务参考数据进行处理,输出所获得的相应任务识别结果。
9.一种基于多任务学习的眼部图像识别装置,其特征在于,所述装置包括
眼部图像获得模块,用于获得待识别眼睛的待识别眼部图像;
任务参考数据获得模块,用于依据已训练的多任务图像识别模型,对所述待识别眼部图像进行处理,获得所述待识别眼睛在不同领域的多个任务各自的任务参考数据;其中,所述多任务图像识别模型是依据所获得的所述不同领域的数据集进行多任务学习得到的,所述不同领域的数据集包括具有相应任务标签的不同眼部图像,所述多个任务包括屈光度识别任务、瞳孔分割任务以及白内障识别任务;
任务参考数据输出模块,用于输出所述多个任务各自的任务参考数据,用以辅助确定所述目标对象的待识别眼睛在不同领域的任务识别结果。
10.一种计算机设备,其特征在于,所述计算机设备包括:
通信接口;
存储器,用于存储实现如权利要求1-8任一项所述的基于多任务学习的眼部图像识别方法的程序;
处理器,用于加载执行所述存储器存储的程序,以实现如权利要求1-8任一项所述的基于多任务学习的眼部图像识别方法。
CN202310542883.8A 2023-05-15 2023-05-15 基于多任务学习的眼部图像识别方法及相关设备 Pending CN116563932A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310542883.8A CN116563932A (zh) 2023-05-15 2023-05-15 基于多任务学习的眼部图像识别方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310542883.8A CN116563932A (zh) 2023-05-15 2023-05-15 基于多任务学习的眼部图像识别方法及相关设备

Publications (1)

Publication Number Publication Date
CN116563932A true CN116563932A (zh) 2023-08-08

Family

ID=87497758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310542883.8A Pending CN116563932A (zh) 2023-05-15 2023-05-15 基于多任务学习的眼部图像识别方法及相关设备

Country Status (1)

Country Link
CN (1) CN116563932A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116739047A (zh) * 2023-08-16 2023-09-12 中汽信息科技(天津)有限公司 汽车螺栓拧紧曲线重建模型构建和拧紧质量识别方法
CN117315445A (zh) * 2023-11-28 2023-12-29 苏州元脑智能科技有限公司 目标识别方法、装置、电子设备及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116739047A (zh) * 2023-08-16 2023-09-12 中汽信息科技(天津)有限公司 汽车螺栓拧紧曲线重建模型构建和拧紧质量识别方法
CN116739047B (zh) * 2023-08-16 2023-10-27 中汽信息科技(天津)有限公司 汽车螺栓拧紧曲线重建模型构建和拧紧质量识别方法
CN117315445A (zh) * 2023-11-28 2023-12-29 苏州元脑智能科技有限公司 目标识别方法、装置、电子设备及可读存储介质
CN117315445B (zh) * 2023-11-28 2024-03-22 苏州元脑智能科技有限公司 目标识别方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110837803B (zh) 基于深度图网络的糖尿病视网膜病变分级方法
CN110197493A (zh) 眼底图像血管分割方法
CN116563932A (zh) 基于多任务学习的眼部图像识别方法及相关设备
CN113177916B (zh) 一种基于少样本学习方法的轻微高血压眼底辨别模型
CN114693961B (zh) 眼底照片分类方法、眼底图像处理方法和系统
KR102436359B1 (ko) 의료 정보를 생성하는 방법
CN112101424B (zh) 一种视网膜病变识别模型的生成方法、识别装置及设备
CN112869697A (zh) 同时识别糖尿病视网膜病变的分期和病变特征的判断方法
Yadav et al. Computer‐aided diagnosis of cataract severity using retinal fundus images and deep learning
Reddy et al. Discovering optimal algorithm to predict diabetic retinopathy using novel assessment methods
CN117612703A (zh) 一种基于医学检验指标的糖尿病视网膜病变分类方法
Abirami et al. An efficient early detection of diabetic retinopathy using dwarf mongoose optimization based deep belief network
CN117338234A (zh) 一种屈光度与视力联合检测方法
CN116763250A (zh) 眼前节图像的眼压信息提取方法、终端和存储介质
CN115170503B (zh) 基于决策规则和深度神经网络的眼底图像视野分类方法及装置
Thanh et al. A real-time classification of glaucoma from retinal fundus images using AI technology
de La Torre et al. Diabetic retinopathy detection through image analysis using deep convolutional neural networks
Fu et al. Agc-unet: a global context feature fusion method based on u-net for retinal vessel segmentation
Zhong et al. CeCNN: Copula-enhanced convolutional neural networks in joint prediction of refraction error and axial length based on ultra-widefield fundus images
CN112966620A (zh) 眼底图像处理方法、模型训练方法及设备
Al Jbaar et al. DCNN-BASED EMBEDDED MODELS FOR PARALLEL DIAGNOSIS OF OCULAR DISEASES.
Mohan et al. Using artificial intelligence in diabetic retinopathy
Jammula et al. Optimal transfer learning model for binary classification of funduscopic images through simple heuristics
KR102587830B1 (ko) 딥러닝을 이용한 백내장 진단방법 및 시스템
Bhattacharjee et al. Artificial intelligence in cataract: What’s new?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination