CN111860949A

CN111860949A - 基于时序图像的预测方法及装置

Info

Publication number: CN111860949A
Application number: CN202010537674.0A
Authority: CN
Inventors: 徐迈; 李柳
Original assignee: Shenzhen New Industries Material Of Ophthalmology Co ltd
Current assignee: Shenzhen New Industries Material Of Ophthalmology Co ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-10-30
Anticipated expiration: 2040-06-12
Also published as: CN111860949B

Abstract

本发明实施例涉及一种基于时序图像的预测方法及装置。其中，该方法包括：取眼底图像序列，其中，眼底图像序列包括按照时间排序的多张眼底图像；将眼底图像序列输入至预先训练完成的眼底图像预测模型中，以得出预测结果，其中，眼底图像预测模型用于基于眼底图像序列分别对应的图像特征以及时序特征确定预测结果，眼底图像预测模型是根据具备特征值的眼底图像序列的数据集训练得到的。本发明解决了由于相关技术中眼底图像预测网络准确率以及敏感性低，且眼底图像的时序间隔不同，而导致眼底图像结果预测不准确的技术问题。

Description

基于时序图像的预测方法及装置

技术领域

本发明涉及图像识别领域，具体涉及一种基于时序图像的预测方法及装置。

背景技术

青光眼作为最主要的致盲性不可逆眼科疾病，其发病率在45岁及以上人群中约为3.5％，预计到2020年全世界有八千万的人口患有青光眼，而到2040年，由于人口老龄化，预计有一亿一千万人口患有青光眼。疾病早期发现是医疗诊断中非常重要的一个环节。数据显示，医院死亡人数中的11％是由于缺乏了及时的诊断与治疗。因此，对于疾病的筛查与预防工作来说，基于时序信息的未来病情预测算法显得更为重要。近年来有一些工作对疾病的预测进行了尝试，但是主要面临了以下三个问题：特征难提取、样本比例不均衡和采样间隔不固定的问题。

对于疾病预测任务来说，近年来也有许多基于电子病历 (Electronic healthrecords,EHR)信息的疾病预测工作。具体来说，这些方法共性的采用了卷积神经网络(Convolutional neural network,CNN)用于从电子病历中提取有效信息，例如患者的个人信息和历史医疗记录。这种基于电子病历的医疗预测任务的好处在于，电子病历中包含着有关患者的大量信息(各类检测结果)，然而这种大数据量也为此类任务带来了弊端——收到了电子病历冗余性、高维度及特征不统一等特征的限制，这就造成了它们很难在实际场景中应用，需要大量特定的数据处理及归一化方法。

此外，在自然世界中，患病眼底图像样本与健康眼底图像样本的比例不平衡，举例来说，青光眼的在45岁以上人群中的发病率为 3.5％，这导致很难训练一个高准确率同时高敏感性的深度网络模型。该问题现有的解决方法主要为以下三类：基于数据的增强方法，基于分类器集成的方法和基于分类器门限调整的方法。但是，基于数据增强的方法同时会带来过拟合问题；基于分类器集成的方法缺少一种有效的投票机制，来对集成的过程中各个弱分类器的输出结果进行有效的投票(对于各个弱分类器的结果进行加权及筛选)；基于分类器门限调整的方法可能会使分类器过多的偏向少数样本所在的类别，以降低特异性为代价来提高敏感性。

其三，对于患者眼底图像的时序样本的采集，很难去限定患者的就医时间，患者机动性大，就医间隔可能在几个月到几年之间不等，因此导致患者的眼底图像的采集的时序间隔不同。以往基于时序数据进行疾病预测的工作大多用了长短时记忆(Long-shortTerm Memory,LSTM)网络的方法，把患者数据变采样间隔的问题所简化了，这也就造成了由于医疗时序数据的采样不均匀性所带来的建模问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于时序图像的预测方法及装置，以至少解决由于相关技术中眼底图像预测过程中，特征难提取、样本比例不均衡和采样间隔不固定，而导致眼底图像结果预测不准确的技术问题。

根据本发明实施例的一个方面，提供了一种获取眼底图像序列，其中，所述眼底图像序列包括按照时间排序的多张眼底图像；将所述眼底图像序列输入至预先训练完成的眼底图像预测模型中，以得出预测结果，其中，所述眼底图像预测模型用于基于所述眼底图像序列分别对应的图像特征以及时序特征确定预测结果，所述眼底图像预测模型是根据具备特征值的眼底图像序列的数据集训练得到的。

进一步地，将所述眼底图像序列输入至预先训练完成的眼底图像预测模型中，以得出预测结果包括：根据所述眼底图像的图像特征得到所述眼底图像对应的空间特征；根据所述空间特征、两个相邻时序的眼底图像的时间差值，得到所述眼底图像对应的时空特征；对所述时空特征进行分类，以得到所述预测结果。

进一步地，根据所述眼底图像的图像特征得到所述眼底图像对应的空间特征包括：根据所述眼底图像以及预设注意力图像，获取所述眼底图像的注意力特征；根据所述眼底图像的感兴趣区域的极坐标图像，获取所述眼底图像的极坐标特征；根据所述注意力特征以及所述极坐标特征得到所述空间特征。

进一步地，根据所述眼底图像以及预设注意力图像获取所述眼底图像的注意力特征包括：对所述眼底图像以及所述预设注意力图像进行多尺度卷积，以得到注意力特征。

进一步地，根据所述眼底图像的感兴趣区域的极坐标图像获取所述眼底图像的极坐标特征包括：对所述预设注意力图像进行二值化，以得到二值化注意力图像；根据所述眼底图像以及所述二值化注意力图像确定所述眼底图像的杯盘中心点；根据所述杯盘中心点确定所述眼底图像的感兴趣区域的极坐标图像；对所述眼底图像的感兴趣区域进行多尺度卷积，以得到所述极坐标特征。

进一步地，根据所述注意力特征以及所述极坐标特征得到所述空间特征包括：合并所述注意力特征以及所述极坐标特征，得到高维特征；对所述高维特征进行全局平均池化，以得到所述空间特征。

进一步地，根据所述空间特征、每两个相邻时序的眼底图像的时间差值，得到所述眼底图像对应的时空特征包括：根据当前眼底图像对应的空间特征、当前眼底图像与前一个相邻时序的眼底图像的时间差值以及所述前一个相邻时序眼底图像对应的时空特征，确定所述当前眼底图像的时空特征。

进一步地，对所述时空特征进行分类，以得到所述预测结果包括：将所述时空特征输入值分类器，以得到所述预测结果，其中，所述分类器包括双层全连接网络结构。

根据本发明实施例的另一方面，还提供了一种基于时序图像的眼底图像预测装置，包括：获取单元，用于获取眼底图像序列，其中，所述眼底图像序列包括按照时间排序的多张眼底图像；预测单元，用于将所述眼底图像序列输入至预先训练完成的眼底图像预测模型中，以得出预测结果，其中，所述眼底图像预测模型用于基于所述眼底图像序列分别对应的图像特征以及时序特征确定预测结果，所述眼底图像预测模型是根据具备特征值的眼底图像序列的数据集训练得到的。

根据本发明实施例的另一方面，还提供了一种基于时序图像的眼底图像预测模型，所述模型包括：图像处理单元、时间处理单元以及分类单元，其中：所述图像处理单元，用于根据多个眼底图像的图像特征得到所述眼底图像对应的空间特征，其中，所述多个眼底图像的时序不同；所述时间处理单元，用于根据所述空间特征、两个相邻时序的眼底图像的时间差值，得到所述眼底图像对应的时空特征；所述分类单元，用于对所述时空特征进行分类，以得到所述预测结果。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行如上所述的基于时序图像的眼底图像预测方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器通过所述计算机程序执行如上所述的基于时序图像的眼底图像预测方法。

在本发明实施例中，通过取眼底图像序列，其中，眼底图像序列包括按照时间排序的多张眼底图像；将眼底图像序列输入至预先训练完成的眼底图像预测模型中，以得出预测结果，其中，眼底图像预测模型用于基于眼底图像序列分别对应的图像特征以及时序特征确定预测结果，眼底图像预测模型是根据具备特征值的眼底图像序列的数据集训练得到的。达到了对不同时序的眼底图像进行预测，克服了眼底图像时序采样均匀的问题，进而解决了由于相关技术中眼底图像预测过程中，特征难提取、样本比例不均衡和采样间隔不固定，而导致眼底图像结果预测不准确的技术问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种可选的基于时序图像的眼底图像预测方法的示意图；

图2是根据本发明实施例的一种可选的眼底图像预测模型的示意图；

图3是根据本发明实施例的又一种可选的眼底图像预测模型的示意图；

图4是根据本发明实施例的一种可选的输入图像的生成过程的示意图；

图5是根据本发明实施例的一种可选的基于时序图像的眼底图像预测装置的示意图；

图6是根据本发明实施例的一种可选的动态收敛训练策略的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

实施例1

根据本发明实施例，提供了一种基于时序图像的眼底图像预测方法，如图1所示，该方法包括：

S102，获取眼底图像序列，其中，眼底图像序列包括按照时间排序的多张眼底图像；

S104，将眼底图像序列输入至预先训练完成的眼底图像预测模型中，以得出预测结果，其中，眼底图像预测模型用于基于眼底图像序列分别对应的图像特征以及时序特征确定预测结果，眼底图像预测模型是根据具备特征值的眼底图像序列的数据集训练得到的，

在具体的应用场景中，眼底图像序列中，多个眼底图像的相邻眼底图像的时间间隔可以相同也可以不同。例如，眼底图像X₁、X₂、 X₃、X₄的时序分别是T₁、T₂、T₃、T₄，其中，T₁与T₂的差值为460天， T₂与T₃的差值为60天，T₃与T₄的差值为30天。在本实施例中，时间单位“天”仅是一种示例，在此不做任何限定。

可选地，在本实施例中，将眼底图像序列输入至预先训练完成的眼底图像预测模型中，以得出预测结果包括但不限于：根据眼底图像的图像特征得到眼底图像对应的空间特征；根据空间特征、每两个相邻时序的眼底图像的时间差值，得到眼底图像对应的时空特征；对时空特征进行分类，以得到预测结果。

在具体的应用场景中，空间特征为根据多个眼底图像得到的图像特征，而时空特征是根据眼底图像的空间特征以及眼底图像之间的时间差值得到的，用于表征下一时刻的眼底图像的状态。通过对多个眼底图像的图像特征以及时序特征进行处理得到时空特征，然后通过分类器对时空特征进行分类，得到预测结果。

作为一种优选地实施方案，每个当前眼底图像的时空特征是根据当前眼底图像的空间特征、前一时刻眼底图像的时空特征以及当前眼底图像与前一时刻眼底图像的时间差值确定的。由此可以看出，在实际的应用场景中，当前眼底图像的时空特征受到眼底图像序列中当前眼底图像之前的各个眼底图像的时间差值、以及之前的各个眼底图像的时空特征的影响。

优选地，在本实施例中，眼底图像模型是由包含多组眼底图像的眼底图像序列组成的训练数据集训练得到的，用于预测时序不同的眼底图像序列的模型，如图2所示，眼底图像预测模型包括：图像处理单元20、时间处理单元22以及分类单元24，其中：图像处理单元20，用于根据眼底图像序列中多个眼底图像的图像特征得到眼底图像对应的空间特征，其中，多个眼底图像的时序不同；时间处理单元22，用于根据空间特征、两个相邻时序的眼底图像的时间差值，得到眼底图像对应的时空特征；分类单元24，用于对时空特征进行分类，以得到预测结果。

在一些实施例中，眼底图像预测模型包括DeepGF网络，其中，图像处理单元20包括AP-net网络，其中，AP-net包括注意力子网络、极坐标子网络，其中，注意力自网络和极坐标子网络中都包含有输入层、卷积层、最大池化层以及多尺度模块，然后AP-net对注意力子网络以及极坐标子网络的输入进行特征合并以及全局平均池化，最后将输出特征的通道降维为该多尺度模块的输出通道数。其中，DeepGF网络结构及各层参数如表1所示。

表1 DeepGF网络结构及各层参数

在一些实施例中，时间处理单元22包括但不限于可变时间间隔长短时记忆(Variable time interval long-short term memory, VTI-LSTM)网络，用于学习青光眼眼底图像在时序上的动态变化情况。

可选地，在本实施例中，根据眼底图像的图像特征得到眼底图像对应的空间特征包括但不限于：根据眼底图像以及预设注意力图像获取眼底图像的注意力特征；根据眼底图像的感兴趣区域的极坐标图像获取眼底图像的极坐标特征；根据注意力特征以及极坐标特征得到空间特征。

进一步可选地，在本实施例中，根据眼底图像以及预设注意力图像获取眼底图像的注意力特征包括但不限于：对眼底图像以及预设注意力图像进行多尺度卷积，以得到注意力特征。

具体的，如表1所示，多尺度模块首先将输入特征并行的输入到四个独立的卷积流中，分别包含了1层或2层的卷积层，用于提取不同尺度的图像特征。其中后两个卷积层采用了[5x1]、[1x5]和 [7x1]、[1x7]的卷积核用于降低网络的参数。此后，将提取到的四通道图像特征沿着通道方向进行了特征的合并，最后通过一个[1x1] 的卷积核将输出特征的通道数降维为该多尺度模块的输出通道数。

需要说明的是，注意力子网络和极坐标子网络中都含有多尺度模块，但是两个子网络中的多尺度模块相互独立。即注意力子网络中通过四个多尺度模块的级联输出7x7x256的特征，而极坐标子网络则通过四个不同的多尺度模块输出了7x7x64的特征，然后这两个子网络的输出直接沿指定维度合并，变成7x7x320的特征。

在一个具体实施例中，眼底图像预测模型如图3所示，对多个眼底图像进行预测包括以下步骤：

S1，获取输入的眼底图像序列，输入在t时刻的原始红绿蓝(RGB) 通道的彩色时序眼底图像

该图像在t时刻的二进制标签为l_t+1(∈{0,1})，它代表了下一个时刻t+1该患者的预测结果，即是否患有青光眼，同时输入该眼底图像的拍摄年份y_t。眼底图像按时序编号为1,2,L,T，其中T眼底图像序列总长度，优选地，取值为T＝6。在本实施例中，可以通过如下公式得到二进制标签：

其中，f(·)是要被学习的青光眼预测函数，即给定当前及历史时刻的眼底图像输入，预测输出下一时刻t+1时患者的患病标签

S2，提取眼底图像中的空间特征。将步骤S1中的眼底图像输入到注意力-极坐标卷积神经网络(Attention-polar net,AP-net) 中，输出各个时刻t上的空间特征

其中K为空间特征的维度，由AP-net的网络结构决定。建议取值为K＝320。

具体的，注意力子网络的输入及输出。输入为两部分，其一为上述步骤S1中所述的t时刻的原始红绿蓝(RGB)通道的彩色时序眼底图像

其二为眼底图像所对应的预设注意力图像

该预设注意力图像是基于深度学习的注意力预测方法得到的。需要说明的是，注意力子网络输出了第一部分的空间特征

为了去除眼底图像中的冗余性，本实施例中提出利用注意力机制，将预设注意力图像

引入到了注意力子网络中。具体来说，预设注意力图像A_t用于加权注意力子网络的输入I_t及第k层特征图

上，如下式所示：

其中，R(·)代表了尺寸缩放的操作，目的使注意力图A_t的大小与输入I_t和特征图

的尺寸匹配。符号“o”代表了哈德马乘积，及矩阵元素的对应位置相乘。f_k+1(·)代表了第k+1层上的卷积操作。

可选地，在本实施例中，根据眼底图像的感兴趣区域的极坐标图像获取眼底图像的极坐标特征包括但不限于：对预设注意力图像进行二值化，以得到二值化注意力图像；根据眼底图像以及二值化注意力图像确定眼底图像的杯盘中心点；根据杯盘中心点确定眼底图像的感兴趣区域的极坐标图像；对眼底图像的感兴趣区域进行多尺度卷积，以得到极坐标特征。

在一些具体的实施例中，极坐标子网络的可以是如下所述的一种深度卷积神经网络：

极坐标子网络的输入为步骤S1中所述的t时刻的原始红绿蓝 (RGB)通道的彩色时序眼底图像

感兴趣区域(Region of interest,ROI)的极坐标形式，即

输入图像的生成过程如图4所示，a为预设注意力图像，b为原始眼底图像，c 为感兴趣区域，d为极坐标图像；

S21，计算二值化注意力图A′_t，它的各个元素A′_t(u,v)∈{0,1}，计算式如下式所示：

A′_t＝BW(A_t,η^*)， (3)

其中，BW(·)为图像二值化操作，其门限η^*的计算方法包括但不限制于大津算法。

S22，检测杯盘中心点

如下式所示：

其中，U和V分别是二值化注意力图A′_t的宽和高。

S23，计算直角坐标系下的ROI。在I_t(u,v)中，用以

为半径的矩形框进行剪裁得到

S24，极坐标映射。将

映射到

其中ρ和θ可由下式计算得到：

极坐标子网络的网络结构，如表1所示，极坐标子网络输出了第二部分的空间特征

可选地，在本实施例中，根据注意力特征以及极坐标特征得到空间特征包括但不限于：合并注意力特征以及极坐标特征，得到高维特征；对高维特征进行全局平均池化，以得到空间特征。

具体的，1)特征合并为：注意力子网络的输出

和极坐标子网络的输出

在通道维度上进行合并，获得特征

2)特征降维为：通过全局平均池化将

降维到一维向量

可选地，在本实施例中，根据空间特征、每两个相邻时序的眼底图像的时间差值，得到眼底图像对应的时空特征包括但不限于：根据当前眼底图像对应的空间特征、当前眼底图像与前一个相邻时序的眼底图像的时间差值以及前一个相邻时序眼底图像对应的时空特征，确定当前眼底图像的时空特征。

S3，提取时序眼底图像特征，提出一个VTI-LSTM的层数在此取两层，但基于VTI-LSTM的时序信息提取方法不限制于本实施例所采用的两层结构。该网络的输入为三部分，其一是步骤S2中获得的时刻t上的空间特征

其二是两个相邻的眼底图像样本之间的采样间隔Δy_t＝y_t-y_t-1，其三前一时刻相邻眼底图像的时空特征。需要说明的是，在本实施例中，当前眼底图像的时空特征包括之前所有时刻的眼底图像的图像特征。至此，可以获得该疾病预测框架的时空特征

(VTI-LSTM在时刻t上的输出)，其中参数K取值为 K＝320。

VTI-LSTM可以是如下所述的一种递归神经网络，每一个细胞单元的输入为一维特征向量x_t、前一时刻细胞单元的隐藏状态h_t-1和该时刻样本的采样间隔Δy_t。值得注意的是，Δy_t作为一个新的特征被编码到VTI-LSTM中的遗忘门f_t中。具体数学公式如下所示：

h_t＝o_totanh(c_t)， (11)

其中σ(·)为Sigmoid函数，符号“o”为哈德马乘积。在每个时间步长t时，VTI-LSTM的各个状态如下所示：输入状态x_t、细胞状态 c_t、隐藏状态

同时VTI-LSTM的输入门、遗忘门和输出门分别为i_t、f_t和

其中H是VTI-LSTM的特征尺寸，建议取值为 320。此外

和

为VTI-LSTM 中要被学习的参数。

式(6)中，Δy_t＝y_t-y_t-1(∈N)是时间步长t-1和t之间的时间间隔，

为t时刻下的可变时间间隔(Variable time interval, VTI)门，它进一步控制了当前时刻LSTM的遗忘速率。此外p和

是VTI门对应的参数，也会在训练的过程中进行更新。与传统LSTM 不同的是，VTI-LSTM可以学习不同时间步长之间的可变时间间隔，使网络具有处理变采样间隔时序数据的能力。

可选地，在本实施例中，对时空特征进行分类，以得到预测结果包括但不限于：将时空特征输入值分类器，以得到预测结果，其中，分类器包括双层全连接网络结构。

S4，特征的分类。将第二层VTI-LSTM在时刻t上的输出

经过分类器，输出最终预测结果

其中维度k与步骤S3中的参数相同，建议取值为K＝320。该分类器包括但不限于双层全连接网络、线性回归、逻辑回归、支持向量机、朴素贝叶斯等。

S4.1网络预测概率。第二层全连接在时刻t上的输出为z_t，最终的预测概率p_t+1可以通过以下公式得到：

S4.2网络预测标签

可由以下公式计算得到：

其中，ξ是分类器门限，可以根据实际经验进行设定。

通过本实施例中，获取眼底图像序列，其中，眼底图像序列包括按照时间排序的多张眼底图像；将眼底图像序列输入至预先训练完成的眼底图像预测模型中，以得出预测结果，其中，所述眼底图像预测模型用于基于眼底图像序列分别对应的图像特征以及时序特征确定预测结果，眼底图像预测模型是根据具备特征值的眼底图像序列的数据集训练得到的。达到了对不同时序的眼底图像进行预测，克服了眼底图像时序采样均匀的问题，进而解决了由于相关技术中眼底图像预测过程中，特征难提取、样本比例不均衡和采样间隔不固定，而导致眼底图像结果预测不准确的技术问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述基于时序图像的眼底图像预测方法的基于时序图像的眼底图像预测装置，如图5 所示，该装置包括：

1)获取单元50，用于获取眼底图像序列，其中，所述眼底图像序列包括按照时间排序的多张眼底图像；

2)预测单元52，用于将所述眼底图像序列输入至预先训练完成的眼底图像预测模型中，以得出预测结果，其中，所述眼底图像预测模型用于基于所述眼底图像序列分别对应的图像特征以及时序特征确定预测结果，所述眼底图像预测模型是根据具备特征值的眼底图像序列的数据集训练得到的。

可选地，本实施例中的具体示例可以参考上述实施例1中所描述的示例，本实施例在此不再赘述。

实施例3

根据本发明实施例，还提供了一种基于时序图像的眼底图像预测模型，优选地，在本实施例中，眼底图像模型是由包含多组眼底图像的眼底图像序列组成的训练数据集训练得到的，用于预测时序不同的眼底图像序列的模型，如图2所示，眼底图像预测模型包括：图像处理单元20、时间处理单元22以及分类单元24，其中：

1)图像处理单元20，用于根据眼底图像序列的图像特征得到所述眼底图像对应的空间特征，其中，所述眼底图像序列包括按照时间排序的多张眼底图像；

2)时间处理单元22，用于根据空间特征、两个相邻时序的眼底图像的时间差值，得到眼底图像对应的时空特征；

3)分类单元24，用于对所述时空特征进行分类，以得到所述眼底图像序列的预测结果。

在一些实施例中，眼底图像预测模型包括DeepGF网络，其中，图像处理单元20包括AP-net网络，其中，AP-net包括注意力子网络、极坐标子网络，其中，注意力自网络和极坐标子网络中都包含有输入层、卷积层、最大池化层以及多尺度模块，然后AP-net对注意力子网络以及极坐标子网络的输入进行特征合并以及全局平均池化，最后将输出特征的通道降维为该多尺度模块的输出通道数。 DeepGF网络结构及各层参数如表1所示。

在一些实施例中，分类单元24包括但不限于双层全连接网络、线性回归、逻辑回归、支持向量机、朴素贝叶斯等。

此外，基于时序图像的眼底图像预测模型的动态收敛训练策略为:

定义联合训练AP-Net和VTI-LSTM的目标函数如下式所示：

其中T是眼底图像序列的最大训练步长，建取值为5，p_t+1是网络输出对下一个时刻t+1的预测概率。其中p_t+1可由上述公式(12) 计算得到。

训练策略。为解决不同标签的样本数量不均衡的问题，本发明提出一种动态收敛训练策略。该策略图6下所示：

基于图6中所示的训练策略得到的网络参数，执行以下步骤：

步骤2.1，计算训练集中损失函数Loss_f的值。

步骤2.2，计算损失函数对网络中各个参数求导的梯度值

步骤2.3，更新网络参数ω。

步骤2.4，若Loss_f小于门限th_c，则训练结束(不执行步骤2.5 及2.6)；若不同类别数据之间的训练误差小于门限th_g，则跳过步骤2.5后，执行步骤2.6；否则继续执行步骤2.5。

步骤2.5，以Loss_f值对网络中的样本进行排序，每隔δ个训练轮次后，从训练集

中移除Loss_f值最低的βS个训练序列。

步骤2.6，重复执行步骤2.1。

实施例4

本发明的实施例还提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行如上所述的基于时序图像的眼底图像预测方法。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，获取眼底图像序列，其中，所述眼底图像序列包括按照时间排序的多张眼底图像；

S2，将所述眼底图像序列输入至预先训练完成的眼底图像预测模型中，以得出预测结果，其中，所述眼底图像预测模型用于基于所述眼底图像序列分别对应的图像特征以及时序特征确定预测结果，所述眼底图像预测模型是根据具备特征值的眼底图像序列的数据集训练得到的。

可选地，存储介质还被设置为存储用于执行上述实施例1中的方法中所包括的步骤的程序代码，本实施例中对此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U 盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM， Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

实施例5

本发明的实施例还提供了一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器通过所述计算机程序执行如上所述的基于时序图像的眼底图像预测方法。

可选地，在本实施例中，存储器被设置为存储用于执行以下步骤的程序代码：

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于时序图像的眼底图像预测方法，其特征在于，包括：

获取眼底图像序列，其中，所述眼底图像序列包括按照时间排序的多张眼底图像；

将所述眼底图像序列输入至预先训练完成的眼底图像预测模型中，以得出预测结果，其中，所述眼底图像预测模型用于基于所述眼底图像序列分别对应的图像特征以及时序特征确定预测结果，所述眼底图像预测模型是根据具备特征值的眼底图像序列的数据集训练得到的。

2.根据权利要求1所述的方法，其特征在于，将所述眼底图像序列输入至预先训练完成的眼底图像预测模型中，以得出预测结果包括：

根据所述眼底图像的图像特征得到所述眼底图像对应的空间特征；

根据所述空间特征、两个相邻时序的眼底图像的时间差值，得到所述眼底图像对应的时空特征；

对所述时空特征进行分类，以得到所述预测结果。

3.根据权利要求2所述的方法，其特征在于，根据所述眼底图像的图像特征得到所述眼底图像对应的空间特征包括：

根据所述眼底图像以及预设注意力图像，获取所述眼底图像的注意力特征；

根据所述眼底图像的感兴趣区域的极坐标图像，获取所述眼底图像的极坐标特征；

根据所述注意力特征以及所述极坐标特征得到所述空间特征。

4.根据权利要求3所述的方法，其特征在于，根据所述眼底图像以及预设注意力图像获取所述眼底图像的注意力特征包括：

对所述眼底图像以及所述预设注意力图像进行多尺度卷积，以得到注意力特征。

5.根据权利要求3所述的方法，其特征在于，根据所述眼底图像的感兴趣区域的极坐标图像获取所述眼底图像的极坐标特征包括：

对所述预设注意力图像进行二值化，以得到二值化注意力图像；

根据所述眼底图像以及所述二值化注意力图像确定所述眼底图像的杯盘中心点；

根据所述杯盘中心点确定所述眼底图像的感兴趣区域的极坐标图像；

对所述眼底图像的感兴趣区域进行多尺度卷积，以得到所述极坐标特征。

6.根据权利要求3所述的方法，其特征在于，根据所述注意力特征以及所述极坐标特征得到所述空间特征包括：

合并所述注意力特征以及所述极坐标特征，得到高维特征；

对所述高维特征进行全局平均池化，以得到所述空间特征。

7.根据权利要求2所述的方法，其特征在于，根据所述空间特征、每两个相邻时序的眼底图像的时间差值，得到所述眼底图像对应的时空特征包括：

根据当前眼底图像对应的空间特征、当前眼底图像与前一个相邻时序的眼底图像的时间差值以及所述前一个相邻时序眼底图像对应的时空特征，确定所述当前眼底图像的时空特征。

8.根据权利要求2所述的方法，其特征在于，对所述时空特征进行分类，以得到所述预测结果包括：

将所述时空特征输入值分类器，以得到所述预测结果，其中，所述分类器包括双层全连接网络结构。

9.一种基于时序图像的眼底图像预测装置，其特征在于，包括：

获取单元，用于获取眼底图像序列，其中，所述眼底图像序列包括按照时间排序的多张眼底图像；

预测单元，用于将所述眼底图像序列输入至预先训练完成的眼底图像预测模型中，以得出预测结果，其中，所述眼底图像预测模型用于基于所述眼底图像序列分别对应的图像特征以及时序特征确定预测结果，所述眼底图像预测模型是根据具备特征值的眼底图像序列的数据集训练得到的。

10.一种基于时序图像的眼底图像预测模型，其特征在于，所述模型包括：图像处理单元、时间处理单元以及分类单元，其中：

所述图像处理单元，用于根据眼底图像序列的图像特征得到所述眼底图像对应的空间特征，其中，所述眼底图像序列包括按照时间排序的多张眼底图像；

所述时间处理单元，用于根据所述空间特征、两个相邻时序的眼底图像的时间差值，得到所述眼底图像对应的时空特征；

所述分类单元，用于对所述时空特征进行分类，以得到所述眼底图像序列的预测结果。

11.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至8任一项中所述的基于时序图像的眼底图像预测方法。

12.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行所述权利要求1至8任一项中所述的基于时序图像的眼底图像预测方法。