CN116704591A

CN116704591A - 眼轴预测模型的训练方法、眼轴预测方法和装置

Info

Publication number: CN116704591A
Application number: CN202310767804.3A
Authority: CN
Inventors: 李美燕; 杨卫明; 周行涛; 王韵哲; 宋凯敏; 王斌; 张大磊
Original assignee: Eye and ENT Hospital of Fudan University; Beijing Airdoc Technology Co Ltd
Current assignee: Eye and ENT Hospital of Fudan University; Beijing Airdoc Technology Co Ltd
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-09-05

Abstract

本公开提供一种眼轴预测模型的训练方法、眼轴预测方法和装置，包括：训练信息提取模型；基于信息提取模型确定目标眼底图像对应的层级特征向量；基于词向量模型确定目标对象的生理信息文本向量；基于目标眼底图像对应的层级特征向量和生理信息文本向量，对网络模型结构进行训练，得到眼轴预测模型。其中，眼轴预测模型中包括时间块机制。从而，通过设定时间token以及模型结构，能够有效利用多次随访数据，不需要固定的输入数据形式，在任意时间点采集的数据均可以利用训练模型训练得到的眼轴预测模型，能够对目标对象的未来眼轴进行有效预测，提升未来眼轴的预测准确度，也解决了现有技术的预测模型难以推广实现的技术问题。

Description

眼轴预测模型的训练方法、眼轴预测方法和装置

技术领域

本公开的实施例涉及人工智能技术领域，具体地，涉及适用于一种眼轴预测模型的训练方法、眼轴预测方法和装置。

背景技术

眼轴为把眼睛看作一台光学仪器来描述，从眼球接收光线的最表层，即从角膜-晶状体-玻璃体-视网膜(感受光线最里的一层)的距离看成是物理中的光学系统的一条中轴线。

相关技术中，在进行未来眼轴预测时，如果采用现有技术只能将时间变量作为输入数据直接输入到模型中对模型进行训练，现有技术的模型主要有两种方式，一种是根据当前单一的固定时间点的眼轴测量数据去预测未来某一时间点的眼轴，第二种是根据当前N个固定的时间点的眼轴测量数据去预测未来某一时间点的眼轴，例如根据时间点1、时间点2、......、时间点N预测时间点N+1的眼轴。以上两种方式，都存在输入的数据与时间位置固定，输入形式必须对应的问题，但是在实际测量场景中，这种模型无法利用不定时的输入数据，与实际数据采集情况不符，难以推广实现，模型也难以进行预测；即使按照模型固定输入形式输入了数据，由于输入数据的时间位置必须固定对应，依然会导致模型无法智能的利用其他非预设时间点输入的数据，存在模型预测眼轴的准确度较低的技术问题。

发明内容

本文中描述的实施例提供了一种眼轴预测模型的训练方法、眼轴预测方法和装置，克服了上述问题。

第一方面，根据本公开的内容，提供了一种眼轴预测模型的训练方法，包括：

训练信息提取模型，所述信息提取模型用于提取眼底图像对应的层级特征向量，所述层级特征向量包括：第一层级向量和第二层级向量，所述信息提取模型包括第一子模型和第二子模型，所述第一子模型用于提取所述第一层级向量，所述第二子模型用于提取所述第二层级向量，所述第一层级向量用于描述与近视病灶无关的向量，所述第二层级向量用于描述与近视病灶相关的向量；

基于所述信息提取模型确定目标眼底图像对应的层级特征向量，所述目标眼底图像中包括目标对象不同年龄/相同年龄的不同月份的眼底图像，所述目标眼底图像对应的层级特征向量用于描述所述目标对象的轴性近视相关信息向量；

基于词向量模型确定所述目标对象的生理信息文本向量；

基于所述目标眼底图像对应的层级特征向量和所述生理信息文本向量，对网络模型结构进行训练，得到眼轴预测模型，所述眼轴预测模型用于对所述目标对象进行时间序列眼轴预测，所述时间序列眼轴预测用于预测所述目标对象的未来眼轴；

其中，所述眼轴预测模型中包括时间块机制，所述时间块机制用于划分所述目标对象的年龄/月份，使得所述目标眼底图像对应的层级特征向量和所述生理信息文本向量均隶属于所述目标对象的不同年龄/相同年龄的不同月份。

第二方面，根据本公开的内容，提供了一种眼轴预测方法，包括：

获取待预测眼底图像，所述待预测眼底图像中包括目标对象不同年龄/相同年龄的不同月份的眼底图像；

将所述待预测眼底图像输入信息提取模型中，根据所述信息提取模型的输出确定所述待预测眼底图像对应的层级特征向量；

基于词向量模型确定所述目标对象的生理信息文本向量；

将所述待预测眼底图像对应的层级特征向量以及所述生理信息文本向量输入眼轴预测模型中，根据所述眼轴预测模型的输出确定所述目标对象的未来眼轴；

其中，所述眼轴预测模型为第一方面中任一项所述的方法所训练生成的眼轴预测模型，所述信息提取模型为第一方面中任一项所述的方法所训练生成的信息提取模型。

第三方面，根据本公开的内容，提供了一种眼轴预测模型的训练装置，包括：

第一训练构建模块，用于训练信息提取模型，所述信息提取模型用于提取眼底图像对应的层级特征向量，所述层级特征向量包括：第一层级向量和第二层级向量，所述信息提取模型包括第一子模型和第二子模型，所述第一子模型用于提取所述第一层级向量，所述第二子模型用于提取所述第二层级向量，所述第一层级向量用于描述与近视病灶无关的向量，所述第二层级向量用于描述与近视病灶相关的向量；

第一确定模块，用于基于所述信息提取模型确定目标眼底图像对应的层级特征向量，所述目标眼底图像中包括目标对象不同年龄/相同年龄的不同月份的眼底图像，所述目标眼底图像对应的层级特征向量用于描述所述目标对象的轴性近视相关信息向量；

第二确定模块，用于基于词向量模型确定所述目标对象的生理信息文本向量；

第二训练模块，用于基于所述目标眼底图像对应的层级特征向量和所述生理信息文本向量，对网络模型结构进行训练，得到眼轴预测模型，所述眼轴预测模型用于对所述目标对象进行时间序列眼轴预测，所述时间序列眼轴预测用于预测所述目标对象的未来眼轴；

第四方面，根据本公开的内容，提供了一种眼轴预测装置，包括：

获取模块，用于获取待预测眼底图像，所述待预测眼底图像中包括目标对象不同年龄/相同年龄的不同月份的眼底图像；

提取模块，用于将所述待预测眼底图像输入信息提取模型中，根据所述信息提取模型的输出确定所述待预测眼底图像对应的层级特征向量；

第三确定模块，用于基于词向量模型确定所述目标对象的生理信息文本向量；

第四确定模块，用于将所述待预测眼底图像对应的层级特征向量以及所述生理信息文本向量输入眼轴预测模型中，根据所述眼轴预测模型的输出确定所述目标对象的未来眼轴；

第五方面，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，处理器执行计算机程序时实现如以上任意一个实施例中眼轴预测模型的训练方法的步骤，或者，实现如以上任意一个实施例中眼轴预测方法的步骤。

第六方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如以上任意一个实施例中眼轴预测模型的训练方法的步骤，或者，实现如以上任意一个实施例中眼轴预测方法的步骤。

本申请实施例提供的眼轴预测模型的训练方法，训练信息提取模型，信息提取模型用于提取眼底图像对应的层级特征向量，层级特征向量包括：第一层级向量和第二层级向量，信息提取模型包括第一子模型和第二子模型，第一子模型用于提取第一层级向量，第二子模型用于提取第二层级向量，第一层级向量用于描述与近视病灶无关的向量，第二层级向量用于描述与近视病灶相关的向量；基于信息提取模型确定目标眼底图像对应的层级特征向量，目标眼底图像中包括目标对象不同年龄/相同年龄的不同月份的眼底图像，目标眼底图像对应的层级特征向量用于描述目标对象的轴性近视相关信息向量；基于词向量模型确定目标对象的生理信息文本向量；基于目标眼底图像对应的层级特征向量和生理信息文本向量，对网络模型结构进行训练，得到眼轴预测模型，眼轴预测模型用于对目标对象进行时间序列眼轴预测，时间序列眼轴预测用于预测目标对象的未来眼轴；其中，眼轴预测模型中包括时间块机制，时间块机制用于划分目标对象的年龄/月份，使得目标眼底图像对应的层级特征向量和生理信息文本向量均隶属于目标对象的不同年龄/相同年龄的不同月份。如此，通过设定时间token以及模型结构，能够有效利用多次随访数据，不需要固定的输入数据形式，在任意时间点采集的数据均可以利用训练模型训练得到的眼轴预测模型，能够对目标对象的未来眼轴进行有效预测，提升未来眼轴的预测准确度，也解决了现有技术的预测模型难以推广实现的技术问题。

上述说明仅是本申请实施例技术方案的概述，为了能够更清楚了解本申请实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本申请实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为了更清楚地说明本公开的实施例的技术方案，下面将对实施例的附图进行简要说明，应当知道，以下描述的附图仅仅涉及本公开的一些实施例，而非对本公开的限制，其中：

图1是本公开实施例提供的一种眼轴预测模型的训练方法的流程示意图。

图2A是本公开实施例提供的一种第一子模型的训练示意图。

图2B是本公开实施例提供的一种第二子模型的训练示意图。

图2C是本公开实施例提供的一种autoregressive模型的训练示意图。

图2D是本公开实施例提供的一种transformer模型的训练示意图。

图2E是本公开实施例提供的一种眼轴预测模型的训练示意图。

图3是本公开实施例提供的一种眼轴预测方法的流程示意图。

图4是本公开实施例提供的一种眼轴预测模型的训练装置的结构示意图。

图5是本公开实施例提供的一种眼轴预测装置的结构示意图。

图6是本公开实施例提供的一种计算机设备的结构示意图。

需要注意的是，附图中的元素是示意性的，没有按比例绘制。

具体实施方式

为了使本公开的实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本公开的实施例的技术方案进行清楚、完整的描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例，也都属于本公开保护的范围。

除非另外定义，否则在此使用的所有术语(包括技术和科学术语)具有与本公开主题所属领域的技术人员所通常理解的相同含义。进一步将理解的是，诸如在通常使用的词典中定义的那些的术语应解释为具有与说明书上下文和相关技术中它们的含义一致的含义，并且将不以理想化或过于正式的形式来解释，除非在此另外明确定义。如在此所使用的，将两个或更多部分“连接”或“耦接”到一起的陈述应指这些部分直接结合到一起或通过一个或多个中间部件结合。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语“实施例”并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：存在A，同时存在A和B，存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。诸如“第一”和“第二”的术语仅用于将一个部件(或部件的一部分)与另一个部件(或部件的另一部分)区分开。

在本申请的描述中，除非另有说明，“多个”的含义是指两个以上(包括两个)，同理，“多组”指的是两组以上(包括两组)。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

图1是本公开实施例提供的一种眼轴预测模型的训练方法的流程示意图，如图1所示，眼轴预测模型的训练方法的具体过程包括：

S110、训练信息提取模型。

其中，信息提取模型可用于提取眼底图像对应的层级特征向量，层级特征向量包括：第一层级向量和第二层级向量。

眼底图像可为超广角眼底图片，或者普通眼底图片。层级特征向量为信息提取模型中不同网络层输出的特征向量。

信息提取模型可包括第一子模型和第二子模型。第一子模型可用于提取第一层级向量，第二子模型可用于提取第二层级向量。第一层级向量用于描述与近视病灶无关的向量，如年龄、性别、眼别、屈光度和眼前节等；第二层级向量用于描述与近视病灶相关的向量。

S120、基于信息提取模型确定目标眼底图像对应的层级特征向量。

其中，目标眼底图像中可包括目标对象不同年龄/相同年龄的不同月份的眼底图像，目标眼底图像对应的层级特征向量用于描述目标对象的轴性近视相关信息向量。

目标眼底图像中包括目标对象不同年龄下的多个眼底图像。举例而言，目标眼底图像中包括三个眼底图像，分别为图像1、图像2和图像3，其中，图像1为目标对象5岁时拍摄得到的眼底图像，图像2为目标对象6岁时拍摄得到的眼底图像，图像3为目标对象7岁时拍摄得到的眼底图像。

目标眼底图中中包括目标对象相同年龄的不同月份的多个眼底图像。举例而言，目标眼底图像中包括三个眼底图像，分别为图像4、图像5和图像6，其中，图像4为目标对象8岁零一个月拍摄得到的眼底图像，图像4为目标对象8岁零三个月拍摄得到的眼底图像，图像4为目标对象8岁零五个月拍摄得到的眼底图像。

需要说明的是，目标对象可为具有眼部视力问题(如近视)的普通患者。

S130、基于词向量模型确定目标对象的生理信息文本向量。

其中，可根据目标对象的相关信息(如就医信息)得到目标对象的生理信息。生理信息可包括但不限于是：年龄、身高、体重、视力等级、近视度数、性别等。

词向量模型可如word2vec模型，word2vec模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，用以确定出生理信息中每个词语对应的生理信息文本向量(512*7)。

S140、基于目标眼底图像对应的层级特征向量和生理信息文本向量，对网络模型结构进行训练，得到眼轴预测模型。

其中，眼轴预测模型可用于对目标对象进行时间序列眼轴预测，时间序列眼轴预测用于预测目标对象的未来眼轴。也就是，眼轴预测模型可基于目标对象在10岁时的眼轴，预测目标对象在11岁时的眼轴，或者，眼轴预测模型可基于目标对象在10岁零一个月时的眼轴，预测目标对象在10岁零两个月时的眼轴。

眼轴预测模型中包括时间块机制，时间块机制用于划分目标对象的年龄/月份，使得目标眼底图像对应的层级特征向量和生理信息文本向量均隶属于目标对象的不同年龄/相同年龄的不同月份。

举例而言，目标眼底图像中每个眼底图像对应的层级特征向量和生理信息文本向量会对应一个年龄/同一年龄中的一个月份，不同眼底图像对应的层级特征向量和生理信息文本向量对应的一个年龄/同一年龄中的一个月份互不相同。

现有对于当前时间点的眼轴预测，不能有效利用多次随访数据，现有对于未来时间点的眼轴预测，由于在进行模型预测时，数据的输入形式必须相对应，导致应用场景十分单一并不能有效进行推广。本实施例通过设定时间token以及模型结构，能够有效利用多次随访数据，不需要固定的输入数据形式，在任意时间点采集的数据均可以利用训练模型训练得到的眼轴预测模型，能够对目标对象的未来眼轴进行有效预测，提升未来眼轴的预测准确度，也解决了现有技术的预测模型难以推广实现的技术问题。

本实施例中，通过训练信息提取模型，信息提取模型用于提取眼底图像对应的层级特征向量，层级特征向量包括：第一层级向量和第二层级向量，信息提取模型包括第一子模型和第二子模型，第一子模型用于提取第一层级向量，第二子模型用于提取第二层级向量，第一层级向量用于描述与近视病灶无关的向量，第二层级向量用于描述与近视病灶相关的向量；基于信息提取模型确定目标眼底图像对应的层级特征向量，目标眼底图像中包括目标对象不同年龄/相同年龄的不同月份的眼底图像，目标眼底图像对应的层级特征向量用于描述目标对象的轴性近视相关信息向量；基于词向量模型确定目标对象的生理信息文本向量；基于目标眼底图像对应的层级特征向量和生理信息文本向量，对网络模型结构进行训练，得到眼轴预测模型，眼轴预测模型用于对目标对象进行时间序列眼轴预测，时间序列眼轴预测用于预测目标对象的未来眼轴；其中，眼轴预测模型中包括时间块机制，时间块机制用于划分目标对象的年龄/月份，使得目标眼底图像对应的层级特征向量和生理信息文本向量均隶属于目标对象的不同年龄/相同年龄的不同月份。如此，通过设定时间token以及模型结构，能够有效利用多次随访数据，不需要固定的输入数据形式，在任意时间点采集的数据均可以利用训练模型训练得到的眼轴预测模型，能够对目标对象的未来眼轴进行有效预测，提升未来眼轴的预测准确度，也解决了现有技术的预测模型难以推广实现的技术问题。

一些实施例中，训练信息提取模型，包括：

采集目标对象处于不同年龄/相同年龄的不同月份的当前眼底图像以及当前特征向量，当前特征向量用于描述不同年龄/相同年龄的不同月份对应的多个层级特征的向量，多个层级特征包括：近视病灶相关特征以及近视病灶无关特征，近视病灶无关特征包括：年龄、性别、眼别、屈光度和眼前节；基于近视病灶无关特征的向量和当前眼底图像，利用第一损失函数对卷积神经网络进行训练，得到第一子模型，第一损失函数为均方损失函数；基于近视病灶相关特征的向量和当前眼底图像，利用第二损失函数对图像分割网络进行训练，得到第二子模型，第二损失函数用于描述交叉熵损失函数。

其中，第一子模型用于描述卷积神经网络中FC层之前的网络层，第二子模型用于描述图像分割网络中的中间embedding层以及中间embedding层之前的网络层。第一子模型可为自回归模型，第一损失函数则为自回归模型中的损失函数，如均方损失函数MSEloss，第二子模型可为中间embedding层以及中间embedding层之前的网络层组成的模型，第二损失函数则为第二子模型中的损失函数，如交叉熵损失函数miou loss。

第一子模型可为卷积神经网络(Convolutional Neural Networks，CNN)中的主干网络(CNN backbone)，即包括CNN中的部分网络层，如FC层之前的网络层，可通过FC layer后的MSE loss(均方损失函数)训练得到。便于直接将FC层之前的特征向量(512*1)串联后为特征向量(512*8)输入至眼轴预测模型中进行训练。如图2A所示，近视病灶无关特征的向量如性别向量、年龄向量、......、屈光度向量。

第二子模型可为图像分割网络中的部分网络层，如最中间embedding层以及最中间embedding层之前的网络层，可通过miou loss(交叉熵损失函数的加权函数)训练得到。使得直接将近视病灶相关特征对应的如最中间embedding层中的向量(19*19*320)输入至眼轴预测模型中进行训练。如图2B所示。

从而，能够训练得到第一子模型和第二子模型，便于通过训练得到的第一子模型和第二子模型分别提取不同层级特征的向量。

一些实施例中，基于信息提取模型确定目标眼底图像对应的层级特征向量，包括：将目标眼底图像输入第一子模型中，根据第一子模型的输出得到第一层级向量，每个眼底图像对应一个第一层级向量；将目标眼底图像输入第二子模型中，根据第二子模型的输出得到第二层级向量，每个眼底图像对应一个第二层级向量。从而，有效得出不同层级特征的向量。

时间块机制中设置时间token，时间token用于表征目标眼底图像中相连的两个眼底图像的年龄差/月份差。如下举例：

其中，“[]”里的就是一些token，需要人工标注的，将语句分割开来。

在当前任务中，在我们的任务当中，把每一个时间点作为一个token，不同时间点的输入用时间token划分开来，由于自然特性，这些token会在随访中自然标注，不需要特殊标注，实际上时间token就是类似自动打标签，在每个设定的时间间隔处，自动标注年龄或者预定的时间token，并非把年龄放到模型中训练，从而解决了现有技术因为输入数据形式难以模型进行训练，模型准确度低的技术问题。

另外，时间token可基于设置的时间间隔，在每个时间间隔对应的位置处自动标注年龄或者预设的时间token(如1个月)，以此对网络结构模型进行训练，其训练过程中不需要将年龄作为模型输入。例如，将每个月份作为一个transformerencoder的block，在对网络模型结构进行训练时，针对每个月份对相应的输入变量触发时间token，通过时间token替代原有的时间变量输入，从而进行不同年龄，不同发展阶段的输入触发机制。

需要说明的是，此处所指的月份差为同一年龄下的不同月份之间的差值。如10岁和11岁时，此处对应的token则为1年；如10岁零一个月和10岁零两个月时，此处对应的token则为1个月。

一些实施例中，基于目标眼底图像对应的层级特征向量和生理信息文本向量，对网络模型结构进行训练，得到眼轴预测模型，包括：

基于时间token和每个眼底图像对应的年龄/月份，获取目标眼底图像对应的预测眼轴；基于每个眼底图像对应的年龄/月份，将每个眼底图像对应的层级特征向量和生理信息文本向量作为模型输入，并将对应的每个眼底图像的预测眼轴作为模型输出，通过预测眼轴与预测眼轴的年龄/月份对应的实际眼轴之间的差值，训练网络模型结构，得到眼轴预测模型。

其中，预测眼轴中包括多个眼轴，多个眼轴中首个眼轴/月份的年龄由时间token和生理信息文本向量中首个眼轴确定，预测眼轴中每个眼轴的年龄/月份和生理信息文本向量中每个眼轴的年龄/月份均按相同顺序排列；实际眼轴可通过层级特征向量获取。多个眼轴可表示为目标对象不同年龄/同一年龄不同月份的眼轴，实际眼轴为此目标对象在一个具体年龄/一个年龄的具体月份的眼轴。

举例而言，时间token为1年，实际眼轴包括目标对象10-19岁的眼轴，预测眼轴则包括目标对象11-20岁的眼轴。

在眼轴随访预测过程中，年龄是一个特殊的因变量，现有技术所采用的模型会将年龄作为与其他因变量同一维度的输入做处理。而本实施例通过将每个年份作为一个transformerencoder的block，若没有输入则为缺省值，通过此方式，将时间信息(时间token)作为与其他因变量不同的触发器，输入至Auto regressiveDecoder，进行不同年龄，不同发展阶段的输入触发机制。网络模型结构可为自回归模型，如transformer模型结构。如图2C所示，其中，特征提取模块中包括层级特征向量和生理信息文本向量。

本实施例能够基于多模态信息(图像和文本)的优化处理以及在所有随访预测模块中，年龄和时间作为一个特殊的触发变量输入到transformer中，并且利用autoregressive模型对于不定长信息的处理特性，有效解决了不定长随访中输入特征长度不同而导致的预测精度不准确的问题。

一些实施例中，基于每个眼底图像对应的年龄/月份，将每个眼底图像对应的层级特征向量和生理信息文本向量作为模型输入，并将对应的每个眼底图像的预测眼轴作为模型输出，通过预测眼轴与预测眼轴的年龄/月份对应的实际眼轴之间的差值，训练网络模型结构，得到眼轴预测模型，包括：

基于每个眼底图像对应的年龄/月份，依次将眼底图像对应的层级特征向量和生理信息文本向量输入网络模型结构；确定网络模型结构输出的预测眼轴，与预测眼轴的年龄/月份对应的实际眼轴之间的差值；在网络模型结构输出的预测眼轴，与预测眼轴的年龄/月份对应的实际眼轴之间的差值小于或等于预设阈值时，确定模型训练完成，得到眼轴预测模型。

其中，预测眼轴中包括的不同年龄/相同年龄的不同月份的眼轴的预测，所参考的实际眼轴不同，即使，预测眼轴中预测得出的不同年龄/相同年龄的不同月份的眼轴所参考的实际眼轴各不相同。

如图2D所示，E表示实际眼轴，T表示预测眼轴，T₁由E₁预测得到，T₂由E₁和E₂预测得到，T₃由E₁、E₂和E₃得到，以此类推，T_N由T₁、T₂、......、T_N-1预测得到。

在网络模型结构输出的预测眼轴，与预测眼轴的年龄/相同年龄的不同月份对应的实际眼轴之间的差值大于预设阈值时，可对网络模型结构进行优化；直至优化后的网络模型结构输出的预测眼轴，与此预测眼轴的年龄/相同年龄的不同月份对应的实际眼轴之间的差值小于或等于预设阈值时，确定模型训练完成，得到眼轴预测模型。

从而，通过网络模型结构输出的预测眼轴，与预测眼轴的年龄/月份对应的实际眼轴之间的差值作为损失，训练网络模型结构，有效得到眼轴预测模型。同时，利用生理信息文本向量来约束层级特征向量，提升眼轴预测模型的预测准确性。

参见图2E所示，通过对超广角/普通眼底图片hierarchy(层级)信息提取网络的训练与推理，得到层级特征向量(近视相关层次信息和近视相关病灶)与生理信息文本向量(文本信息)并列输入到后级网络(如Auto regressive Decoder)，并将时间作为特殊的触发block，预测得到未来眼轴1、未来眼轴2、......、未来眼轴N。

其中，近视相关病灶通过图像分割中的最中间embedding层中的feature vector(19*19*320)之后加入到后级网络当中；除了近视相关病灶，其他层级信息(如近视病灶无关特征)均通过FC layer之前的feature vector(512*1)concatenate之后为(512*8)加入到后级网络当中；文本信息通过word2vec(512*7)之后加入后级网络之中。

图3是本公开实施例提供的一种眼轴预测方法的流程示意图，如图3所示，眼轴预测方法的具体过程包括：

S310、获取待预测眼底图像。

其中，待预测眼底图像可为目标对象的超广角眼底图片，或者普通眼底图片。待预测眼底图像中可包括目标对象不同年龄/相同年龄的不同月份的眼底图像。

举例而言，待预测眼底图像中包括三个眼底图像，分别为图像7、图像8和图像9，其中，图像7为目标对象6岁时拍摄得到的眼底图像，图像8为目标对象7岁时拍摄得到的眼底图像，图像9为目标对象8岁时拍摄得到的眼底图像。

S320、将待预测眼底图像输入信息提取模型中，根据信息提取模型的输出确定待预测眼底图像对应的层级特征向量。

其中，信息提取模型可用于提取待预测眼底图像对应的层级特征向量，层级特征向量包括：第一层级向量和第二层级向量，信息提取模型包括两个子模型，两个子模型用于分别提取第一层级向量和第二层级向量。

S330、基于词向量模型确定目标对象的生理信息文本向量。

S340、将待预测眼底图像对应的层级特征向量以及生理信息文本向量输入眼轴预测模型中，根据眼轴预测模型的输出确定目标对象的未来眼轴。

眼轴预测模型可用于对目标对象进行时间序列眼轴预测，时间序列眼轴预测用于预测目标对象的未来眼轴。举例而言，眼轴预测模型可基于目标对象在10岁时的眼轴，预测目标对象在11岁时的眼轴，或者，眼轴预测模型可基于目标对象在10岁零一个月时的眼轴，预测目标对象在10岁零两个月时的眼轴。

其中，眼轴预测模型为上述实施例中任一项的方法所训练生成的眼轴预测模型，信息提取模型为上述实施例中任一项的方法所训练生成的信息提取模型。

一些实施例中，本实施例方法还包括：基于目标对象的未来眼轴确定目标对象的眼部状态；基于目标对象的眼部状态，对目标对象进行眼部分析，以对目标对象的眼部的生长趋势进行处理。

举例而言，可基于目标对象的未来眼轴确定目标对象的眼部状态是否近视严重，对目标对象的眼睛进行近视分析，便于对目标对象的眼睛进行及时矫正。

图4为本实施例提供的一种眼轴预测模型的训练装置的结构示意图，其中，眼轴预测模型的训练装置可包括：第一训练模块410、第一确定模块420、第二确定模块430和第二训练模块440。

第一训练模块410，用于训练信息提取模型，所述信息提取模型用于提取眼底图像对应的层级特征向量，所述层级特征向量包括：第一层级向量和第二层级向量，所述信息提取模型包括第一子模型和第二子模型，所述第一子模型用于提取所述第一层级向量，所述第二子模型用于提取所述第二层级向量，所述第一层级向量用于描述与近视病灶无关的向量，所述第二层级向量用于描述与近视病灶相关的向量。

第一确定模块420，用于基于所述信息提取模型确定目标眼底图像对应的层级特征向量，所述目标眼底图像中包括目标对象不同年龄/相同年龄的不同月份的眼底图像，所述目标眼底图像对应的层级特征向量用于描述所述目标对象的轴性近视相关信息向量。

第二确定模块430，用于基于词向量模型确定所述目标对象的生理信息文本向量。

第二训练模块440，用于基于所述目标眼底图像对应的层级特征向量和所述生理信息文本向量，对网络模型结构进行训练，得到眼轴预测模型，所述眼轴预测模型用于对所述目标对象进行时间序列眼轴预测，所述时间序列眼轴预测用于预测所述目标对象的未来眼轴。

在本实施例中，可选的，第一训练模块410，具体用于：

采集所述目标对象处于不同年龄/相同年龄的不同月份的当前眼底图像以及当前特征向量，所述当前特征向量用于描述不同年龄/相同年龄的不同月份对应的多个层级特征的向量，多个所述层级特征包括：近视病灶相关特征以及近视病灶无关特征，所述近视病灶无关特征包括：年龄、性别、眼别、屈光度和眼前节；基于所述近视病灶无关特征的向量和所述当前眼底图像，利用第一损失函数对卷积神经网络进行训练，得到第一子模型，所述第一损失函数为均方损失函数；基于所述近视病灶相关特征的向量和所述当前眼底图像，利用第二损失函数对图像分割网络进行训练，得到第二子模型，所述第二损失函数用于描述交叉熵损失函数；其中，所述第一子模型用于描述所述卷积神经网络中FC层之前的网络层，所述第二子模型用于描述所述图像分割网络中的中间embedding层以及所述中间embedding层之前的网络层，所述第一子模型为自回归模型，所述第一损失函数为所述自回归模型中的损失函数，所述第二子模型为所述中间embedding层以及所述中间embedding层之前的网络层组成的模型，所述第二损失函数为所述第二子模型中的损失函数。

在本实施例中，可选的，所述时间块机制中设置时间token，所述时间token用于表征所述目标眼底图像中相连的两个所述眼底图像的年龄差/月份差。

第二训练模块440，具体用于：

基于所述时间token和每个所述眼底图像对应的年龄/月份，获取所述目标眼底图像对应的预测眼轴；基于每个所述眼底图像对应的年龄/月份，将每个所述眼底图像对应的层级特征向量和所述生理信息文本向量作为模型输入，并将对应的每个所述眼底图像的预测眼轴作为模型输出，通过所述预测眼轴与所述预测眼轴的年龄/月份对应的实际眼轴之间的差值，训练所述网络模型结构，得到所述眼轴预测模型；其中，所述预测眼轴中包括多个眼轴，多个所述眼轴中首个眼轴的年龄/月份由所述时间token和所述生理信息文本向量中首个眼轴确定，所述预测眼轴中每个眼轴的年龄/月份和所述生理信息文本向量中每个眼轴的年龄/月份均按相同顺序排列；所述实际眼轴通过所述层级特征向量获取。

在本实施例中，可选的，第二训练模块440，具体用于：

基于每个所述眼底图像对应的年龄/月份，依次将所述眼底图像对应的层级特征向量和所述生理信息文本向量输入所述网络模型结构；确定所述网络模型结构输出的所述预测眼轴，与所述预测眼轴的年龄/月份对应的实际眼轴之间的差值；在所述网络模型结构输出的所述预测眼轴，与所述预测眼轴的年龄/月份对应的实际眼轴之间的差值小于或等于预设阈值时，确定模型训练完成，得到所述眼轴预测模型。

在本实施例中，可选的，还包括：优化模块。

优化模块，用于在所述网络模型结构输出的所述预测眼轴，与所述预测眼轴的年龄/月份对应的实际眼轴之间的差值大于所述预设阈值时，对所述网络模型结构进行优化；直至优化后的网络模型结构输出的所述预测眼轴，与所述预测眼轴的年龄/月份对应的实际眼轴之间的差值小于或等于所述预设阈值时，确定模型训练完成，得到所述眼轴预测模型。

在本实施例中，可选的，第一确定模块420，具体用于：

将所述目标眼底图像输入所述第一子模型中，根据所述第一子模型的输出得到所述第一层级向量，每个所述眼底图像对应一个所述第一层级向量；将所述目标眼底图像输入所述第二子模型中，根据所述第二子模型的输出得到所述第二层级向量，每个所述眼底图像对应一个所述第二层级向量。

本公开提供的眼轴预测模型的训练装置，可执行上述方法实施例，其具体实现原理和技术效果，可参见上述方法实施例，本公开此处不再赘述。

图5为本实施例提供的一种眼轴预测装置的结构示意图，其中，眼轴预测装置可包括：获取模块510、提取模块520、第三确定模块530和第四确定模块540。

获取模块510，用于获取待预测眼底图像，所述待预测眼底图像中包括目标对象不同年龄/相同年龄的不同月份的眼底图像。

提取模块520，用于将所述待预测眼底图像输入信息提取模型中，根据所述信息提取模型的输出确定所述待预测眼底图像对应的层级特征向量。

第三确定模块530，用于基于词向量模型确定所述目标对象的生理信息文本向量。

第四确定模块540，用于将所述待预测眼底图像对应的层级特征向量以及所述生理信息文本向量输入眼轴预测模型中，根据所述眼轴预测模型的输出确定所述目标对象的未来眼轴。

其中，所述眼轴预测模型为上述实施例中任一项所述的方法所训练生成的眼轴预测模型，所述信息提取模型为上述实施例中任一项所述的方法所训练生成的信息提取模型。

一些实施例中，还包括：第五确定模块和分析模块。

第五确定模块，用于基于所述目标对象的未来眼轴确定所述目标对象的眼部状态。

分析模块，用于基于所述目标对象的眼部状态，对所述目标对象进行眼部分析，以对所述目标对象的眼部的生长趋势进行处理。

本公开提供的眼轴预测装置，可执行上述方法实施例，其具体实现原理和技术效果，可参见上述方法实施例，本公开此处不再赘述。

本申请实施例还提供了一种计算机设备。具体请参阅图6，图6为本实施例计算机设备基本结构框图。

计算机设备包括通过系统总线相互通信连接存储器610和处理器620。需要指出的是，图中仅示出了具有组件610-620的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程门阵列(Field-Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器610至少包括一种类型的可读存储介质，可读存储介质包括非易失性存储器(non-volatile memory)或易失性存储器，例如，闪存(flash memory)、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦写可编程只读存储器(erasable programmableread-only memory，EPROM)、电可擦写可编程只读存储器(electrically erasableprogrammable read-only memory，EEPROM)、可编程只读存储器(programmable read-onlymemory，PROM)、磁性存储器、磁盘、光盘等，RAM可以包括静态RAM或动态RAM。在一些实施例中，存储器610可以是计算机设备的内部存储单元，例如，该计算机设备的硬盘或内存。在另一些实施例中，存储器610也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡或闪存卡(Flash Card)等。当然，存储器610还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器610通常用于存储安装于计算机设备的操作系统和各类应用软件，例如上述方法的程序代码等。此外，存储器610还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器620通常用于执行计算机设备的总体操作。本实施例中，存储器610用于存储程序代码或指令，程序代码包括计算机操作指令，处理器620用于执行存储器610存储的程序代码或指令或者处理数据，例如运行上述方法的程序代码。

本文中，总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。该总线系统可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本申请的另一实施例还提供一种计算机可读介质，计算机可读介质可以是计算机可读信号介质或者计算机可读介质。计算机中的处理器读取存储在计算机可读介质中的计算机可读程序代码，使得处理器能够执行在上述方法中每个步骤、或各步骤的组合中规定的功能动作；生成实施在框图的每一块、或各块的组合中规定的功能动作的装置。

计算机可读介质包含但不限于电子、磁性、光学、电磁、红外的存储器或半导体系统、设备或者装置，或者前述的任意适当组合，存储器用于存储程序代码或指令，程序代码包括计算机操作指令，处理器用于执行存储器存储的上述方法的程序代码或指令。

存储器和处理器的定义，可以参考前述计算机设备实施例的描述，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

在本申请各个实施例中的各功能单元或模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。本申请描述的“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了装置若干的单元权利要求中，这些装置中的若干个单元可以是通过同一个硬件项来具体体现。第一、第二、以及第三等的使用不表示任何顺序，可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种眼轴预测模型的训练方法，其特征在于，包括：

基于词向量模型确定所述目标对象的生理信息文本向量；

2.根据权利要求1所述的方法，其特征在于，所述训练信息提取模型，包括：

采集所述目标对象处于不同年龄/相同年龄的不同月份的当前眼底图像以及当前特征向量，所述当前特征向量用于描述不同年龄/相同年龄的不同月份对应的多个层级特征的向量，多个所述层级特征包括：近视病灶相关特征以及近视病灶无关特征，所述近视病灶无关特征包括：年龄、性别、眼别、屈光度和眼前节；

基于所述近视病灶无关特征的向量和所述当前眼底图像，利用第一损失函数对卷积神经网络进行训练，得到第一子模型，所述第一损失函数为均方损失函数；

基于所述近视病灶相关特征的向量和所述当前眼底图像，利用第二损失函数对图像分割网络进行训练，得到第二子模型，所述第二损失函数用于描述交叉熵损失函数；

其中，所述第一子模型用于描述所述卷积神经网络中FC层之前的网络层，所述第二子模型用于描述所述图像分割网络中的中间embedding层以及所述中间embedding层之前的网络层，所述第一子模型为自回归模型，所述第一损失函数为所述自回归模型中的损失函数，所述第二子模型为所述中间embedding层以及所述中间embedding层之前的网络层组成的模型，所述第二损失函数为所述第二子模型中的损失函数。

3.根据权利要求1所述的方法，其特征在于，所述时间块机制中设置时间token，所述时间token用于表征所述目标眼底图像中相连的两个所述眼底图像的年龄差/月份差；

所述基于所述目标眼底图像对应的层级特征向量和所述生理信息文本向量，对网络模型结构进行训练，得到眼轴预测模型，包括：

基于所述时间token和每个所述眼底图像对应的年龄/月份，获取所述目标眼底图像对应的预测眼轴；

基于每个所述眼底图像对应的年龄/月份，将每个所述眼底图像对应的层级特征向量和所述生理信息文本向量作为模型输入，并将对应的每个所述眼底图像的预测眼轴作为模型输出，通过所述预测眼轴与所述预测眼轴的年龄/月份对应的实际眼轴之间的差值，训练所述网络模型结构，得到所述眼轴预测模型；

其中，所述预测眼轴中包括多个眼轴，多个所述眼轴中首个眼轴的年龄/月份由所述时间token和所述生理信息文本向量中首个眼轴确定，所述预测眼轴中每个眼轴的年龄/月份和所述生理信息文本向量中每个眼轴的年龄/月份均按相同顺序排列；所述实际眼轴通过所述层级特征向量获取。

4.根据权利要求3所述的方法，其特征在于，所述基于每个所述眼底图像对应的年龄/月份，将每个所述眼底图像对应的层级特征向量和所述生理信息文本向量作为模型输入，并将对应的每个所述眼底图像的预测眼轴作为模型输出，通过所述预测眼轴与所述预测眼轴的年龄/月份对应的实际眼轴之间的差值，训练所述网络模型结构，得到所述眼轴预测模型，包括：

基于每个所述眼底图像对应的年龄/月份，依次将所述眼底图像对应的层级特征向量和所述生理信息文本向量输入所述网络模型结构；

确定所述网络模型结构输出的所述预测眼轴，与所述预测眼轴的年龄/月份对应的实际眼轴之间的差值；

在所述网络模型结构输出的所述预测眼轴，与所述预测眼轴的年龄/月份对应的实际眼轴之间的差值小于或等于预设阈值时，确定模型训练完成，得到所述眼轴预测模型。

5.根据权利要求4所述的方法，其特征在于，还包括：

在所述网络模型结构输出的所述预测眼轴，与所述预测眼轴的年龄/月份对应的实际眼轴之间的差值大于所述预设阈值时，对所述网络模型结构进行优化；

直至优化后的网络模型结构输出的所述预测眼轴，与所述预测眼轴的年龄/月份对应的实际眼轴之间的差值小于或等于所述预设阈值时，确定模型训练完成，得到所述眼轴预测模型。

6.根据权利要求2所述的方法，其特征在于，所述基于所述信息提取模型确定目标眼底图像对应的层级特征向量，包括：

将所述目标眼底图像输入所述第一子模型中，根据所述第一子模型的输出得到所述第一层级向量，每个所述眼底图像对应一个所述第一层级向量；

将所述目标眼底图像输入所述第二子模型中，根据所述第二子模型的输出得到所述第二层级向量，每个所述眼底图像对应一个所述第二层级向量。

7.一种眼轴预测方法，其特征在于，包括：

基于词向量模型确定所述目标对象的生理信息文本向量；

其中，所述眼轴预测模型为权利要求1-6中任一项所述的方法所训练生成的眼轴预测模型，所述信息提取模型为权利要求1-6中任一项所述的方法所训练生成的信息提取模型。

8.根据权利要求7所述的方法，其特征在于，还包括：

基于所述目标对象的未来眼轴确定所述目标对象的眼部状态；

基于所述目标对象的眼部状态，对所述目标对象进行眼部分析，以对所述目标对象的眼部的生长趋势进行处理。

9.一种眼轴预测模型的训练装置，其特征在于，包括：

10.一种眼轴预测装置，其特征在于，包括：