CN112215285A

CN112215285A - 一种基于跨媒体特征的眼底图像自动标注方法

Info

Publication number: CN112215285A
Application number: CN202011089705.7A
Authority: CN
Inventors: 陈雷霆; 周川; 张天
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-01-12
Anticipated expiration: 2040-10-13
Also published as: CN112215285B

Abstract

本发明公开了一种基于跨媒体特征的眼底图像自动标注方法；该方法具体如下执行步骤；步骤1:预处理；步骤2:实现特征提取操作；步骤3:注意力机制的引入；步骤4:先验框生成；步骤5：检测器生成；步骤6:选取正负样本；步骤7:计算损失；步骤8:网络训练。本发明使用计算机视觉技术以及自然语言处理技术，探索两类媒体特征之间的语义关联，该方法破除了常规标注方法的两点不足：第一病灶标签的种类多样性，本方法可以对十余种眼底图像中常见的病灶进行标注，使用目标识别的方法给出每一个病灶在眼底图像中的具体位置，而不是仅仅指出病灶种类。第二点：病灶本身的多样性，本方法采用跨媒体特征的方式，使用文本数据加强特征的提取，从而提高对病灶标注的效果。

Description

一种基于跨媒体特征的眼底图像自动标注方法

技术领域

本发明涉及眼底图像标注领域，具体来讲是一种基于跨媒体特征的眼底图像自动标注方法。

背景技术

随着医学影像技术的不断发展，人类对眼底疾病的检测已经进入了一个更加智能化的时代，计算机辅助诊断技术可以帮助医学工作者自动的检测眼底图像中出现的疾病。但是随着时间不断的向前迈进，大量的眼底图像在产生以后，并没有得到充分的利用，而计算机辅助诊断眼底疾病却又依赖得以标注好的眼底图像。这一技术与现实的矛盾亟待解决。因此对眼底图像的自动标注具有十分重要的意义。

对图像进行标注即赋予图像标签，这些标签可以分为两种：图像级别的弱标签，以及像素级别的强标签。然而基于分类的标注方法得到的弱标签相对于强标签来说，实用性不强，所以实际工程中主要是进行强标签的标注工作。强标签标注方法可以是基于分割的标注方法，基于目标识别的标注方法。

传统的对自然图像的标注方法可以使用人工标注方式，即手动的在图像中标注出目标的掩膜，或者目标的边界框。虽然这种人工方式十分费事费力，但是仍然有大量的工程采用这种方法，因为这种方法标注自然图像中出现的物体如猫，狗，云朵等等是可行的。然而不同于自然图像，眼底图像中的病灶十分微小，而且数量多，形状各异，另外没有医学知识的普通标注工作者是很难分别出病灶在哪里，而且多个病灶之间具有很大的相似性，很容易就会标注错，因此使用人工方式进行眼底图像的病灶标注显然是不可行的。

截止目前，已经有很多医学图像自动标注的方法，例如上文中提到的基于分类方法的眼底图像标注，这些技术已经用到了对糖尿病视网膜病变(糖网病)、对老年性黄斑病变(AMD)等疾病的检测中，但是这些检测技术具有很强的局限性，一方面这些技术仅仅只是针对眼底图像中出现的疾病进行检测，是一种上层应用型的技术，对于一张眼底图像来说，真正需要进行标注的是眼底图像中出现的病灶，标注好的病灶对于后续的应用研究以及疾病相关性探索具有基础性的意义。另一方面正如上文中提到的基于分类方法给出的标注只是图像级别的弱标签，相对于分割和目标识别方法给出的强标签来说，弱标签应用性不高。当然也有一些基于分割的方法对眼底病灶进行标注的，但是这些方法都只是对眼底图像中的单个病灶进行分割，这种标注方法不能全面的对眼底图像中的病灶进行标注，眼底图像存在几十种病灶类型(如微动脉瘤，渗出，玻璃膜疣，出血，高荧光，低荧光，豹纹状眼底，色素紊乱，色素沉着，无灌注区，荧光渗漏，荧光积存，屈光介质不清等等)，而每一张眼底图像都可能对应一个或多个病灶，所以需要一种可以同时标注多实例多类别病灶的自动标注方法。然而使用上述单一种类病灶分割方法拓展进行多种病灶分割是极其困难的，原因也在于上文所说的病灶数量多，大小不一，有的病灶如豹纹状眼底可以覆盖眼底图像中的大部分区域，而有的病灶如微动脉瘤只有几个像素，所以本发明采用了一种基于跨媒体特征的做法，使用眼底图像所对应的眼底报告对病灶的标注进行信息提示，在标注的同时能够从文本数据中获得更多的信息，从而提高标注的效果。

与本发明相关的现有技术：

现有技术方案一：2019年，Zhao等人在《BIRA-NET：Bilinear Atention Net forDiabetic retinopathy Grading》中提出了一种基于双线性模型以及注意力机制的自动糖网病分期的方法，该方法通过将模型的注意力集中到对分类具有显著性意义的区域，提高模型的分类准确性，另外使用双线性机理可以进一步强化分类特征，该技术在实验中取得了很好的结果。

2018年，Felix等人在《A Deep Learning Algorithm for Prediction of Age-Related Eye Disease Study Severity Scale for Age-Related Macular Degenerationfrom Color Fundus Photography》中使用了深度学习的方法，训练了多个神经网络模型，然后对模型进行集成提高了分类准确性，该模型在另外一个数据集中进行了评估，取得了很好的效果。

2019年，Fang等人在《Attention to Lesion:Lesion-Aware ConvolutionalNeural Network For Retinal Optical Coherence Tomography Image Classification》中提出了一种新型注意力模块，该模块可以利用具有高度注意力的病灶区域去指导模型更加精确的分类，作者等人将该模块进行堆叠，同时对正常，黄斑水肿，脉络膜新生血管以及玻璃膜疣进行分类。

现有技术方案一缺点：上述几类模型使用了深度学习的方法，采用分类的技术对眼底疾病进行了标注，但是标注的内容是眼底疾病本身，是一种上层应用性的标注技术，但是在实际标注过程中，往往需要对眼底图像中存在的病灶进行标注，所以这一类标注技术虽然在检测疾病上有很强的应用价值，但是并不能应用到对眼底图像中病灶的标注上。

现有技术方案二：2019年，万程等人在专利《基于深度学习的眼底图像病灶区域标注方法》中提出了一种使用深度学习的方法进行眼底图像标注的方法，该方法使用了GAN(Generative Adversarial Networks)深度学习模型对DIARETDB1数据集中的硬渗出物病灶进行标注。该模型通过多次训练，取得了很好的效果。

现有技术方案二缺点：该方法利用了很先进的生成对抗模型对眼底图像进行了标注，但是标注的仅仅是眼底图像中的硬性渗出，而眼底图像中存在多种病灶，这些病灶在技术背景中已经列举了一部分，每一个眼底图像又可能对应一个或多个病灶信息，所以单纯使用分割技术对某一个病灶进行标注是不可行的。

现有技术方案三：2019年，Haq等人在《Computer Assisted Reading of ChestRadioGraphs》中提出了一种使用深度学习的方法进行图像标注的方法，该方法对CheXpert数据集中存在的数十种病灶进行标注，包括：肺不张、心脏肥大、肺实变、肺水肿、胸腔积液等，该方法在CheXpert数据集上得到了比较好的标注效果。

现有技术方案三缺点：该方法利用深度学习技术对图像中的病灶进行了标注，该方法虽然对应多种病灶，且单个图像也有一种或者多个病灶，但是该方法仍然存在缺点，该方法采用了分类的方法，只是简单的给出了需要标注的图像的病灶种类，不能很好的展现病灶的位置。

发明内容

因此，为了解决上述不足，本发明针对上述方案中存在的缺陷，使用计算机视觉技术以及自然语言处理技术，探索两类媒体特征之间的语义关联，提出一种基于跨媒体特征的眼底图像病灶自动标注方法，该方法破除了常规标注方法的两点不足：第一病灶标签的种类多样性，本方法可以对十余种眼底图像中常见的病灶进行标注，使用目标识别的方法给出每一个病灶在眼底图像中的具体位置，而不是仅仅指出病灶种类。第二点：病灶本身的多样性，本方法采用跨媒体特征的方式，使用文本数据加强特征的提取，从而提高对病灶标注的效果。

本发明是这样实现的，构造一种基于跨媒体特征的眼底图像自动标注方法；该方法充分利用了图像数据与图像数据所对应的文本数据，将两种媒体特征结合提高病灶标注的准确性；其特征在于；具体如下执行步骤；

步骤1:预处理；预处理包括对图像的预处理和对眼底报告的预处理；

步骤2:实现特征提取操作；具有步骤2.1:眼底图像特征提取；步骤2.2:眼底报告特征提取；

步骤3:注意力机制的引入；有两个注意力模块，分别阐释在如下两个分步骤中；具有步骤3.1:图像特征对文本特征的注意力；步骤3.2:文本特征对图像特征的注意力；

步骤4:先验框生成；

步骤5:检测器生成；

步骤6:选取正负样本；

步骤7:计算损失；

步骤8:网络训练。

根据本发明所述一种基于跨媒体特征的眼底图像自动标注方法；其特征在于；对于步骤2来讲，特征提取具体实现如下；

步骤2.1:眼底图像特征提取；使用改进后的VGG16对眼底图像进行特征提取，改进方式是将VGG16中所有的卷积模块中的第一个卷积层使用深度可分离卷积，这样可以对各个通道进行分别卷积，改进对小病灶特征的提取；此外由于眼底图像中的病灶大小不一，因此对各个深度的特征进行抽取，另外去掉原本VGG16中的全连接层，改用卷积层，这样可以适应各种尺寸的图像输入；在去掉最后两个全连接层之后，使用空洞卷积等，一直将特征提取到1×1；

步骤2.2:眼底报告特征提取；本发明中对预处理之后的报告文本需要进行以下处理:(1)使用Tokenizer实现对报告文本转换；将输入的文本中的每个词编号，编号是根据词频的，词频越大，编号越小；(2)使用texts_to_sequences实现将每条文本转变成一个向量；(3)使用pad_sequences让每个文本向量长度相同，由于每句话的长度不唯一，需要将每句话的长度设置一个固定值。将超过固定值的部分截掉，不足的在最前面用0填充；最后将这个文本向量输入到神经网络中，首先经过Embedding层基于上文所得的词编码，对每个词进行一位有效编码，每个词都会是一个固定维度的向量，然后形成一个张量，这个张量再经过双向LSTM层进行特征的提取并学习各个词之间的上下文关系。

根据本发明所述一种基于跨媒体特征的眼底图像自动标注方法；其特征在于；对于步骤3来讲，注意力机制的引入实现如下；

步骤3.1:图像特征对文本特征的注意力；在步骤2.1中，将对各个深度的特征进行抽取，这些特征一方面用于最终的目标检测，另一方面用于生成对文本特征的注意力。由于各个深度的特征图维度不同，因此需要分别按照各自的大小一一经过卷积和最大池化的操作得到各自深度的特征向量，然后将这些特征向量级联在一起，经过一层全连接和sigmoid激活函数激活得到一个注意力的向量，这个向量的维度需要与步骤2.2中生成的文本特征向量保持相同的维度，然后将这两个特征向量相乘得到最终的文本特征向量；

步骤3.2:文本特征对图像特征的注意力；上一步骤中得到的最终的文本特征向量，会经过全连接和sigmoid激活函数激活得到一个文本特征注意力作用于目标标注过程中。在步骤2.1中，对抽取出的各个深度的特征，分别进行如下操作:对每一个有效特征层，假如先验框数量为num_priors个，分类的类别数(包括背景)为num_classes个，那么需要分别对其进行一次num_priors×4的卷积、一次num_priors×num_classes的卷积、并需要计算每一个有效特征层对应的先验框，对应num_priors×num_classes的卷积的结果是得到每个先验框中病灶的类别，关于这一步操作以及先验框将在后续步骤详细讲解。为了提高对病灶的分类准确率，可以使用文本注意力特征向量乘以对应的病灶分类卷积的结果，这样卷积结果在得到文本特征提示后，可以更加精确的的进行分类。

根据本发明所述一种基于跨媒体特征的眼底图像自动标注方法；其特征在于；步骤4:先验框生成为；先验框的形式主要有几种，对先验框的尺寸(可以看作宽度)而言，可以有1/3，1/2，1，2，3以及

这几种尺寸，这里的

和

分别是当前尺寸特征图设计的先验框默认尺寸和下一尺寸特征图设计的先验框默认尺寸；这些尺寸的意义就是长宽比为1:3到3:1，当然在实际使用时，在38*38、3*3和1*1的特征图上使用的只有1/2，1，2和

四种，剩余几个尺寸的特征图使用的是上述全部六种。所有的先验框都生成完以后，会有38×38×4+19×19×6+10×10×6+5×5×6+3×3×4+1×1×4＝8732个先验框，下面将使用这些先验框进行病灶检测。

根据本发明所述一种基于跨媒体特征的眼底图像自动标注方法；其特征在于；步骤5:检测器生成；在步骤3.3中提到，对每一个有效特征层，要对其进行一次num_priors×4的卷积，卷积结果其实就是先验框的调整，数字4代表了先验框向X和Y方向的偏移以及先验框宽度和高度的调整；紧接着将每个网格的中心点加上它对应的X和Y方向的偏移值，加完后的结果得到了预测框的中心，然后再将先验框和宽度和高度的调整值结合计算出预测框的长和宽，这样就能得到整个预测框的位置。此外还会进行一次num_priors×num_classes的卷积，卷积的结果上文中已经提到即为预测框中病灶类型。对需要进行的C类病灶而言，加上背景一共C+1即num_classes个类，对m*m的特征图，将会计算得到m×m×(num_classes+4)×num_priors个卷积结果，这些结果就是生成的病灶检测器。

根据本发明所述一种基于跨媒体特征的眼底图像自动标注方法；其特征在于；步骤6:选取正负样本；对正样本而言，选取与真实框匹配IOU最大的预测框，或者对任意一个预测框，只要与一个真实框的IOU大于阈值0.5，就可以归类为正样本，也就是这个框框住了病灶。对于大量的负样本来说，不能完全用来作为负样本，所以计算每一个预测框的损失然后进行排序，太小的很容易就可以判断出是背景，没有训练难度，挑选出最大的几个，使正负样本数量达到1:3即可。

根据本发明所述一种基于跨媒体特征的眼底图像自动标注方法；其特征在于；步骤7:计算损失；总的目标损失函数为分类损失和定位损失的和；对于计算分类损失来说，也就是计算每一个正样本中框住的病灶是不是对应的病灶的损失，这其实是一个交叉熵损失，而负样本没有比较可言，直接计算其对数值即可；对于定位损失来说，就是计算每一个预测框与真实框的中心以及宽高的差距，然后计算对数值相加即可。

根据本发明所述一种基于跨媒体特征的眼底图像自动标注方法；其特征在于；步骤8:网络训练；将预处理过的眼底图片和眼底报告以及对应的类别和标注，按批次输入到整个网络中，计算出损失，然后回传更新整个网络的权重，经过一定批次的训练之后，网络就可以对输入的眼底图片和眼底报告有很好的预测性能，将未标注过的眼底图片和眼底报告输入到训练好的网络中，就可以标注出其中的病灶位置。

本发明具有如下优点：本发明通过改进在此提供一种基于跨媒体特征的眼底图像自动标注方法；本发明是针对现有方案中存在的缺陷，使用计算机视觉技术以及自然语言处理技术，探索两类媒体特征之间的语义关联，提出一种基于跨媒体特征的眼底图像病灶自动标注方法，该方法破除了常规标注方法的两点不足：第一病灶标签的种类多样性，本方法可以对十余种眼底图像中常见的病灶进行标注，使用目标识别的方法给出每一个病灶在眼底图像中的具体位置，而不是仅仅指出病灶种类。第二点：病灶本身的多样性，本方法采用跨媒体特征的方式，使用文本数据加强特征的提取，从而提高对病灶标注的效果。

本发明充分利用了图像数据与图像数据所对应的文本数据，将两种媒体特征结合提高病灶标注的准确性。此外本发明中还提出了跨媒体的注意力机制，使两种媒体特征相互融合加强对方媒体的特征提取或分类精度，使容易忽略的微小病灶的特征得以保留，从而解决了病灶标注中的病灶大小不一，数量不一，种类不一的问题。图1是本发明所使用的网络的总体结构图(眼底图像自动标注网络结构图)；本发明的技术方案结合了计算机视觉技术和自然语言处理技术。一方面，使用自然语言处理技术，使用网络对眼底图像所对应的眼底报告进行特征提取，提取出对应的眼底图像中可能蕴含的病灶信息。另一方面，使用计算机视觉技术，训练神经网络来提取图像中的视觉特征，然后使用相互注意力机制的方式加强对方对病灶信息的提取，最后对应输出每张图像中对应病灶的对应位置，这个位置采用的是边界框的方式将病灶框选。

本发明提出了一种基于跨模态形式使用目标识别技术的眼底图像病灶自动标注方法，可以很好的利用眼底图像和眼底报告，将眼底图像中存在的大量不同类别以及大小不同，形状各异的病灶标注在眼底图像中，这些标注过的眼底图像可以很好的被利用于眼底疾病检测，病灶识别等场合。

附图说明

图1眼底图像自动标注网络结构图；

图2跨媒体特征眼底图像病灶自动标注流程图；

图3眼底图像案例图；

图4跨媒体眼底图像自动标注方法应用场景图。

具体实施方式

下面将结合附图1-图4对本发明进行详细说明，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明通过改进在此提供一种基于跨媒体特征的眼底图像自动标注方法；本发明是针对现有方案中存在的缺陷，使用计算机视觉技术以及自然语言处理技术，探索两类媒体特征之间的语义关联，提出一种基于跨媒体特征的眼底图像病灶自动标注方法，该方法破除了常规标注方法的两点不足：第一病灶标签的种类多样性，本方法可以对十余种眼底图像中常见的病灶进行标注，使用目标识别的方法给出每一个病灶在眼底图像中的具体位置，而不是仅仅指出病灶种类。第二点：病灶本身的多样性，本方法采用跨媒体特征的方式，使用文本数据加强特征的提取，从而提高对病灶标注的效果。

本发明提出了一种新型的自动标注方法，该方法充分利用了图像数据与图像数据所对应的文本数据，将两种媒体特征结合提高病灶标注的准确性。此外本发明中还提出了跨媒体的注意力机制，使两种媒体特征相互融合加强对方媒体的特征提取或分类精度，使容易忽略的微小病灶的特征得以保留，从而解决了病灶标注中的病灶大小不一，数量不一，种类不一的问题。图1是本发明所使用的网络的总体结构图(眼底图像自动标注网络结构图)；本发明的技术方案结合了计算机视觉技术和自然语言处理技术。一方面，使用自然语言处理技术，使用网络对眼底图像所对应的眼底报告进行特征提取，提取出对应的眼底图像中可能蕴含的病灶信息。另一方面，使用计算机视觉技术，训练神经网络来提取图像中的视觉特征，然后使用相互注意力机制的方式加强对方对病灶信息的提取，最后对应输出每张图像中对应病灶的对应位置，这个位置采用的是边界框的方式将病灶框选。

在图1中，眼底图像经过预处理经过VGG网络，提取从38*38维到1*1维的特征图，一方面这些特征图经过卷积和级联输入到注意力生成的模块中，生成特征注意力去加强眼底报告的提取。另一方面这些特征图各自经过生成先验框以及候选框的调整比例得到预测框和每个预测框中病灶类别。而眼底报告经过预处理以及向量化，输入到神经网络中，经过上一步的图片产生的注意力作用之后，输出病灶特征然后作为文本注意力作用于病灶检测和分类模块中的分类部分，提高病灶的命中率。最后经过极大值压缩，挑选出最好的预测框输出眼底图像对应的目标检测结果。图2是本发明基于跨媒体特征进行特征标注的流程图(跨媒体特征眼底图像病灶自动标注流程图)。

本发明的实施例如下；本发明的执行步骤包括；

步骤1：预处理；预处理包括对图像的预处理和对眼底报告的预处理。眼底图像和眼底报告样例如图3和下表所示：

表1:眼底报告样例表

对眼底图像进行预处理，在本发明中包括两步，第一步对图像进行大小归一，得到300*300大小的图片，第二步对图像进行增强，包括图像的水平和垂直的镜像翻转，以及将图像随机的在-15°到15°的范围内旋转。

步骤2:特征提取：

步骤2.1:眼底图像特征提取；本发明中使用改进后的VGG16对眼底图像进行特征提取，改进方式是将VGG16中所有的卷积模块中的第一个卷积层使用深度可分离卷积，这样可以对各个通道进行分别卷积，改进对小病灶特征的提取。此外由于眼底图像中的病灶大小不一，因此对各个深度的特征进行抽取，另外去掉原本VGG16中的全连接层，改用卷积层，这样可以适应各种尺寸的图像输入。在去掉最后两个全连接层之后，使用空洞卷积等，一直将特征提取到1×1。

步骤2.2:眼底报告特征提取；本发明中对预处理之后的报告文本需要进行以下处理:(1)使用Tokenizer实现对报告文本转换。将输入的文本中的每个词编号，编号是根据词频的，词频越大，编号越小；(2)使用texts_to_sequences实现将每条文本转变成一个向量；(3)使用pad_sequences让每个文本向量长度相同，由于每句话的长度不唯一，需要将每句话的长度设置一个固定值。将超过固定值的部分截掉，不足的在最前面用0填充。最后将这个文本向量输入到神经网络中，网络的结构如图1所示，首先经过Embedding层基于上文所得的词编码，对每个词进行一位有效编码，每个词都会是一个固定维度的向量，然后形成一个张量，这个张量再经过双向LSTM层进行特征的提取并学习各个词之间的上下文关系。

步骤3：注意力机制的引入；由于文本报告和眼底图像之间存在者对应关系，因此仅仅使用文本报告或者眼底图像提取的特征可能会忽视掉各自媒体特征中存在的重要信息，却对某些无用信息保留。例如眼底图像中存在的重要病灶，但是在文本报告中却未凸显出重要性。或者是眼底报告中提到的病灶，由于卷积和池化的原因在图像特征提取过程中，逐渐消失，比较典型的就是像微动脉瘤一类的微小病灶。在本发明中，使用跨媒体的方式解决上述问题，将注意力机制引入，使用另一种媒体的特征来提高自身媒体特征的信息关注度，使得可能被忽略的特征得以保留。本发明中一共有两个注意力模块，分别阐释在如下两个分步骤中。

步骤3.1：图像特征对文本特征的注意力；在步骤2.1中，将对各个深度的特征进行抽取，这些特征一方面用于最终的目标检测，另一方面用于生成对文本特征的注意力。由于各个深度的特征图维度不同，因此需要分别按照各自的大小一一经过卷积和最大池化的操作得到各自深度的特征向量，然后将这些特征向量级联在一起，经过一层全连接和sigmoid激活函数激活得到一个注意力的向量，这个向量的维度需要与步骤2.2中生成的文本特征向量保持相同的维度，然后将这两个特征向量相乘得到最终的文本特征向量。

步骤3.2：文本特征对图像特征的注意力；上一步骤中得到的最终的文本特征向量，会经过全连接和sigmoid激活函数激活得到一个文本特征注意力作用于目标标注过程中。在步骤2.1中，对抽取出的各个深度的特征，分别进行如下操作:对每一个有效特征层，假如先验框数量为num_priors个，分类的类别数(包括背景)为num_classes个，那么需要分别对其进行一次num_priors×4的卷积、一次num_priors×num_classes的卷积、并需要计算每一个有效特征层对应的先验框，对应num_priors×num_classes的卷积的结果是得到每个先验框中病灶的类别，关于这一步操作以及先验框将在后续步骤详细讲解。为了提高对病灶的分类准确率，可以使用文本注意力特征向量乘以对应的病灶分类卷积的结果，这样卷积结果在得到文本特征提示后，可以更加精确的的进行分类。

步骤4：先验框生成；为了可以框住病灶，需要生成一些先验框，也就是生成一些固定样式的框。针对不同深度的特征图，需要生成不同类型的先验框。在较大特征图上，感受野较小，适用于检测小病灶，而较小的特征图，感受野较大，适用于检测大的病灶。在大的特征图上，生成的先验框缩放到原图大小，是比较小的，小的特征图相反。先验框的形式主要有几种，对先验框的尺寸(可以看作宽度)而言，可以有1/3，1/2，1，2，3以及

这几种尺寸，这里的

和

分别是当前尺寸特征图设计的先验框默认尺寸和下一尺寸特征图设计的先验框默认尺寸。这些尺寸的意义就是长宽比为1:3到3:1，当然在实际使用时，在38*38、3*3和1*1的特征图上使用的只有1/2，1，2和

步骤5：检测器生成；在步骤3.3中提到，对每一个有效特征层，要对其进行一次num_priors x 4的卷积，卷积结果其实就是先验框的调整，数字4代表了先验框向X和Y方向的偏移以及先验框宽度和高度的调整。紧接着将每个网格的中心点加上它对应的X和Y方向的偏移值，加完后的结果得到了预测框的中心，然后再将先验框和宽度和高度的调整值结合计算出预测框的长和宽，这样就能得到整个预测框的位置。此外还会进行一次num_priors×num_classes的卷积，卷积的结果上文中已经提到即为预测框中病灶类型。对需要进行的C类病灶而言，加上背景一共C+1即num_classes个类，对m*m的特征图，将会计算得到m×m×(num_classes+4)×num_priors个卷积结果，这些结果就是生成的病灶检测器。

步骤6：选取正负样本；由于使用预测框去框取病灶，只有很少量的预测框可以命中，大部分的预测框都会有偏差或者没有预测中，所以这会导致出现样本不均衡的现象，针对这种现象，采用降采样的方式。对正样本而言，选取与真实框匹配IOU最大的预测框，或者对任意一个预测框，只要与一个真实框的IOU大于阈值0.5，就可以归类为正样本，也就是这个框框住了病灶。对于大量的负样本来说，不能完全用来作为负样本，所以计算每一个预测框的损失然后进行排序，太小的很容易就可以判断出是背景，没有训练难度，挑选出最大的几个，使正负样本数量达到1:3即可。

步骤7：计算损失；总的目标损失函数为分类损失和定位损失的和。对于计算分类损失来说，也就是计算每一个正样本中框住的病灶是不是对应的病灶的损失，这其实是一个交叉熵损失，而负样本没有比较可言，直接计算其对数值即可。对于定位损失来说，就是计算每一个预测框与真实框的中心以及宽高的差距，然后计算对数值相加即可。

步骤8：网络训练；将预处理过的眼底图片和眼底报告以及对应的类别和标注，按批次输入到整个网络中，计算出损失，然后回传更新整个网络的权重，经过一定批次的训练之后，网络就可以对输入的眼底图片和眼底报告有很好的预测性能，将未标注过的眼底图片和眼底报告输入到训练好的网络中，就可以标注出其中的病灶位置。

本发明的应用场景举例，如图4为跨媒体眼底图像自动标注方法应用场景图，在当今的大数据时代背景下，不仅仅社交媒体数据具有很高的利用价值，医学数据同样具有很强的利用价值。目前很多医院都含有眼科诊室，为了更加精确的得到患者所患的疾病，往往会建议患者拍摄眼底图像，随着时间推移，医院所积累的眼底图像已经积累到一定的规模，而这些图像一直存储在数据库中，却未得到更好的利用。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于跨媒体特征的眼底图像自动标注方法；该方法充分利用了图像数据与图像数据所对应的文本数据，将两种媒体特征结合提高病灶标注的准确性；其特征在于；具体如下执行步骤；

步骤4:先验框生成；

步骤5:检测器生成；

步骤6:选取正负样本；

步骤7:计算损失；

步骤8:网络训练。

2.根据权利要求1所述一种基于跨媒体特征的眼底图像自动标注方法；其特征在于；对于步骤2来讲，特征提取具体实现如下；

步骤2.2:眼底报告特征提取；本发明中对预处理之后的报告文本需要进行以下处理:(1)使用Tokenizer实现对报告文本转换；将输入的文本中的每个词编号，编号是根据词频的，词频越大，编号越小；(2)使用texts_to_sequences实现将每条文本转变成一个向量；(3)使用pad_sequences让每个文本向量长度相同，由于每句话的长度不唯一，需要将每句话的长度设置一个固定值；将超过固定值的部分截掉，不足的在最前面用0填充；最后将这个文本向量输入到神经网络中，首先经过Embedding层基于上文所得的词编码，对每个词进行一位有效编码，每个词都会是一个固定维度的向量，然后形成一个张量，这个张量再经过双向LSTM层进行特征的提取并学习各个词之间的上下文关系。

3.根据权利要求1所述一种基于跨媒体特征的眼底图像自动标注方法；其特征在于；对于步骤3来讲，注意力机制的引入实现如下；

步骤3.1:图像特征对文本特征的注意力；在步骤2.1中，将对各个深度的特征进行抽取，这些特征一方面用于最终的目标检测，另一方面用于生成对文本特征的注意力；由于各个深度的特征图维度不同，因此需要分别按照各自的大小一一经过卷积和最大池化的操作得到各自深度的特征向量，然后将这些特征向量级联在一起，经过一层全连接和sigmoid激活函数激活得到一个注意力的向量，这个向量的维度需要与步骤2.2中生成的文本特征向量保持相同的维度，然后将这两个特征向量相乘得到最终的文本特征向量；

步骤3.2:文本特征对图像特征的注意力；上一步骤中得到的最终的文本特征向量，会经过全连接和sigmoid激活函数激活得到一个文本特征注意力作用于目标标注过程中；在步骤2.1中，对抽取出的各个深度的特征，分别进行如下操作:对每一个有效特征层，假如先验框数量为num_priors个，分类的类别数(包括背景)为num_classes个，那么需要分别对其进行一次num_priors×4的卷积、一次num_priors×num_classes的卷积、并需要计算每一个有效特征层对应的先验框，对应num_priors×num_classes的卷积的结果是得到每个先验框中病灶的类别，关于这一步操作以及先验框将在后续步骤详细讲解；为了提高对病灶的分类准确率，能够使用文本注意力特征向量乘以对应的病灶分类卷积的结果，这样卷积结果在得到文本特征提示后，能够更加精确的的进行分类。

4.根据权利要求1所述一种基于跨媒体特征的眼底图像自动标注方法；其特征在于；步骤4:先验框生成为；先验框的形式主要有几种，对先验框的尺寸(可以看作宽度)而言，可以有1/3，1/2，1，2，3以及

这几种尺寸，这里的

和

四种，剩余几个尺寸的特征图使用的是上述全部六种；所有的先验框都生成完以后，会有38×38×4+19×19×6+10×10×6+5×5×6+3×3×4+1×1×4＝8732个先验框，下面将使用这些先验框进行病灶检测。

5.根据权利要求1所述一种基于跨媒体特征的眼底图像自动标注方法；其特征在于；步骤5:检测器生成；在步骤3.3中提到，对每一个有效特征层，要对其进行一次num_priors×4的卷积，卷积结果其实就是先验框的调整，数字4代表了先验框向X和Y方向的偏移以及先验框宽度和高度的调整；紧接着将每个网格的中心点加上它对应的X和Y方向的偏移值，加完后的结果得到了预测框的中心，然后再将先验框和宽度和高度的调整值结合计算出预测框的长和宽，这样就能得到整个预测框的位置；此外还会进行一次num_priors×num_classes的卷积，卷积的结果上文中已经提到即为预测框中病灶类型；对需要进行的C类病灶而言，加上背景一共C+1即num_classes个类，对m*m的特征图，将会计算得到m×m×(num_classes+4)×num_priors个卷积结果，这些结果就是生成的病灶检测器。

6.根据权利要求1所述一种基于跨媒体特征的眼底图像自动标注方法；其特征在于；步骤6:选取正负样本；对正样本而言，选取与真实框匹配IOU最大的预测框，或者对任意一个预测框，只要与一个真实框的IOU大于阈值0.5，就可以归类为正样本，也就是这个框框住了病灶；对于大量的负样本来说，不能完全用来作为负样本，所以计算每一个预测框的损失然后进行排序，太小的很容易就可以判断出是背景，没有训练难度，挑选出最大的几个，使正负样本数量达到1:3即可。

7.根据权利要求1所述一种基于跨媒体特征的眼底图像自动标注方法；其特征在于；步骤7:计算损失；总的目标损失函数为分类损失和定位损失的和；对于计算分类损失来说，也就是计算每一个正样本中框住的病灶是不是对应的病灶的损失，这其实是一个交叉熵损失，而负样本没有比较可言，直接计算其对数值即可；对于定位损失来说，就是计算每一个预测框与真实框的中心以及宽高的差距，然后计算对数值相加即可。

8.根据权利要求1所述一种基于跨媒体特征的眼底图像自动标注方法；其特征在于；步骤8:网络训练；将预处理过的眼底图片和眼底报告以及对应的类别和标注，按批次输入到整个网络中，计算出损失，然后回传更新整个网络的权重，经过一定批次的训练之后，网络就可以对输入的眼底图片和眼底报告有很好的预测性能，将未标注过的眼底图片和眼底报告输入到训练好的网络中，就可以标注出其中的病灶位置。