CN116416220A

CN116416220A - 眼底血管造影图像的识别方法、识别装置

Info

Publication number: CN116416220A
Application number: CN202310247653.9A
Authority: CN
Inventors: 段和平
Original assignee: Anhui Kunlong Kangxin Medical Technology Co ltd
Current assignee: Anhui Kunlong Kangxin Medical Technology Co ltd
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-07-11

Abstract

本发明提供一种眼底血管造影图像的识别方法、识别装置，方法包括：获取待识别的全局眼底血管图像和局部眼底血管造影图像，并输入至基于强化学习的智能体中，以通过智能体输出全局眼底血管图像变换到局部眼底血管造影图像的配准向量场；根据配准向量场对全局眼底血管图像进行图像配准，获取配准图像；将配准图像输入至Swin Transformer中，以对配准图像进行病灶区域的分割；将分割后的病灶区域输入至基于时序卷积网络中，以识别病灶区域的病灶类别。本发明基于深度强化学习自适应配准算法，实现眼底血管图像的造影前期与造影后期图像的自适应配准以及病灶区域的分割与识别，从而可以辅助医生快速实现眼底疾病的定位与诊断。

Description

眼底血管造影图像的识别方法、识别装置

技术领域

本发明涉及计医学诊断技术领域，具体涉及一种眼底血管造影图像的识别方法和一种眼底血管造影图像的识别装置。

背景技术

目前，荧光素眼底血管造影技术(Fluorescein Foundus Angiography，FFA)是眼底疾病诊断的常用方法，诊断过程快速快捷且成本较低，因此眼底无创技术在临床有着广泛的应用。

目前，医生在获取荧光素眼底血管造影技术FFA图像序列后，主要根据临床经验对眼底状态开展诊断，但是由于眼球的转动，眼部各结构无法对齐，因此给后续的图像定量分析与病情准确评估诊断带来困难，导致诊断过程耗时久，歧义性高。

发明内容

为解决上述技术问题，本发明的第一个目的在于提出一种眼底血管造影图像的识别方法。

本发明的第二个目的在于提出一种眼底血管造影图像的识别装置。

本发明采用的技术方案如下：

本发明第一方面的实施例提出了一种眼底血管造影图像的识别方法，包括以下步骤：获取待识别的全局眼底血管图像和局部眼底血管造影图像，将所述全局眼底血管图像和局部眼底血管造影图像输入至基于强化学习的智能体中，以通过所述智能体输出所述全局眼底血管图像变换到局部眼底血管造影图像的配准向量场；根据所述配准向量场对所述全局眼底血管图像进行图像配准，获取配准图像；将所述配准图像输入至SwinTransformer(一种机器视觉模型)中，以对所述配准图像进行病灶区域的分割；将分割后的病灶区域输入至基于时序卷积网络中，以识别所述病灶区域的病灶类别。

本发明上述提出的眼底血管造影图像的识别方法还可以具有如下附加技术特征：

根据本发明的一个实施例，通过Spatial Transformer(一种机器视觉模型)对所述全局眼底血管图像进行图像配准。

根据本发明的一个实施例，上述的方法还包括：计算病灶区域的面积、周长。

根据本发明的一个实施例，所述智能体的强化学习中奖励的通过计算两幅输入图像的相应特征点之间的距离后减去前一步奖励对应的距离得到。

本发明第二方面的实施例提出了一种眼底血管造影图像的识别装置，包括：获取模块，所述获取模块用于获取待识别的全局眼底血管图像和局部眼底血管造影图像，将所述全局眼底血管图像和局部眼底血管造影图像输入至基于强化学习的智能体中，以通过所述智能体输出所述全局眼底血管图像变换到局部眼底血管造影图像的配准向量场；配准模块，所述配准模块用于根据所述配准向量场对所述全局眼底血管图像进行图像配准，获取配准图像；分割模块，所述分割模块用于将所述配准图像输入至Swin Transformer中，以对所述配准图像进行病灶区域的分割；识别模块，所述识别模块用于将分割后的病灶区域输入至基于时序卷积网络中，以识别所述病灶区域的病灶类别。。

本发明上述提出的眼底血管造影图像的识别装置还可以具有如下附加技术特征：

根据本发明的一个实施例，所述配准模块通过Spatial Transformer对所述全局眼底血管图像进行图像配准。

根据本发明的一个实施例，所述分割模块还用于计算病灶区域的面积、周长。

本发明的有益效果：

本发明基于深度强化学习自适应配准算法，实现眼底血管图像的造影前期与造影后期图像的自适应配准以及病灶区域的分割与识别，从而可以辅助医生快速实现眼底疾病的定位与诊断，大大提高了诊断过程的效率、精准度和一致性。

附图说明

图1是根据本发明的一个实施例的眼底血管造影图像的识别方法的流程图；

图2是根据本发明的一个实施例的配准向量场的获取原理示意图；

图3是根据本发明一个实施例的图像配准的原理示意图；

图4是根据本发明一个实施例的Swin Transformer的结构示意图；

图5是根据本发明一个实施例的Swin Transformer Blocks的结构示意图；

图6是根据本发明一个实施例的眼底血管造影图像的识别装置的方框示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是根据本发明的一个实施例的眼底血管造影图像的识别方法的流程图，如图1所示，该方法包括以下步骤：

步骤S1，获取待识别的全局眼底血管图像和局部眼底血管造影图像，将全局眼底血管图像和局部眼底血管造影图像输入至基于强化学习的智能体中，以通过智能体输出全局眼底血管图像变换到局部眼底血管造影图像的配准向量场。I_f

S2，根据配准向量场对全局眼底血管图像进行图像配准，获取配准图像。

具体地，智能体需要提前进行训练(强化学习)，如图2所示，给定参考图像I_f和浮动图像I_m，通过神经网络寻找一个配准向量场

将浮动图像变换到和I_f相同的坐标空间下，使得两个图像中对应的点处于同一空间坐标下，从而达到信息聚合的目的。神经网络包括：输入层、隐藏层和输出层。局部眼底血管造影图像为医生从FFA图像中选取的局部图像，一般医生选取眼底血管较为密集或者疑似病变的局部图像。

如图3所示，将待识别的全局眼底血管图像I1和局部眼底血管造影图像I2输入至基于强化学习的智能体中g_θ(F,M)，全局眼底血管图像I1作为浮动图像，局部眼底血管造影图像I2作为参考图像，通过强化学习中的智能体g_θ(F,M)对浮动的全局眼底血管图像学习出配准向量场

再通过得到的配准向量场/>

通过Spatial Transformer，模拟图像特征映射为上下、左右移动、左右旋转、放大或缩小8个离散动作，从而得到配准图像。

智能体的强化学习中奖励是通过计算两幅输入图像的相应特征点之间的距离后减去前一步奖励对应的距离得到。距离越远则奖励越小，距离越近则奖励越高。

本发明中，构建了基于tranformer的多智能体的强化学习内存框架，通过显式考虑多智能体观察空间，使得智能体仅依靠少量信息就能进行有效决策；同时在强化学习中引入一个动作语义归纳偏差，并使用实体绑定动作层的技术实现它，增加策略网络的计算灵活性和使得智能体动作更具可解释性。通过上述改进，使得多智能体能够有效预测图像配准过程，应对实际应用的复杂环境。

为了进一步缩小造影图像中病灶的分割区域，以获得相同的病灶全局特征，在计算loss(损失)时，将全局眼底血管图像裁剪为与局部眼底血管造影图像相同的分辨率。

S3，将配准图像输入至Swin Transformer中，以对配准图像进行病灶区域的分割。

进一步地，将配准图像输入至Swin Transformer中后，上述方法还包括：还包括：计算病灶区域的面积、周长。

具体地，基于上述的配准方法获得了对应各序列的配准图像，通过SwinTransformer实现眼底影像的病灶区域的分割，并勾画出病灶区域，计算病灶区域的面积、周长等量化指标。

如图4所示，Swin Transformer架构包括4个stage(阶段)，每个stage中都是类似的特征提取重复单元。通过patch partition(分区模块)将输入图片H×W×3划分为不重合的patch集合，其中每个patch尺寸为4×4，那么每个patch的特征维度为4×4×3＝48，patch块的数量为H/4×W/4。具体的，stage1部分，先通过一个linear embedding(线性嵌入)将输划分后的patch特征维度变成C，然后送入Swin Transformer Block(块)；stage2-stage4操作相同，先通过一个patch merging，将输入按照2×2的相邻patches合并，这样子patch块的数量就变成了H/8×W/8，特征维度就变成了4C，这个地方文章写的不清楚，猜测是跟stage1一样使用linear embedding将4C压缩成2C，然后送入Swin TransformerBlock。

如图5所示，Swin Transformer Blocks包括两个连续的Swin TransformerBlock。其中一个Swin Transformer Block由一个带两层MLP(Multilayer Perceptron，多层感知机)的SW-MSA(Shifted Window Based Multihead Self Attention，基于移位窗口的多头自注意力)组成，另一个Swin Transformer Block由一个带两层MLP的SW-MSA组成。在每个MSA模块和每个MLP之前使用LN(LayerNorm，归一化图层)层，并在每个MSA和MLP之后使用残差连接。通过Swin Transformer Blocks，进一步获得了眼底造影图像的病灶区域特征，获得了病灶区域相对于图像的位置编码信息，从而分割出病灶区域。

为了提高效率，transform往往基于窗口实现，将图像裁剪到几个局部窗口中，在每个窗口中进行自我注意，之后通过跨窗口通信恢复全局的接受域。为了实现跨窗口通信，Swin Transformer设计了一种复杂的移位窗口分区机制，它采用不同的方式对连续两层的窗口进行划分，并放大了每个patch的接收域。我们通过深度卷积结合基于窗口的局部注意层后，也能够实现高效的窗口通信。与之前的Swin Transformer相比，删除了许多冗余操作，更加精简、高效，并且我们的框架在图像识别、目标检测和语义分割方面取得了更优的效果。

S4，将分割后的病灶区域输入至基于时序卷积网络中，以识别病灶区域的病灶类别。

时序卷积网络(Temporal Convolutional Network)由具有相同输入和输出长度的扩张的、因果的1维卷积层组成。时序卷积网络中的卷积是因果的，这意味着从造影前期到造影后期没有信息“泄漏”，能够学习完整的特征变换趋势。时序卷积网络可以取任意长度的序列，并将其映射到相同长度的输出序列。这保证了在不同的分辨率下获得不同的配准后造影图像与病灶特征维度，也能实现病灶识别。除此之外，时序卷积网络使用残差结构和扩张卷积的组合来构建时序特征，进一步融合、差异化病灶类别特征，从而更好地实现病灶识别。

时序卷积网络的输入为配准图像以及病灶区域，分别作为全局影像特征与局部影像特征，获得时序造影前期与造影后期图像特征，通过因果卷积和空洞卷积的神经网络模型，可以适应时序数据的时序性并可以提供图像视野域用于时序空间建模，学习任意特征维度下造影前期至造影后期图像病灶区域以及图像全局区域的变化特征，识别病灶类别。

经相关试验证明，采用本发明上述的识别方法，图像配准算法平均仅需1秒，病灶区域的分割与识别平均仅需0.5秒，全部流程平均仅需2.5秒，识别过程快速、准确

综上，根据本发明实施例的眼底血管造影图像的识别方法，基于深度强化学习自适应配准算法，实现眼底血管图像的造影前期与造影后期图像的自适应配准以及病灶区域的分割与识别，从而可以辅助医生快速实现眼底疾病的定位与诊断，大大提高了诊断过程的效率、精准度和一致性。

与上述的眼底血管造影图像的识别方法相对应，本发明还提出一种眼底血管造影图像的识别装置。由于本发明的装置实施例与上述的方法实施例相对应，对于装置实施例中未披露的细节可参见上述的方法实施例，本发明中不再进行赘述。

图6是根据本发明一个实施例的眼底血管造影图像的识别装置的方框示意图，如图6所示，该装置包括：获取模块1、配准模块2、分割模块3和识别模块4。

获取模块1用于获取待识别的全局眼底血管图像和局部眼底血管造影图像，将全局眼底血管图像和局部眼底血管造影图像输入至基于强化学习的智能体中，以通过智能体输出全局眼底血管图像变换到局部眼底血管造影图像的配准向量场；配准模块2用于根据配准向量场对全局眼底血管图像进行图像配准，获取配准图像；分割模块3用于将配准图像输入至Swin Transformer中，以对配准图像进行病灶区域的分割；识别模块4用于将分割后的病灶区域输入至基于时序卷积网络中，以识别病灶区域的病灶类别。

根据本发明的一个实施例，配准模块2通过Spatial Transformer对全局眼底血管图像进行图像配准。

根据本发明的一个实施例，分割模块3还用于计算病灶区域的面积、周长。

根据本发明的一个实施例，智能体的强化学习中奖励的通过计算两幅输入图像的相应特征点之间的距离后减去前一步奖励对应的距离得到。

综上所述，根据本发明实施例的眼底血管造影图像的识别装置，基于深度强化学习自适应配准算法，实现眼底血管图像的造影前期与造影后期图像的自适应配准以及病灶区域的分割与识别，从而可以辅助医生快速实现眼底疾病的定位与诊断，大大提高了诊断过程的效率、精准度和一致性。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种眼底血管造影图像的识别方法，其特征在于，包括以下步骤：

获取待识别的全局眼底血管图像和局部眼底血管造影图像，将所述全局眼底血管图像和局部眼底血管造影图像输入至基于强化学习的智能体中，以通过所述智能体输出所述全局眼底血管图像变换到局部眼底血管造影图像的配准向量场；

根据所述配准向量场对所述全局眼底血管图像进行图像配准，获取配准图像；

将所述配准图像输入至Swin Transformer中，以对所述配准图像进行病灶区域的分割；

将分割后的病灶区域输入至基于时序卷积网络中，以识别所述病灶区域的病灶类别。

2.根据权利要求1所述的眼底血管造影图像的识别方法，其特征在于，通过SpatialTransformer对所述全局眼底血管图像进行图像配准。

3.根据权利要求1所述的眼底血管造影图像的识别方法，其特征在于，还包括：计算病灶区域的面积、周长。

4.根据权利要求1所述的眼底血管造影图像的识别方法，其特征在于，所述智能体的强化学习中奖励是通过计算两幅输入图像的相应特征点之间的距离后减去前一步奖励对应的距离得到。

5.一种眼底血管造影图像的识别装置，其特征在于，包括：

获取模块，所述获取模块用于获取待识别的全局眼底血管图像和局部眼底血管造影图像，将所述全局眼底血管图像和局部眼底血管造影图像输入至基于强化学习的智能体中，以通过所述智能体输出所述全局眼底血管图像变换到局部眼底血管造影图像的配准向量场；

配准模块，所述配准模块用于根据所述配准向量场对所述全局眼底血管图像进行图像配准，获取配准图像；

分割模块，所述分割模块用于将所述配准图像输入至Swin Transformer中，以对所述配准图像进行病灶区域的分割；

识别模块，所述识别模块用于将分割后的病灶区域输入至基于时序卷积网络中，以识别所述病灶区域的病灶类别。

6.根据权利要求5所述的眼底血管造影图像的识别装置，其特征在于，所述配准模块通过Spatial Transformer对所述全局眼底血管图像进行图像配准。

7.根据权利要求5所述的眼底血管造影图像的识别装置，其特征在于，所述分割模块还用于计算病灶区域的面积、周长。

8.根据权利要求5所述的眼底血管造影图像的识别装置，其特征在于，所述智能体的强化学习中奖励的通过计算两幅输入图像的相应特征点之间的距离后减去前一步奖励对应的距离得到。