CN115731243A

CN115731243A - 基于人工智能及注意力机制的脊柱图像分割方法及装置

Info

Publication number: CN115731243A
Application number: CN202211515879.4A
Authority: CN
Inventors: 张逸凌; 刘星宇
Original assignee: Longwood Valley Medtech Co Ltd
Current assignee: Longwood Valley Medtech Co Ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-03-03
Anticipated expiration: 2042-11-29
Also published as: CN115731243B

Abstract

本发明提供了一种基于人工智能及注意力机制的脊柱图像分割方法及装置，其中，方法包括：将脊柱图像进行编码，得到编码后的图像矩阵D1至图像矩阵Dn；以图像矩阵Di的大小作为基准，基于上采样和/或下采样确定与D1至Dn对应的图像矩阵D1’至图像矩阵Dn’；将D1’至Dn’进行相加，得到图像矩阵Mi；将Mi和目标图像矩阵进行注意力机制融合，得到图像矩阵Ui1；对目标图像矩阵进行上采样，得到图像矩阵Ui2；将Ui1和Ui2进行连接操作，得到解码后的图像矩阵Ui。本发明提供的上述方法，通过将D1’至Dn’进行相加，进而确定出Mi，相比基于单个的图像矩阵确定Mi的方式，则可以尽可能多的保留脊柱图像中的特征，进而减少特征元素的丢失，进而提高分割出得脊柱图像的准确度。

Description

基于人工智能及注意力机制的脊柱图像分割方法及装置

技术领域

本发明涉及医疗领域，尤其涉及一种基于人工智能及注意力机制的脊柱图像分割方法及装置。

背景技术

近年来，随着医疗水平的提高，脊柱侧弯、腰椎骨折手术有效的缓解了脊柱病变患者的疼痛；但是传统的技术依赖于医师经验，不同经验的医师会出现不同识别结果难以保证结果的统一性；而利用2D分割神经网络识别可以消除这一缺点；但由于关节形状是3D的，使用2D分割神经网络做脊柱分割，会丢失掉脊柱连续切片层之间的特征信息。如何解决上述问题，是需要考虑的。

发明内容

本发明提供一种基于人工智能及注意力机制的脊柱图像分割方法及装置，以解决上述问题。

第一方面，本发明提供一种基于人工智能及注意力机制的脊柱图像分割方法，包括：将脊柱图像进行编码，得到编码后的图像矩阵D1至图像矩阵Dn，所述图像矩阵D1至所述图像矩阵Dn的尺寸依次变小，n为大于1的整数；以图像矩阵Di的大小作为基准，基于上采样和/或下采样确定与所述图像矩阵D1至所述图像矩阵Dn对应的图像矩阵D1’至图像矩阵Dn’，其中，所述图像矩阵D1’至所述图像矩阵Dn’的大小与所述图像矩阵Di的大小相同，i的取值遍历1至n中的任一整数；将所述图像矩阵D1’至所述图像矩阵Dn’进行相加，得到图像矩阵Mi；将所述图像矩阵Mi和目标图像矩阵进行注意力机制融合，得到图像矩阵Ui1，所述目标图像矩阵的尺寸小于所述图像矩阵Mi；对所述目标图像矩阵进行上采样，得到图像矩阵Ui2；将所述图像矩阵Ui1和所述图像矩阵Ui2进行连接操作，得到解码后的图像矩阵Ui，其中，所述图像矩阵Ui的尺寸和所述图像矩阵Di的尺寸相同，i的取值越大，所述图像矩阵Ui的尺寸越小。

可选地，当i＝n时，所述目标图像矩阵为预先确定的最小单元矩阵。

可选地，当i大于或等于0且小于n时，所述目标图像矩阵通过以下方式得到：以所述图像矩阵D1至所述图像矩阵Dn中的Di+1的大小作为基准，基于上采样和下采样确定与所述图像矩阵D1至所述图像矩阵Dn对应的图像矩阵D1’至图像矩阵Dn’，其中，所述图像矩阵D1’至所述图像矩阵Dn’的尺寸与所述图像矩阵Di+1的大小相同；将所述图像矩阵D1’至所述图像矩阵Dn’进行相加，得到图像矩阵Mi+1；所述图像矩阵Mi+1和Ui+2进行注意力机制融合，得到U(i+1)1矩阵，U(i+1)1矩阵等于Mi+1矩阵；对Ui+2进行上采样，得到U(i+1)2；U(i+1)1和U(i+1)2进行连接操作，得到矩阵Ui+1。

可选地，在将图像矩阵D1’至图像矩阵Dn’进行相加，得到图像矩阵Mi之前，还包括：以图像矩阵Di的大小作为基准，基于上采样确定与最小单元矩阵对应的最小单元矩阵’，最小单元矩阵’的大小与图像矩阵Di的大小相同；将图像矩阵D1’至图像矩阵Dn’进行相加，得到图像矩阵Mi，包括：将图像矩阵D1’至图像矩阵Dn’以及最小单元矩阵’进行相加，得到图像矩阵Mi。

可选地，将所述图像矩阵Ui1和所述图像矩阵Ui2进行连接操作，得到解码后的图像矩阵Ui，包括：对图像矩阵Ui1和图像矩阵Ui2进行Concat操作、卷积操作、BN操作以及Relu操作，得到解码后的图像矩阵Ui。

可选地，将脊柱图像进行编码，包括：将脊柱图像输入至深度学习模型中进行编码，所述深度学习模型为三维多信息融合注意机制网络3D MFA-Net。

可选地，所述方法还包括：基于解码后的图像矩阵U1至图像矩阵Un进行三维重建，得到脊柱图像的三维医学图像。

第二方面，本发明提供了一种基于人工智能及注意力机制的脊柱图像分割装置，包括：编码模块，用于将脊柱图像进行编码，得到编码后的图像矩阵D1至图像矩阵Dn，所述图像矩阵D1至所述图像矩阵Dn的尺寸依次变小，n为大于1的整数；处理模块，用于以图像矩阵Di的大小作为基准，基于上采样和/或下采样确定与所述图像矩阵D1至所述图像矩阵Dn对应的图像矩阵D1’至图像矩阵Dn’，其中，所述图像矩阵D1’至所述图像矩阵Dn’的大小与所述图像矩阵Di的大小相同，i的取值遍历1至n中的任一整数；处理模块，用于将所述图像矩阵D1’至所述图像矩阵Dn’进行相加，得到图像矩阵Mi；处理模块，用于将所述图像矩阵Mi和目标图像矩阵进行注意力机制融合，得到图像矩阵Ui1，所述目标图像矩阵的尺寸小于所述图像矩阵Mi；处理模块，用于对所述目标图像矩阵进行上采样，得到图像矩阵Ui2；解码模块，用于将所述图像矩阵Ui1和所述图像矩阵Ui2进行连接操作，得到解码后的图像矩阵Ui，其中，所述图像矩阵Ui的尺寸和所述图像矩阵Di的尺寸相同，i的取值越大，所述图像矩阵Ui的尺寸越小。

第三方面，本发明提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的基于人工智能的脊柱图像分割方法。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于人工智能及注意力机制的脊柱图像分割方法。

本发明的上述技术方案至少具有如下有益效果：

本发明提供的基于人工智能及注意力机制的脊柱图像分割方法，在将脊柱图像进行编码后，通过以编码后的多个图像矩阵D1至Dn中的一个图像矩阵Di的大小作为基准，并以该基准的图像对其它多个矩阵图像进行上采样或者下采样，得到对应的图像矩阵D1’至图像矩阵Dn’。由于图像矩阵D1至图像矩阵Dn中的特征元素依次减少，通过将图像矩阵D1’至图像矩阵Dn’进行相加，进而确定出图像矩阵Mi，相比基于单个的图像矩阵确定图像矩阵Mi的方式，则可以尽可能多的保留脊柱图像中的特征，进而减少特征元素的丢失。在基于保留了较多特征的图像矩阵Mi与目标图像矩阵确定解码后的图像矩阵Ui时，则可以减少脊柱图像的特征信息，提高分割出得脊柱图像的准确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中的一种图像融合的网络结构示意图；

图2为本发明提供的一种基于人工智能及注意力机制的脊柱图像分割方法的流程示意图；

图3为本发明提供的一种图像融合的网络结构示意图；

图4为本发明提供的一种基于图3网络结构的处理方法流程示意图；

图5为本发明提供的一种图像融合的网络结构示意图；

图6为本发明提供的一种算法流程示意图；

图7为本发明提供的一种注意力机制门的结构示意图；

图8为本发明提供的一种基于图7结构的处理方法流程示意图；

图9为本发明提供的一种脊柱图像分割识别的结果示意图；

图10为本发明提供的一种基于人工智能及注意力机制的脊柱图像分割装置的模块示意图；

图11为本发明提供的一种电子设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

为了便于了解，参见图1，接下来对现有技术进行描述。

首先，将脊柱图像输入至编码层中进行编码，得到多张特征图，该特征图的编号可以用D1、D2……Dn表示。每张特征图中包含的特征数量并不相同，其中，图像D1中包含的特征最多，图像Dn中包含的特征最少，即图像D1至图像Dn中包含的特征数量依次减少。为了便于理解，下面以图像D1至图像D4为例进行说明。

示例的，图像D1中特征元素矩阵为512*512*32；

图像D1经过下采样，得到图像D2，图像D2中的特征元素矩阵为128*128*64；

图像D2经过下采样，得到图像D3，图像D3中的特征元素矩阵为64*64*128；

图像D3经过下采样，得到图像D4，图像D4中的特征元素矩阵为32*32*256。

基于编码得到的多张特征图，再进行解码，得到解码后的图像。

示例的，解码的过程如下：

图像D4经过上采样，得到图像U32，图像U32中的特征元素矩阵为64*64*128；图像D3(64*64*128)和图像D4(32*32*256)进行注意力机制融合，得到图像U31(64*64*128)；基于图像U31和图像U32得到图像U3，图像U3中的特征元素矩阵为64*64*128。

图像U3经过上采样，得到图像U22，图像U22中的特征元素矩阵为128*128*64；图像D2和图像U3进行注意力机制融合，得到图像U21；基于图像U21和图像U22得到图像U2，图像U2中的特征元素矩阵为128*128*64。

图像U2经过上采样，得到图像U12，图像U12中的特征元素矩阵为512*512*32；图像D1和图像U2进行注意力机制融合，得到图像U11；基于图像U11和图像U12得到图像U1，图像U1中的特征元素矩阵为512*512*32。

参见图2，为了减少特征元素的丢失，提高脊柱图像解码后的精度，本申请提供了一种基于人工智能及注意力机制的脊柱图像分割方法，该方法包括以下步骤：

S21：将脊柱图像进行编码，得到编码后的图像矩阵D1至图像矩阵Dn，所述图像矩阵D1至所述图像矩阵Dn的尺寸依次变小，n为大于1的整数。

例如，将脊柱图像进行编码，包括：将脊柱图像输入至深度学习模型中进行编码，所述深度学习模型为三维多信息融合注意机制网络(3D Multi-information fusion ofattention mechanism Net，3D MFA-Net)。所述3D MFA-Net基于U-Net创建而来，包含一个编码Encoder部分和一个解码Decoder部分，Encoder部分是用来分析整张图片并且进行特征提取与分析，而与之相对应的Decoder部分是还原特征的过程，最后生成分割好的块状图。

其中，Encoder部分每层由3D卷积、激活函数、批量归一化BN和最大值池化MaxPooling构成；3D卷积可以有效的提取到多层切片之间的信息，减少误检率，批量归一化操作可以改变数据的分布，有利于网络训练时快速收敛激活函数可以增加模型的非线性能力，提升模型特征提取能力。3D卷积可以将周围3*3*3区域的信息进行融合，能够提取到更丰富的特征信息。Maxpooling操作是相邻的固定大小区域的最大值作为该区域特征表示，这样做可以有效减少网络参数运算。可选地，解码部分同样可以使用3D ResNet或是3DDenseNet等网络结构进行编码。

Decoder部分每层由上采样和卷积块构成。在Decoder的每层中，会先将Encoder特征图多尺度信息融合Attention后，与上采样的特征图进行通道concat操作，然后经过卷积块再次进行信息融合。卷积块的构成与Encoder构成基本相同，也包括了3D卷积、激活函数以及批量归一化BN。

S22：以图像矩阵Di的大小作为基准，基于上采样和/或下采样确定与所述图像矩阵D1至所述图像矩阵Dn对应的图像矩阵D1’至图像矩阵Dn’，其中，所述图像矩阵D1’至所述图像矩阵Dn’的大小与所述图像矩阵Di的大小相同，i的取值遍历1至n中的任一整数。

示例的，以D3作为基准，即D3的大小为64*64*128，D1和D2均需要经过下采样得到与D3大小相同的图像矩阵D1’和图像矩阵D2’，即D1’及D2’的大小均为64*64*128，D4需要经过上采样得到与D3大小相同的图像矩阵D4’，即D4’的大小为64*64*128，与图像矩阵D3对应的图像矩阵D3’的大小为64*64*128。可选地，若以图像矩阵D4的大小作为基准，则图像矩阵D1至图像矩阵D3均基于下采样得到与图像矩阵D4的大小相同的图像矩阵D1’、图像矩阵D2’和图像矩阵D3’，此处不再赘述。

S23：将所述图像矩阵D1’至所述图像矩阵Dn’进行相加，得到图像矩阵Mi。

需要说明的是，图像矩阵Mi的尺寸与作为基准的图像矩阵Di的尺寸大小相同。由于图像矩阵D1’至所述图像矩阵Dn’包含的特征元素并不相同，即每个图像矩阵仅含有脊柱图像的部分特征元素。通过将图像矩阵D1’至所述图像矩阵Dn’相加，得到的图像矩阵Mi中含有的特征元素更加接近于脊柱图像，从而减小脊柱图像中特征元素的丢失。

S24：将所述图像矩阵Mi和目标图像矩阵进行注意力机制融合，得到图像矩阵Ui1，所述目标图像矩阵的尺寸小于所述图像矩阵Mi。

其中，图像矩阵Ui1的尺寸与图像矩阵Mi的尺寸大小相同。

S25：对所述目标图像矩阵进行上采样，得到图像矩阵Ui2。

图像矩阵Ui2的尺寸与图像矩阵Ui1的尺寸大小相同。

S26：将所述图像矩阵Ui1和所述图像矩阵Ui2进行连接操作，得到解码后的图像矩阵Ui，其中，所述图像矩阵Ui的尺寸和所述图像矩阵Di的尺寸相同，i的取值越大，所述图像矩阵Ui的尺寸越小。

示例的，将所述图像矩阵Ui1和所述图像矩阵Ui2进行连接操作，得到解码后的图像矩阵Ui，包括：

对图像矩阵Ui1和图像矩阵Ui2进行Concat操作、卷积操作、BN操作以及Relu操作，得到解码后的图像矩阵Ui。

本发明提供的基于人工智能的脊柱图像分割方法，在将脊柱图像进行编码后，通过以编码后的多个图像矩阵D1至Dn中的一个图像矩阵Di的大小作为基准，并以该基准的图像对其它多个矩阵图像进行上采样或者下采样，得到对应的图像矩阵D1’至图像矩阵Dn’。由于图像矩阵D1至图像矩阵Dn中的特征元素依次减少，通过将图像矩阵D1’至图像矩阵Dn’进行相加，进而确定出图像矩阵Mi，相比基于单个的图像矩阵确定图像矩阵Mi的方式，则可以尽可能多的保留脊柱图像中的特征，进而减少特征元素的丢失。在基于保留了较多特征的图像矩阵Mi与目标图像矩阵确定解码后的图像矩阵Ui时，则可以减少脊柱图像的特征信息，提高分割出得脊柱图像的准确度。

本发明提供的一种示例中，当i大于或等于0且小于n时，所述目标图像矩阵通过以下方式得到：

以所述图像矩阵D1至所述图像矩阵Dn中的Di+1的大小作为基准，基于上采样和下采样确定与所述图像矩阵D1至所述图像矩阵Dn对应的图像矩阵D1’至图像矩阵Dn’，其中，所述图像矩阵D1’至所述图像矩阵Dn’的尺寸与所述图像矩阵Di+1的大小相同；

将所述图像矩阵D1’至所述图像矩阵Dn’进行相加，得到图像矩阵Mi+1；

所述图像矩阵Mi+1和Ui+2进行注意力机制融合，得到U(i+1)1矩阵，U(i+1)1矩阵等于Mi+1矩阵；

对Ui+2进行上采样，得到U(i+1)2；

U(i+1)1和U(i+1)2进行连接操作，得到矩阵Ui+1。

接下来，如图3和图4所示，介绍确定图像矩阵U(i+1)1的过程,其中n＝4。

可选地，在i＝2时，则以D3的大小作为基准，确定图像矩阵D1’至图像矩阵Dn’。即图像矩阵D1和图像矩阵D2进行下采样，图像矩阵D4进行上采样，得到图像矩阵D1’至图像矩阵D4’。在得到图像矩阵D1’至图像矩阵D4’之后，将其进行信息融合，得到融合后的图像矩阵M3。图像矩阵M3与图像矩阵U4再进行注意力机制融合，则得到了注意力机制特征图U31，其中U4基于U41和U42进行操作处理得到。可选地，图像矩阵D1至图像矩阵D4在图4中也可以称之为编码层D1至编码层D4。

进一步地，将U4进行上采样之后，得到U32，将注意力机制特征图U31与U32进行Concat操作、Conv3*3卷积操作、批量归一化BN操作以及Relu操作之后，得到多尺度信息融合的图像矩阵U3，图像矩阵U3保留了较多的脊柱图像的特征元素。

上文已经论述了确定图像矩阵U31的过程，接下来论述确定图像矩阵U21及U11的进行改进过程，具体如下：

在i＝1时，则以D2的大小作为基准，确定图像矩阵D1’至图像矩阵Dn’。即图像矩阵D1进行下采样，图像矩阵D3和图像矩阵D4进行上采样，得到图像矩阵D1’至图像矩阵D4’。在得到图像矩阵D1’至图像矩阵D4’之后，将其进行信息融合，得到融合后的图像矩阵M2。图像矩阵M2与图像矩阵U3再进行注意力机制融合，则得到了注意力机制特征图U21。

在i＝0时，则以D1的大小作为基准，确定图像矩阵D1’至图像矩阵Dn’。即图像矩阵D2至图像矩阵D4均进行上采样，得到图像矩阵D1’至图像矩阵D4’。在得到图像矩阵D1’至图像矩阵D4’之后，将其进行信息融合，得到融合后的图像矩阵M1。图像矩阵M1与图像矩阵U2再进行注意力机制融合，则得到了注意力机制特征图U11。其中，图像矩阵U2基于图像矩阵U21和图像矩阵U22进行操作处理得到。

参见图5，在一种示例中，当i＝n时，所述目标图像矩阵为预先确定的最小单元矩阵。同样，以n＝4为例进行说明，在i＝4时，最小单元矩阵用D5表示。相比于图像矩阵D1至图像矩阵D4而言，最小单元矩阵中包含的脊柱图像的特征元素最少。

最小单元矩阵D5与图像矩阵M4进行注意力机制融合，得到图像矩阵U41，其中图像矩阵M4是以图像矩阵D4作为基准确定得到的，具体的，图像矩阵D1至图像矩阵D3均经过下采样，图像矩阵D4的尺寸保持不变，得到图像矩阵D1’至图像矩阵D4’，将图像矩阵D1’至图像矩阵D4’相加，得到图像矩阵M4。进一步地，最小单元矩阵D5经过上采样后，得到图像矩阵U42，图像矩阵U41和图像矩阵U42进行处理操作后，得到图像矩阵U4。

通过将最小单元矩阵与图像矩阵Mi进行注意力机制融合，融合后得到的图像矩阵Ui1中包含的特征图像的元素最多。如此，图像矩阵Ui1能减少丢失图像中特征元素的可能性，进而提高得到的图像矩阵的准确性。并且，最小单元矩阵对整体的定位效果比较好，通过将最小单元矩阵进行注意力机制融合，可以提高对图像矩阵的定位精度。

本发明实施例提供的一种示例中，在将图像矩阵D1’至图像矩阵Dn’进行相加，得到图像矩阵Mi之前，还包括：

以图像矩阵Di的大小作为基准，基于上采样确定与最小单元矩阵对应的最小单元矩阵’，最小单元矩阵’的大小与图像矩阵Di的大小相同；

将图像矩阵D1’至图像矩阵Dn’进行相加，得到图像矩阵Mi，包括：

将图像矩阵D1’至图像矩阵Dn’以及最小单元矩阵’进行相加，得到图像矩阵Mi。

例如，在i＝n＝4时，以图像矩阵D4的大小作为基准，最小单元矩阵用D5表示，最小单元矩阵D5经过上采样之后，得到的最小单元矩阵’，可选地，最小单元矩阵’可以用D5’表示。图像矩阵D5’的大小与图像矩阵D4的大小相同。图像矩阵M4即为图像矩阵D1’至图像矩阵D5’通过相加后得到。

虽然最小单元矩阵中保留的图像的特征元素最小，但是最小单元矩阵的定位效果最好。基于最小单元矩阵’得到的图像矩阵M4，其定位效果较好。

本发明提供的一种示例中，所述方法还包括：

基于解码后的图像矩阵U1至图像矩阵Un进行三维重建，得到脊柱图像的三维医学图像。

需要说明的是，在编码时，是以图像矩阵Di的大小作为基准，确定出与图像矩阵D1至图像矩阵Dn对应的图像矩阵D1’至图像矩阵Dn’。由于图像矩阵D1至图像矩阵Dn中的元素特征依次减少，并且图像矩阵D1至图像矩阵Dn中保留的元素也不尽相同，通过将确定出的图像矩阵D1’至图像矩阵Dn’相加，确定出图像矩阵Mi，基于此种方式确定出的图像矩阵Mi中的特征元素接近于原脊柱图像。进而基于图像矩阵Mi确定的图像矩阵U1至图像矩阵Un保留的特征元素同样接近于原脊柱图像，从而基于图像矩阵U1至图像矩阵Un进行三维重建得到的脊柱三维医学图像的准确度得以提高，有助于医生根据重建后准确地脊柱三维医学图像进行诊断分析。

接下来，参见图6，为本发明提供的一种算法流程示意图。该流程包括：

输入多张切片图像至编码层(即脊柱图像)；

编码层对多张切片图像进行多尺度融合，通过Attention模块进行注意力机制融合；

输入编码层的多张切片图像在进行注意力机制融合之后，输入解码层进行图像解码；

解码后的图像进行上采样后，通过Attention模块进行注意力机制融合以及多信息融合之后，输出图像分割结果。

接下来，结合图3对本发明的多尺度与多信息融合部分进行介绍。需要说明的是，此部分是整个算法的核心之一，此部分可以通过其中一层结构进行说明。例如，首先，将解码部分的D1、D2、D3进行下采样(双线性插值法)，通过1*1*1卷积生成与D4的维度完全相同的矩阵，将结果与D4对应元素相加(add而不是concat)得到融合结果M3。

M3与U4(即U41与U42通过卷积层+BN层+Relu的融合结果)通过Attention Gate得到注意力加权的特征图，将此特征图进行上采样(双线性插值法)得到U31，通过U4的上采样得到U32，U31和U32通过的卷积层+BN层+Relu得到U3。

需要说明的是，此过程并没有将D5(如图5所示)进行上采样，融合到M3中，主要是因为D5对细节特征的保留很少，当然其对定位的效果更好。因此，在项目中也是可以选择将D5增加到M3中。这也体现了整个网络的灵活性。

再接下来，如图7和图8所示，对Attention部分进行介绍。

Attention部分通过对编码层上下采样进行多信息融合并形成对应的特征图Feature Map(即图7中的输入g)，解码层上采样形成Attention模块中的输入x，g与x进行Attention Gate计算后，堆叠到上一层(即x)中，具体如图5所示。其中，Attention Gate如图8所示。具体的，包括以下流程：

将编码层多尺度融合结果和解码部分上一层多信息融合结果分别通过1*1*1卷积层进行卷积后进行信息融合、Relu非线性变换、1*1*1卷积层进行卷积、Sigmoid非线性变换以及重采样得到注意力系数之后，得到注意力新特征图。可选地，解码部分上一层多信息融合结果也可以不进行上述过程的处理，直接与通过1*1*1卷积层进行卷积后进行信息融合、Relu非线性变换、1*1*1卷积层进行卷积、Sigmoid非线性变换的编码层多尺度融合结果进行重采样得到注意力系数后，得到注意力新特征图。需要说明的是，此部分可以充分融合编码部分的粗颗粒度和细颗粒度特征，同时，可以充分利用解码部分对应的下一层特征。

图7中的g为多尺度融合结果(如M3)，x为解码部分上一层多信息融合结果(如D4)，二者分别进行1*1*1卷积运算，分别得到特征图A和特征图B，特征图A和特征图B进行加运算得到新的特征图C。随后，特征图C进行非线性运算(本算法采用Relu)得到特征图D。为了保持特征图D的鲁棒性，再通过1*1*1卷积进行一次线性运算，并得到特征图E。特征图E进行Sigmoid运算得到特征图F，特征图F经过上采样得到注意力系数α，α与x相乘得到含有注意力机制的新的特征图x^。

再接下来，对本发明涉及到的网络模型的其它部分进行说明。

图像处理：获取脊柱医学图像数据集，将其进行手动标注脊柱区域，最终只提取含有脊柱部分的标签作为我们的mask，建立数据库。将二维横断面DICOM数据转换成JPG格式的图片，标注文件转换成PNG格式的图片，将其进行打乱顺序后按照6:2:2的比例划分为训练集、验证集、测试集；网络的输入比2D网络多了一个维度，是多张二维横截面图片堆叠而成的，标注文件与之对应，是一个块状图。

优化器与损失函数：此模型使用Adam优化器，同时，Loss函数将使用DICE loss和BCE loss加权融合的方式，既可以保障较小目标的分割准确度，也可以防止网络在训练过程中出现震荡的现象。

主要参数设置：模型训练时的batch_size为8，初始化学习率设置为1e^-4，每隔5000个iteration,学习率衰减为原来的0.95。使用搭建好的网络训练切分好的训练集，设置每迭代1000次，对训练全集和验证全集做一次验证，并测算模型的train loss和val loss。通过早停法来判断网络训练停止时机得到最终模型，通过调用模型可以得到分割结果，如图9所示。

模型测试阶段，将整例病例的DICOM和标注文件按照顺序分别转换为JPG、PNG格式的图片，并包装成图像块，通过测试得到test Dice。

基于与上述方法相同的技术构思，参见图10，本发明提供了一种基于人工智能及注意力机制的脊柱图像分割装置，包括：

编码模块1001，用于将脊柱图像进行编码，得到编码后的图像矩阵D1至图像矩阵Dn，所述图像矩阵D1至所述图像矩阵Dn的尺寸依次变小，n为大于1的整数；

处理模块1002，用于以图像矩阵Di的大小作为基准，基于上采样和/或下采样确定与所述图像矩阵D1至所述图像矩阵Dn对应的图像矩阵D1’至图像矩阵Dn’，其中，所述图像矩阵D1’至所述图像矩阵Dn’的大小与所述图像矩阵Di的大小相同，i的取值遍历1至n中的任一整数；

处理模块1002，用于将所述图像矩阵D1’至所述图像矩阵Dn’进行相加，得到图像矩阵Mi；

处理模块1002，用于将所述图像矩阵Mi和目标图像矩阵进行注意力机制融合，得到图像矩阵Ui1，所述目标图像矩阵的尺寸小于所述图像矩阵Mi；

处理模块1002，用于对所述目标图像矩阵进行上采样，得到图像矩阵Ui2；

解码模块1003，用于将所述图像矩阵Ui1和所述图像矩阵Ui2进行连接操作，得到解码后的图像矩阵Ui，其中，所述图像矩阵Ui的尺寸和所述图像矩阵Di的尺寸相同，i的取值越大，所述图像矩阵Ui的尺寸越小。

本发明提供的分割装置，当i＝n时，所述目标图像矩阵为预先确定的最小单元矩阵。

本发明提供的分割装置，当i大于或等于10且小于n时，所述目标图像矩阵通过以下方式得到：以所述图像矩阵D1至所述图像矩阵Dn中的Di+1的大小作为基准，基于上采样和下采样确定与所述图像矩阵D1至所述图像矩阵Dn对应的图像矩阵D1’至图像矩阵Dn’，其中，所述图像矩阵D1’至所述图像矩阵Dn’的尺寸与所述图像矩阵Di+1的大小相同；将所述图像矩阵D1’至所述图像矩阵Dn’进行相加，得到图像矩阵Mi+1；所述图像矩阵Mi+1和Ui+2进行注意力机制融合，得到U(i+1)1矩阵，U(i+1)1矩阵等于Mi+1矩阵；对Ui+2进行上采样，得到U(i+1)2；U(i+1)1和U(i+1)2进行连接操作，得到矩阵Ui+1。

可选地，在将图像矩阵D1’至图像矩阵Dn’进行相加，得到图像矩阵Mi之前，还包括：

可选地，还包括：基于解码后的图像矩阵U1至图像矩阵Un进行三维重建，得到脊柱图像的三维医学图像。

参见图11，本发明的另一实施例提供了一种电子设备的示意图，该电子设备包括：处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory)1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令，以执行上述各方法所提供的基于人工智能及注意力机制的脊柱图像分割方法。

此外，上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明的另一方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如上所述的基于人工智能及注意力机制的脊柱图像分割方法。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

注意，除非另有直接说明，否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此，除非另有明确说明，否则所公开的每一个特征仅是一组等效或类似特征的一个示例。在使用到的情况下，进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头，该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims

1.一种基于人工智能及注意力机制的脊柱图像分割方法，其特征在于，包括：

将脊柱图像进行编码，得到编码后的图像矩阵D1至图像矩阵Dn，所述图像矩阵D1至所述图像矩阵Dn的尺寸依次变小，n为大于1的整数；

以图像矩阵Di的大小作为基准，基于上采样和/或下采样确定与所述图像矩阵D1至所述图像矩阵Dn对应的图像矩阵D1’至图像矩阵Dn’，其中，所述图像矩阵D1’至所述图像矩阵Dn’的大小与所述图像矩阵Di的大小相同，i的取值遍历1至n中的任一整数；

将所述图像矩阵D1’至所述图像矩阵Dn’进行相加，得到图像矩阵Mi；

将所述图像矩阵Mi和目标图像矩阵进行注意力机制融合，得到图像矩阵Ui1，所述目标图像矩阵的尺寸小于所述图像矩阵Mi；

对所述目标图像矩阵进行上采样，得到图像矩阵Ui2；

将所述图像矩阵Ui1和所述图像矩阵Ui2进行连接操作，得到解码后的图像矩阵Ui，其中，所述图像矩阵Ui的尺寸和所述图像矩阵Di的尺寸相同，i的取值越大，所述图像矩阵Ui的尺寸越小。

2.根据权利要求1所述的方法，其特征在于，当i＝n时，所述目标图像矩阵为预先确定的最小单元矩阵。

3.根据权利要求1所述的方法，其特征在于，当i大于或等于0且小于n时，所述目标图像矩阵通过以下方式得到：

对Ui+2进行上采样，得到U(i+1)2；

U(i+1)1和U(i+1)2进行连接操作，得到矩阵Ui+1。

4.根据权利要求1-3任一项所述的方法，其特征在于，在将图像矩阵D1’至图像矩阵Dn’进行相加，得到图像矩阵Mi之前，还包括：

5.根据权利要求1所述的方法，其特征在于，将所述图像矩阵Ui1和所述图像矩阵Ui2进行连接操作，得到解码后的图像矩阵Ui，包括：

6.根据权利要求1所述的方法，其特征在于，将脊柱图像进行编码，包括：

将脊柱图像输入至深度学习模型中进行编码，所述深度学习模型为三维多信息融合注意机制网络3D MFA-Net。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种基于人工智能及注意力机制的脊柱图像分割装置，其特征在于，包括：

编码模块，用于将脊柱图像进行编码，得到编码后的图像矩阵D1至图像矩阵Dn，所述图像矩阵D1至所述图像矩阵Dn的尺寸依次变小，n为大于1的整数；

处理模块，用于以图像矩阵Di的大小作为基准，基于上采样和/或下采样确定与所述图像矩阵D1至所述图像矩阵Dn对应的图像矩阵D1’至图像矩阵Dn’，其中，所述图像矩阵D1’至所述图像矩阵Dn’的大小与所述图像矩阵Di的大小相同，i的取值遍历1至n中的任一整数；

处理模块，用于将所述图像矩阵D1’至所述图像矩阵Dn’进行相加，得到图像矩阵Mi；

处理模块，用于将所述图像矩阵Mi和目标图像矩阵进行注意力机制融合，得到图像矩阵Ui1，所述目标图像矩阵的尺寸小于所述图像矩阵Mi；

处理模块，用于对所述目标图像矩阵进行上采样，得到图像矩阵Ui2；

解码模块，用于将所述图像矩阵Ui1和所述图像矩阵Ui2进行连接操作，得到解码后的图像矩阵Ui，其中，所述图像矩阵Ui的尺寸和所述图像矩阵Di的尺寸相同，i的取值越大，所述图像矩阵Ui的尺寸越小。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的基于人工智能及注意力机制的脊柱图像分割方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于人工智能及注意力机制的脊柱图像分割方法。