CN117095177B

CN117095177B - 肾脏图像定位方法、装置和电子设备

Info

Publication number: CN117095177B
Application number: CN202311068875.0A
Authority: CN
Inventors: 石一磊; 曹旭; 胡敬良; 牟立超; 侯雨; 陈咏虹
Original assignee: Maide Intelligent Technology Wuxi Co ltd
Current assignee: Maide Intelligent Technology Wuxi Co ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2024-06-04
Anticipated expiration: 2043-08-23
Also published as: CN117095177A

Abstract

本申请提供一种肾脏图像定位方法、装置和电子设备，该方法的一具体实施方式包括：获取待处理视频；所述待处理视频包括多帧与肾脏相关的超声图像；利用分割网络分割所述待处理视频，得到肾脏视频；其中，所述分割网络基于多尺度注意力机制分割所述待处理视频；利用定位模型定位出所述肾脏视频中的目标超声图像；其中，所述定位模型根据所述肾脏视频的视频流特征以及所述肾脏视频所包括的多帧肾脏分割图像定位出所述目标超声图像。该方法可以定位出较为准确的目标超声图像。

Description

肾脏图像定位方法、装置和电子设备

技术领域

本申请涉及超声图像处理领域，具体而言，涉及一种肾脏图像定位方法、装置和电子设备。

背景技术

超声检查是指用弱超声波照射到身体上，将组织的反射波进行图像化处理，通过测量生理组织的形态和数据，为疾病发现和诊断提供依据。

在相关技术中，可以通过超声采集肾脏图像，以获知其大小、形态、肾盂等结构数据，然后可以通过这些结构数据判断肾脏是否存在病灶。但是在利用超声检查肾脏的过程中，通常由操作人员人工截取肾脏的超声图像。这样，超声图像的质量因操作人员的截图手法不同而存在差异，且常常得到质量较差的超声图像。

发明内容

本申请实施例的目的在于提供一种肾脏图像定位方法、装置和电子设备，用以定位出较为准确的目标超声图像。

第一方面，本申请实施例提供了一种肾脏图像定位方法，该方法包括：获取待处理视频；所述待处理视频包括多帧与肾脏相关的超声图像；利用分割网络分割所述待处理视频，得到肾脏视频；其中，所述分割网络基于多尺度注意力机制分割所述待处理视频；利用定位模型定位出所述肾脏视频中的目标超声图像；其中，所述定位模型根据所述肾脏视频的视频流特征以及所述肾脏视频所包括的多帧肾脏分割图像定位出所述目标超声图像。

这样，超声仪器可以通过分割模型从待处理视频中分割出肾脏视频，然后通过定位模型定位出目标超声图像，提高了目标超声图像的准确性。这样，整个过程可以不依赖于操作人员的截图手法，从而也可以使各个医院之间能够互认目标超声图像的质量。

可选地，所述利用定位模型定位出所述肾脏视频中的目标超声图像，包括利用所述定位模型执行以下步骤：提取所述肾脏视频的视频流特征；针对每一帧肾脏分割图像，提取该肾脏分割图像的图像特征，得到分割特征图；针对所述视频流特征中每一层目标深度上的特征图，将该特征图与对应位置的分割特征图进行融合，得到多视图融合特征图；以及从所述多视图融合特征图中提取出全局特征，基于所述全局特征定位所述目标超声图像。

这样，将包含时序动作的肾脏视频应用于肾脏分割图像的融合过程中，提高了目标超声图像的图像质量。

可选地，所述基于所述全局特征定位所述目标超声图像，包括：基于所述全局特征定位出满足预设要求的切面图像；所述预设要求包括图像中的肾脏长轴最长；其中，满足预设要求的切面图像为所述目标超声图像。这样，定位模型在得到多帧多视图融合特征图之后，可以直接定位出肾脏长轴最大的多视图融合特征图，而无需操作人员进行指示。

可选地，所述利用分割网络分割所述待处理视频，得到肾脏视频，包括利用所述分割网络执行以下步骤：针对所述待处理视频中的每一帧超声图像，生成多个尺度下的特征图；针对每一个尺度下的特征图，分别生成注意力特征图以及分割特征图；融合所述注意力特征图以及所述分割特征图，得到所述肾脏分割图像。这样，由于注意力特征图中包含了更广泛的上下文信息，因此在一定程度上提高了识别出肾脏区域的准确性。

可选地，针对每一个尺度下的特征图，生成注意力特征图，包括：针对每一个尺度下的特征图，分别生成多个中间特征图；从所述多个中间特征图中任意选择两个中间特征图，并计算出所述两个中间特征图之间的空间注意力图；计算所述空间注意力图与下一中间特征图之间的新空间注意力图，直至所述多个中间特征图均被计算；其中，所述下一中间特征图为尚未计算过的中间特征图；基于最后一个中间特征图与当前的新空间注意力图，重塑出与该尺度下的原始特征图匹配的重塑图像；聚合所述重塑图像与所述原始特征图，得到所述注意力特征图。这样，可以根据空间注意力图选择性地聚合超声图像的全局上下文信息，这样得到的注意力特征图能够提高肾脏分割图像的准确率。

可选地，所述聚合所述重塑图像与所述原始特征图，得到所述注意力特征图，包括：计算所述原始特征图中的每一个特征与所述重塑图像中对应位置的影响因子之间的乘积；将多个乘积的累加和与尺度参数相乘，得到该尺度下被影响后的特征图；将所述被影响后的特征图与所述原始特征图进行加权求和，得到所述注意力特征图。这样，该注意力特征图中每个位置的像素值可以视为该帧超声图像的所有位置的融合特征与其原始特征的加权和，因此其具有全局的上下文信息，在一定程度上提高了肾脏分割图像的准确率。

可选地，所述针对所述待处理视频中的每一帧超声图像，生成多个尺度下的特征图，包括：针对每一帧超声图像，将该超声图像以不同缩放比例缩放为多个尺度的图像；从各个尺度的图像中分别提取出大小相同的特征图。这样，从各个尺度的图像中分别提取出大小相同的特征图可以使各个特征图能够在同一维度上进行融合，在一定程度上提高了图像融合的便捷性。

第二方面，本申请实施例提供了一种肾脏图像定位装置，该装置包括：获取模块，用于获取待处理视频；所述待处理视频包括多帧与肾脏相关的超声图像；视频分割模块，用于利用分割网络分割所述待处理视频，得到肾脏视频；其中，所述分割网络基于多尺度注意力机制分割所述待处理视频；定位模块，用于利用定位模型定位出所述肾脏视频中的目标超声图像；其中，所述定位模型根据所述肾脏视频的视频流特征以及所述肾脏视频所包括的多帧肾脏分割图像定位出所述目标超声图像。这样，整个过程可以不依赖于操作人员的截图手法，从而也可以使各个医院之间能够互认目标超声图像的质量。

第三方面，本申请实施例提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种肾脏图像定位方法的流程图；

图2为本申请实施例提供的一种分割模型的结构示意图；

图3为本申请实施例提供的一种位置注意力模块处理特征图的示意图；

图4为本申请实施例提供的一种肾脏图像定位装置的结构框图；

图5为本申请实施例提供的一种用于执行肾脏图像定位方法的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

应当说明的是，在不冲突的情况下，本申请中的实施例或者实施例中的技术特征可以进行结合。

相关技术中，存在超声图像的质量因操作人员的截图手法不同而存在差异，且常常得到质量较差的超声图像的问题；为了解决该问题，本申请提供一种肾脏图像定位方法、装置和电子设备；进一步地，通过分割模型分割出超声视频的每一帧超声图像中的肾脏图像，然后通过定位模型从多帧肾脏图像中定位出目标超声图像。这样，不依赖于操作人员的截图手法，且基于分割模型以及定位模型得到的超声图像能够较为清晰、完整的展示肾脏结构，质量较高。

以上相关技术中的方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本发明实施例针对上述问题所提出的解决方案，都应该是发明人在本发明过程中对本发明做出的贡献。

在一些应用场景中，上述肾脏图像定位方法可以应用于超声仪器中，也可以应用于实质上能够进行图像处理的其他终端设备或者服务端。上述终端设备例如可以包括台式电脑、笔记本电脑等，上述服务端例如可以包括服务器集群、云平台等。示例性地，本申请下文以应用于超声仪器行文。

请参考图1，其示出了本申请实施例提供的一种肾脏图像定位方法的流程图。如图1所示，该肾脏图像定位方法包括以下步骤101至步骤103。

步骤101，获取待处理视频；所述待处理视频包括多帧与肾脏相关的超声图像；

在一些应用场景中，操作人员可以将超声仪器的超声探头放在病人的肾脏位置，并可以移动超声探头来采集肾脏的超声图像，多帧超声图像可以组成超声视频，继而该超声视频可以视为上述待处理视频。

步骤102，利用分割网络分割所述待处理视频，得到肾脏视频；其中，所述分割网络基于多尺度注意力机制分割所述待处理视频；

在一些应用场景中，超声仪器可以利用分割网络处理该处理视频。具体的，超声仪器可以将待处理视频输入分割网络，分割网络基于多尺度注意力机制分割出每一帧超声图像中的肾脏部分图像，得到上述肾脏视频。在这些应用场景中，该分割网络例如可以通过MSANet(多尺度注意力网络，Multi Scale Attention Network，简称MSANet)实现。

步骤103，利用定位模型定位出所述肾脏视频中的目标超声图像；其中，所述定位模型根据所述肾脏视频的视频流特征以及所述肾脏视频所包括的多帧肾脏分割图像定位出所述目标超声图像。

在一些应用场景中，超声仪器可以将肾脏视频输入定位模型中，定位模型在接收到肾脏视频之后，可以结合肾脏视频的视频流特征以及各个肾脏分割图像的图像特征定位出目标超声图像。上述视频流特征例如可以包括肾脏视频的深度特征(例如深度为100位)、各个深度上的图像特征等。上述肾脏分割图像的图像特征或者各个深度上的图像特征例如可以包括图像的颜色特征、纹理特征等。上述目标超声图像例如可以包括短轴最大切面图像、长轴最大切面图像等。

在这些应用场景中，定位模型例如可以将视频流特征中相邻深度上的图像特征进行融合，然后将相邻的肾脏分割图像进行融合，得到多帧融合图像，然后从多帧融合图像中筛选出目标超声图像。例如，肾脏视频的视频流特征包括100层深度上的图像特征，且该肾脏视频包括100帧肾脏分割图像，然后可以分别融合相邻的两层深度上的图像特征，得到50层融合图像，然后再融合相邻的两帧肾脏分割图像，得到50帧融合图像，然后从100帧融合图像中筛选出目标超声图像。这里，例如可以通过操作人员的选择指令选择出目标超声图像。该选择指令例如可以用于指示选择肾脏的长轴最大的图像。

在相关技术中，各个操作人员的操作水平并不相同，这常常导致各个医院之间不会互认对方截取的超声图像的质量。

在本实现方式中，超声仪器可以通过分割模型从待处理视频中分割出肾脏视频，然后通过定位模型定位出目标超声图像，提高了目标超声图像的准确性。这样，整个过程可以不依赖于操作人员的截图手法，从而也可以使各个医院之间能够互认目标超声图像的质量。

在一些可选的实现方式中，上述步骤103中所述的利用定位模型定位出所述肾脏视频中的目标超声图像，包括利用所述定位模型执行以下步骤：

步骤1031，提取所述肾脏视频的视频流特征；

在一些应用场景中，定位模型例如可以通过全局编码器提取肾脏视频的视频流特征。上述全局编码器例如可以视为一个内核为t×h×w(也即时间维度、高度维度和宽度维度的步幅分别为(t,h,w))的3D卷积。

步骤1032，针对每一帧肾脏分割图像，提取该肾脏分割图像的图像特征，得到分割特征图；

定位模型例如可以基于多视图转换器(Multiview Transformer)提取每一帧肾脏分割图像的图像特征。

步骤1033，针对所述视频流特征中每一层目标深度上的特征图，将该特征图与对应位置的分割特征图进行融合，得到多视图融合特征图；

定位模型在得到上述视频流特征以及每一帧肾脏分割图像对应的分割特征图之后，可以将对应位置的特征图进行融合。例如，若视频流特征的深度为100，定位模型可以从中随机选择10层深度作为上述目标深度，然后针对于每一层目标深度上的特征图，将该特征图与对应位置的10帧分割特征图分别进行融合，得到100帧多视图融合特征图。

步骤1034，从所述多视图融合特征图中提取出全局特征，基于所述全局特征定位所述目标超声图像。

在一些应用场景中，针对每一帧多视图融合特征图，定位模型例如可以在卷积模块中通过卷积操作从中提取出图像特征，该图像特征也即可以视为上述全局特征。在这些应用场景中，例如可以通过用于分类的层结构(MLP Head)从100帧多视图融合特征图中筛选出一帧图像，并将该帧图像确定为上述目标超声图像。

在本实现方式中，将包含时序动作的肾脏视频应用于肾脏分割图像的融合过程中。这样，肾脏视频的视频流特征包含了时序维度上的特征，提高了融合精度，从而提高了目标超声图像的图像质量。

在一些可选的实现方式中，上述步骤1034中所述的基于所述全局特征定位所述目标超声图像，包括：基于所述全局特征定位出满足预设要求的切面图像；所述预设要求包括图像中的肾脏长轴最长；其中，满足预设要求的切面图像为所述目标超声图像。

在一些应用场景中，操作人员可以预先设置目标超声图像的定位要求。也即，当某一帧多视图融合特征图满足该定位要求时，可以将其确定为目标超声图像。该定位要求也即上述预设要求。

在相关技术中，操作人员一般会截取表征肾脏长轴最长的超声图像来分析肾脏是否存在病灶，因此可以预先将肾脏长轴最长作为目标超声图像所需达到的要求，这样，定位模型在得到多帧多视图融合特征图之后，可以直接定位出肾脏长轴最大的多视图融合特征图，而无需操作人员进行指示。

在一些可选的实现方式中，上述步骤102中所述的利用分割网络分割所述待处理视频，得到肾脏视频，包括利用所述分割网络执行以下步骤：

步骤1021，针对所述待处理视频中的每一帧超声图像，生成多个尺度下的特征图；

超声仪器将待处理视频输入分割模型之后，分割模型会对每帧超声图像进行缩放处理，以生成不同尺度的图像，然后再分别提取出图像特征，从而得到不同尺度下的特征图。

在一些可选的实现方式中，所述针对所述待处理视频中的每一帧超声图像，生成多个尺度下的特征图，包括：针对每一帧超声图像，将该超声图像以不同缩放比例缩放为多个尺度的图像；从各个尺度的图像中分别提取出大小相同的特征图。

在一些应用场景中，请参阅图2，分割模型针对超声图像I，例如可以将其按照1:0.8:0.5的比例缩放为3个尺度的图像(I₁，I₂，I₃)，然后可以在卷积模块中通过卷积操作从各个尺度的图像中分别提取出大小均为64×112×112的3个特征图(A₁，A₂，A₃)。

在本实现方式中，从各个尺度的图像中分别提取出大小相同的特征图可以使各个特征图能够在同一维度上进行融合，在一定程度上提高了图像融合的便捷性。

步骤1022，针对每一个尺度下的特征图，分别生成注意力特征图以及分割特征图；

上述注意力特征图可以视为整合了该尺度下的特征图的上下文信息的特征图。上述上下文信息例如可以包括相邻像素之间的颜色信息、纹理信息以及在卷积过程中的变化信息等。

上述分割图像可以视为分割出的肾脏区域图像。在一些应用场景中例如可以通过基于区域的分割方法、基于边缘的分割方法等分割出肾脏区域图像。

步骤1023，融合所述注意力特征图以及所述分割特征图，得到所述肾脏分割图像。

分割网络在生成注意力特征图以及分割特征图之后，可以将两者进行融合。请继续参阅图2，不同尺度下的3个特征图(A₁，A₂，A₃)可以分别输入位置注意力模块中，该位置注意力模块将其生成对应的3个注意力特征图(a₁，a₂，a₃)。然后，三个特征图(A₁，A₂，A₃)也分别输入分割模块，得到对应的三个分割特征图(S₁，S₂，S₃)。然后，可以将a₁与S₁融合，将a₂与S₂融合，将a₃与S₃融合，并将融合后得到的三个图像再次进行融合(例如可以将三个图像中对应像素的像素值相加)，得到该帧超声图像对应的肾脏分割图像。

在本实现方式中，由于注意力特征图中包含了更广泛的上下文信息，因此在一定程度上提高了识别出肾脏区域的准确性。

在一些可选的实现方式中，针对每一个尺度下的特征图，生成注意力特征图，包括：

步骤1，针对每一个尺度下的特征图，分别生成多个中间特征图；

在一些应用场景中，分割模型在生成注意力特征图时，可以先生成中间特征图。请参阅图3，其示出了上述位置注意力模块的一种结构。例如，针对于特征图A₁，可以在卷积模块中通过卷积操作提取出三个中间特征图(也即中间特征图B、中间特征图C以及中间特征图D)。

步骤2，从所述多个中间特征图中任意选择两个中间特征图，并计算出所述两个中间特征图之间的空间注意力图；

分割模型在生成了多个中间特征图之后，可以从中任意选择两个中间特征图，并计算两者之间的空间注意力图，以捕捉任意两个位置之间的空间依赖信息。

请继续参阅图3，分割模型在提取出中间特征图B、中间特征图C以及中间特征图D之后，可以先计算中间特征图B、C之间的空间注意力图。在一些应用场景中，例如可以将中间特征图B的像素矩阵与中间特征图的像素矩阵的转置执行矩阵乘法运算，并应用归一化指数函数(SoftMax)计算出空间注意力图S。该过程例如可以通过计算式表征；其中，N表示像素总数，S_ji表示第i个像素点对j个像素点的影响；B_i表示中间特征图B的第i个像素点；C_j表示中间特征图C的第j个像素点。

步骤3，计算所述空间注意力图与下一中间特征图之间的新空间注意力图，直至所述多个中间特征图均被计算；其中，所述下一中间特征图为尚未计算过的中间特征图。

类似的，分隔模型可以继续计算当前的空间注意力图(例如上述中间注意力图S)与下一中间特征图D之间的新空间注意力图，直至将多个中间特征图计算完全。

应当说明的是，上述输入图像、特征图、中间特征图等均在同一图像维度下，也即，输入图像I∈R^C×H×W、特征图(A₁,A₂,A₃)∈R^C×H×W、中间特征图(B，C)∈R^C×H×W；其中，c表示图像深度，H表示图像高度、W表示图像宽度；R表示当前输入的超声图像。在计算空间注意力图时可以将计算对象(例如任意两个中间特征图)进行重塑，以将计算对象调整为固定尺度，且不产生变形。

步骤4，基于最后一个中间特征图与当前的新空间注意力图，重塑出与该尺度下的原始特征图匹配的重塑图像。

请继续参阅图3，其中间特征图D为最后一个中间特征图，基于当前的新空间注意力图S与中间特征图D可以重塑出与当前输入的超声图像R大小相同的重塑图像，此时该重塑图像与该超声图像R匹配。

步骤5，聚合所述重塑图像与所述原始特征图，得到所述注意力特征图。

在一些应用场景中，在聚合重塑图像与原始特征图时，针对同一位置相同的像素点，例如可以将较大的像素值作为该像素点在注意力特征图中的像素值，从而得到注意力特征图。

在本实现方式中，可以根据空间注意力图选择性地聚合超声图像的全局上下文信息，这样得到的注意力特征图能够提高肾脏分割图像的准确率。

在一些可选的实现方式中，上述步骤5中所述的聚合所述重塑图像与所述原始特征图，得到所述注意力特征图，包括：

计算所述原始特征图中的每一个特征与所述重塑图像中对应位置的影响因子之间的乘积；

将多个乘积的累加和与尺度参数相乘，得到该尺度下被影响后的特征图；

将所述被影响后的特征图与所述原始特征图进行加权求和，得到所述注意力特征图。

延续上述图3所示的位置注意力模块示例，该聚合过程可以通过计算式实现。其中，E_j表示注意力特征图；/>表示重塑图像；A_j表示原始特征图中的第j个像素点上的特征；a表示尺度参数；β表示原始特征图的像素值所占的权重。

在本实现方式中，可以将重塑图像与原始特征图逐像素点求和，从而聚合得到注意力特征图。这样，该注意力特征图中每个位置的像素值可以视为该帧超声图像的所有位置的融合特征与其原始特征的加权和，因此其具有全局的上下文信息，在一定程度上提高了肾脏分割图像的准确率。

本领域技术人员可以理解，在具体实施例的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

请参考图4，其示出了本申请实施例提供的一种肾脏图像定位装置的结构框图，该肾脏图像定位装置可以是电子设备上的模块、程序段或代码。应理解，该装置与上述图1方法实施例对应，能够执行图1方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

可选地，上述肾脏图像定位装置包括获取模块401、视频分割模块402以及定位模块403。其中，获取模块401，用于获取待处理视频；所述待处理视频包括多帧与肾脏相关的超声图像；视频分割模块402，用于利用分割网络分割所述待处理视频，得到肾脏视频；其中，所述分割网络基于多尺度注意力机制分割所述待处理视频；定位模块403，用于利用定位模型定位出所述肾脏视频中的目标超声图像；其中，所述定位模型根据所述肾脏视频的视频流特征以及所述肾脏视频所包括的多帧肾脏分割图像定位出所述目标超声图像。

可选地，所述定位模块403进一步用于利用所述定位模型执行以下步骤：提取所述肾脏视频的视频流特征；针对每一帧肾脏分割图像，提取该肾脏分割图像的图像特征，得到分割特征图；针对所述视频流特征中每一层目标深度上的特征图，将该特征图与对应位置的分割特征图进行融合，得到多视图融合特征图；以及从所述多视图融合特征图中提取出全局特征，基于所述全局特征定位所述目标超声图像。

可选地，所述定位模块403进一步用于：基于所述全局特征定位出满足预设要求的切面图像；所述预设要求包括图像中的肾脏长轴最长；其中，满足预设要求的切面图像为所述目标超声图像。

可选地，所述视频分割模块402进一步用于利用所述分割网络执行以下步骤：针对所述待处理视频中的每一帧超声图像，生成多个尺度下的特征图；针对每一个尺度下的特征图，分别生成注意力特征图以及分割特征图；融合所述注意力特征图以及所述分割特征图，得到所述肾脏分割图像。

可选地，视频分割模块402进一步用于：针对每一个尺度下的特征图，分别生成多个中间特征图；从所述多个中间特征图中任意选择两个中间特征图，并计算出所述两个中间特征图之间的空间注意力图；计算所述空间注意力图与下一中间特征图之间的新空间注意力图，直至所述多个中间特征图均被计算；其中，所述下一中间特征图为尚未计算过的中间特征图；基于最后一个中间特征图与当前的新空间注意力图，重塑出与该尺度下的原始特征图匹配的重塑图像；聚合所述重塑图像与所述原始特征图，得到所述注意力特征图。

可选地，所述视频分割模块402进一步用于：计算所述原始特征图中的每一个特征与所述重塑图像中对应位置的影响因子之间的乘积；将多个乘积的累加和与尺度参数相乘，得到该尺度下被影响后的特征图；将所述被影响后的特征图与所述原始特征图进行加权求和，得到所述注意力特征图。

可选地，所述视频分割模块402进一步用于：针对每一帧超声图像，将该超声图像以不同缩放比例缩放为多个尺度的图像；从各个尺度的图像中分别提取出大小相同的特征图。

需要说明的是，本领域技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或者装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再重复描述。

请参照图5，图5为本申请实施例提供的一种用于执行肾脏图像定位方法的电子设备的结构示意图，所述电子设备可以包括：至少一个处理器501，例如CPU，至少一个通信接口502，至少一个存储器503和至少一个通信总线504。其中，通信总线504用于实现这些组件直接的连接通信。其中，本申请实施例中设备的通信接口502用于与其他节点设备进行信令或数据的通信。存储器503可以是高速RAM存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器503可选的还可以是至少一个位于远离前述处理器的存储装置。存储器503中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器501执行时，电子设备可以执行上述图1所示方法过程。

可以理解，图5所示的结构仅为示意，所述电子设备还可包括比图5中所示更多或者更少的组件，或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，可以执行如图1所示方法实施例中电子设备所执行的方法过程。

本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如，该方法可以包括：获取待处理视频；所述待处理视频包括多帧与肾脏相关的超声图像；利用分割网络分割所述待处理视频，得到肾脏视频；其中，所述分割网络基于多尺度注意力机制分割所述待处理视频；利用定位模型定位出所述肾脏视频中的目标超声图像；其中，所述定位模型根据所述肾脏视频的视频流特征以及所述肾脏视频所包括的多帧肾脏分割图像定位出所述目标超声图像。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种肾脏图像定位方法，其特征在于，包括：

获取待处理视频；所述待处理视频包括多帧与肾脏相关的超声图像；

利用分割网络分割所述待处理视频，得到肾脏视频；其中，所述分割网络基于多尺度注意力机制分割所述待处理视频；

利用定位模型定位出所述肾脏视频中的目标超声图像；其中，所述定位模型根据所述肾脏视频的视频流特征以及所述肾脏视频所包括的多帧肾脏分割图像定位出所述目标超声图像；

所述利用分割网络分割所述待处理视频，得到肾脏视频，包括利用所述分割网络执行以下步骤：

针对所述待处理视频中的每一帧超声图像，生成多个尺度下的特征图；

针对每一个尺度下的特征图，分别生成注意力特征图以及分割特征图；

融合所述注意力特征图以及所述分割特征图，得到所述肾脏分割图像；

所述针对每一个尺度下的特征图，分别生成注意力特征图以及分割特征图，包括：

针对每一个尺度下的特征图，分别生成多个中间特征图；

从所述多个中间特征图中任意选择两个中间特征图，并计算出所述两个中间特征图之间的空间注意力图；

计算所述空间注意力图与下一中间特征图之间的新空间注意力图，直至所述多个中间特征图均被计算；其中，所述下一中间特征图为尚未计算过的中间特征图；

基于最后一个中间特征图与当前的新空间注意力图，重塑出与该尺度下的原始特征图匹配的重塑图像；

聚合所述重塑图像与所述原始特征图，得到所述注意力特征图。

2.根据权利要求1所述的方法，其特征在于，所述利用定位模型定位出所述肾脏视频中的目标超声图像，包括利用所述定位模型执行以下步骤：

提取所述肾脏视频的视频流特征；

针对每一帧肾脏分割图像，提取该肾脏分割图像的图像特征，得到分割特征图；

针对所述视频流特征中每一层目标深度上的特征图，将该特征图与对应位置的分割特征图进行融合，得到多视图融合特征图；以及

从所述多视图融合特征图中提取出全局特征，基于所述全局特征定位所述目标超声图像。

3.根据权利要求2所述的方法，其特征在于，所述基于所述全局特征定位所述目标超声图像，包括：

基于所述全局特征定位出满足预设要求的切面图像；所述预设要求包括图像中的肾脏长轴最长；

其中，满足预设要求的切面图像为所述目标超声图像。

4.根据权利要求1所述的方法，其特征在于，所述聚合所述重塑图像与所述原始特征图，得到所述注意力特征图，包括：

5.根据权利要求1所述的方法，其特征在于，所述针对所述待处理视频中的每一帧超声图像，生成多个尺度下的特征图，包括：

针对每一帧超声图像，将该超声图像以不同缩放比例缩放为多个尺度的图像；

从各个尺度的图像中分别提取出大小相同的特征图。

6.一种肾脏图像定位装置，其特征在于，包括：

获取模块，用于获取待处理视频；所述待处理视频包括多帧与肾脏相关的超声图像；

视频分割模块，用于利用分割网络分割所述待处理视频，得到肾脏视频；其中，所述分割网络基于多尺度注意力机制分割所述待处理视频；所述利用分割网络分割所述待处理视频，得到肾脏视频，包括利用所述分割网络执行以下步骤：针对所述待处理视频中的每一帧超声图像，生成多个尺度下的特征图；针对每一个尺度下的特征图，分别生成注意力特征图以及分割特征图；融合所述注意力特征图以及所述分割特征图，得到所述肾脏分割图像；

所述针对每一个尺度下的特征图，分别生成注意力特征图以及分割特征图，包括：针对每一个尺度下的特征图，分别生成多个中间特征图；从所述多个中间特征图中任意选择两个中间特征图，并计算出所述两个中间特征图之间的空间注意力图；计算所述空间注意力图与下一中间特征图之间的新空间注意力图，直至所述多个中间特征图均被计算；其中，所述下一中间特征图为尚未计算过的中间特征图；基于最后一个中间特征图与当前的新空间注意力图，重塑出与该尺度下的原始特征图匹配的重塑图像；聚合所述重塑图像与所述原始特征图，得到所述注意力特征图；

定位模块，用于利用定位模型定位出所述肾脏视频中的目标超声图像；其中，所述定位模型根据所述肾脏视频的视频流特征以及所述肾脏视频所包括的多帧肾脏分割图像定位出所述目标超声图像。

7.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-5任一所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-5任一所述的方法。