CN116051538A

CN116051538A - 基于Transformer超声心动图左心室分割方法

Info

Publication number: CN116051538A
Application number: CN202310173170.9A
Authority: CN
Inventors: 郭素峡; 卢炯斌; 黄志超; 廖敏琪; 姚永钊; 梁广柱
Original assignee: Dongguan Peoples Hospital
Current assignee: Dongguan Peoples Hospital
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-05-02

Abstract

本发明实施例公开了一种基于Transformer的超声心动图左心室分割方法，包括：获取任意一帧超声心动图；利用基于Transformer的超声心动图左心室分割模型对所述任意一帧超声心动图进行处理，得到左心室的语义分割结果；其中，所述分割模型包括：Swin Transformer主干网络，用于收集和编码任意一帧超声心动图中的多尺度特征，最终得到心脏的全局结构特征；以及使用迭代解码头的K‑Net网络，用于根据所述心脏的全局结构特征对卷积核进行迭代更新，并利用迭代更新后的卷积核对所述心脏的全局性特征进行解码，得到左心室的语义分割结果。本实施例实现左心室的自动化分割，并提高分割结果的准确性和稳定性。

Description

基于Transformer超声心动图左心室分割方法

技术领域

本发明实施例涉及图像处理领域，尤其涉及一种基于Transformer的超声心动图左心室分割方法。

背景技术

超声心动图是指利用脉冲超声波透过胸壁、软组织测量其下各心壁、心室及瓣膜等结构的周期性活动而得到的动态视频。超声行动图能够描述心脏随时间的空间变化，能够为心脏性能评估提供数据支持。

现有技术中，通常由心脏专家对超声心动图进行人工分析，首选从超声心动图中选取相对清晰且具有代表性的心跳，然后从该心跳对应的图像帧中识别左心室边缘，实现左心室分割。该过程不仅耗时耗力，且分割的准确性受人为因素影响较大。

发明内容

本发明实施例提供一种基于Transformer的超声心动图左心室分割方法，提高左心室的自动化分割，并提高分割结果的准确性和稳定性。

第一方面，本发明实施例提供了一种基于Transformer的超声心动图左心室分割方法，包括：

获取任意一帧超声心动图；

利用基于Transformer的超声心动图左心室分割模型对所述任意一帧超声心动图进行处理，得到左心室的语义分割结果；

其中，所述分割模型包括：

Swin Transformer主干网络，用于收集和编码任意一帧超声心动图中的多尺度特征，最终得到心脏的全局结构特征；以及

使用迭代解码头的K-Net网络，用于根据所述心脏的全局结构特征对卷积核进行迭代更新，并利用迭代更新后的卷积核对所述心脏的全局性特征进行解码，得到左心室的语义分割结果。

第二方面，本发明实施例提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的基于Transformer的超声心动图左心室分割方法。

第三方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的基于Transformer的超声心动图左心室分割方法。

本发明实施例采用Swin Transformer主干网络作为编码器，采用K-net网络作为解码器，构建用于超声心动图左心室分割的神经网络模型。其中，Swin Transformer在移动窗口中引入注意力机制，通过很少的计算量就能够精确提取心脏的多尺度特征，逐步得到心脏的全局结构特征；K-Net网络将该全局结构特征融入到初始卷积核中，通过心脏的全局结构信息对解码头进行迭代更新，使卷积核权重根据不同的心脏结构实现动态调整，能够更好的适应当前图像中的心脏信息，提高语义分割的准确性。此外，该模型通过SwinTransformer主干网络和K-net网络的结合，仅将心脏的全局结构特征引入解码器，与传统的U-net网络将各尺度特征均引入解码器相比，K-net网络仅关注心脏的全局信息，特别适用于左心室分割这一具体任务。该任务下模型仅需识别像素是否属于左心室这一深度语义信息，无需关注左心室内外的结构细节，因此心脏的全局结构特征是与分割结果相关性最强的特征，不关注其余小尺度特征能够避免引入过多干扰信息，既能提高分割准确性又能减小模型计算量。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于Transformer的超声心动图左心室分割方法的流程图。

图2是本发明实施例提供的一种超声心动图和左心室分割结果的示意图。

图3是本发明实施例提供的一种基于Transformer的超声心动图左心室分割模型的示意图。

图4是本发明实施例提供的一种基于Transformer的超声心动图左心室分割方法计算LVEF的示意图。

图5是本发明实施例提供的一种EchoNet-Dynamic数据集的数据样例。

图6是本发明实施例提供的利用训练好的分割模型对两组舒张末帧和收缩末帧进行LV分割的结果。

图7是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行清楚、完整的描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

图1是本发明实施例提供的一种基于Transformer的超声心动图左心室分割方法的流程图。该方法适用于通过超声心动图对左心室进行自动化语义分割的情况。该方法由电子设备执行，如图1所示，具体包括如下步骤：

S110、获取任意一帧超声心动图。

S120、利用基于Transformer的超声心动图左心室分割模型对所述任意一帧超声心动图进行处理，得到左心室的语义分割结果。

所述分割模型由样本数据训练得到，训练好的模型输入为任意一帧超声心动图，输出为所述一帧图像中左心室分割的结果，如图2所示。可选的，所述分割结果由0/1像素构成，1代表当前像素属于左心室，0代表当前像素不属于左心室。

图3是本发明实施例提供的一种基于Transformer的超声心动图左心室分割模型的示意图。如图3所示，所述分割模型包括：Swin Transformer主干网络，用于收集和编码任意一帧超声心动图中的多尺度特征，最终得到心脏的全局结构特征；以及使用迭代解码头的K-Net网络，用于根据所述心脏的全局结构特征对卷积核进行迭代更新，并利用迭代更新后的卷积核对所述心脏的全局性特征进行解码，得到左心室的语义分割结果。

更具体的，参照图3，所述Swin Transformer主干网络包括多个编码阶段，各编码阶段包括线性嵌入层(Linear Embedding)和Swin Transformer块。所述Swin Transformer主干网络通过如下如下步骤收集和编码任意一帧超声心动图中的多尺度特征，最终得到心脏的全局结构特征：

步骤一、在第一个编码阶段，将任意一帧超声心动图图像分割为固定尺寸的多个patch；通过一线性嵌入层将各patch投影到任意维度；通过一Swin Transformer块对投影后的多个patch进行移位窗口处理，计算窗口内patch之间的关注度；根据所述patch之间的关注度对相邻的patch进行合并，由得到的新patch构成心脏在对应尺度下的结构特征。

步骤二、在下一编码阶段，通过下一线性嵌入层对各新patch进行维度翻倍的投影；通过下一Swin Transformer块对投影后的多个新patch进行移位窗口处理，计算窗口内新patch之间的关注度；根据所述新patch之间的关注度对相邻的新patch进行合并，由得到的最新patch构成心脏在新尺度下的结构特征，其中所述新尺度大于所述对应尺度。

步骤三、返回步骤二中所述维度翻倍的投影操作，进入下一轮循环(即下一编码阶段)，直到达到设定的循环次数，并将最终得到的、心脏在最大尺度下的结构特征，作为心脏的全局结构特征。

在一具体实施方式中，如图3所示，Swin Transformer主干网络首先将超声心动图图像分割为784个4×4像素的patch。每个patch的特征尺寸为4×4×3＝48，并被视为一个“token”。在编码阶段1，这些具有原始特征的patch被线性嵌入层投影到任意维度(C)。在Swin Large配置中，C设置为192。Swin Transformer块将在这些patch上进行处理并计算关注度。每对Swin Transformer块计算M×M个窗口和移位窗口内的patch之间的关注度。由于Swin Transformer块不会改变token的数量和维度，故编码阶段1结束时共有784个维度为C的token。

然后，在编码阶段2，相邻的patch由合并层连接以进行分层特征收集，同时将维度翻倍至2C，并将token数减少至196。然后2个Swin Transformer块将计算这些较大令牌之间的窗口内关注度。这一由合并层和几个Swin Transformer块组成的步骤将再重复两次，分别作为“编码阶段3”和“编码阶段4”。Swin Transformer主干网络最终输出一个4×4×1536的张量，作为心脏的全局结构特征F。

进一步的，参考图3，所述K-Net网络包括多个卷积核更新阶段，所述K-net网络通过如下步骤实现根据所述心脏的全局结构特征对卷积核进行迭代更新，并利用迭代更新后的卷积核对所述心脏的全局性特征进行解码，得到左心室的语义分割结果：

步骤一、在第一个卷积核更新阶段，用初始卷积核与所述心脏的全局结构特征作卷积进行特征解码，由解码结果构成包含心脏结构信息的掩码；用所述掩码与所述心脏的全局结构特征相乘，得到包含心脏各部分单独结构信息的特征组合；根据所述特征组合与初始卷积核元素相乘的结果生成两个gate，所述两个gate分别表征了心脏结构信息和初始卷积核在更新后的卷积核中所占的比例；根据所述两个gate将卷积核中的上下文信息进行整合，得到包含心脏结构信息的、更新后的卷积核。

步骤二、将所述包含心脏结构信息的、更新后的卷积核作为新的初始卷积核，返回与所述心脏的全局结构特征作卷积的操作，进入下一轮循环(即下一个卷积核更新阶段)，直到达到设定的循环次数。

步骤三、用最后一个卷积核更新阶段输出的、更新后的卷积核与所述心脏的全局结构特征作卷积，实现最后一层特征解码，由最终的解码结果构成左心室的语义分割结果。

在一具体实施方式中，选择UperNet作为K-net解码器的初始卷积核K₀。在每个卷积核更新阶段n，卷积核K_n-1首先与心脏的全局结构特征F卷积来生成掩码M_n-1，然后解码头根据掩码M_n-1进行迭代更新。具体的，迭代更新的过程包括：第一步、通过F和M_n-1的乘法，获得组合特征

可以表示阶段n中的卷积核对每个分割对象的单独特征。第二步、通过

与K₀的元素乘积(element-wise)生成用于gate计算的

然后使用

来计算两个gate——

和

分别表示特征

和原卷积核K_n-1在更新后的卷积核

中所占的比例。第三步、进行卷积核中上下文信息的整合，通过一个前馈神经网络来计算

的多头注意力，从而得到K_n，用于进行后续的掩码M_n的生成，或是在n＝3时输出最终预测结果(即左心室分割结果)。

本实施例采用Swin Transformer主干网络作为编码器，采用K-net网络作为解码器，构建用于超声心动图左心室分割的神经网络模型。其中，Swin Transformer在移动窗口中引入注意力机制，通过很少的计算量就能够精确提取心脏的多尺度特征，逐步得到心脏的全局结构特征；K-Net网络将该全局结构特征融入到初始卷积核中，通过心脏的全局结构信息对解码头进行迭代更新，使卷积核权重根据不同的心脏结构实现动态调整，能够更好的适应当前图像中的心脏信息，提高语义分割的准确性。此外，该模型通过SwinTransformer主干网络和K-net网络的结合，仅将心脏的全局结构特征引入解码器，与传统的U-net网络将各尺度特征均引入解码器相比，K-net网络仅关注心脏的全局信息，特别适用于左心室分割这一具体任务。该任务下模型仅需识别像素是否属于左心室这一深度语义信息，无需关注左心室内外的结构细节，因此心脏的全局结构特征是与分割结果相关性最强的特征，不关注其余小尺度特征能够避免引入过多干扰信息，既能提高分割准确性又能减小模型计算量。

在上述实施例和下述实施例的基础上，本实施例对该方法的具体应用进行扩展。可选的，可以利用上述任一实施例提供的方法计算左心室射血分数(LVEF)，LVEF是舒张末期(ED)和收缩末期(ES)左心室容积之差的比值，是一种被广泛用于诊断心脏功能障碍的定量指标。

图4是本发明实施例提供的一种基于Transformer的超声心动图左心室分割方法计算LVEF的示意图。如图4所示，LVEF的计算过程包括：提取超声心动图视频中任意一次心跳博动的收缩末期帧和舒张末期帧；利用所述分割模型对所述收缩末期帧进行处理，得到左心室的第一语义分割结果；利用所述第一语义分割结果，计算心脏的收缩末期容积；利用所述分割模型对所述舒张末期帧进行处理，得到左心室的第二语义分割结果；利用所述第二语义分割结果，计算心脏的舒张末期容积；利用所述收缩末期容积和舒张末期容积，计算LVEF。

LVEF在心脏功能评估中发挥着重要作用，为心脏病的医学诊断提供了定量数据支持。射血分数的可靠评估依赖于超声心动图的准确左心室分割。现有技术中，超声心动图分析中存在人工差异和昂贵的人力成本，由于患者每次心跳的不规律和低清晰度视频中的边界追踪的耗时耗力，LVEF通常仅能通过计算相对清晰且具有代表性的心跳来估计，这导致基于不同分析师或不同患者的LVEF数据出现较大偏差。

采用本实施例提供的分割方法计算LVEF，无需预先评估图像的清晰度和代表性，利用任意一次心跳的ED帧和ES帧就可以得到准确的LVEF值，提高了LVEF计算的应用范围；同时，本实施例提供的方法通过提高左心室分割的准确性，实现了LVEF测量的精度和稳定性。

在上述实施例和下述实施例的基础上，本实施例对所述分割模型的训练进行细化。可选的，在所述利用基于Transformer的超声心动图左心室分割模型对所述任意一帧超声心动图进行处理，得到左心室的语义分割结果之前，还包括：获取超声心动图视频；提取所述超声心动图视频中各次心跳博动的收缩末期帧和舒张末期帧；将提取到的各帧作为样本，对基于Transformer的超声心动图左心室分割模型进行训练，使所述分割模型的输出不断逼近各样本对应的、标注好的左心室分割结果。

在一具体实施方式中，通过开源超声心动图数据集EchoNet Dynamic来构建样本集。EchoNet Dynamic数据集是一个大型的开源二维超声心动图数据集：{https://echonet.github.io/dynamic/index.html}。该数据集提供了10030名个体患者的10030个心尖四腔(A4C)超声心动图视频。更具体的，EchoNet-Dynamic中的视频均已处理为112×112×3的逐次心跳片段，包含收缩末期(ES)和舒张末期(ED)帧。在每个视频中包括多个搏动的情况下，由专家以坐标的形式标注出舒张末和收缩末的代表帧，并通过图像平面内的两个轴描述LV的体积和形状。EchoNet-Dynamic的数据格式示例如图5所示，以视频“0X1A05DFFFCAFB253B”为例，它是一个每秒50帧的3秒视频。通过专家标注，该算法可以准确定位代表ED的第48帧和代表ES的68帧，仅提取这两个代表性的帧作为两个训练样本。

进一步的，EchoNet-Dynamic数据集将10030张超声心动图分为3组：TRAIN、VAL和TEST，分别包含7465、1288和1277个视频用于模型训练、验证和测试。本实施方式中使用TRAIN集合进行训练，每5个训练周期后使用VAL集合进行验证，并使用TEST集合进行最终测试。

可选的，训练中分别使用ADE20K和Cityscape的预训练权重作为初始参数，初始学习率设置为6e-5，使用AdamW优化器提高交叉熵损失函数的效果。在硬件环境方面，将该模型都在NVIDIA RTX3060 GPU上训练了50个周期。

可选的，验证中采用平均Dice相似度系数(mean Dice Coefficient Index)、像素精度(Patch Accuracy)和均交并比(mIoU)对模型效果进行评价。图6展示了验证中两组舒张末帧和收缩末帧的分割结果。其中上面一组分割结果与标注结果的差异极小，表明模型具有很高的分割精度；而下面一组分割结果与标注结果的差异略大，尤其是舒张末帧的分割结果与标注结果的差异较大。尽管该组分割结果在平均Dice相似度系数、像素精度和均交并比方面也满足了一定要求，但本实施例仍通过大量样本的验证，对引起该较大差异的原因进行了研究，并剔除了进一步减小差异的措施。

具体的，预测结果和标注结果之间的差异，与左心室像素数量与全图像素数量的比例有关。当左心室像素数量与全图像素数量的比例大到一定程度时，会导致预测结果和标注结果之间存在较大差异。这是因为，当左心室的像素数量大到一定程度时，心脏其它部分(如心墙、心臂等)的像素数量就会减小，这些部分的语义特征也随之减少，使心室与其它部分的语义对比不够明显，从而影响像素分类的准确性。示例性的，极端情况下，当心动图帧全部都是左心室的像素时(放射源距离左心室足够近)，模型将无法识别左心室的边缘轮廓，而将心室内部的结构特征误识别为心室轮廓，导致更离谱的误判。因此，为了保证分割结果的准确性，需将左心室像素数量与全图像素数量的比例限定在一定范围内。

根据这一规律，本实施例将预测结果和标注结果间的差异满足设定要求与不满足设定要求的转折点对应的像素比例设定为一个阈值，用于代表所述分割模型满足准确性要求的最大像素比例。可选的，所述设定要求包括(在验证阶段)使模型达到一定平均Dice相似度系数、像素精度或均交并比中的至少一个。

相应的，如果在模型训练过程中设定了上述阈值，则在模型使用阶段利用基于Transformer的超声心动图左心室分割模型对所述任意一帧超声心动图进行处理，得到左心室的语义分割结果之后，还包括如下步骤：

步骤一、将所述语义分割结果中左心室的像素数量与全图像素数量的比例与设定阈值作比较。

步骤二、如果所述比例大于所述设定阈值，说明该像素比例过大，有可能导致模型达不到准确性要求，则在所述一帧超声心动图的外层进行像素填充，使填充后左心室的像素数量与全图像素数量的比例低于所述设定阈值。可选的，通过在图像四周复制像素值来进行像素填充，具体来说，在所述一帧超声心动图各行首个像素前填充多个第一像素，并将各行首个像素的像素值赋值给同一行的各第一像素；在各行最后一个像素后填充多个第二像素，并将各行最后一个像素的像素值赋值给同一行的各第二像素；在各列首个像素上方填充多个第三像素，并将各列首个像素的像素值赋值给同一列的各第三像素；在各列最后一个像素后填充多个第四像素，并将各列最后一个像素的像素值赋值给同一列的各第四像素。

步骤三、将填充后的一帧超声心动图重新输入所述分割模型，得到左心室的新语义分割结果；

步骤四、将所述新语义分割结果的外层像素进行删除，得到最终的语义分割结果。可选的，在步骤二中通过在图像四周复制像素值进行像素填充的情况下，重新分割后将各填充位置在所述新语义分割结果中对应的像素删除，就可以将分割结果恢复为原图尺寸，得到最终的语义分割结果。

本实施例在模型训练过程中，对预测结果和标注结果间的差异随左心室在全图中所占像素比例的变化规律进行了分析，根据该规律将所述差异不满足精度要求时对应的像素比例作为最大阈值，并在模型使用过程将该阈值作为分割结果的检验条件。当分割结果中的像素比例大于该阈值时，认为有可能因识别对象的像素比例过大导致分割精度下降，此时对图像中的背景部分(左心室外的部分)进行像素填充，以扩大非左心室部分在图像中的像素比例，恢复模型精度。特别的，通过在图像四周复制像素点的方式进行像素填充，使填充的部分完全保持非左心室部分的结构特征，进而保证所填充的像素在模型处理中能够被识别非左心室结构，避免像素填充带来引入多余的结构干扰而造成误判。

图7为本发明实施例提供的一种电子设备的结构示意图，如图7所示，该设备包括处理器50、存储器51、输入装置52和输出装置53；设备中处理器50的数量可以是一个或多个，图7中以一个处理器50为例；设备中的处理器50、存储器51、输入装置52和输出装置53可以通过总线或其他方式连接，图7中以通过总线连接为例。

存储器51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的基于Transformer的超声心动图左心室分割方法对应的程序指令/模块。处理器50通过运行存储在存储器51中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的基于Transformer的超声心动图左心室分割方法。

存储器51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器51可进一步包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置52可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例的基于Transformer的超声心动图左心室分割方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案。

Claims

1.一种基于Transformer的超声心动图左心室分割方法，其特征在于，包括：

获取任意一帧超声心动图；

其中，所述分割模型包括：

2.根据权利要求1所述的方法，其特征在于，所述Swin Transformer主干网络用于通过如下方式收集和编码任意一帧超声心动图中的多尺度特征，最终得到心脏的全局结构特征：

将任意一帧超声心动图图像分割为固定尺寸的多个patch；

通过一线性嵌入层将各patch投影到任意维度；

通过一Swin Transformer块对投影后的多个patch进行移位窗口处理，计算窗口内patch之间的关注度；

根据所述patch之间的关注度对相邻的patch进行合并，由得到的新patch构成心脏在对应尺度下的结构特征；

通过下一线性嵌入层对各新patch进行维度翻倍的投影；

通过下一Swin Transformer块对投影后的多个新patch进行移位窗口处理，计算窗口内新patch之间的关注度；

根据所述新patch之间的关注度对相邻的新patch进行合并，由得到的最新patch构成心脏在新尺度下的结构特征，其中所述新尺度大于所述对应尺度；

返回所述维度翻倍的投影操作，进入下一轮循环，直到达到设定的循环次数，并将最终得到的、心脏在最大尺度下的结构特征，作为心脏的全局结构特征。

3.根据权利要求1所述的方法，其特征在于，所述K-Net网络用于通过如下方式根据所述心脏的全局结构特征对卷积核进行迭代更新，并利用迭代更新后的卷积核对所述心脏的全局性特征进行解码，得到左心室的语义分割结果：

用初始卷积核与所述心脏的全局结构特征作卷积进行特征解码，由解码结果构成包含心脏结构信息的掩码；

用所述掩码与所述心脏的全局结构特征相乘，得到包含心脏各部分单独结构信息的特征组合；

根据所述特征组合与初始卷积核元素相乘的结果生成两个gate，所述两个gate分别表征了心脏结构信息和初始卷积核在更新后的卷积核中所占的比例；

根据所述两个gate将卷积核中的上下文信息进行整合，得到包含心脏结构信息的、更新后的卷积核；

将所述包含心脏结构信息的、更新后的卷积核作为新的初始卷积核，返回与所述心脏的全局结构特征作卷积的操作，进入下一轮循环，直到达到设定的循环次数；

用最终的、更新后的卷积核与所述心脏的全局结构特征作卷积，实现最后一层特征解码，由最终的解码结果构成左心室的语义分割结果。

4.根据权利要求1所述的方法，其特征在于，在利用基于Transformer的超声心动图左心室分割模型对所述任意一帧超声心动图进行处理，得到左心室的语义分割结果之后，还包括：

将所述语义分割结果中左心室的像素数量与全图像素数量的比例与设定阈值作比较，其中，所述设定阈值代表了使所述分割模型满足准确性要求的最大像素比例；

如果所述比例大于所述设定阈值，在所述一帧超声心动图的外层进行像素填充，使填充后左心室的像素数量与全图像素数量的比例低于所述设定阈值；

将填充后的一帧超声心动图重新输入所述分割模型，得到左心室的新语义分割结果；

将所述新语义分割结果的外层像素进行删除，得到最终的语义分割结果。

5.根据权利要求4所述的方法，其特征在于，所述在所述一帧超声心动图的外层进行像素填充，包括：

在所述一帧超声心动图各行首个像素前填充多个第一像素，并将各行首个像素的像素值赋值给同一行的各第一像素；

在各行最后一个像素后填充多个第二像素，并将各行最后一个像素的像素值赋值给同一行的各第二像素；

在各列首个像素上方填充多个第三像素，并将各列首个像素的像素值赋值给同一列的各第三像素；

在各列最后一个像素后填充多个第四像素，并将各列最后一个像素的像素值赋值给同一列的各第四像素。

6.根据权利要求5所述的方法，其特征在于，所述将所述新语义分割结果的外层像素进行删除，得到最终的语义分割结果，包括：

将各填充位置在所述新语义分割结果中对应的像素删除，得到最终的语义分割结果。

7.根据权利要求4所述的方法，其特征在于，在将所述语义分割结果中左心室的像素数量与全图像素数量的比例与设定阈值作比较之前，还包括：

获取多帧标注好的超声心动图，以及各帧标注结果中左心室的像素数量与全图像素数量的比例；

分别将各帧标注好的超声心动图输入对所述分割模型，得到各帧左心室的语义分割结果；

计算各帧左心室的语义分割结果与各标注结果的差异；

根据所述差异随所述比例的变化规律，将差异满足准确性要求与不满足准确性要求的转折点对应的所述比例作为设定阈值。

8.根据权利要求1所述的方法，其特征在于，在所述利用基于Transformer的超声心动图左心室分割模型对所述任意一帧超声心动图进行处理，得到左心室的语义分割结果之前，还包括：

获取超声心动图视频；

提取所述超声心动图视频中各次心跳博动的收缩末期帧和舒张末期帧；

将提取到的各帧作为样本，对基于Transformer的超声心动图左心室分割模型进行训练，使所述分割模型的输出不断逼近各样本对应的、标注好的左心室分割结果。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的基于Transformer的超声心动图左心室分割方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的基于Transformer的超声心动图左心室分割方法。