CN117437518A

CN117437518A - 基于glnet和自注意力的心脏超声图像识别方法

Info

Publication number: CN117437518A
Application number: CN202311451252.1A
Authority: CN
Inventors: 王浩; 常瀛修; 裘玮晶
Original assignee: Suzhou Xinkangcheng Medical Technology Co ltd
Current assignee: Suzhou Xinkangcheng Medical Technology Co ltd
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-01-23

Abstract

本发明公开了基于GLNet和自注意力的心脏超声图像识别方法，包括以下步骤：在GLNet基础上引入Transformer来帮助局部块捕获全局依赖关系，包括多个GL层，每个GL层包括一个GL block和1个RepConv，GL block包括多个RepConv和1个Transformer，对输入特征中的全局和局部信息进行建模，给定一个输入张量，局部空间信息由n×n卷积进行编码，然后使用逐点卷积扩展特征维度；训练后，冻结投影头，并仅使用编码器GLNet和表示对不同的超声心动图进行分类。本发明设计了混合CNN‑Transformer架构GLNet，通过从局部到全局的扩散机制解决了CNN的全局表示弱和Transformer缺乏局部信息的问题。

Description

基于GLNET和自注意力的心脏超声图像识别方法

技术领域

本发明属于医学图像处理技术领域，尤其涉及基于GLNet和自注意力的心脏超声图像识别方法。

背景技术

全监督网络模型通常针对特定任务进行优化，但对于数据和标签稀缺的特定任务，此类监督学习模型的有效性有限。SimCLR通过对图像进行随机变换以获得两个增强表示，并最大化两个表示之间的相似性以获得通用模型。然而，SimCLR的字典大小和批量大小相同，缺乏同一对象的不同实体的多样性。此外，过大的批次难以优化，收敛困难。MoCo仍然通过不同的图像增强策略来获取它们的表示，使用基于队列的动态字典存储更多样本，以便每个批次获得更多负样本。同时结合动量更新编码器解决由于编码器快速变化导致的关键表示一致性降低的问题，缺点是更新速度慢。Dwibedi提出了一种方法，从潜在空间中的数据中采样最近邻并将其视为正例，为数据增强提供了更多的语义变化。SimMM通过随机屏蔽一些区块来预测原始信号，这些区块被编码，然后在被屏蔽的区域用一个单层预测头进行回归。这些无监督学习方法可以获得通用的特征表示，便于应用到下游任务。但对于数据和标签稀缺的特定任务，此类监督学习模型的有效性有限。

发明内容

有鉴于此，本发明提出了基于GLNet和自注意力的心脏超声图像识别方法。

本发明公开的基于GLNet和自注意力的心脏超声图像识别方法，包括以下步骤：

建立一个视觉表示对比学习框架；所述对比学习框架在GLNet基础上引入Transformer来帮助局部块捕获全局依赖关系，包括多个GL层，每个GL层包括一个GL block和1个RepConv，所述GL block包括多个RepConv和1个Transformer，对输入特征中的全局和局部信息进行建模，给定一个输入张量X∈R^W×H×C，局部空间信息由n×n卷积进行编码，然后使用逐点卷积扩展特征维度X1∈R^W×H×d；

训练中，通过减少正对样本之间的距离来进行对比学习；

训练后，冻结投影头，并仅使用编码器GLNet和表示对不同的超声心动图进行分类；

对同一图像进行数据增强无法提供如下情况：同一图像的不同视图、或同一对象的变体、或同一类别中的其他相似实体之一时，使用两个数据增强嵌入(zi,zi+)作为正对，负样本来自同一批次中的其他图像，z是在编码器和投影头之后获得的表示。

进一步地，图片X首先通过不同的数据增强转换为X₁和X₂，然后使用GLNet和投影头对X₁和X₂进行编码成表示z₁和z₂，GLNet的编码器和投影头共享参数。

进一步地，为了用有效感受野W×H对长距离依赖进行建模，并让网络学习具有空间归纳偏置的全局表示，将X₁扩展为N个展平的图块X_U∈R^P×N×d，其中P＝w×h，N＝W×H是图块的数量，h和w分别是图块的高度和宽度，W是，H是；

对于每个p∈{1,...,P}，通过Transformer对图块之间的关系进行编码，得到X_G∈R^P×N×d，GL block捕获每个图块内的局部信息和不同图块之间的全局信息；

因此，折叠X_G∈R^P×N×d以获得X_f∈R^W×H×d；

然后使用逐点卷积将X_f通道投影到较低的C维空间，并通过级联操作与输入特征X堆叠；

使用另一个n×n卷积层来融合堆叠的特征；由于X_U使用卷积编码n×n区域内的局部信息，X_G编码图块的全局信息，X_G中的每个像素都使用全局感受野对X中的所有像素信息进行编码；考虑到需要匹配的通道数量，网络结构包含两个分支，即3×3卷积和残差映射。

进一步地，为了确保输出特征图的稳定性，使用权重为1的3×3卷积进行初始化；根据卷积加法原理，所有分支的权重和偏置进一步叠加以获得融合的3×3卷积层；使用结构重参数化将卷积层的多分支结构合并为单分支结构。在训练阶段，网络是一个多分支结构，通过合并残差块中的卷积层和批量归一化层来减少网络中的分支和层数。GL阶段的结构如图4

(c)。

进一步地，所述Transformer帮助局部块捕获全局依赖关系，具体包括：包括多个GL层，每个GL层包括一个GL block和1个RepConv，所述GL block包括多个RepConv和1个Transformer，对输入特征中的全局和局部信息进行建模，给定一个输入张量X∈R^W×H×C，局部空间信息由n×n卷积进行编码，然后使用逐点卷积扩展特征维度X1∈R^W×H×d。

进一步地，通过以下方程式使样本z₁和z₂之间的相似度靠近，并使z₁与N-1个负样本之间的相似度远离，引导模型的训练方向：

其中，t表示温度系数，正样本来自查询集，因此损失函数优化为：

其中,Q⁺为查询集中的正样本，Q^-为查询集中的正样本，Q为查询集，z_i是输入图像经过主干网络后得到的特征，/>是与当前图像找到的最接近图像。

本发明的有益效果如下：

本发明设计了混合CNN-Transformer架构GLNet，通过从局部到全局的扩散机制解决了CNN的全局表示弱和Transformer缺乏局部信息的问题，以找到表示。为了直观地分析本发明的有效性，构建了一个心脏超声数据集。与其他无监督方法相比，本发明的方法取得了显著的改进，所提出的模型在半监督训练上优于其他最先进的方法。

附图说明

图1心脏超声数据集Top-1准确率，用不同无监督方法学习到的表示训练线性分类器，十字表示监督式的ResNet-50；

图2本发明的基于查询的对比学习框架；

图3GLNet网络的概述；

图4GL阶段的结构；

图5GLNet网络设计方案；

图6本发明在心脏超声数据集上的热图可视化，第一行和第三行是预测时的原始图像输入，第二行和第四行是相应的绘制热图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

在卷积神经网络中，高级特征依赖于低级特征。它使用卷积核不断从局部部分提取抽象高级信息。Transformer直接使用注意力来捕获全局上下文信息以建立长距离依赖关系并提取更强大的特征，但Vision Transformer缺乏诸如CNN平移不变性等特性，这使得学习更加困难，需要更大的数据集和更强的数据增强才能取得更好的结果。本发明将CNN提取底层特征的优势与ViT在建模全局高级语义信息的优势结合起来，实现全局-局部网络GLNet。图2显示了GLNet的网络结构。

图3为全局和局部网络(GLNet)的概述；除了RepConv之外，引入了Transformer来帮助局部块捕获全局依赖关系。本发明设计了GL block(见图3)用于对输入特征中的全局和局部信息进行建模。给定一个输入张量X∈R^W×H×C，局部空间信息由n×n卷积进行编码，然后使用逐点卷积扩展特征维度X1∈R^W×H×d。为了用有效感受野W×H对长距离依赖进行建模，并让网络学习具有空间归纳偏置的全局表示，将X₁扩展为N个展平的图块X_U∈R^P×N×d，其中P＝w×h，N＝W×H是图块的数量，h和w分别是图块的高度和宽度。对于每个p∈{1,...,P}，通过Transformer对图块之间的关系进行编码，得到X_G∈R^P×N×d，GL block捕获每个图块内的局部信息和不同图块之间的全局信息。因此，我们可以折叠X_G∈R^P×N×d以获得X_f∈R^W×H×d。然后使用逐点卷积将X_f通道投影到较低的C维空间，并通过级联操作与输入特征X堆叠。然后使用另一个n×n卷积层来融合堆叠的特征。由于X_U使用卷积编码n×n区域内的局部信息，X_G编码图块的全局信息，X_G中的每个像素都可以使用全局感受野对X中的所有像素信息进行编码。考虑到需要匹配的通道数量，网络结构应该包含两个分支，即3×3卷积和残差映射，如图4(a)所示。1×1卷积可以被视为3×3卷积的特例(使用0填充边缘元素的扩展卷积)。网络中的残差模块不会引入额外的计算量，但它使用的内存比单分支结构更多。残差结构使得更深的网络模型成为可能，但是更多的分支会降低模型训练效率。为了确保输出特征图的稳定性，使用权重为1的3×3卷积进行初始化。根据卷积加法原理，所有分支的权重和偏置进一步叠加以获得融合的3×3卷积层。本发明使用结构重参数化将图4(b)中卷积层的多分支结构合并为单分支结构，以实现更高的推理效率。在训练阶段，网络是一个多分支结构，通过合并残差块中的卷积层和批量归一化层来减少网络中的分支和层数。GL阶段的结构如图4(c)所示。表1展示了为不同场景构建的三个骨干网络GL(s,m,l)。

本发明通过以下方程式使z₁和z₂之间的相似度靠近，并使z₁与N-1个负样本之间的相似度远离，引导模型的训练方向：

其中，t表示温度系数。本发明的正样本来自查询集，因此损失函数优化为：

接下来，构建一个大规模的心脏超声数据集，通过消融研究验证本发明所提出的架构设计。

本发明从不同人群中制作了一个心脏超声数据集，包括11个类别的23K张图片，分别是主动脉弓、主动脉瓣、主肺动脉、剑突下双心室、剑突下四腔心、左心室短轴、左心室长轴、心尖两腔心、心尖三腔心、心尖四腔心、心尖五腔心。图像的分辨率为800×600。图6显示了数据集的部分样本。在这个数据集上进行了大部分无监督预训练(学习无标签编码器)的研究。为了评估学习到的表示，在一个固定的基本网络上训练一个线性分类器，并使用测试准确率作为评价质量的度量。

接下来，进行本发明的消融分析。讨论默认设置之后，首先展示了使用查询集训练时不同编码器的效果。然后，介绍了一些设计选择，如查询集的大小和批量大小的变化，还简要讨论了本发明方法的参数数量和计算开销。

默认设置。在消融实验中，本发明的查询集大小为4096，批量大小为512。本发明使用LARS优化器和余弦退火方案，预热10个时期，基本学习率为0.3，并使用默认预测头。所有消融实验都是在心脏超声数据集的线性评估设置下进行的。

样本收集策略。本发明是在使用查询集中相似样本作为正对的对比无监督学习背景下进行的。我们还比较了使用同一样本的数据增强图像作为正对的方法结果(类似于SimCLR)，这个分析展示在表2中。使用查询集将Top-1性能提高了1.4％。

不同的编码器。本发明将所提出的GLNet与其他网络作为编码器的训练结果进行比较，结果如表1所示。与经典的VGG-16相比，GLNet-m的运行速度几乎快了5倍，准确率提高了10.9％，参数仅增加了58％。结果表明，GLNet是QueryCLR的最佳编码器选择。表2是不同策略获取正样本的效果。

查询集大小。在表3中展示了不同大小查询集的结果。较大的查询集增加了从整个数据集中获得更多相似样本的机会，具有最佳性能。将查询集的大小增加到4096以上并不会导致显著的性能改进，这可能是由于查询集中过时嵌入数量的增加。

批量大小。批量大小已被证明是性能的关键因素，不同批量大小的结果见表4。通常情况下，较大的批量大小可以更具代表性地反映数据集。在达到512的峰值时，较大的批量大小会降低模型性能。

表1:使用不同的网络和建议的GLNet作为编码器对本发明性能的影响

编码器	参数	GFLOPs	Top-1
				VGG-16	138	15.62	67.7％
ResNet-50	25.5	3.53	74.8％
				InceptionV3	24.0	5.21	75.3％
Vision Transformer	22.1	23.10	74.3％
				GLNet-m	19.8	3.18	78.6％

表2:不同策略获取正样本的效果

表3查询集大小对性能的影响

查询集大小	1024	2048	4096	8192
					Top-1	77.8％	78.3％	78.6％	78.5％
Top-5	87.6％	87.9％	88.3％	88.3％

表4不同批量大小选择的评估

本发明的有益效果如下：

本文所使用的词语“优选的”意指用作实例、示例或例证。本文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反，词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即，除非另外指定或从上下文中清楚，“X使用A或B”意指自然包括排列的任意一个。即，如果X使用A；X使用B；或X使用A和B二者，则“X使用A或B”在前述任一示例中得到满足。

而且，尽管已经相对于一个或实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或系统，可以执行相应方法实施例中的存储方法。

综上所述，上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于GLNet和自注意力的心脏超声图像识别方法，其特征在于，包括以下步骤：

训练中，通过减少正对样本之间的距离来进行对比学习；

对同一图像进行数据增强无法提供如下情况：同一图像的不同视图、或同一对象的变体、或同一类别中的其他相似实体之一时，使用两个数据增强嵌入(z_i,z_i ⁺)作为正对，负样本来自同一批次中的其他图像，z是在编码器和投影头之后获得的表示。

2.根据权利要求1所述的基于GLNet和自注意力的心脏超声图像识别方法，其特征在于，图片X首先通过不同的数据增强转换为X₁和X₂，然后使用GLNet和投影头对X₁和X₂进行编码成表示z₁和z₂，GLNet的编码器和投影头共享参数。

3.根据权利要求1所述的基于GLNet和自注意力的心脏超声图像识别方法，其特征在于，为了用有效感受野W×H对长距离依赖进行建模，并让网络学习具有空间归纳偏置的全局表示，将X₁扩展为N个展平的图块X_U∈R^P×N×d，其中P＝w×h，N＝W×H是图块的数量，h和w分别是图块的高度和宽度，W是，H是；

对于每个p∈{1,...,P}，通过Transformer对图块之间的关系进行编码，得到X_G∈R^P ^×N×d，GL block捕获每个图块内的局部信息和不同图块之间的全局信息；

因此，折叠X_G∈R^P×N×d以获得X_f∈R^W×H×d；

4.根据权利要求1所述的基于GLNet和自注意力的心脏超声图像识别方法，其特征在于，为了确保输出特征图的稳定性，使用权重为1的3×3卷积进行初始化；根据卷积加法原理，所有分支的权重和偏置进一步叠加以获得融合的3×3卷积层；使用结构重参数化将卷积层的多分支结构合并为单分支结构。在训练阶段，网络是一个多分支结构，通过合并残差块中的卷积层和批量归一化层来减少网络中的分支和层数。

5.根据权利要求1所述的基于GLNet和自注意力的心脏超声图像识别方法，其特征在于，所述Transformer帮助局部块捕获全局依赖关系，具体包括：使用多个GL层，每个GL层包括一个GL block和1个RepConv，所述GL block包括多个RepConv和1个Transformer，对输入特征中的全局和局部信息进行建模，给定一个输入张量X∈R^W×H×C，局部空间信息由n×n卷积进行编码，然后使用逐点卷积扩展特征维度X1∈R^W×H×d。

6.根据权利要求1所述的基于GLNet和自注意力的心脏超声图像识别方法，其特征在于，通过以下方程式使样本z₁和z₂之间的相似度靠近，并使z₁与N-1个负样本之间的相似度远离，引导模型的训练方向：