CN117437518A - 基于glnet和自注意力的心脏超声图像识别方法 - Google Patents
基于glnet和自注意力的心脏超声图像识别方法 Download PDFInfo
- Publication number
- CN117437518A CN117437518A CN202311451252.1A CN202311451252A CN117437518A CN 117437518 A CN117437518 A CN 117437518A CN 202311451252 A CN202311451252 A CN 202311451252A CN 117437518 A CN117437518 A CN 117437518A
- Authority
- CN
- China
- Prior art keywords
- glnet
- convolution
- global
- local
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000000747 cardiac effect Effects 0.000 claims description 12
- 238000002604 ultrasonography Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 2
- 230000006698 induction Effects 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 8
- 238000009792 diffusion process Methods 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 abstract description 3
- 239000010410 layer Substances 0.000 description 17
- 239000000523 sample Substances 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 4
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 4
- 238000002679 ablation Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 230000004075 alteration Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000005240 left ventricle Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 229910015234 MoCo Inorganic materials 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 210000002376 aorta thoracic Anatomy 0.000 description 1
- 210000001765 aortic valve Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000001147 pulmonary artery Anatomy 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
- G06V2201/031—Recognition of patterns in medical or anatomical images of internal organs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开了基于GLNet和自注意力的心脏超声图像识别方法,包括以下步骤:在GLNet基础上引入Transformer来帮助局部块捕获全局依赖关系,包括多个GL层,每个GL层包括一个GL block和1个RepConv,GL block包括多个RepConv和1个Transformer,对输入特征中的全局和局部信息进行建模,给定一个输入张量,局部空间信息由n×n卷积进行编码,然后使用逐点卷积扩展特征维度;训练后,冻结投影头,并仅使用编码器GLNet和表示对不同的超声心动图进行分类。本发明设计了混合CNN‑Transformer架构GLNet,通过从局部到全局的扩散机制解决了CNN的全局表示弱和Transformer缺乏局部信息的问题。
Description
技术领域
本发明属于医学图像处理技术领域,尤其涉及基于GLNet和自注意力的心脏超声图像识别方法。
背景技术
全监督网络模型通常针对特定任务进行优化,但对于数据和标签稀缺的特定任务,此类监督学习模型的有效性有限。SimCLR通过对图像进行随机变换以获得两个增强表示,并最大化两个表示之间的相似性以获得通用模型。然而,SimCLR的字典大小和批量大小相同,缺乏同一对象的不同实体的多样性。此外,过大的批次难以优化,收敛困难。MoCo仍然通过不同的图像增强策略来获取它们的表示,使用基于队列的动态字典存储更多样本,以便每个批次获得更多负样本。同时结合动量更新编码器解决由于编码器快速变化导致的关键表示一致性降低的问题,缺点是更新速度慢。Dwibedi提出了一种方法,从潜在空间中的数据中采样最近邻并将其视为正例,为数据增强提供了更多的语义变化。SimMM通过随机屏蔽一些区块来预测原始信号,这些区块被编码,然后在被屏蔽的区域用一个单层预测头进行回归。这些无监督学习方法可以获得通用的特征表示,便于应用到下游任务。但对于数据和标签稀缺的特定任务,此类监督学习模型的有效性有限。
发明内容
有鉴于此,本发明提出了基于GLNet和自注意力的心脏超声图像识别方法。
本发明公开的基于GLNet和自注意力的心脏超声图像识别方法,包括以下步骤:
建立一个视觉表示对比学习框架;所述对比学习框架在GLNet基础上引入Transformer来帮助局部块捕获全局依赖关系,包括多个GL层,每个GL层包括一个GL block和1个RepConv,所述GL block包括多个RepConv和1个Transformer,对输入特征中的全局和局部信息进行建模,给定一个输入张量X∈RW×H×C,局部空间信息由n×n卷积进行编码,然后使用逐点卷积扩展特征维度X1∈RW×H×d;
训练中,通过减少正对样本之间的距离来进行对比学习;
训练后,冻结投影头,并仅使用编码器GLNet和表示对不同的超声心动图进行分类;
对同一图像进行数据增强无法提供如下情况:同一图像的不同视图、或同一对象的变体、或同一类别中的其他相似实体之一时,使用两个数据增强嵌入(zi,zi+)作为正对,负样本来自同一批次中的其他图像,z是在编码器和投影头之后获得的表示。
进一步地,图片X首先通过不同的数据增强转换为X1和X2,然后使用GLNet和投影头对X1和X2进行编码成表示z1和z2,GLNet的编码器和投影头共享参数。
进一步地,为了用有效感受野W×H对长距离依赖进行建模,并让网络学习具有空间归纳偏置的全局表示,将X1扩展为N个展平的图块XU∈RP×N×d,其中P=w×h,N=W×H是图块的数量,h和w分别是图块的高度和宽度,W是,H是;
对于每个p∈{1,...,P},通过Transformer对图块之间的关系进行编码,得到XG∈RP×N×d,GL block捕获每个图块内的局部信息和不同图块之间的全局信息;
因此,折叠XG∈RP×N×d以获得Xf∈RW×H×d;
然后使用逐点卷积将Xf通道投影到较低的C维空间,并通过级联操作与输入特征X堆叠;
使用另一个n×n卷积层来融合堆叠的特征;由于XU使用卷积编码n×n区域内的局部信息,XG编码图块的全局信息,XG中的每个像素都使用全局感受野对X中的所有像素信息进行编码;考虑到需要匹配的通道数量,网络结构包含两个分支,即3×3卷积和残差映射。
进一步地,为了确保输出特征图的稳定性,使用权重为1的3×3卷积进行初始化;根据卷积加法原理,所有分支的权重和偏置进一步叠加以获得融合的3×3卷积层;使用结构重参数化将卷积层的多分支结构合并为单分支结构。在训练阶段,网络是一个多分支结构,通过合并残差块中的卷积层和批量归一化层来减少网络中的分支和层数。GL阶段的结构如图4
(c)。
进一步地,所述Transformer帮助局部块捕获全局依赖关系,具体包括:包括多个GL层,每个GL层包括一个GL block和1个RepConv,所述GL block包括多个RepConv和1个Transformer,对输入特征中的全局和局部信息进行建模,给定一个输入张量X∈RW×H×C,局部空间信息由n×n卷积进行编码,然后使用逐点卷积扩展特征维度X1∈RW×H×d。
进一步地,通过以下方程式使样本z1和z2之间的相似度靠近,并使z1与N-1个负样本之间的相似度远离,引导模型的训练方向:
其中,t表示温度系数,正样本来自查询集,因此损失函数优化为:
其中,Q+为查询集中的正样本,Q-为查询集中的正样本,Q为查询集,zi是输入图像经过主干网络后得到的特征,/>是与当前图像找到的最接近图像。
本发明的有益效果如下:
本发明设计了混合CNN-Transformer架构GLNet,通过从局部到全局的扩散机制解决了CNN的全局表示弱和Transformer缺乏局部信息的问题,以找到表示。为了直观地分析本发明的有效性,构建了一个心脏超声数据集。与其他无监督方法相比,本发明的方法取得了显著的改进,所提出的模型在半监督训练上优于其他最先进的方法。
附图说明
图1心脏超声数据集Top-1准确率,用不同无监督方法学习到的表示训练线性分类器,十字表示监督式的ResNet-50;
图2本发明的基于查询的对比学习框架;
图3GLNet网络的概述;
图4GL阶段的结构;
图5GLNet网络设计方案;
图6本发明在心脏超声数据集上的热图可视化,第一行和第三行是预测时的原始图像输入,第二行和第四行是相应的绘制热图。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
在卷积神经网络中,高级特征依赖于低级特征。它使用卷积核不断从局部部分提取抽象高级信息。Transformer直接使用注意力来捕获全局上下文信息以建立长距离依赖关系并提取更强大的特征,但Vision Transformer缺乏诸如CNN平移不变性等特性,这使得学习更加困难,需要更大的数据集和更强的数据增强才能取得更好的结果。本发明将CNN提取底层特征的优势与ViT在建模全局高级语义信息的优势结合起来,实现全局-局部网络GLNet。图2显示了GLNet的网络结构。
图3为全局和局部网络(GLNet)的概述;除了RepConv之外,引入了Transformer来帮助局部块捕获全局依赖关系。本发明设计了GL block(见图3)用于对输入特征中的全局和局部信息进行建模。给定一个输入张量X∈RW×H×C,局部空间信息由n×n卷积进行编码,然后使用逐点卷积扩展特征维度X1∈RW×H×d。为了用有效感受野W×H对长距离依赖进行建模,并让网络学习具有空间归纳偏置的全局表示,将X1扩展为N个展平的图块XU∈RP×N×d,其中P=w×h,N=W×H是图块的数量,h和w分别是图块的高度和宽度。对于每个p∈{1,...,P},通过Transformer对图块之间的关系进行编码,得到XG∈RP×N×d,GL block捕获每个图块内的局部信息和不同图块之间的全局信息。因此,我们可以折叠XG∈RP×N×d以获得Xf∈RW×H×d。然后使用逐点卷积将Xf通道投影到较低的C维空间,并通过级联操作与输入特征X堆叠。然后使用另一个n×n卷积层来融合堆叠的特征。由于XU使用卷积编码n×n区域内的局部信息,XG编码图块的全局信息,XG中的每个像素都可以使用全局感受野对X中的所有像素信息进行编码。考虑到需要匹配的通道数量,网络结构应该包含两个分支,即3×3卷积和残差映射,如图4(a)所示。1×1卷积可以被视为3×3卷积的特例(使用0填充边缘元素的扩展卷积)。网络中的残差模块不会引入额外的计算量,但它使用的内存比单分支结构更多。残差结构使得更深的网络模型成为可能,但是更多的分支会降低模型训练效率。为了确保输出特征图的稳定性,使用权重为1的3×3卷积进行初始化。根据卷积加法原理,所有分支的权重和偏置进一步叠加以获得融合的3×3卷积层。本发明使用结构重参数化将图4(b)中卷积层的多分支结构合并为单分支结构,以实现更高的推理效率。在训练阶段,网络是一个多分支结构,通过合并残差块中的卷积层和批量归一化层来减少网络中的分支和层数。GL阶段的结构如图4(c)所示。表1展示了为不同场景构建的三个骨干网络GL(s,m,l)。
本发明通过以下方程式使z1和z2之间的相似度靠近,并使z1与N-1个负样本之间的相似度远离,引导模型的训练方向:
其中,t表示温度系数。本发明的正样本来自查询集,因此损失函数优化为:
其中,Q+为查询集中的正样本,Q-为查询集中的正样本,Q为查询集,zi是输入图像经过主干网络后得到的特征,/>是与当前图像找到的最接近图像。
接下来,构建一个大规模的心脏超声数据集,通过消融研究验证本发明所提出的架构设计。
本发明从不同人群中制作了一个心脏超声数据集,包括11个类别的23K张图片,分别是主动脉弓、主动脉瓣、主肺动脉、剑突下双心室、剑突下四腔心、左心室短轴、左心室长轴、心尖两腔心、心尖三腔心、心尖四腔心、心尖五腔心。图像的分辨率为800×600。图6显示了数据集的部分样本。在这个数据集上进行了大部分无监督预训练(学习无标签编码器)的研究。为了评估学习到的表示,在一个固定的基本网络上训练一个线性分类器,并使用测试准确率作为评价质量的度量。
接下来,进行本发明的消融分析。讨论默认设置之后,首先展示了使用查询集训练时不同编码器的效果。然后,介绍了一些设计选择,如查询集的大小和批量大小的变化,还简要讨论了本发明方法的参数数量和计算开销。
默认设置。在消融实验中,本发明的查询集大小为4096,批量大小为512。本发明使用LARS优化器和余弦退火方案,预热10个时期,基本学习率为0.3,并使用默认预测头。所有消融实验都是在心脏超声数据集的线性评估设置下进行的。
样本收集策略。本发明是在使用查询集中相似样本作为正对的对比无监督学习背景下进行的。我们还比较了使用同一样本的数据增强图像作为正对的方法结果(类似于SimCLR),这个分析展示在表2中。使用查询集将Top-1性能提高了1.4%。
不同的编码器。本发明将所提出的GLNet与其他网络作为编码器的训练结果进行比较,结果如表1所示。与经典的VGG-16相比,GLNet-m的运行速度几乎快了5倍,准确率提高了10.9%,参数仅增加了58%。结果表明,GLNet是QueryCLR的最佳编码器选择。表2是不同策略获取正样本的效果。
查询集大小。在表3中展示了不同大小查询集的结果。较大的查询集增加了从整个数据集中获得更多相似样本的机会,具有最佳性能。将查询集的大小增加到4096以上并不会导致显著的性能改进,这可能是由于查询集中过时嵌入数量的增加。
批量大小。批量大小已被证明是性能的关键因素,不同批量大小的结果见表4。通常情况下,较大的批量大小可以更具代表性地反映数据集。在达到512的峰值时,较大的批量大小会降低模型性能。
表1:使用不同的网络和建议的GLNet作为编码器对本发明性能的影响
编码器 | 参数 | GFLOPs | Top-1 |
VGG-16 | 138 | 15.62 | 67.7% |
ResNet-50 | 25.5 | 3.53 | 74.8% |
InceptionV3 | 24.0 | 5.21 | 75.3% |
Vision Transformer | 22.1 | 23.10 | 74.3% |
GLNet-m | 19.8 | 3.18 | 78.6% |
表2:不同策略获取正样本的效果
表3查询集大小对性能的影响
查询集大小 | 1024 | 2048 | 4096 | 8192 |
Top-1 | 77.8% | 78.3% | 78.6% | 78.5% |
Top-5 | 87.6% | 87.9% | 88.3% | 88.3% |
表4不同批量大小选择的评估
本发明的有益效果如下:
本发明设计了混合CNN-Transformer架构GLNet,通过从局部到全局的扩散机制解决了CNN的全局表示弱和Transformer缺乏局部信息的问题,以找到表示。为了直观地分析本发明的有效性,构建了一个心脏超声数据集。与其他无监督方法相比,本发明的方法取得了显著的改进,所提出的模型在半监督训练上优于其他最先进的方法。
本文所使用的词语“优选的”意指用作实例、示例或例证。本文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。
而且,尽管已经相对于一个或实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的存储方法。
综上所述,上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.基于GLNet和自注意力的心脏超声图像识别方法,其特征在于,包括以下步骤:
建立一个视觉表示对比学习框架;所述对比学习框架在GLNet基础上引入Transformer来帮助局部块捕获全局依赖关系,包括多个GL层,每个GL层包括一个GL block和1个RepConv,所述GL block包括多个RepConv和1个Transformer,对输入特征中的全局和局部信息进行建模,给定一个输入张量X∈RW×H×C,局部空间信息由n×n卷积进行编码,然后使用逐点卷积扩展特征维度X1∈RW×H×d;
训练中,通过减少正对样本之间的距离来进行对比学习;
训练后,冻结投影头,并仅使用编码器GLNet和表示对不同的超声心动图进行分类;
对同一图像进行数据增强无法提供如下情况:同一图像的不同视图、或同一对象的变体、或同一类别中的其他相似实体之一时,使用两个数据增强嵌入(zi,zi +)作为正对,负样本来自同一批次中的其他图像,z是在编码器和投影头之后获得的表示。
2.根据权利要求1所述的基于GLNet和自注意力的心脏超声图像识别方法,其特征在于,图片X首先通过不同的数据增强转换为X1和X2,然后使用GLNet和投影头对X1和X2进行编码成表示z1和z2,GLNet的编码器和投影头共享参数。
3.根据权利要求1所述的基于GLNet和自注意力的心脏超声图像识别方法,其特征在于,为了用有效感受野W×H对长距离依赖进行建模,并让网络学习具有空间归纳偏置的全局表示,将X1扩展为N个展平的图块XU∈RP×N×d,其中P=w×h,N=W×H是图块的数量,h和w分别是图块的高度和宽度,W是,H是;
对于每个p∈{1,...,P},通过Transformer对图块之间的关系进行编码,得到XG∈RP ×N×d,GL block捕获每个图块内的局部信息和不同图块之间的全局信息;
因此,折叠XG∈RP×N×d以获得Xf∈RW×H×d;
然后使用逐点卷积将Xf通道投影到较低的C维空间,并通过级联操作与输入特征X堆叠;
使用另一个n×n卷积层来融合堆叠的特征;由于XU使用卷积编码n×n区域内的局部信息,XG编码图块的全局信息,XG中的每个像素都使用全局感受野对X中的所有像素信息进行编码;考虑到需要匹配的通道数量,网络结构包含两个分支,即3×3卷积和残差映射。
4.根据权利要求1所述的基于GLNet和自注意力的心脏超声图像识别方法,其特征在于,为了确保输出特征图的稳定性,使用权重为1的3×3卷积进行初始化;根据卷积加法原理,所有分支的权重和偏置进一步叠加以获得融合的3×3卷积层;使用结构重参数化将卷积层的多分支结构合并为单分支结构。在训练阶段,网络是一个多分支结构,通过合并残差块中的卷积层和批量归一化层来减少网络中的分支和层数。
5.根据权利要求1所述的基于GLNet和自注意力的心脏超声图像识别方法,其特征在于,所述Transformer帮助局部块捕获全局依赖关系,具体包括:使用多个GL层,每个GL层包括一个GL block和1个RepConv,所述GL block包括多个RepConv和1个Transformer,对输入特征中的全局和局部信息进行建模,给定一个输入张量X∈RW×H×C,局部空间信息由n×n卷积进行编码,然后使用逐点卷积扩展特征维度X1∈RW×H×d。
6.根据权利要求1所述的基于GLNet和自注意力的心脏超声图像识别方法,其特征在于,通过以下方程式使样本z1和z2之间的相似度靠近,并使z1与N-1个负样本之间的相似度远离,引导模型的训练方向:
其中,t表示温度系数,正样本来自查询集,因此损失函数优化为:
其中,Q+为查询集中的正样本,Q-为查询集中的正样本,Q为查询集,zi是输入图像经过主干网络后得到的特征,/>是与当前图像找到的最接近图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311451252.1A CN117437518A (zh) | 2023-11-03 | 2023-11-03 | 基于glnet和自注意力的心脏超声图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311451252.1A CN117437518A (zh) | 2023-11-03 | 2023-11-03 | 基于glnet和自注意力的心脏超声图像识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117437518A true CN117437518A (zh) | 2024-01-23 |
Family
ID=89553089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311451252.1A Pending CN117437518A (zh) | 2023-11-03 | 2023-11-03 | 基于glnet和自注意力的心脏超声图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117437518A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021191908A1 (en) * | 2020-03-25 | 2021-09-30 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | Deep learning-based anomaly detection in images |
US20210327029A1 (en) * | 2020-04-13 | 2021-10-21 | Google Llc | Systems and Methods for Contrastive Learning of Visual Representations |
CN115019123A (zh) * | 2022-05-20 | 2022-09-06 | 中南大学 | 一种遥感图像场景分类的自蒸馏对比学习方法 |
CN115578589A (zh) * | 2022-10-12 | 2023-01-06 | 江苏瑞康成医疗科技有限公司 | 一种无监督超声心动图切面识别方法 |
CN115965819A (zh) * | 2023-01-17 | 2023-04-14 | 重庆邮电大学 | 一种基于Transformer结构的轻量化害虫识别方法 |
WO2023071680A1 (zh) * | 2021-10-26 | 2023-05-04 | 北京字节跳动网络技术有限公司 | 内窥镜图像特征学习模型、分类模型的训练方法和装置 |
CN116386104A (zh) * | 2023-03-03 | 2023-07-04 | 南京理工大学 | 对比学习结合掩码图像建模的自监督人脸表情识别方法 |
-
2023
- 2023-11-03 CN CN202311451252.1A patent/CN117437518A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021191908A1 (en) * | 2020-03-25 | 2021-09-30 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | Deep learning-based anomaly detection in images |
US20210327029A1 (en) * | 2020-04-13 | 2021-10-21 | Google Llc | Systems and Methods for Contrastive Learning of Visual Representations |
WO2023071680A1 (zh) * | 2021-10-26 | 2023-05-04 | 北京字节跳动网络技术有限公司 | 内窥镜图像特征学习模型、分类模型的训练方法和装置 |
CN115019123A (zh) * | 2022-05-20 | 2022-09-06 | 中南大学 | 一种遥感图像场景分类的自蒸馏对比学习方法 |
CN115578589A (zh) * | 2022-10-12 | 2023-01-06 | 江苏瑞康成医疗科技有限公司 | 一种无监督超声心动图切面识别方法 |
CN115965819A (zh) * | 2023-01-17 | 2023-04-14 | 重庆邮电大学 | 一种基于Transformer结构的轻量化害虫识别方法 |
CN116386104A (zh) * | 2023-03-03 | 2023-07-04 | 南京理工大学 | 对比学习结合掩码图像建模的自监督人脸表情识别方法 |
Non-Patent Citations (6)
Title |
---|
TING CHEN: "A Simple Framework for Contrastive Learning of Visual Representations", ARXIV, 1 July 2020 (2020-07-01), pages 1 - 20, XP093037179, DOI: 10.48550/arXiv.2002.05709 * |
XIYUE WANG: "Transformer-based unsupervised contrastive learning for histopathological image classification", MEDICAL IMAGE ANALYSIS, 22 July 2022 (2022-07-22), pages 1 - 13 * |
XIYUE WANG: "TransPath: Transformer-Based Self-supervised Learning for Histopathological Image Classification", MEDICAL IMAGE COMPUTING AND COMPUTER ASSISTED INTERVENTION – MICCAI 2021(MICCAI 2021), 21 September 2021 (2021-09-21), pages 186 - 195, XP047611361, DOI: 10.1007/978-3-030-87237-3_18 * |
ZHAO, WENYI: "Embedding Global Contrastive and Local Location in Self-Supervised Learning", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 31 May 2023 (2023-05-31), pages 2275 - 2289 * |
张戈: "基于监督/自监督学习的单目图像深度估计研究", 中国优秀硕士学位论文全文数据库 信息科技辑, 15 February 2023 (2023-02-15), pages 1 - 53 * |
王明霞: "基于对比学习的疾病诊断预测算法", 计算机科学, 31 July 2023 (2023-07-31), pages 46 - 52 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111178316B (zh) | 一种高分辨率遥感影像土地覆盖分类方法 | |
Wang et al. | Unsupervised deep clustering via adaptive GMM modeling and optimization | |
Yuan et al. | Exploring multi-level attention and semantic relationship for remote sensing image captioning | |
CN110598018B (zh) | 一种基于协同注意力的草图图像检索方法 | |
CN110175551A (zh) | 一种手语识别方法 | |
CN114863407B (zh) | 一种基于视觉语言深度融合的多任务冷启动目标检测方法 | |
CN113763442A (zh) | 一种可变形医学图像配准方法及系统 | |
Liu et al. | Few-shot image classification: Current status and research trends | |
CN110580302A (zh) | 一种基于半异构联合嵌入网络的草图图像检索方法 | |
CN112818889A (zh) | 基于动态注意力的超网络融合视觉问答答案准确性的方法 | |
CN115222998B (zh) | 一种图像分类方法 | |
Chan et al. | Multiple classifier for concatenate-designed neural network | |
CN112651940A (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
Li et al. | Image decomposition with multilabel context: Algorithms and applications | |
Yi et al. | Elanet: effective lightweight attention-guided network for real-time semantic segmentation | |
Sheng et al. | Contrastive deep embedded clustering | |
CN117437518A (zh) | 基于glnet和自注意力的心脏超声图像识别方法 | |
He et al. | ECS-SC: Long-tailed classification via data augmentation based on easily confused sample selection and combination | |
CN113792121B (zh) | 阅读理解模型的训练方法及装置、阅读理解方法及装置 | |
CN114463552A (zh) | 迁移学习、行人重识别方法及相关设备 | |
CN115115667A (zh) | 一种基于目标变换回归网络的精确目标跟踪方法 | |
Wang et al. | GDS: Global description guided down-sampling for 3D point cloud classification | |
Wang et al. | Attention U-shaped network for hyperspectral image classification | |
Wang et al. | Face sketch recognition via data-driven synthesis | |
Gong et al. | Distribution constraining for combating mode collapse in generative adversarial networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |