CN115035545A - 一种基于改进自注意力机制的目标检测方法及装置 - Google Patents

一种基于改进自注意力机制的目标检测方法及装置 Download PDF

Info

Publication number
CN115035545A
CN115035545A CN202210570185.4A CN202210570185A CN115035545A CN 115035545 A CN115035545 A CN 115035545A CN 202210570185 A CN202210570185 A CN 202210570185A CN 115035545 A CN115035545 A CN 115035545A
Authority
CN
China
Prior art keywords
attention mechanism
self
attention
longitudinal
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210570185.4A
Other languages
English (en)
Other versions
CN115035545B (zh
Inventor
柏慧屏
刘小青
俞益洲
李一鸣
乔昕
潘晶
应汉宁
蔡秀军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Original Assignee
Zhejiang University ZJU
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, Beijing Shenrui Bolian Technology Co Ltd, Shenzhen Deepwise Bolian Technology Co Ltd filed Critical Zhejiang University ZJU
Priority to CN202210570185.4A priority Critical patent/CN115035545B/zh
Publication of CN115035545A publication Critical patent/CN115035545A/zh
Application granted granted Critical
Publication of CN115035545B publication Critical patent/CN115035545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

本发明提供一种基于改进自注意力机制的目标检测方法及装置。所述方法包括:获取3D医学图像;将所述图像输入到3D卷积神经网络进行特征提取;将得到的特征图在维度通道分成两个特征图,并将两个特征图分别沿横向和纵向划分为n个和m个相同的方块,然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作;将两个自注意力机制的输出拼接后进行特征融合,并将融合特征输入分类器,得到目标类别及位置大小。本发明由于采用改进的自注意力机制,即横向自注意力机制操作和纵向自注意力机制,提高了感受野,降低了内存占有量和计算量,提高了运行速度。

Description

一种基于改进自注意力机制的目标检测方法及装置
技术领域
本发明属于医学影像技术领域,具体涉及一种基于改进自注意力机制的目标检测方法及装置。
背景技术
近年来,目标检测技术在图像处理领域取得了巨大成功。基于深度学习技术,学者们提出了多种目标检测算法。从结构上来看,主要分为两大类:一类算法是基于候选区域的,如R-CNN,FastR-CNN和FasterR-CNN等;另一类是无候选区域的单阶段方法,如CenterNet,SSD等。相比于自然图像领域,在医学图像中,病变区域与整个图像相比可能非常小;而且通常图像结构复杂,仅根据单帧图像无法判断病灶。因此,在自然图像领域效果很好的2D目标检测方法在医学图像上通常无法达到预期效果。而如果在医学图像上采用全卷积网络,利用3D卷积获取上下文信息,则通常感受野不够大,而且显存占用很高。另外,为了快速地扩大感受野,CNN中往往使用大量的下采样操作,这使得最终得到的包含语义特征的特征图分辨率较低,不利于小物体检测。
自注意力是目前应用最广泛的注意力机制之一。自注意力是基于特征图本身的关注而提取的注意力。对于卷积而言,卷积核的设置限制了感受野的大小,导致网络往往需要多层的堆叠才能关注到整个特征图。而自注意的优势就是它的关注是全局的,它能通过简单的查询与赋值就能获取到特征图的全局空间信息。对于自注意力机制来说,相当于模型自己决定感受野的形状和类型。然而自注意力机制通常是针对2D的,没有办法像3D卷积一样融合3维信息。为此,本发明提出一种改进的自注意力机制模型,能够利用图像的3维信息提高目标检测精度。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种基于改进自注意力机制的目标检测方法及装置。
为了实现上述目的,本发明采用以下技术方案。
第一方面,本发明提供一种改进自注意力机制的目标检测方法,包括以下步骤:
获取维度为1*D*H*W的3D医学图像,D、H、W分别为深度、高度和宽度;
将所述图像输入到3D卷积神经网络进行特征提取,得到一个维度为C*D*H*W的特征图,C为通道数;
将所述特征图分成两个C/2*D*H*W的特征图,并将两个特征图分别沿横向和纵向划分为大小为D*C/2*H/n*W的n个方块和大小为D*C/2*H*W/m的m个方块,然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作;
将横向自注意力机制和纵向自注意力机制的输出拼接后进行特征融合,并将融合特征输入分类器,得到目标类别及位置大小。
进一步地,所述医学图像为CT或MRI。
进一步地,横向自注意力机制操作表示为:
输入为:
Figure BDA0003659906180000021
输出为:
Figure BDA0003659906180000022
Figure BDA0003659906180000023
式中,
Figure BDA0003659906180000024
分别为沿Q、K、V的投影矩阵,均为可学习参数,Q、K、V分别为查询向量、键向量和值向量。
更进一步地,纵向自注意力机制操作表示为:
输入为:
Figure BDA0003659906180000031
输出为:
Figure BDA0003659906180000032
Figure BDA0003659906180000033
式中,
Figure BDA0003659906180000034
分别为沿Q、K、V的投影矩阵,均为可学习参数,Q、K、V分别为查询向量、键向量和值向量。
更进一步地,横向自注意力机制和纵向自注意力机制的输出拼接后得到:
Attention=concat(head1,head2,…,headk,…,headC)W0
Figure BDA0003659906180000035
式中,k=1,2,…,C,W0为可学习参数,W0∈RC*C
进一步地,所述横向自注意力机制和纵向自注意力机制均增加了位置编码权重。
第二方面,本发明提供一种基于改进自注意力机制的目标检测装置,包括:
图像获取模块,用于获取维度为1*D*H*W的3D医学图像,D、H、W分别为深度、高度和宽度;
特征提取模块,用于将所述图像输入到3D卷积神经网络进行特征提取,得到一个维度为C*D*H*W的特征图,C为通道数;
自注意力模块,用于将所述特征图分成两个C/2*D*H*W的特征图,并将两个特征图分别沿横向和纵向划分为大小为D*C/2*H/n*W的n个方块和大小为D*C/2*H*W/m的m个方块,然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作;
目标分类模块,用于将横向自注意力机制和纵向自注意力机制的输出拼接后进行特征融合,并将融合特征输入分类器,得到目标类别及位置大小。
进一步地,所述医学图像为CT或MRI。
进一步地,横向自注意力机制操作表示为:
输入为:
Figure BDA0003659906180000041
输出为:
Figure BDA0003659906180000042
Figure BDA0003659906180000043
式中,
Figure BDA0003659906180000044
分别为沿Q、K、V的投影矩阵,均为可学习参数,Q、K、V分别为查询向量、键向量和值向量。
更进一步地,纵向自注意力机制操作表示为:
输入为:
Figure BDA0003659906180000045
输出为:
Figure BDA0003659906180000046
Figure BDA0003659906180000047
式中,
Figure BDA0003659906180000048
分别为沿Q、K、V的投影矩阵,均为可学习参数,Q、K、V分别为查询向量、键向量和值向量。
更进一步地,横向自注意力机制和纵向自注意力机制的输出拼接后得到:
Attention=concat(head1,head2,…,headk,…,headC)W0
Figure BDA0003659906180000049
式中,k=1,2,…,C,W0为可学习参数,W0∈RC*C
进一步地,所述横向自注意力机制和纵向自注意力机制均增加了位置编码权重。
与现有技术相比,本发明具有以下有益效果。
本发明通过获取3D医学图像,将所述图像输入到3D卷积神经网络进行特征提取,将得到的特征图在维度通道分成两个特征图,并将两个特征图分别沿横向和纵向划分为n个和m个相同的方块,然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作,将两个自注意力机制的输出拼接后进行特征融合,并将融合特征输入分类器,得到目标类别及位置大小,实现了目标的自动检测和定位。本发明由于采用改进的自注意力机制,即横向自注意力机制操作和纵向自注意力机制,提高了感受野,降低了内存占有量和计算量,提高了运行速度。
附图说明
图1为本发明实施例一种基于改进自注意力机制的目标检测方法的流程图。
图2为本发明实施例网络结构示意图。
图3为金字塔结构示意图。
图4为增加位置编码权重的自注意力机制示意图。
图5为本发明实施例一种基于改进自注意力机制的目标检测装置的方框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明白,以下结合附图及具体实施方式对本发明作进一步说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种基于改进自注意力机制的目标检测方法的流程图,包括以下步骤:
步骤101,获取维度为1*D*H*W的3D医学图像,D、H、W分别为深度、高度和宽度;
步骤102,将所述图像输入到3D卷积神经网络进行特征提取,得到一个维度为C*D*H*W的特征图,C为通道数;
步骤103,将所述特征图分成两个C/2*D*H*W的特征图,并将两个特征图分别沿横向和纵向划分为大小为D*C/2*H/n*W的n个方块和大小为D*C/2*H*W/m的m个方块,然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作;
步骤104,将横向自注意力机制和纵向自注意力机制的输出拼接后进行特征融合,并将融合特征输入分类器,得到目标类别及位置大小。
本实施例中,步骤101主要用于获取3D医学图像。所述医学图像可以是计算机体层摄影(Computed Tomography,简称CT),也可以是磁共振成像(Magnetic ResonanceImaging,简称MRI)等等。3D图像也称为立体图像,其空间大小用三个维度的尺寸长、宽、高决定。3D医学图像的尺寸一般用深度D、高度H和宽度W三个维度的尺寸表示。
本实施例中,步骤102主要用于进行特征提取。本实施例通过将获得的3D医学图像输入到一个或多个3D卷积神经网络(或类似resnet的残差结构)实现特征提取,得到一个维度为C*D*H*W的特征图。卷积神经网络CNN是基于生物学上的感受野机制提出来的。CNN是一种前馈神经网络,但与一般的全连接前馈神经网络不同的是,它的卷积层具有局部连接和权重共享的特性,因此能够大大减小权重参数的数量,从而减小模型的复杂程度和提高运行速度。一个典型的CNN是由卷积层、汇聚层(或池化层、下采样层)、全连接层交叉堆叠而成的。卷积层的作用是通过卷积核与输入图像的卷积运算提取一个局部区域的特征,不同的卷积核相当于不同的特征提取器。汇聚层的作用是进行特征选择,降低特征数量,从而进一步减少参数数量。全连接层用于对得到的不同特征进行融合。二维卷积是在单通道的一帧图像上进行滑窗操作,输入是高度H*宽度W的二维矩阵。三维卷积输入多了深度D这个维度,输入是高度H*宽度W*深度D的三维矩阵。
本实施例中,步骤103主要用于对获得的特征图进行改进的自注意力机制操作。注意力机制是在计算机能力有限的情况下,借鉴人脑的注意力机制,只关心一些关键的信息输入进行处理,来提高神经网络的效率。注意力机制的计算可分为两步:一是在所有输入信息上计算注意力分布;二是根据注意力分布计算输入信息的加权求和。自注意力机制是注意力机制的变体,只有一个输入,将序列中的每个单元和该序列中的所有单元进行注意力计算,减少了对外部信息的依赖,有利于捕捉数据或特征的内部相关性。自注意力机制是利用三个可学习的变量将输入线性映射为K、Q与V,然后将Q与K相乘得到K对Q的注意力权重后,利用归一化的权重和V来生成输入的上下文信息。自注意力机制的优势是通过简单的查询与赋值就能获取到特征图的全局空间信息。对于自注意力机制来说,相当于模型自己决定感受野是怎样的形状和类型。然而自注意力机制通常只针对2D图像特征,不能像3D卷积一样融合3维信息。为此,本实施例提出一种改进的自注意力机制,将输入特征图在通道维度一分为二,得到两个C/2*D*H*W的特征图,对这两个特征图分别从纵向和横向划分出n个和m个相同大小的小方块,大小分别为D*C/2*H/n*W和D*C/2*H*W/m。浅层特征图,方块比较窄;深层特征图,方块稍微宽一些,在实际中,对于前3层特征图,H/n和W/m一般取1、2、7。然后分别对两个特征图进行横向自注意力机制操作和纵向自注意力机制操作,如图2所示。
值得说明的是,划分结果的n和m可以不等,但须保证H/n=W/m。由于输入图像一般为正方形,即H=W,因此一般情况下n=m。
本实施例提出的改进的自注意力机制,将自注意力机制的n*m个方块变为n+m个方块,使计算量大大减小,运行速度明显提高。通过把特征图分成两部分并进行不同的自注意力机制,能够明显扩展每个区域的感受野。另外,本实施例两个方向(横纵)的自注意力机制并行运算,可进一步提高速度。
本实施例中,步骤104主要用于基于特征融合得到目标类别和位置。对横、纵向自注意力机制的输出进行拼接,再对拼接后的特征图作3D卷积,融合3D方向的信息,并进行下采样,得到金字塔结构的特征图。将金字塔中的每个分支接上一个分类层和一个回归层,从而得到目标类别和检测框(表示目标位置大小)。如图3所示。
作为一可选实施例,所述医学图像为CT或MRI。
本实施例对输入医学图像进行了限定。本实施例中,医学图像可以是CT,也可以是MRI。CT和MRI是最常用的两种医学影像。两种图像各有优劣,CT图像具有较高的密度分辨力,在密度分辨率上,CT具有较高的优势。MRI图像具有较高的软组织分辨力,在显示中枢神经系统及关节内结构与病变方面明显优于CT。
作为一可选实施例,横向自注意力机制操作表示为:
输入为:
Figure BDA0003659906180000081
输出为:
Figure BDA0003659906180000082
Figure BDA0003659906180000083
式中,
Figure BDA0003659906180000084
分别为Q、K、V的投影矩阵,均为可学习参数,Q、K、V分别为查询向量、键向量和值向量。
本实施例给出了横向自注意力机制的计算方法。横向自注意力机制的计算方法与一般的自注意力机制的计算方法相同,所不同的是输入变量为横向划分后的n个小方块,即
Figure BDA0003659906180000085
作为一可选实施例,纵向自注意力机制操作表示为:
输入为:
Figure BDA0003659906180000086
输出为:
Figure BDA0003659906180000087
Figure BDA0003659906180000088
式中,
Figure BDA0003659906180000089
分别为沿Q、K、V的投影矩阵,均为可学习参数,Q、K、V分别为查询向量、键向量和值向量。
本实施例给出了纵向自注意力机制的计算方法。纵向自注意力机制的计算方法与一般的自注意力机制的计算方法相同,所不同的是输入变量为纵向划分后的m个小方块,即
Figure BDA00036599061800000810
作为一可选实施例,横向自注意力机制和纵向自注意力机制的输出拼接后得到:
Attention=concat(head1,head2,…,headk,…,headC)W0
Figure BDA0003659906180000091
式中,k=1,2,…,C,W0为可学习参数,W0∈RC*C
本实施例给出了横向自注意力机制的输出与纵向自注意力机制的输出拼接后的特征向量表达式。两个自注意力机制的输出在通道维度上叠加,得到一个维度为C*D*H*W的特征图。
作为一可选实施例,所述横向自注意力机制和纵向自注意力机制均增加了位置编码权重。
本实施例是对自注意力机制的又一改进。一般的自注意力机制不考虑输入序列中各个方块的位置信息,相当于将各个方块的位置打乱后“一视同仁”,得到的权重与位置无关,但实际上不同位置的图像特征所起的作用不同。为此,本实施例在横向自注意力机制和纵向自注意力机制操作中均增加了位置编码权重,如图4所示。具体地,在原自注意力机制权重的基础上加一个位置编码权重,表示如下:
输入为x=(x1,x2,…,xN),输出为z=(z1,z2,…,zN),其中:
Figure BDA0003659906180000092
式中,
Figure BDA0003659906180000093
为zi的第k个元素,
Figure BDA0003659906180000094
为原自注意力权重,为位置编码权重,
Figure BDA0003659906180000095
是一个可学习参数。
本实施例通过增加一个位置编码权重,可使自注意力机制更有效地提取图像特征,从而提高目标检测的精度。
图5为本发明实施例一种基于改进自注意力机制的目标检测装置的组成示意图,所述装置包括:
图像获取模块11,用于获取维度为1*D*H*W的3D医学图像,D、H、W分别为深度、高度和宽度;
特征提取模块12,用于将所述图像输入到3D卷积神经网络进行特征提取,得到一个维度为C*D*H*W的特征图,C为通道数;
自注意力模块13,用于将所述特征图分成两个C/2*D*H*W的特征图,并将两个特征图分别沿横向和纵向划分为大小为D*C/2*H/n*W的n个方块和大小为D*C/2*H*W/m的m个方块,然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作;
目标分类模块14,用于将横向自注意力机制和纵向自注意力机制的输出拼接后进行特征融合,并将融合特征输入分类器,得到目标类别及位置大小。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。后面的实施例也是如此,均不再展开说明。
作为一可选实施例,所述医学图像为CT或MRI。
作为一可选实施例,横向自注意力机制操作表示为:
输入为:
Figure BDA0003659906180000101
输出为:
Figure BDA0003659906180000102
Figure BDA0003659906180000103
式中,
Figure BDA0003659906180000104
分别为沿Q、K、V的投影矩阵,均为可学习参数,Q、K、V分别为查询向量、键向量和值向量。
作为一可选实施例,纵向自注意力机制操作表示为:
输入为:
Figure BDA0003659906180000105
输出为:
Figure BDA0003659906180000106
Figure BDA0003659906180000107
式中,
Figure BDA0003659906180000111
分别为沿Q、K、V的投影矩阵,均为可学习参数,Q、K、V分别为查询向量、键向量和值向量。
作为一可选实施例,横向自注意力机制和纵向自注意力机制的输出拼接后得到:
Attention=concat(head1,head2,…,headk,…,headC)W0
Figure BDA0003659906180000112
式中,k=1,2,…,C,W0为可学习参数,W0∈RC*C
作为一可选实施例,所述横向自注意力机制和纵向自注意力机制均增加了位置编码权重。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于改进自注意力机制的目标检测方法,其特征在于,包括以下步骤:
获取维度为1*D*H*W的3D医学图像,D、H、W分别为深度、高度和宽度;
将所述图像输入到3D卷积神经网络进行特征提取,得到一个维度为C*D*H*W的特征图,C为通道数;
将所述特征图分成两个C/2*D*H*W的特征图,并将两个特征图分别沿横向和纵向划分为大小为D*C/2*H/n*W的n个方块和大小为D*C/2*H*W/m的m个方块,然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作;
将横向自注意力机制和纵向自注意力机制的输出拼接后进行特征融合,并将融合特征输入分类器,得到目标类别及位置大小。
2.根据权利要求1所述的基于改进自注意力机制的目标检测方法,其特征在于,所述医学图像为CT或MRI。
3.根据权利要求1所述的基于改进自注意力机制的目标检测方法,其特征在于,横向自注意力机制操作表示为:
输入为:
Figure FDA0003659906170000011
输出为:
Figure FDA0003659906170000012
Figure FDA0003659906170000013
式中,
Figure FDA0003659906170000014
分别为沿Q、K、V的投影矩阵,均为可学习参数,Q、K、V分别为查询向量、键向量和值向量。
4.根据权利要求3所述的基于改进自注意力机制的目标检测方法,其特征在于,纵向自注意力机制操作表示为:
输入为:
Figure FDA0003659906170000021
输出为:
Figure FDA0003659906170000022
Figure FDA0003659906170000023
式中,
Figure FDA0003659906170000024
分别为沿Q、K、V的投影矩阵,均为可学习参数,Q、K、V分别为查询向量、键向量和值向量。
5.根据权利要求4所述的基于改进自注意力机制的目标检测方法,其特征在于,横向自注意力机制和纵向自注意力机制的输出拼接后得到:
Attention=concat(head1,head2,…,headk,…,headC)W0
Figure FDA0003659906170000025
式中,k=1,2,…,C,W0为可学习参数,W0∈RC*C
6.根据权利要求1所述的基于改进自注意力机制的目标检测方法,其特征在于,所述横向自注意力机制和纵向自注意力机制均增加了位置编码权重。
7.一种基于改进自注意力机制的目标检测装置,其特征在于,包括:
图像获取模块,用于获取维度为1*D*H*W的3D医学图像,D、H、W分别为深度、高度和宽度;
特征提取模块,用于将所述图像输入到3D卷积神经网络进行特征提取,得到一个维度为C*D*H*W的特征图,C为通道数;
自注意力模块,用于将所述特征图分成两个C/2*D*H*W的特征图,并将两个特征图分别沿横向和纵向划分为大小为D*C/2*H/n*W的n个方块和大小为D*C/2*H*W/m的m个方块,然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作;
目标分类模块,用于将横向自注意力机制和纵向自注意力机制的输出拼接后进行特征融合,并将融合特征输入分类器,得到目标类别及位置大小。
8.根据权利要求7所述的基于改进自注意力机制的目标检测装置,其特征在于,横向自注意力机制操作表示为:
输入为:
Figure FDA0003659906170000031
输出为:
Figure FDA0003659906170000032
Figure FDA0003659906170000033
式中,
Figure FDA0003659906170000034
分别为沿Q、K、V的投影矩阵,均为可学习参数,Q、K、V分别为查询向量、键向量和值向量。
9.根据权利要求8所述的基于改进自注意力机制的目标检测装置,其特征在于,纵向自注意力机制操作表示为:
输入为:
Figure FDA0003659906170000035
输出为:
Figure FDA0003659906170000036
Figure FDA0003659906170000037
式中,
Figure FDA0003659906170000038
分别为沿Q、K、V的投影矩阵,均为可学习参数,Q、K、V分别为查询向量、键向量和值向量。
10.根据权利要求9所述的基于改进自注意力机制的目标检测装置,其特征在于,横向自注意力机制和纵向自注意力机制的输出拼接后得到:
Attention=concat(head1,head2,…,headk,…,headC)W0
Figure FDA0003659906170000039
式中,k=1,2,…,C,W0为可学习参数,W0∈RC*C
CN202210570185.4A 2022-05-24 2022-05-24 一种基于改进自注意力机制的目标检测方法及装置 Active CN115035545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210570185.4A CN115035545B (zh) 2022-05-24 2022-05-24 一种基于改进自注意力机制的目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210570185.4A CN115035545B (zh) 2022-05-24 2022-05-24 一种基于改进自注意力机制的目标检测方法及装置

Publications (2)

Publication Number Publication Date
CN115035545A true CN115035545A (zh) 2022-09-09
CN115035545B CN115035545B (zh) 2024-06-21

Family

ID=83121437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210570185.4A Active CN115035545B (zh) 2022-05-24 2022-05-24 一种基于改进自注意力机制的目标检测方法及装置

Country Status (1)

Country Link
CN (1) CN115035545B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2020103715A4 (en) * 2020-11-27 2021-02-11 Beijing University Of Posts And Telecommunications Method of monocular depth estimation based on joint self-attention mechanism
EP3866071A1 (en) * 2020-02-12 2021-08-18 Robert Bosch GmbH Device and method for classifying images using an attention layer
CN113610044A (zh) * 2021-08-19 2021-11-05 清华大学 基于自注意力机制的4d毫米波三维目标检测方法及系统
CN113762251A (zh) * 2021-08-17 2021-12-07 慧影医疗科技(北京)有限公司 一种基于注意力机制的目标分类方法及系统
CN113887545A (zh) * 2021-12-07 2022-01-04 南方医科大学南方医院 一种基于目标检测模型的腹腔镜手术器械识别方法及装置
CN113901865A (zh) * 2021-08-24 2022-01-07 苏州深思考人工智能科技有限公司 一种基于宫颈细胞液基制片的霉菌识别方法及系统
CN114332574A (zh) * 2021-07-31 2022-04-12 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
KR20220050758A (ko) * 2020-10-16 2022-04-25 현대자동차주식회사 다차원 어텐션 메커니즘에 기반한 다방향 장면 텍스트 인식 방법 및 시스템

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3866071A1 (en) * 2020-02-12 2021-08-18 Robert Bosch GmbH Device and method for classifying images using an attention layer
KR20220050758A (ko) * 2020-10-16 2022-04-25 현대자동차주식회사 다차원 어텐션 메커니즘에 기반한 다방향 장면 텍스트 인식 방법 및 시스템
AU2020103715A4 (en) * 2020-11-27 2021-02-11 Beijing University Of Posts And Telecommunications Method of monocular depth estimation based on joint self-attention mechanism
CN114332574A (zh) * 2021-07-31 2022-04-12 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN113762251A (zh) * 2021-08-17 2021-12-07 慧影医疗科技(北京)有限公司 一种基于注意力机制的目标分类方法及系统
CN113610044A (zh) * 2021-08-19 2021-11-05 清华大学 基于自注意力机制的4d毫米波三维目标检测方法及系统
CN113901865A (zh) * 2021-08-24 2022-01-07 苏州深思考人工智能科技有限公司 一种基于宫颈细胞液基制片的霉菌识别方法及系统
CN113887545A (zh) * 2021-12-07 2022-01-04 南方医科大学南方医院 一种基于目标检测模型的腹腔镜手术器械识别方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GONG, HF: "Cross-Modal Self-Attention with Multi-Task Pre-Training for Medical Visual Question Answering", 《 PROCEEDINGS OF THE 2021 INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL (ICMR \'21)》, 1 September 2021 (2021-09-01) *
HENGSHUANG ZHAO: "Exploring Self-Attention for Image Recognition", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 5 August 2020 (2020-08-05) *
XIAOYI DONG: "CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows", 《ARXIV》, 9 January 2022 (2022-01-09) *
罗岩: "基于注意力及视觉Transformer的野外人脸表情识别", 《计算机工程与应用》, 2 March 2022 (2022-03-02) *
苏蒙;李为;: "一种基于SSD改进的目标检测算法", 计算机与现代化, no. 02, 15 February 2020 (2020-02-15) *

Also Published As

Publication number Publication date
CN115035545B (zh) 2024-06-21

Similar Documents

Publication Publication Date Title
CN110443842B (zh) 基于视角融合的深度图预测方法
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
CN110659727B (zh) 一种基于草图的图像生成方法
CN111652966B (zh) 一种基于无人机多视角的三维重建方法及装置
CN110348330B (zh) 基于vae-acgan的人脸姿态虚拟视图生成方法
KR102477794B1 (ko) 이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체
CN110533712A (zh) 一种基于卷积神经网络的双目立体匹配方法
Zhang et al. Progressive hard-mining network for monocular depth estimation
CN111402311B (zh) 一种基于知识蒸馏的轻量级立体视差估计方法
CN115578404B (zh) 一种基于深度学习的肝脏肿瘤图像增强和分割的方法
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
CN110148104A (zh) 基于显著性分析与低秩表示的红外与可见光图像融合方法
CN115147271A (zh) 一种用于光场超分辨率的多视图信息注意力交互网络
CN101877143A (zh) 一种二维图像组的三维场景重建方法
CN113538243B (zh) 基于多视差注意力模块组合的超分辨图像重建方法
WO2023207266A9 (zh) 图像配准方法、装置、设备和存储介质
CN110070574A (zh) 一种基于改进PSMNet的双目视觉立体匹配算法
CN104796624B (zh) 一种光场编辑传播方法
CN113344110A (zh) 一种基于超分辨率重建的模糊图像分类方法
Abuowaida et al. Improved deep learning architecture for depth estimation from single image
Jia et al. Multi-scale cost volumes cascade network for stereo matching
CN113538444A (zh) 一种基于空洞卷积的并行空间金字塔模型图像分割方法
CN116091793A (zh) 一种基于光流融合的光场显著性检测方法
CN115496859A (zh) 基于散乱点云交叉注意学习的三维场景运动趋势估计方法
CN115035545A (zh) 一种基于改进自注意力机制的目标检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant