CN114897136A - 多尺度注意力机制方法及模块和图像处理方法及装置 - Google Patents

多尺度注意力机制方法及模块和图像处理方法及装置 Download PDF

Info

Publication number
CN114897136A
CN114897136A CN202210474867.5A CN202210474867A CN114897136A CN 114897136 A CN114897136 A CN 114897136A CN 202210474867 A CN202210474867 A CN 202210474867A CN 114897136 A CN114897136 A CN 114897136A
Authority
CN
China
Prior art keywords
scale
feature
image processing
image
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210474867.5A
Other languages
English (en)
Inventor
胡事民
国孟昊
刘政宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202210474867.5A priority Critical patent/CN114897136A/zh
Publication of CN114897136A publication Critical patent/CN114897136A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种多尺度注意力机制方法及模块和图像处理方法及装置,其中多尺度注意力模块中的分组卷积层用于对待处理特征图进行特征提取,获得第一特征图;每个尺度分支用于对第一特征图进行特征提取,获得各自的尺度分支特征图;相加单元用于将第一特征图和多个尺度分支特征图相加,获得第二特征图;普通卷积层用于对第二特征图进行特征提取,获得注意力图;矩阵逐元素相乘操作单元用于将注意力图和待处理特征图进行矩阵逐元素相乘操作,获得多尺度特征图;其中,多个尺度分支中至少两个尺度分支的特征提取尺度不同。本发明提供的多尺度注意力机制方法及模块和图像处理方法及装置,提高了图像处理的准确性和精度。

Description

多尺度注意力机制方法及模块和图像处理方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种多尺度注意力机制方法及模块和图像处理方法及装置。
背景技术
人类视觉系统可以自然高效地找到复杂场景中的重要的区域,受到这种现象的启发,注意力机制被引入到计算机视觉系统中。注意力机制已经在计算机视觉的各种任务(如:图像识别、目标检测、语义分割、动作识别、图像生成、三维视觉等)中取得了巨大的成功。
目前,视觉中的深度注意力网络通常是基于自注意力机制的,自注意力机制来源于自然语言处理,其首先用于机器翻译任务。由自注意力机制搭建成的深度神经网络被叫做Transformer,在视觉中,Transformer先将图像看成一维的序列,然后对图像序列通过堆叠的自注意力机制进行建模,并得到最终的处理结果。
除了基于自注意力的Transformer结构之外,还有一些基于其他注意力机制的方法,比如大核注意力等。但是现有技术中的注意力机制同时处理多个不同大小的目标的准确性较差。
发明内容
本发明提供一种多尺度注意力机制方法及模块和图像处理方法及装置,用以解决现有技术中注意力机制同时处理多个不同大小的目标的准确性较差的缺陷,提高对多个不同大小的目标同时处理时的预测准确性。
第一方面,本发明提供一种多尺度注意力模块,包括:分组卷积层、多个尺度分支、相加单元、普通卷积层和矩阵逐元素相乘操作单元;
所述分组卷积层用于对待处理特征图进行特征提取,获得第一特征图;
每个所述尺度分支用于对所述第一特征图进行特征提取,获得各自的尺度分支特征图;
所述相加单元用于将所述第一特征图和多个所述尺度分支特征图相加,获得第二特征图;
所述普通卷积层用于对所述第二特征图进行特征提取,获得注意力图;
所述矩阵逐元素相乘操作单元用于将所述注意力图和所述待处理特征图进行矩阵逐元素相乘操作,获得多尺度特征图;
其中,所述多个尺度分支中至少两个所述尺度分支的特征提取尺度不同。
可选地,所述尺度分支包括串联的第一卷积核和第二卷积核;
所述第一卷积核的维度为1×ki
所述第二卷积核的维度为ki×1;
其中,i表示第i个尺度分支,ki为正整数,ki表示所述尺度分支的维度参数,i为正整数。
第二方面,本发明提供一种多尺度注意力机制方法,包括:
对待处理特征图进行特征提取,获得第一特征图;
对所述第一特征图进行特征提取,获得多个尺度分支特征图;
将所述第一特征图和所述多个尺度分支特征图相加,获得第二特征图;
对所述第二特征图进行特征提取,获得注意力图;
将所述注意力图和所述待处理特征图进行矩阵逐元素相乘操作,获得多尺度特征图;
其中,所述多个尺度分支特征图中至少两个所述尺度分支特征图的特征提取尺度不同。
第三方面,本发明提供一种图像处理方法,包括:
获取待处理图像数据;
将所述待处理图像数据输入至图像处理模型,得到图像处理结果;
其中,所述图像处理模型是基于如第一方面所述的多尺度注意力模块建立的,所述图像处理模型是基于图像样本以及所述图像样本对应的识别标签进行训练后得到的,所述识别标签是根据所述图像样本预先确定的,并与所述图像样本一一对应。
可选地,所述图像处理模型包括多个所述多尺度注意力模块;
所述将所述待处理图像数据输入至图像处理模型,得到图像处理结果,包括:
对所述待处理图像数据进行特征提取,获得待处理特征图;
将所述待处理特征图依次输入至q个所述多尺度注意力模块,获得q个多尺度特征图;
将所述q个多尺度特征图中的p个多尺度特征图进行拼接,获得第一整体特征图;
对所述第一整体特征图进行特征提取,获得全局特征图;
其中,q为正整数,p为正整数。
可选地,所述图像处理模型通过如下步骤训练获得:
基于反向传播对所述图像处理模型进行训练。
可选地,所述图像样本对应的识别标签包括以下任一:
与所述图像样本对应的分类标签;
与所述图像样本中的每个像素对应的分割标签;
与所述图像样本中每个物体检测框对应的检测标签。
第四方面,本发明还提供一种图像处理装置,包括:
获取模块,用于获取待处理图像数据;
处理模块,用于将所述待处理图像数据输入至图像处理模型,得到图像处理结果;
其中,所述图像处理模型是基于如第一方面所述的多尺度注意力模块建立的,所述图像处理模型是基于图像样本以及所述图像样本对应的识别标签进行训练后得到的,所述识别标签是根据所述图像样本预先确定的,并与所述图像样本一一对应。
第五方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第二方面所述的多尺度注意力机制方法或如第三方面所述的图像处理方法。
第六方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第二方面所述的多尺度注意力机制方法或如第三方面所述的图像处理方法。
本发明提供的多尺度注意力机制方法及模块和图像处理方法及装置,通过包含多个尺度分支的多尺度注意力模块提取多尺度特征图,多尺度特征图能够提供丰富的尺度空间关系信息,提高对多个不同大小的目标同时处理时的预测准确性,进而提高图像处理的准确性和精度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的多尺度注意力模块的结构示意图;
图2是本发明实施例提供的尺度分支的结构示意图;
图3是本发明实施例提供的多尺度注意力机制方法的流程示意图;
图4是本发明实施例提供的图像处理方法的流程示意图;
图5是本发明实施例提供的图像处理模型的结构示意图;
图6是本发明实施例提供的图像处理装置的结构示意图;
图7是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面对本发明涉及的技术术语作一介绍:
计算机视觉(Computer Vision,CV):就是人工智能(Artificial Intelligence,AI)的多种研究方向中研究如何使机器“看”的科学,更进一步地说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步进行图形处理,使计算机处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括人脸识别、指纹识别等生物特征识别技术。
注意力(attention):是一个非常常见,但是又会被忽略的事实。例如天空一只鸟飞过去的时候,往往人类的注意力会追随着鸟儿,天空在人类的视觉系统中,自然成为了背景(background)信息。计算机视觉中的注意力机制的基本思想是想让系统学会把注意力放在感兴趣的地方,忽略背景信息而关注重点信息。
下面结合图1-图2描述本发明实施例提供的多尺度注意力模块。
图1是本发明实施例提供的多尺度注意力模块的结构示意图,如图1所示,本发明实施例提供的多尺度注意力模块,包括:分组卷积层110、多个尺度分支120、相加单元130、普通卷积层140和矩阵逐元素相乘操作单元150;
所述分组卷积层110用于对待处理特征图进行特征提取,获得第一特征图;
每个所述尺度分支120用于对所述第一特征图进行特征提取,获得各自的尺度分支特征图;
所述相加单元130用于将所述第一特征图和多个所述尺度分支特征图相加,获得第二特征图;
所述普通卷积层140用于对所述第二特征图进行特征提取,获得注意力图;
所述矩阵逐元素相乘操作单元150用于将所述注意力图和所述待处理特征图进行矩阵逐元素相乘操作,获得多尺度特征图;
其中,所述多个尺度分支中至少两个所述尺度分支的特征提取尺度不同。
具体地,尺度分支120可以为十字卷积(cross-crise convolution,也可以称为十字卷积核或十字交叉注意力模块等);相加单元130可以用于实现相加操作;普通卷积层140为1×1的普通卷积。分组卷积层110和尺度分支120用于捕获多尺度空间关系;普通卷积层140用于捕获通道间关系;矩阵逐元素相乘操作单元150用于实现注意力机制。多尺度注意力模块的输入可以为特征图F∈RC×H×W,其中C表示通道数量,H表示特征图的高度,W表示特征图的宽度。
本发明实施例提供的多尺度注意力模块,通过包含多个尺度分支的多尺度注意力模块,提取多尺度特征图,多尺度特征图能够提供丰富的尺度空间关系信息,尺度空间关系信息能够表示出图像数据中各个对象之间的空间关系,多尺度特征能够优化目标定位与分类性能,从而提高注意力模块对多个不同大小的目标同时处理时的预测准确性,进而提高图像处理的准确性和精度。
可选地,图2是本发明实施例提供的尺度分支的结构示意图,如图2所示,所述尺度分支包括串联的第一卷积核和第二卷积核;
所述第一卷积核的维度为1×ki
所述第二卷积核的维度为ki×1;
其中,i表示第i个尺度分支,ki表示所述尺度分支的维度参数,ki为正整数,i为正整数。
具体地,所述第一卷积核和所述第二卷积核可以为分组卷积核。应理解,每个尺度分支的ki不完全相同。示例性地,一个多尺度注意力模块中包含3个尺度分支,尺度分支1的ki为4,尺度分支2的ki为7,尺度分支3的ki为9,3个尺度分支的维度完全不同。
多尺度注意力模块的输出为:
Figure BDA0003624911740000071
Figure BDA0003624911740000072
其中,Output表示多尺度注意力模块的输出,F表示待处理特征图,Conv1×1表示1×1的普通卷积,Scalei表示第i个尺度分支,j表示尺度分支的总数,DW-Conv表示分组卷积。
本发明实施例提供的多尺度注意力模块,通过多个不同维度的尺度分支,获得多尺度特征图,多尺度特征图能够提供丰富的尺度空间关系信息,尺度空间关系信息能够表示出图像数据中各个对象之间的空间关系,多尺度特征能够优化目标定位与分类性能,从而提高注意力模块对多个不同大小的目标同时处理时的预测准确性,进而提高图像处理的准确性和精度。
下面结合图3描述本发明实施例提供的多尺度注意力机制方法。
图3是本发明实施例提供的多尺度注意力机制方法的流程示意图,如图3所示,本发明实施例提供的多尺度注意力机制方法,包括:
步骤310,对待处理特征图进行特征提取,获得第一特征图;
步骤320,对所述第一特征图进行特征提取,获得多个尺度分支特征图;
步骤330,将所述第一特征图和所述多个尺度分支特征图相加,获得第二特征图;
步骤340,对所述第二特征图进行特征提取,获得注意力图;
步骤350,将所述注意力图和所述待处理特征图进行矩阵逐元素相乘操作,获得多尺度特征图;
其中,所述多个尺度分支特征图中至少两个所述尺度分支特征图的特征提取尺度不同。
本发明实施例提供的多尺度注意力机制方法,通过包含多个尺度分支的多尺度注意力模块,提取多尺度特征图,多尺度特征图能够提供丰富的尺度空间关系信息,尺度空间关系信息能够表示出图像数据中各个对象之间的空间关系,多尺度特征能够优化目标定位与分类性能,从而提高注意力模块对多个不同大小的目标同时处理时的预测准确性,进而提高图像处理的准确性和精度。
在此需要说明的是,本发明实施例提供的上述方法,与上述装置实施例所实现的功能相对应,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
下面结合图4描述本发明实施例提供的多尺度注意力机制方法。
图4是本发明实施例提供的图像处理方法的流程示意图,如图4所示,本发明实施例提供的图像处理方法,包括:
步骤410,获取待处理图像数据;
具体地,待处理图像数据为需要进行图像处理的图像数据,待处理图像数据可以是摄像设备拍摄的、可以是其他的图像采集设备采集的,也可以是通过数据库获得的,本发明实施例对待处理图像的获取方式不进行具体限定,能够准确地获取到待处理图像即可。
步骤420,将所述待处理图像数据输入至图像处理模型,得到图像处理结果;
其中,所述图像处理模型是基于上述多尺度注意力模块建立的,所述图像处理模型是基于图像样本以及所述图像样本对应的识别标签进行训练后得到的,所述识别标签是根据所述图像样本预先确定的,并与所述图像样本一一对应。
应理解,本发明实施例提供的图像处理模型可以包括一个或多个本发明实施例提供的多尺度注意力模块,除了多尺度注意力模块之外,搭建图像处理模型(即神经网络)仍然依赖其他的神经网络组件如多层感知机、卷积层、归一化层、全连接层和非线性激活层等,有了上述层后,成功地搭建一个完整的神经网络,并基于搭建后的神经网络对图像进行具体的处理。示例性地,图像处理过程可以包括:对图像数据进行特征提取,得到图像数据特征,以供训练好的图像数据处理模型对图像数据特征进行处理。应理解,所述多尺度注意力模块可以用于处理二维结构的图像数据,由于图像处理模型是基于所述多尺度注意力模块构建的,相当于图像处理模型是基于能够直接处理二维图像结构的多尺度注意力网络训练得到的。
可选地,所述图像样本对应的识别标签包括以下任一:
与所述图像样本对应的分类标签;
与所述图像样本中的每个像素对应的分割标签;
与所述图像样本中每个物体检测框对应的检测标签。
具体地,对于与所述图像样本对应的分类标签,可以通过如下方式获得:
获取图像样本,并对每个图像样本标记分类标签,构建第一训练样本集;
基于所述第一训练样本集对所述图像处理模型进行训练,可以得到图像分类模型(即所述图像处理模型可以实现图像分类功能)。
具体地,对于与所述图像样本中的每个像素对应的分割标签,可以通过如下方式获得:
获取图像样本,并对每个图像样本中的每个像素标记分割标签,构建第二训练样本集;
基于所述第二训练样本集对所述图像处理模型进行训练,可以得到图像分割模型(即所述图像处理模型可以实现图像分割功能)。
具体地,对于与所述图像样本中每个物体检测框对应的检测标签,可以通过如下方式获得:
获取图像样本,并对每个图像样本中的每个物体检测框标记标签,构建第三训练样本集;
基于所述第三训练样本集对所述图像处理模型进行训练,可以得到图像检测模型(即所述图像处理模型可以实现图像检测功能)。
本发明实施例提供的图像处理方法,通过在获取到待处理图像数据之后,将其直接输入至图像处理模型中进行数据处理,便会得到对应的处理结果。图像处理模型的功能和处理结果可以根据图像样本以及所述图像样本对应的识别标签确定的,对图像处理任务的多样性具有较强的适应能力。
可选地,图5是本发明实施例提供的图像处理模型的结构示意图,如图5所示,本发明实施例提供的图像处理模型可以包括:多个下采样模块、多个多尺度注意力模块、拼接模块和全局模块。
应理解,图5仅为便于理解本发明进行的实例,图像处理模型包括任意数量的下采样模块,也可以不包括下采样模块;图像处理模型中的多尺度注意力模块的数量可以为任意正整数;图像处理模型还可以包括其他神经网络常用组件。
可选地,所述图像处理模型包括多个所述多尺度注意力模块;
所述将所述待处理图像数据输入至图像处理模型,得到图像处理结果,包括:
步骤421,对所述待处理图像数据进行特征提取,获得待处理特征图;
具体地,对所述待处理图像数据进行特征提取可以通过特征提取模块实现,通过神经网络组件对所述待处理图像数据进行特征提取,以利用提取后的特征输入图像处理模型进行图像处理,所述神经网络组件包括多层感知机、卷积层和归一化层中的至少一种。
步骤422,将所述待处理特征图依次输入至q个所述多尺度注意力模块,获得q个多尺度特征图;
步骤423,将所述q个多尺度特征图中的p个多尺度特征图进行拼接,获得第一整体特征图;
步骤424,对所述第一整体特征图进行特征提取,获得全局特征图;
其中,q为正整数,p为正整数。
具体地,对所述第一整体特征图进行特征提取,可以通过Global Head模块进行特征提取,全局特征图可以提供全局感受野,即提供全局信息。
应理解,可以对全部q个特征图进行拼接,第一整体特征图中的多尺度特征信息更丰富;对q个特征图中的p(p小于q)个特征图进行拼接,可以减少计算量,可选地,对q个特征图中的p(p小于q)个特征图进行拼接时,可以对第(q-p)个特征图至第q个特征图进行拼接。
可选地,所述图像处理模型通过如下步骤训练获得:
基于反向传播对所述图像处理模型进行训练。
具体地,基于反向传播算法,对图像处理模型进行优化,得到优化后的图像处理模型,通过所述优化后的图像数据处理模型,对所述图像数据进行处理。
本发明实施例提供的图像处理算法基于反向传播对所述图像处理模型进行训练,BP(反向传播)算法的基本思想是先赋予网络初始权值和阈值,通过层间前向信息传递计算出网络的输出值,再根据实际输出和期望输出之间的误差来修改网络的权值和阈值,借助于反复训练和比较使算法的模拟误差达到最小。BP神经网络具有非线性映射能力、自学习和自适应能力、泛化能力、容错能力等优点。通过反向传播算法,对图像处理模型进行优化,并返回优化后的权重;然后,使用优化后的权重,通过图像处理模型对图像数据进行处理,从而处理得到更为准确的图像数据处理结果。
下面结合图6描述本发明实施例提供的图像处理装置。
图6是本发明实施例提供的图像处理装置的结构示意图,如图6所示,本发明实施例提供的图像处理装置,包括获取模块610和处理模块620:
获取模块610,用于获取待处理图像数据;
处理模块620,用于将所述待处理图像数据输入至图像处理模型,得到图像处理结果;
其中,所述图像处理模型是基于如图1所述的多尺度注意力模块建立的,所述图像处理模型是基于图像样本以及所述图像样本对应的识别标签进行训练后得到的,所述识别标签是根据所述图像样本预先确定的,并与所述图像样本一一对应。
在此需要说明的是,本发明实施例提供的上述装置,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行多尺度注意力机制方法或图像处理方法。所述多尺度注意力机制方法包括:对待处理特征图进行特征提取,获得第一特征图;对所述第一特征图进行特征提取,获得多个尺度分支特征图;将所述第一特征图和所述多个尺度分支特征图相加,获得第二特征图;对所述第二特征图进行特征提取,获得注意力图;将所述注意力图和所述待处理特征图进行矩阵逐元素相乘操作,获得多尺度特征图;其中,所述多个尺度分支特征图中至少两个所述尺度分支特征图的特征提取尺度不同。所述图像处理方法,包括:获取待处理图像数据;将所述待处理图像数据输入至图像处理模型,得到图像处理结果;其中,所述图像处理模型是基于如图1所述的注意力模块建立的,所述图像处理模型是基于图像样本以及所述图像样本对应的识别标签进行训练后得到的,所述识别标签是根据所述图像样本预先确定的,并与所述图像样本一一对应。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的以执行多尺度注意力机制方法或图像处理方法。所述多尺度注意力机制方法包括:对待处理特征图进行特征提取,获得第一特征图;对所述第一特征图进行特征提取,获得多个尺度分支特征图;将所述第一特征图和所述多个尺度分支特征图相加,获得第二特征图;对所述第二特征图进行特征提取,获得注意力图;将所述注意力图和所述待处理特征图进行矩阵逐元素相乘操作,获得多尺度特征图;其中,所述多个尺度分支特征图中至少两个所述尺度分支特征图的特征提取尺度不同。所述图像处理方法,包括:获取待处理图像数据;将所述待处理图像数据输入至图像处理模型,得到图像处理结果;其中,所述图像处理模型是基于如图1所述的注意力模块建立的,所述图像处理模型是基于图像样本以及所述图像样本对应的识别标签进行训练后得到的,所述识别标签是根据所述图像样本预先确定的,并与所述图像样本一一对应。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的以执行多尺度注意力机制方法或图像处理方法。所述多尺度注意力机制方法包括:对待处理特征图进行特征提取,获得第一特征图;对所述第一特征图进行特征提取,获得多个尺度分支特征图;将所述第一特征图和所述多个尺度分支特征图相加,获得第二特征图;对所述第二特征图进行特征提取,获得注意力图;将所述注意力图和所述待处理特征图进行矩阵逐元素相乘操作,获得多尺度特征图;其中,所述多个尺度分支特征图中至少两个所述尺度分支特征图的特征提取尺度不同。所述图像处理方法,包括:获取待处理图像数据;将所述待处理图像数据输入至图像处理模型,得到图像处理结果;其中,所述图像处理模型是基于如图1所述的多尺度注意力模块建立的,所述图像处理模型是基于图像样本以及所述图像样本对应的识别标签进行训练后得到的,所述识别标签是根据所述图像样本预先确定的,并与所述图像样本一一对应。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种多尺度注意力模块,其特征在于,包括:分组卷积层、多个尺度分支、相加单元、普通卷积层和矩阵逐元素相乘操作单元;
所述分组卷积层用于对待处理特征图进行特征提取,获得第一特征图;
每个所述尺度分支用于对所述第一特征图进行特征提取,获得各自的尺度分支特征图;
所述相加单元用于将所述第一特征图和多个所述尺度分支特征图相加,获得第二特征图;
所述普通卷积层用于对所述第二特征图进行特征提取,获得注意力图;
所述矩阵逐元素相乘操作单元用于将所述注意力图和所述待处理特征图进行矩阵逐元素相乘操作,获得多尺度特征图;
其中,所述多个尺度分支中至少两个所述尺度分支的特征提取尺度不同。
2.根据权利要求1所述的多尺度注意力模块,其特征在于,所述尺度分支包括串联的第一卷积核和第二卷积核;
所述第一卷积核的维度为1×ki
所述第二卷积核的维度为ki×1;
其中,i表示第i个尺度分支,ki表示所述尺度分支的维度参数,ki为正整数,i为正整数。
3.一种多尺度注意力机制方法,其特征在于,包括:
对待处理特征图进行特征提取,获得第一特征图;
对所述第一特征图进行特征提取,获得多个尺度分支特征图;
将所述第一特征图和所述多个尺度分支特征图相加,获得第二特征图;
对所述第二特征图进行特征提取,获得注意力图;
将所述注意力图和所述待处理特征图进行矩阵逐元素相乘操作,获得多尺度特征图;
其中,所述多个尺度分支特征图中至少两个所述尺度分支特征图的特征提取尺度不同。
4.一种图像处理方法,其特征在于,包括:
获取待处理图像数据;
将所述待处理图像数据输入至图像处理模型,得到图像处理结果;
其中,所述图像处理模型是基于如权利要求1或2所述的多尺度注意力模块建立的,所述图像处理模型是基于图像样本以及所述图像样本对应的识别标签进行训练后得到的,所述识别标签是根据所述图像样本预先确定的,并与所述图像样本一一对应。
5.根据权利要求4所述的图像处理方法,其特征在于,所述图像处理模型包括多个所述多尺度注意力模块;
所述将所述待处理图像数据输入至图像处理模型,得到图像处理结果,包括:
对所述待处理图像数据进行特征提取,获得待处理特征图;
将所述待处理特征图依次输入至q个所述多尺度注意力模块,获得q个多尺度特征图;
将所述q个多尺度特征图中的p个多尺度特征图进行拼接,获得第一整体特征图;
对所述第一整体特征图进行特征提取,获得全局特征图;
其中,q为正整数,p为正整数。
6.根据权利要求4所述的图像处理方法,其特征在于,所述图像处理模型通过如下步骤训练获得:
基于反向传播对所述图像处理模型进行训练。
7.根据权利要求4所述的图像处理方法,其特征在于,所述图像样本对应的识别标签包括以下任一:
与所述图像样本对应的分类标签;
与所述图像样本中的每个像素对应的分割标签;
与所述图像样本中每个物体检测框对应的检测标签。
8.一种图像处理装置,其特征在于,包括:
获取模块,用于获取待处理图像数据;
处理模块,用于将所述待处理图像数据输入至图像处理模型,得到图像处理结果;
其中,所述图像处理模型是基于如权利要求1或2所述的多尺度注意力模块建立的,所述图像处理模型是基于图像样本以及所述图像样本对应的识别标签进行训练后得到的,所述识别标签是根据所述图像样本预先确定的,并与所述图像样本一一对应。
9.一种电子设备,包括存储器.处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求4至7任一项所述的图像处理方法;或
所述处理器执行程序时实现如权利要求3所述的多尺度注意力机制方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求4至7任一项所述的图像处理方法;或
所述计算机程序被处理器执行时实现如权利要求3所述的多尺度注意力机制方法。
CN202210474867.5A 2022-04-29 2022-04-29 多尺度注意力机制方法及模块和图像处理方法及装置 Pending CN114897136A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210474867.5A CN114897136A (zh) 2022-04-29 2022-04-29 多尺度注意力机制方法及模块和图像处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210474867.5A CN114897136A (zh) 2022-04-29 2022-04-29 多尺度注意力机制方法及模块和图像处理方法及装置

Publications (1)

Publication Number Publication Date
CN114897136A true CN114897136A (zh) 2022-08-12

Family

ID=82720544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210474867.5A Pending CN114897136A (zh) 2022-04-29 2022-04-29 多尺度注意力机制方法及模块和图像处理方法及装置

Country Status (1)

Country Link
CN (1) CN114897136A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115272131A (zh) * 2022-08-22 2022-11-01 苏州大学 基于自适应多光谱编码的图像去摩尔纹系统及方法
CN116010816A (zh) * 2022-12-28 2023-04-25 南京大学 基于大感受野的lrf大核注意力卷积网络活动识别方法
CN116091712A (zh) * 2023-04-12 2023-05-09 安徽大学 一种面向计算资源受限设备的多视图立体重建方法与系统
CN116258756A (zh) * 2023-02-23 2023-06-13 齐鲁工业大学(山东省科学院) 一种自监督单目深度估计方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115272131A (zh) * 2022-08-22 2022-11-01 苏州大学 基于自适应多光谱编码的图像去摩尔纹系统及方法
CN116010816A (zh) * 2022-12-28 2023-04-25 南京大学 基于大感受野的lrf大核注意力卷积网络活动识别方法
CN116010816B (zh) * 2022-12-28 2023-09-08 南京大学 基于大感受野的lrf大核注意力卷积网络活动识别方法
US11989935B1 (en) 2022-12-28 2024-05-21 Nanjing University Activity recognition method of LRF large-kernel attention convolution network based on large receptive field
CN116258756A (zh) * 2023-02-23 2023-06-13 齐鲁工业大学(山东省科学院) 一种自监督单目深度估计方法及系统
CN116258756B (zh) * 2023-02-23 2024-03-08 齐鲁工业大学(山东省科学院) 一种自监督单目深度估计方法及系统
CN116091712A (zh) * 2023-04-12 2023-05-09 安徽大学 一种面向计算资源受限设备的多视图立体重建方法与系统

Similar Documents

Publication Publication Date Title
CN110147836B (zh) 模型训练方法、装置、终端及存储介质
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
US20210365717A1 (en) Method and apparatus for segmenting a medical image, and storage medium
CN114897136A (zh) 多尺度注意力机制方法及模块和图像处理方法及装置
CN111507378A (zh) 训练图像处理模型的方法和装置
CN109960742B (zh) 局部信息的搜索方法及装置
CN111723691B (zh) 一种三维人脸识别方法、装置、电子设备及存储介质
Fang et al. DOG: A new background removal for object recognition from images
KR102140805B1 (ko) 위성 영상의 물체 식별을 위한 뉴럴 네트워크 학습 방법 및 장치
CN113177616B (zh) 图像分类方法、装置、设备及存储介质
CN112288011A (zh) 一种基于自注意力深度神经网络的图像匹配方法
CN111833360B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
JP2023073231A (ja) イメージ処理方法及び装置
CN111680678A (zh) 目标区域识别方法、装置、设备及可读存储介质
CN113011253B (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
CN110765882A (zh) 一种视频标签确定方法、装置、服务器及存储介质
US20240104900A1 (en) Fish school detection method and system thereof, electronic device and storage medium
CN113326851A (zh) 图像特征提取方法、装置、电子设备及存储介质
CN114005169B (zh) 人脸关键点检测方法、装置、电子设备及存储介质
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN111444957B (zh) 图像数据处理方法、装置、计算机设备和存储介质
CN112149528A (zh) 一种全景图目标检测方法、系统、介质及设备
CN115147547B (zh) 人体重建方法和装置
CN110956599A (zh) 图片处理方法和装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination