CN115909013A - 一种图像的卷积方法、装置、电子设备和存储介质 - Google Patents

一种图像的卷积方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115909013A
CN115909013A CN202310029970.3A CN202310029970A CN115909013A CN 115909013 A CN115909013 A CN 115909013A CN 202310029970 A CN202310029970 A CN 202310029970A CN 115909013 A CN115909013 A CN 115909013A
Authority
CN
China
Prior art keywords
block
image
convolution
attention
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310029970.3A
Other languages
English (en)
Other versions
CN115909013B (zh
Inventor
乐康
张耀
张滨
徐大鹏
曹保桂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Seichitech Technology Co ltd
Original Assignee
Shenzhen Seichitech Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Seichitech Technology Co ltd filed Critical Shenzhen Seichitech Technology Co ltd
Priority to CN202310029970.3A priority Critical patent/CN115909013B/zh
Publication of CN115909013A publication Critical patent/CN115909013A/zh
Application granted granted Critical
Publication of CN115909013B publication Critical patent/CN115909013B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像的卷积方法、装置、电子设备和存储介质,用于提高卷积神经网络模型的训练效果。本申请卷积方法包括:获取卷积单元和输入特征图像;将输入特征图像进行区块划分,生成具有多个区块窗口的第一和第二区块特征图像;通过区块像素注意力生成模块为第一和第二区块特征图像的区块窗口进行注意力计算,生成第一和第二区块注意力特征图像;将第一、第二区块特征图像、第一和第二区块注意力特征图像输入特征卷积模块;对第一区块特征图像上的像素点进行卷积处理,生成第一卷积图像;对第二区块特征图像上的像素点进行卷积处理,生成第二卷积图像;将第一和第二卷积图像进行通道维度交错叠加操作和卷积操作,生成目标卷积图像。

Description

一种图像的卷积方法、装置、电子设备和存储介质
技术领域
本申请实施例涉及卷积神经网络模型领域,尤其涉及一种图像的卷积方法、装置、电子设备和存储介质。
背景技术
近些年来,深度学习作为新兴技术在图像领域蓬勃发展,因其自主学习图像数据特征的能力,极大程度的避免了人工设计算法的繁琐,并且具备精准的检测性能、高效的检测效率以及对各种不同类型的图像任务都有比较好的泛化性能,使得深度学习技术在图像领域得到广泛应用,深度学习技术在图像领域的应用包括图像检测、图像分类、图像重构等。卷积操作作为深度学习在图像领域的灵魂算子,具有局部感知、权值共享和下采样的三大特性,因其出色的图像特征提取效果,成为深度学习在图像领域大放异彩的基石。
在整个输入特征图像中,目标物体所在像素是重要的像素,在卷积过程中应该更多的加以关注,而背景像素则应该减少关注度,以防干扰目标物体的特征提取。传统卷积在滑动操作过程中,对输入特征图像图像所有的像素一视同仁,并没有对图像上的像素加以区分,对目标物体像素和背景像素给与同等的关注。传统的卷积操作基于固定形状的卷积核感受野,比如3*3卷积核感受野和5*5卷积核感受野等。当前主流卷积核有两类:空洞卷积和可变形卷积。
可变形卷积在感受野中引入了偏移量,而且这偏移量是可学习的,可以使得感受野不再是死板的方形,而是与物体的实际形状贴近,这样之后的卷积区域便始终覆盖在物体形状周围,无论物体如何形变,都可通过学习的偏移量来搞定。可变形卷积通过增加卷积位置的偏移量,可以做到感受野大小形状的自由控制,但是这些偏移量在每次卷积过程中是固定的,图像上的各个物体之间可能大小形状各不相同,使用同一种大小形状的感受野并不能适配不同的物体,故其作用效果对于不同的输入特征图像存在较大差异。
空洞卷积也叫扩张卷积或者膨胀卷积,简单来说就是在卷积核元素之间加入一些空格(零)来扩大卷积核的过程。空洞卷积的简单原理,传统的卷积是先按照卷积核的作用大小在输入特征图像上确定卷积的像素区域,再由卷积核对这些像素区域进行卷积操作,而空洞卷积以一个比卷积核大的作用范围进行像素区域的确定,在该像素区域中按照预定的规则选取像素,将选取的像素组合成新的像素区域,并且新的像素区域与卷积核的范围相同。例如:感受野为5*5的感受野与3*3的卷积核搭配进行空洞卷积,首先5*5的感受野确定一个5*5的像素区域,在这个像素区域中选取9个像素点,主要是按照像素值的大小或者像素点的位置来选取,可以是将像素点最大的9个点取出作为新的像素区域,也可以是将相邻距离均匀的9个像素点取出作为新的像素点,最后再通过3*3的卷积核进行经济操作。空洞卷积一定程度上扩大了感受野,但是其感受野的形状依然是规则的矩形,且其感受野大小也是固定的。
但是,在进行卷积神经网络模型的训练时,往往需要在卷积时尽可能保留输入特征图像中目标物体的像素点。因此,无论是可变形卷积还是空洞卷积,都只是考虑了图像像素值的大小,而输入特征图像图像像素值并不能很好地反映该像素在整幅图像中的重要性。在整个图像中,目标物体所在像素是重要的像素,在卷积过程中应该更多的加以关注并且尽可能保留下来,而背景像素则应该减少关注度,以防干扰目标物体的特征提取。目前存在一种图像的卷积方法,通过计算图像中各个像素相对于整个图像注意力,以此判断该像素的重要程度,通过该重要程度进行后续的卷积操作。
但是,该像素的注意力计算和卷积操作是针对整张图像所有的像素进行的,这就会造成一种不合理的情况发生。由于图像的特征信息分布在整个图像中,但各个像素的特征信息和该像素附近像素点(距离相近的像素点)的特征信息有较大的关联,和图像较远部分的像素信息关系较小,因此传统的注意力计算和卷积操作不仅会得到很多无用信息,也会大大增加计算量,进而降低了卷积神经网络模型的训练效果。
发明内容
本申请公开了一种图像的卷积方法、装置、电子设备和存储介质,用于提高卷积神经网络模型的训练效果。
具体的,本专利提出一种新的层次化区块注意力卷积方法,该卷积核一方面利用图像中各区块窗口自身像素的注意力,减少了整张图像其他区块像素的影响,使得注意力计算更加关注自身区块窗口内的像素,减小远处图像无关像素的影响,使得卷积能更好的针对该区块窗口中特征较明显的部分,改进了传统卷积对所有像素一视同仁的做法,使得图像中更精细的区块部分中待处理物体相关的像素能更多地进入卷积操作,无关像素更少的被卷积捕获,提高卷积提取物体特征的效率,减少无关像素的干扰。另一方面,将整张图像分割成不重叠的小区块窗口,关注各个区域里的具体信息,减少其他区块窗口的影响,提高目标特征的关注度,降低了计算量,最后通过再一次区块窗口分割,使得第二次区块分割和第一次区块分割产生重叠,补足每次区块分割线处的特征信息。
本申请第一方面提供了一种图像的卷积方法,包括:
获取卷积单元,卷积单元包括像素注意力生成模块和特征卷积模块;
获取输入特征图像,输入特征图像为输入卷积神经网络模型中进行训练中的图像;
将输入特征图像通过不同的划分方式分别进行区块划分,生成具有多个区块窗口的第一区块特征图像和第二区块特征图像,第一区块特征图像上任一个区块窗口的任一条边界都处于第二区块特征图像上某一个区块窗口内部;
将第一区块特征图像和第二区块特征图像输入区块像素注意力生成模块中;
通过区块像素注意力生成模块为第一区块特征图像和第二区块特征图像的区块窗口进行注意力计算,生成第一区块注意力特征图像和第二区块注意力特征图像,第一区块注意力特征图像和第二区块注意力特征图像上有输入特征图像上像素点的注意力值;
将第一区块特征图像、第二区块特征图像、第一区块注意力特征图像和第二区块注意力特征图像输入特征卷积模块;
使用特征卷积模块并根据第一区块注意力特征图像中的注意力值对第一区块特征图像上的像素点进行卷积处理,生成第一卷积图像;
使用特征卷积模块并根据第二区块注意力特征图像中的注意力值对第二区块特征图像上的像素点进行卷积处理,生成第二卷积图像;
将第一卷积图像和第二卷积图像进行通道维度交错叠加操作和卷积操作,生成目标卷积图像。
可选的,将输入特征图像通过不同的划分方式分别进行区块划分,生成具有多个区块窗口的第一区块特征图像和第二区块特征图像,包括:
将输入特征图像划分成至少两块大小相同但互不重合的正方形区块窗口,生成第一区块特征图像,正方形区块窗口边长为d;
将第一区块特征图像进行复制,并将复制的第一区块特征图像中每一个正方形区块窗口向下偏移d/2,再向右偏移d/2,生成第二区块特征图像;
对第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理。
可选的,在对第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理之后,卷积方法还包括:
当正方形区块窗口超出输入特征图像的有效范围时,对正方形区块窗口超出的部分进行像素点0值填充处理。
可选的,使用特征卷积模块并根据第一区块注意力特征图像中的注意力值对第一区块特征图像上的像素点进行卷积处理,生成第一卷积图像,包括:
对第一区块特征图像进行实例标准化处理;
将实例标准化处理后的第一区块特征图像与第一区块注意力特征图像对应元素相乘,生成第一初始卷积图像;
对第一初始卷积图像进行区块卷积,生成第一卷积图像。
可选的,使用特征卷积模块并根据第二区块注意力特征图像中的注意力值对第二区块特征图像上的像素点进行卷积处理,生成第二卷积图像,包括:
对第二区块特征图像进行实例标准化处理;
将实例标准化处理后的第二区块特征图像与第二区块注意力特征图像对应元素相乘,生成第二初始卷积图像;
对第二初始卷积图像进行区块卷积,生成第二卷积图像。
可选的,将输入特征图像通过不同的划分方式分别进行区块划分,生成第一区块特征图像和第二区块特征图像,包括:
将输入特征图像输入区块像素注意力生成模块中,生成初始注意力特征图像,初始注意力特征图像上有输入特征图像上各个像素点的注意力值;
根据初始注意力特征图像将输入特征图像分成前景区域、中景区域和后景区域,前景区域的像素点的平均注意力值大于中景区域的像素点的平均注意力值,中景区域的像素点的平均注意力值大于后景区域的像素点的平均注意力值;
对前景区域进行边长为b的正方形区块划分,对中景区域进行边长为c的正方形区块划分,对后景区域进行边长为d的正方形区块划分,生成第一区块特征图像,b小于c,c小于d;
将第一区块特征图像进行复制,并将所有划分的区块向下平移b/2向右平移b/2,生成第二区块特征图像;
对第一区块特征图像和第二区块特征图像进行区块窗口补齐处理和像素点0值填充处理。
可选的,像素注意力生成模块包括BatchNorm-Conv-ReLU层、BatchNorm-Conv层和SigMoid函数层;
通过区块像素注意力生成模块为第一区块特征图像和第二区块特征图像的区块窗口进行注意力计算,生成第一区块注意力特征图像和第二区块注意力特征图像,包括:
通过像素注意力生成模块中的BatchNorm-Conv-ReLU层将第一区块特征图像中每一个区块窗口单独进行特征通道压缩,生成压缩特征集合;
通过像素注意力生成模块中的BatchNorm-Conv层将压缩特征集合中每一个压缩特征还原成与对应区块窗口大小相同的特征矩阵,生成特征矩阵集合;
通过像素注意力生成模块中的SigMoid函数层为特征矩阵集合中每一个特征矩阵中的每一个像素点计算注意力值,并拼接组合生成第一区块注意力特征图像;
根据上述对第一区块特征图像进行的处理方式处理第二区块特征图像,生成第二区块注意力特征图像。
本申请第二方面提供了一种图像的卷积装置,包括:
第一获取单元,用于获取卷积单元,卷积单元包括像素注意力生成模块和特征卷积模块;
第二获取单元,用于获取一张输入特征图像,输入特征图像为输入卷积神经网络模型中进行训练中的图像;
划分单元,用于将输入特征图像通过不同的划分方式分别进行区块划分,生成具有多个区块窗口的第一区块特征图像和第二区块特征图像,第一区块特征图像上任一个区块窗口的任一条边界都处于第二区块特征图像上某一个区块窗口内部;
第一输入单元,将第一区块特征图像和第二区块特征图像输入区块像素注意力生成模块中;
第一生成单元,用于通过区块像素注意力生成模块为第一区块特征图像和第二区块特征图像的区块窗口进行注意力计算,生成第一区块注意力特征图像和第二区块注意力特征图像,第一区块注意力特征图像和第二区块注意力特征图像上有输入特征图像上像素点的注意力值;
第二输入单元,用于将第一区块特征图像、第二区块特征图像、第一区块注意力特征图像和第二区块注意力特征图像输入特征卷积模块;
第二生成单元,用于使用特征卷积模块并根据第一区块注意力特征图像中的注意力值对第一区块特征图像上的像素点进行筛选卷积处理,生成第一卷积图像;
第三生成单元,用于使用特征卷积模块并根据第二区块注意力特征图像中的注意力值对第二区块特征图像上的像素点进行筛选卷积处理,生成第二卷积图像;
第四生成单元,用于将第一卷积图像和第二卷积图像进行通道维度交错叠加操作和卷积操作,生成目标卷积图像。
可选的,划分单元,包括:
划分模块,用于将输入特征图像划分成至少两块大小相同但互不重合的正方形区块窗口,生成第一区块特征图像,正方形区块窗口边长为d;
生成模块,用于将第一区块特征图像进行复制,并将复制的第一区块特征图像中每一个正方形区块窗口向下偏移d/2,再向右偏移d/2,生成第二区块特征图像;
补齐模块,用于对第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理。
可选的,划分单元还包括:
填充模块,用于当正方形区块窗口超出输入特征图像的有效范围时,对正方形区块窗口超出的部分进行像素点0值填充处理。
可选的,第二生成单元,包括:
对第一区块特征图像进行实例标准化处理;
将实例标准化处理后的第一区块特征图像与第一区块注意力特征图像对应元素相乘,生成第一初始卷积图像;
对第一初始卷积图像进行区块卷积,生成第一卷积图像。
可选的,第三生成单元,包括:
对第二区块特征图像进行实例标准化处理;
将实例标准化处理后的第二区块特征图像与第二区块注意力特征图像对应元素相乘,生成第二初始卷积图像;
对第二初始卷积图像进行区块卷积,生成第二卷积图像。
可选的,划分单元,包括:
将输入特征图像输入区块像素注意力生成模块中,生成初始注意力特征图像,初始注意力特征图像上有输入特征图像上各个像素点的注意力值;
根据初始注意力特征图像将输入特征图像分成前景区域、中景区域和后景区域,前景区域的像素点的平均注意力值大于中景区域的像素点的平均注意力值,中景区域的像素点的平均注意力值大于后景区域的像素点的平均注意力值;
对前景区域进行边长为b的正方形区块划分,对中景区域进行边长为c的正方形区块划分,对后景区域进行边长为d的正方形区块划分,生成第一区块特征图像,b小于c,c小于d;
将第一区块特征图像进行复制,并将所有划分的区块向下平移b/2向右平移b/2,生成第二区块特征图像;
对第一区块特征图像和第二区块特征图像进行区块窗口补齐处理和像素点0值填充处理。
可选的,像素注意力生成模块包括BatchNorm-Conv-ReLU层、BatchNorm-Conv层和SigMoid函数层;
第一生成单元,包括:
通过像素注意力生成模块中的BatchNorm-Conv-ReLU层将第一区块特征图像中每一个区块窗口单独进行特征通道压缩,生成压缩特征集合;
通过像素注意力生成模块中的BatchNorm-Conv层将压缩特征集合中每一个压缩特征还原成与对应区块窗口大小相同的特征矩阵,生成特征矩阵集合;
通过像素注意力生成模块中的SigMoid函数层为特征矩阵集合中每一个特征矩阵中的每一个像素点计算注意力值,并拼接组合生成第一区块注意力特征图像;
根据上述对第一区块特征图像进行的处理方式处理第二区块特征图像,生成第二区块注意力特征图像。
本申请第三方面提供了一种电子设备,包括:
处理器、存储器、输入输出单元以及总线;
处理器与存储器、输入输出单元以及总线相连;
存储器保存有程序,处理器调用程序以执行如第一方面以及第一方面的任意可选的卷积方法。
本申请第四方面提供了一种计算机可读存储介质,计算机可读存储介质上保存有程序,程序在计算机上执行时执行如第一方面以及第一方面的任意可选的卷积方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本发明中,首先获取卷积单元,卷积单元包括像素注意力生成模块和特征卷积模块。再获取输入特征图像,其中,输入特征图像为输入卷积神经网络模型中进行训练中的图像。先将输入特征图像通过不同的划分方式分别进行区块划分,生成具有多个区块窗口的第一区块特征图像和第二区块特征图像,第一区块特征图像上的区块窗口和第二区块特征图像上任一个区块窗口不重合,即第一区块特征图像上任一个区块窗口的边界都处于第二区块特征图像上某一个区块窗口内。
将第一区块特征图像和第二区块特征图像输入区块像素注意力生成模块中,并且通过区块像素注意力生成模块为第一区块特征图像和第二区块特征图像的区块窗口进行注意力计算,生成第一区块注意力特征图像和第二区块注意力特征图像,第一区块注意力特征图像和第二区块注意力特征图像上有输入特征图像上像素点的注意力值,这样能够就在单独的区块中对像素点进行注意力的计算。在区块窗口中心的像素点的注意力值计算更合理,能够计算到附近多个方向的像素点的特征信息与其特征信息的关联性。但是,在边界的像素点的注意力值就不合理了,例如该区块窗口中最右侧的像素点只有左侧的部分像素点能够进行注意力值计算,这时,通过第二区块特征图像的区块窗口进行注意力计算,可以解决这种不合理的情况,由于第一区块特征图像上的区块窗口和第二区块特征图像上任一个区块窗口不重合,即第一区块特征图像上任一个区块窗口的边界都处于第二区块特征图像上某一个区块窗口内,在第一区块特征图像上处于边界的像素点在第二区块特征图像上就不处于边界。
接下来,将第一区块特征图像、第二区块特征图像、第一区块注意力特征图像和第二区块注意力特征图像输入特征卷积模块,使用特征卷积模块并根据第一区块注意力特征图像中的注意力值对第一区块特征图像上的像素点进行筛选卷积处理,生成第一卷积图像,使用特征卷积模块并根据第二区块注意力特征图像中的注意力值对第二区块特征图像上的像素点进行筛选卷积处理,生成第二卷积图像。最后将第一卷积图像和第二卷积图像进行通道维度交错叠加操作和卷积操作,生成目标卷积图像。本发明一方面利用图像中各区块窗口自身像素的注意力,减少了整张图像其他区块像素的影响,使得注意力计算更加关注自身区块窗口内的像素,减小远处图像无关像素的影响,使得卷积能更好的针对该区块窗口中特征较明显的部分,改进了传统卷积对所有像素一视同仁的做法,使得图像中更精细的区块部分中待处理物体相关的像素能更多地进入卷积操作,无关像素更少的被卷积捕获,提高卷积提取物体特征的效率,减少无关像素的干扰。另一方面,将整张图像分割成不重叠的小区块窗口,关注各个区域里的具体信息,减少其他区块窗口的影响,提高目标特征的关注度,降低了计算量,最后通过再一次区块窗口分割,使得第二次区块分割和第一次区块分割产生重叠,补足每次区块分割线处的特征信息。综上所述,本发明仅保留像素点周围关联性较大的像素点进行注意力计算和卷积操作,避免产生过多的无用信息,大大减少了计算量,提高卷积神经网络模型的训练效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请图像的卷积方法的一个实施例示意图;
图2-a为本申请图像的卷积方法的另一个实施例第一阶段示意图;
图2-b为本申请图像的卷积方法的另一个实施例第二阶段示意图;
图3-a为本申请图像的卷积方法的另一个实施例第一阶段示意图;
图3-b为本申请图像的卷积方法的另一个实施例第二阶段示意图;
图3-c为本申请图像的卷积方法的另一个实施例第三阶段示意图;
图4为本申请图像的卷积装置的一个实施例示意图;
图5为本申请图像的卷积装置的另一个实施例示意图;
图6为本申请电子设备的一个实施例示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
在现有技术中,在进行卷积神经网络模型的训练时,往往需要在卷积时尽可能保留输入特征图像中目标物体的像素点。因此,无论是可变形卷积还是空洞卷积,都只是考虑了图像像素值的大小,而输入特征图像图像像素值并不能很好地反映该像素在整幅图像中的重要性。在整个图像中,目标物体所在像素是重要的像素,在卷积过程中应该更多的加以关注并且尽可能保留下来,而背景像素则应该减少关注度,以防干扰目标物体的特征提取。目前存在一种图像的卷积方法,通过计算图像中各个像素相对于整个图像注意力,以此判断该像素的重要程度,通过该重要程度进行后续的卷积操作。
但是,该像素的注意力计算和卷积操作是针对整张图像所有的像素进行的,这就会造成一种不合理的情况发生。由于图像的特征信息分布在整个图像中,但各个像素的特征信息和该像素附近像素点(距离相近的像素点)的特征信息有较大的关联,和图像较远部分的像素信息关系较小,因此传统的注意力计算和卷积操作不仅会得到很多无用信息,也会大大增加计算量,进而降低了卷积神经网络模型的训练效果。
基于此,本申请公开了一种图像的卷积方法、装置、电子设备和存储介质,用于提高卷积神经网络模型的训练效果。
下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的方法可以应用于服务器、设备、终端或者其它具备逻辑处理能力的设备,对此,本申请不作限定。为方便描述,下面以执行主体为终端为例进行描述。
请参阅图1,本申请提供了一种图像的卷积方法的一个实施例,包括:
101、获取卷积单元,卷积单元包括像素注意力生成模块和特征卷积模块;
终端获取卷积单元,其中,卷积单元包括像素注意力生成模块和特征卷积模块,像素注意力生成模块用于将输入特征图像上的像素点进行注意力判断,确定哪一些像素点的重要性更高,并为每一个像素点生成一个专属的注意力值。
特征卷积模块用于配合注意力生成模块输出的注意力值,对输入特征图像上的像素点进行卷积操作。
102、获取输入特征图像,输入特征图像为输入卷积神经网络模型中进行训练中的图像;
终端获取输入特征图像,输入特征图像为输入卷积神经网络模型中进行训练中的图像。需要说明的是,输入特征图像可以是一张完整的图像,也可以只是卷积神经网络模型中某一层对图像进行处理后生成的特征数据,本实施例中统一将其称为输入特征图像。
103、将输入特征图像通过不同的划分方式分别进行区块划分,生成具有多个区块窗口的第一区块特征图像和第二区块特征图像,第一区块特征图像上任一个区块窗口的任一条边界都处于第二区块特征图像上某一个区块窗口内部;
终端将输入特征图像通过不同的划分方式分别进行区块划分,目的是生成两个具有不同区块窗口的图像,使得像素按照一定规则分组,生成具有多个区块窗口的第一区块特征图像和第二区块特征图像。其中,第一区块特征图像上任一个区块窗口的任一条边界都处于第二区块特征图像上某一个区块窗口内部,也就是说任何像素点在第一区块特征图像或在第二区块特征图像上,至少能找到一个区块窗口,使得该像素点处于该区块窗口的内部,而不处于该区块窗口的边界上。如此一来,每一个像素点都可以在计算注意力值和卷积操作过程中,仅考虑四周一定范围内的像素点的特征信息,而不会考虑该像素点所为位于的区块窗口外的像素点的特征信息,并且该像素点处于该区块窗口内部(不包含该区块窗口的边界)。
如果仅使用一张输入特征图形进行区块窗口的划分,则会有部分像素点处于区块窗口的边界上或者属于靠近边界的几行像素点,这时进行注意力计算或者卷积操作就会只考虑边界某一侧的像素点的特征信息,造成数据不合理不准确。所以本实施例中,需要至少使用两张划分区块窗口的图像。
104、将第一区块特征图像和第二区块特征图像输入区块像素注意力生成模块中;
105、通过区块像素注意力生成模块为第一区块特征图像和第二区块特征图像的区块窗口进行注意力计算,生成第一区块注意力特征图像和第二区块注意力特征图像,第一区块注意力特征图像和第二区块注意力特征图像上有输入特征图像上像素点的注意力值;
终端将第一区块特征图像和第二区块特征图像输入注意力生成模块中,生成第一区块注意力特征图像和第二区块注意力特征图像,第一区块注意力特征图像和第二区块注意力特征图像上有输入特征图像上像素点的注意力值。
深度学习注意力(attention)机制是对人类视觉注意力机制的仿生,本质上是一种资源分配机制。生理原理就是人类视觉注意力能够以高分辨率接收于图片上的某个区域,并且以低分辨率感知其周边区域,并且视点能够随着时间而改变。换而言之,就是人眼通过快速扫描全局图像,找到需要关注的目标区域,然后对这个区域分配更多注意,目的在于获取更多细节信息和抑制其他无用信息。提高卷积单元representation卷积单元的高效性。
在卷积神经网络模型中,attention机制可以它认为是一种资源分配的机制,可以理解为对于原本平均分配的资源根据attention对象的重要程度重新分配资源,重要的单位就多分一点,不重要或者不好的单位就少分一点,在深度神经网络的结构设计中,attention所要分配的资源基本上就是权重了。
106、将第一区块特征图像、第二区块特征图像、第一区块注意力特征图像和第二区块注意力特征图像输入特征卷积模块;
终端将第一区块特征图像、第二区块特征图像、第一区块注意力特征图像和第二区块注意力特征图像输入特征卷积模块,各自进行数据处理生成卷积图像。
107、使用特征卷积模块并根据第一区块注意力特征图像中的注意力值对第一区块特征图像上的像素点进行筛选卷积处理,生成第一卷积图像;
卷积的过程是通过滑动窗口从上到下,从左到右对输入特征图像进行遍历,每次遍历的结果为相应位置元素的加权求和。
可以看作对某个局部的加权求和;它是对应局部感知,它的原理是在观察某个物体时我们既不能观察每个像素也不能一次观察整体,而是先从局部开始认识,这就对应了卷积。卷积核的大小一般有1x1,3x3和5x5的尺寸(一般是奇数x奇数)。例如:输入224x224x3(rgb三通道),输出是32位深度,卷积核尺寸为5x5。那么我们需要32个卷积核,每一个的尺寸为5x5x3(最后的3就是原图的rgb位深3),每一个卷积核的每一层是5x5(共3层)分别与原图的每层224x224卷积,然后将得到的三张新图叠加(算术求和),变成一张新的featuremap。每一个卷积核都这样操作,就可以得到32张新的feature map(特征卷积图像)了。
上式中,D是深度,F是卷积核的大小,wd,m,n表示卷积核第d层第m行第n列的权重,x(d,i+m,j+n)是偏移量,卷积核是在图像上移动进行卷积的这个公式结果是一个卷积核的一层输出,ai,j表示图像的第d层第i行第j列的像素,wb为偏置。
108、使用特征卷积模块并根据第二区块注意力特征图像中的注意力值对第二区块特征图像上的像素点进行筛选卷积处理,生成第二卷积图像;
本实施例中,步骤108与步骤107类似,此处不做赘述。
109、将第一卷积图像和第二卷积图像进行通道维度交错叠加操作和卷积操作,生成目标卷积图像。
终端将第一卷积图像和第二卷积图像进行通道维度交错叠加操作和卷积操作,生成目标卷积图像。具体为,由于第一卷积图像和第二卷积图像都存在处于区块窗口边界的数据,故需要进行整合,进行通道维度交错叠加操作,将两张卷积图像的边界信息和非边界信息进行处理,再进行一次1*1卷积核的卷积操作,作为特征降维融合。
需要说明的是,本实施例中的卷积方法可以在卷积神经网络中叠加使用,构成金字塔层级结构,重复层次区块窗口注意力的卷积步骤,可以大大提高图像特征保留效率。
本实施例中,首先获取卷积单元,卷积单元包括像素注意力生成模块和特征卷积模块。再获取输入特征图像,其中,输入特征图像为输入卷积神经网络模型中进行训练中的图像。先将输入特征图像通过不同的划分方式分别进行区块划分,生成具有多个区块窗口的第一区块特征图像和第二区块特征图像,第一区块特征图像上的区块窗口和第二区块特征图像上任一个区块窗口不重合,即第一区块特征图像上任一个区块窗口的边界都处于第二区块特征图像上某一个区块窗口内。
将第一区块特征图像和第二区块特征图像输入区块像素注意力生成模块中,并且通过区块像素注意力生成模块为第一区块特征图像和第二区块特征图像的区块窗口进行注意力计算,生成第一区块注意力特征图像和第二区块注意力特征图像,第一区块注意力特征图像和第二区块注意力特征图像上有输入特征图像上像素点的注意力值,这样能够就在单独的区块中对像素点进行注意力的计算。在区块窗口中心的像素点的注意力值计算更合理,能够计算到附近多个方向的像素点的特征信息与其特征信息的关联性。但是,在边界的像素点的注意力值就不合理了,例如该区块窗口中最右侧的像素点只有左侧的部分像素点能够进行注意力值计算,这时,通过第二区块特征图像的区块窗口进行注意力计算,可以解决这种不合理的情况,由于第一区块特征图像上的区块窗口和第二区块特征图像上任一个区块窗口不重合,即第一区块特征图像上任一个区块窗口的边界都处于第二区块特征图像上某一个区块窗口内,在第一区块特征图像上处于边界的像素点在第二区块特征图像上就不处于边界。
接下来,将第一区块特征图像、第二区块特征图像、第一区块注意力特征图像和第二区块注意力特征图像输入特征卷积模块,使用特征卷积模块并根据第一区块注意力特征图像中的注意力值对第一区块特征图像上的像素点进行筛选卷积处理,生成第一卷积图像,使用特征卷积模块并根据第二区块注意力特征图像中的注意力值对第二区块特征图像上的像素点进行筛选卷积处理,生成第二卷积图像。最后将第一卷积图像和第二卷积图像进行通道维度交错叠加操作和卷积操作,生成目标卷积图像。本发明一方面利用图像中各区块窗口自身像素的注意力,减少了整张图像其他区块像素的影响,使得注意力计算更加关注自身区块窗口内的像素,减小远处图像无关像素的影响,使得卷积能更好的针对该区块窗口中特征较明显的部分,改进了传统卷积对所有像素一视同仁的做法,使得图像中更精细的区块部分中待处理物体相关的像素能更多地进入卷积操作,无关像素更少的被卷积捕获,提高卷积提取物体特征的效率,减少无关像素的干扰。另一方面,将整张图像分割成不重叠的小区块窗口,关注各个区域里的具体信息,减少其他区块窗口的影响,提高目标特征的关注度,降低了计算量,最后通过再一次区块窗口分割,使得第二次区块分割和第一次区块分割产生重叠,补足每次区块分割线处的特征信息。综上所述,本发明仅保留像素点周围关联性较大的像素点进行注意力计算和卷积操作,避免产生过多的无用信息,大大减少了计算量,提高卷积神经网络模型的训练效果。
请参阅图2-a和图2-b,本申请提供了一种图像的卷积方法的一个实施例,包括:
201、获取卷积单元,卷积单元包括像素注意力生成模块和特征卷积模块;
202、获取输入特征图像,输入特征图像为输入卷积神经网络模型中进行训练中的图像;
本实施例中的步骤201至202与前述实施例中步骤101至102类似,此处不再赘述。
203、将输入特征图像划分成至少两块大小相同但互不重合的正方形区块窗口,生成第一区块特征图像,正方形区块窗口边长为d;
204、将第一区块特征图像进行复制,并将复制的第一区块特征图像中每一个正方形区块窗口向下偏移d/2,再向右偏移d/2,生成第二区块特征图像;
205、对第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理;
206、当正方形区块窗口超出输入特征图像的有效范围时,对正方形区块窗口超出的部分进行像素点0值填充处理;
本实施例中,可以通过输入特征图像的图像大小进行第一次区块窗口的划分,终端将输入特征图像划分成至少两块大小相同但互不重合的正方形区块窗口,生成第一区块特征图像,正方形区块窗口边长为d。并且终端将第一区块特征图像进行复制,生成新的图像,并将复制的第一区块特征图像中每一个正方形区块窗口向下偏移d/2,再向右偏移d/2,生成第二区块特征图像。这样子的两个区块特征图像的区块窗口均不处于重合的状态,且区块窗口的边界也不会重合,使得每一个像素点在至少其中一个区块特征图像中不会处于边界上。
终端对第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理,主要用于将位移后左边的空缺补充上,并且终端会进行判断,当正方形区块窗口超出输入特征图像的有效范围时,对正方形区块窗口超出的部分进行像素点0值填充处理。这是因为,给输入特征图像构造区块窗口时,为了将输入特征图像全部囊括,部分区块窗口可能有一部分超过了输入特征图像原有的部分,该部分的像素点需要进行补齐,通过像素点0值填充处理,可以不影响注意力值的计算和卷积操作。
207、将第一区块特征图像和第二区块特征图像输入区块像素注意力生成模块中;
本实施例中的步骤207与前述实施例中步骤104类似,此处不再赘述。
208、通过像素注意力生成模块中的BatchNorm-Conv-ReLU层将第一区块特征图像中每一个区块窗口单独进行特征通道压缩,生成压缩特征集合;
209、通过像素注意力生成模块中的BatchNorm-Conv层将压缩特征集合中每一个压缩特征还原成与对应区块窗口大小相同的特征矩阵,生成特征矩阵集合;
210、通过像素注意力生成模块中的SigMoid函数层为特征矩阵集合中每一个特征矩阵中的每一个像素点计算注意力值,并拼接组合生成第一区块注意力特征图像;
211、根据上述对第一区块特征图像进行的处理方式处理第二区块特征图像,生成第二区块注意力特征图像;
终端通过像素注意力生成模块中的BatchNorm-Conv-ReLU层将第一区块特征图像中每一个区块窗口单独进行特征通道压缩,生成压缩特征集合,并且通过像素注意力生成模块中的BatchNorm-Conv层将压缩特征集合中每一个压缩特征还原成与对应区块窗口大小相同的特征矩阵,生成特征矩阵集合,最后终端通过像素注意力生成模块中的SigMoid函数层为特征矩阵集合中每一个特征矩阵中的每一个像素点计算注意力值,并拼接组合生成第一区块注意力特征图像。并根据上述对第一区块特征图像进行的处理方式处理第二区块特征图像,生成第二区块注意力特征图像。
具体的,在本实施例中,终端首先需要通过像素注意力生成模块中的BatchNorm-3*3Conv-ReLU层将第一区块特征图像和第二区块特征图像进行特征通道压缩,生成压缩特征集合,并且通过像素注意力生成模块中的BatchNorm-3*3Conv层将压缩特征集合还原成与输入特征图像大小相同的特征矩阵集合,最后终端通过像素注意力生成模块中的SigMoid函数为特征矩阵中每一个像素点计算注意力值,生成注意力特征图像。BatchNorm-3*3Conv-ReLU层是一个最合适的大小,由于第一区块特征图像和第二区块特征图像中的像素点存在差异,不能使用BatchNorm-1*1Conv-ReLU层,否则会使得卷积工作增加。
212、将第一区块特征图像、第二区块特征图像、第一区块注意力特征图像和第二区块注意力特征图像输入特征卷积模块;
本实施例中的步骤212与前述实施例中步骤104类似,此处不再赘述。
213、对第一区块特征图像进行实例标准化处理;
214、将实例标准化处理后的第一区块特征图像与第一区块注意力特征图像对应元素相乘,生成第一初始卷积图像;
215、对第一初始卷积图像进行区块卷积,生成第一卷积图像;
终端对第一区块特征图像进行实例标准化处理(IN,Instance Normalization),然后将实例标准化处理后的第一区块特征图像与第一区块注意力特征图像对应元素相乘,生成第一初始卷积图像,最后对第一初始卷积图像进行区块卷积,即可生成第一卷积图像。即针对每个区块窗口独立进行卷积操作,每个区块共享同一组卷积核,将各个区块卷积结果做拼接作为最终输出。
具体的,对第一初始卷积图像进行区块卷积的方式如下:
一、根据所述注意力感受野在第一初始卷积图像上确定待筛选区域;
二、根据预设卷积核的作用范围和第一区块注意力特征图像在待筛选区域上选取注意力值符合预设阈值的像素点集合;
三、根据像素点集合的第一注意力值集合和所述待筛选区域上其他像素点的第二注意力值集合进行计算,生成注意力差值;
四、当注意力差值小于预设阈值时,重新设置注意力感受野和预设卷积核的作用范围;
五、将所述注意力值符合预设阈值的像素点集合进行像素筛选拼接处理,生成大小和所述预设卷积核的作用范围相同的变形特征;
六、通过预设卷积核对所述变形特征进行卷积处理,生成第一卷积图像。
本实施例中,终端根据所述注意力感受野在第一初始卷积图像确定待筛选区域,即感受野确定需要卷积的区域。接着终端根据所述预设卷积核的作用范围和所述第一区块注意力特征图像在所述待筛选区域上选取所述注意力值符合预设阈值的像素点集合,终端根据所述像素点集合的第一注意力值集合和所述待筛选区域上其他像素点的第二注意力值集合进行计算,生成注意力差值,即判断当前所选择的区域中像素点的差异程度是否太小,如果太小,则终端需要重新设置注意力感受野和预设卷积核的作用范围,以使得增加待筛选区域,使得更具有意义的像素点融入进来。
除了上述方式之外,本实施例中所使用的一般方式为,通过感受野获取到待筛选区域之后,根据卷积核的作用范围大小来确定需要多少个像素点,通过待筛选区域中选取出注意力值最大的像素点,拼接成为新的卷积区域。
例如:3*3卷积核感受野和5*5卷积核感受野,待筛选区域中有25个像素点和25个注意力值,从这25个像素点中选取9个注意力值最大的像素点拼接成新的卷积区域。
并且,本实施例中,当着9个像素点和其他16个像素点的差异不大时,则需要增加感受野的大小重新进行像素点的筛选。
终端将所述注意力值符合预设阈值的像素点集合进行像素筛选拼接处理,生成大小和所述预设卷积核的作用范围相同的变形特征,并且通过所述预设卷积核对所述变形特征进行卷积处理,生成第一卷积图像。
216、对第二区块特征图像进行实例标准化处理;
217、将实例标准化处理后的第二区块特征图像与第二区块注意力特征图像对应元素相乘,生成第二初始卷积图像;
218、对第二初始卷积图像进行区块卷积,生成第二卷积图像;
本实施例中,步骤216至步骤218与步骤213至步骤215类似,此处不做赘述。
219、将第一卷积图像和第二卷积图像进行通道维度交错叠加操作和卷积操作,生成目标卷积图像。
本实施例中,步骤219与步骤109类似,此处不做赘述。
本实施例中,终端获取卷积单元,卷积单元包括像素注意力生成模块和特征卷积模块。再获取输入特征图像,其中,输入特征图像为输入卷积神经网络模型中进行训练中的图像。终端将输入特征图像划分成至少两块大小相同但互不重合的正方形区块窗口,生成第一区块特征图像,其中正方形区块窗口边长为d,终端将第一区块特征图像进行复制,并将复制的第一区块特征图像中每一个正方形区块窗口向下偏移d/2,再向右偏移d/2,生成第二区块特征图像,终端对第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理,当正方形区块窗口超出输入特征图像的有效范围时,对正方形区块窗口超出的部分进行像素点0值填充处理。
终端将第一区块特征图像和第二区块特征图像输入区块像素注意力生成模块中,并且终端通过像素注意力生成模块中的BatchNorm-Conv-ReLU层将第一区块特征图像中每一个区块窗口单独进行特征通道压缩,生成压缩特征集合,终端再通过像素注意力生成模块中的BatchNorm-Conv层将压缩特征集合中每一个压缩特征还原成与对应区块窗口大小相同的特征矩阵,生成特征矩阵集合,接下来,终端通过像素注意力生成模块中的SigMoid函数层为特征矩阵集合中每一个特征矩阵中的每一个像素点计算注意力值,并拼接组合生成第一区块注意力特征图像,根据上述对第一区块特征图像进行的处理方式处理第二区块特征图像,生成第二区块注意力特征图像。在区块窗口中心的像素点的注意力值计算更合理,能够计算到附近多个方向的像素点的特征信息与其特征信息的关联性。但是,在边界的像素点的注意力值就不合理了,例如该区块窗口中最右侧的像素点只有左侧的部分像素点能够进行注意力值计算,这时,通过第二区块特征图像的区块窗口进行注意力计算,可以解决这种不合理的情况,由于第一区块特征图像上的区块窗口和第二区块特征图像上任一个区块窗口不重合,即第一区块特征图像上任一个区块窗口的边界都处于第二区块特征图像上某一个区块窗口内,在第一区块特征图像上处于边界的像素点在第二区块特征图像上就不处于边界。
接下来,将第一区块特征图像、第二区块特征图像、第一区块注意力特征图像和第二区块注意力特征图像输入特征卷积模块,对第一区块特征图像进行实例标准化处理,将实例标准化处理后的第一区块特征图像与第一区块注意力特征图像对应元素相乘,生成第一初始卷积图像,对第一初始卷积图像进行区块卷积,生成第一卷积图像。对第二区块特征图像进行实例标准化处理,将实例标准化处理后的第二区块特征图像与第二区块注意力特征图像对应元素相乘,生成第二初始卷积图像,对第二初始卷积图像进行区块卷积,生成第二卷积图像。最后将第一卷积图像和第二卷积图像进行通道维度交错叠加操作和卷积操作,生成目标卷积图像。本发明一方面利用图像中各区块窗口自身像素的注意力,减少了整张图像其他区块像素的影响,使得注意力计算更加关注自身区块内的像素,减小远处图像无关像素的影响,使得卷积能更好的针对该区块窗口中特征较明显的部分,改进了传统卷积方法对所有像素一视同仁的做法,使得图像中更精细的区块窗口部分中待处理物体相关的像素能更多地进入卷积层操作,无关像素更少的被卷积层保留,提高卷积保留物体特征的效率,减少无关像素的干扰。另一方面,将整张图像分割成不重叠的小区块,关注各个区块里的具体信息,减少其他区块窗口的影响,提高目标特征的关注度,降低了计算量,最后通过再一次区块窗口分割,使得第二次区块分割和第一次区块分割产生重叠,补足每次区块窗口分割线处的特征信息。综上,本发明仅保留像素点周围关联性较大的像素点进行注意力计算和卷积操作,避免产生过多的无用信息,大大减少了计算量,提高卷积神经网络模型的训练效果。
其次,本实施例改进了传统卷积核对所有像素一视同仁以及感受野大小形状固定的弊端,再进行卷积之前,对输入特征图进行注意力计算,得到输入特征图像对应各像素的区块注意力特征图像,区块注意力特征图像和输入特征图像尺寸一致,其每个元素代表输入特征图中对应位置的像素在对应的区块窗口中的注意力值,即该像素在特征图像该区块窗口中所有像素点中的重要程度。注意力值为介于0和1之间的数,数值越大,重要性越高。注意力卷积核的感受野从传统的固定大小形状(比如3×3像素的正方形)扩展到了一定范围内(比如5×5像素)的大小形状可变感受野,从这个扩展范围(5×5像素)的原输入特征图区块内,选择对应注意力特征区块中注意力较高的3×3个位置,再从原输入特征区块对应位置取得3×3个像素,再进行卷积,使得注意力卷积核的感受野可在一定范围内大小形状可变,可以更好地匹配物体的外观特征,并且根据注意力更好的专注于更为重要的像素值,减少无关像素的干扰。
由于输入特征图像的各个区块窗口的注意力值是不同的,使用注意力卷积核在一张输入特征图上进行卷积操作时,每次操作时的卷积核感受野是不同的,改进了传统卷积核在输入特征图上每次使用同一种尺寸的感受野,使得注意力卷积核对于同一张输入特征图上不同大小尺寸的目标物件对应合适的感受野,对于同一张输入特征图上的不同大小形状的物件都能较好的提取特征。
本实施例注意力卷积核通过对输入特征图的处理,避免了对传统卷积核的修改,可以直接替换神经网络中原有的卷积核而无需修改网络结构,注意力特征图通过深度学习自主生成,可在神经网络的训练中同步进行而无需另外计算。
请参阅图3-a、图3-b和图3-c,本申请提供了一种图像的卷积方法的一个实施例,包括:
301、获取卷积单元,卷积单元包括像素注意力生成模块和特征卷积模块;
302、获取输入特征图像,输入特征图像为输入卷积神经网络模型中进行训练中的图像;
本实施例中的步骤301至302与前述实施例中步骤101至102类似,此处不再赘述。
303、将输入特征图像输入区块像素注意力生成模块中,生成初始注意力特征图像,初始注意力特征图像上有输入特征图像上各个像素点的注意力值;
304、根据初始注意力特征图像将输入特征图像分成前景区域、中景区域和后景区域,前景区域的像素点的平均注意力值大于中景区域的像素点的平均注意力值,中景区域的像素点的平均注意力值大于后景区域的像素点的平均注意力值;
305、对前景区域进行边长为b的正方形区块划分,对中景区域进行边长为c的正方形区块划分,对后景区域进行边长为d的正方形区块划分,生成第一区块特征图像,b小于c,c小于d;
306、将第一区块特征图像进行复制,并将所有划分的区块向下平移b/2向右平移b/2,生成第二区块特征图像;
307、对第一区块特征图像和第二区块特征图像进行区块窗口补齐处理和像素点0值填充处理;
终端将输入特征图像输入区块像素注意力生成模块中,生成初始注意力特征图像,初始注意力特征图像上有输入特征图像上各个像素点的注意力值。即先针对整张输入特征图像进行初步的注意力计算,寻找注意力更大去像素区域,并根据这个区域进行划分区块窗口,划分一个正方形窗口。本实施例中,终端将输入特征图像输入区块像素注意力生成模块中,生成初始注意力特征图像,初始注意力特征图像上有输入特征图像上各个像素点的注意力值,这里的初始注意力特征图像和区块划分后的第一区块注意力特征图像不同,初始注意力特征图像是针对一个像素点与整张图像的像素点进行对比,比较该像素点对于其他所有像素点的重要性,当这个像素点相对于所有像素点都显得重要时,可以确定该像素点在区块划分后也是重要的。而第一区块注意力特征图像和第二区块注意力特征图像的像素点是按照区块划分后,仅对比像素点和区块窗口内像素点的重要性,其余像素点不考虑。
终端获取到初始注意力特征图像之后,对所有的像素点进行分层,即根据每一个像素点对应的注意力值进行分级。具体的,目标像素点结合其相邻的4个像素点和对角的4个像素点的注意力值和像素值,计算该像素点相对注意力值。再将相对注意力值达到第一预设阈值的像素点进行归类,归类为为前景区域,相对注意力值未达到第一预设阈值但达到第二预设阈值的像素点归类为中景区域,其余的像素点均为低于第二预设阈值的,归类为后景区域。接下来就是对前景区域进行边长为b的正方形区块划分,对中景区域进行边长为c的正方形区块划分,对后景区域进行边长为d的正方形区块划分,生成第一区块特征图像,b小于c,c小于d,即对于重点的像素点需要用进行详细的卷积,因此进行区块窗口的划分时,需要使用较小的区块窗口。中景区域使用相对大一些的区块窗口,后景区域则使用更大的区块窗口进行划分。其中,前景区域和中景区域相邻的部分,使用边长为b的正方形区块划分,将所有的前景区域的像素点进行细致的区块窗口划分和卷积操作。
并且,终端将第一区块特征图像进行复制,并将所有划分的区块向下平移b/2向右平移b/2,生成第二区块特征图像,最后对第一区块特征图像和第二区块特征图像进行区块窗口补齐处理和像素点0值填充处理。
308、将第一区块特征图像和第二区块特征图像输入区块像素注意力生成模块中;
309、通过像素注意力生成模块中的BatchNorm-Conv-ReLU层将第一区块特征图像中每一个区块窗口单独进行特征通道压缩,生成压缩特征集合;
310、通过像素注意力生成模块中的BatchNorm-Conv层将压缩特征集合中每一个压缩特征还原成与对应区块窗口大小相同的特征矩阵,生成特征矩阵集合;
311、通过像素注意力生成模块中的SigMoid函数层为特征矩阵集合中每一个特征矩阵中的每一个像素点计算注意力值,并拼接组合生成第一区块注意力特征图像;
312、根据上述对第一区块特征图像进行的处理方式处理第二区块特征图像,生成第二区块注意力特征图像;
313、将第一区块特征图像、第二区块特征图像、第一区块注意力特征图像和第二区块注意力特征图像输入特征卷积模块;
314、对第一区块特征图像进行实例标准化处理;
315、将实例标准化处理后的第一区块特征图像与第一区块注意力特征图像对应元素相乘,生成第一初始卷积图像;
316、对第一初始卷积图像进行区块卷积,生成第一卷积图像;
317、对第二区块特征图像进行实例标准化处理;
318、将实例标准化处理后的第二区块特征图像与第二区块注意力特征图像对应元素相乘,生成第二初始卷积图像;
319、对第二初始卷积图像进行区块卷积,生成第二卷积图像;
320、将第一卷积图像和第二卷积图像进行通道维度交错叠加操作和卷积操作,生成目标卷积图像。
本实施例中,步骤308至步骤320与步骤207至步骤219类似,此处不做赘述。
本实施例中,终端获取卷积单元,卷积单元包括像素注意力生成模块和特征卷积模块。再获取输入特征图像,其中,输入特征图像为输入卷积神经网络模型中进行训练中的图像。终端将输入特征图像输入区块像素注意力生成模块中,生成初始注意力特征图像,初始注意力特征图像上有输入特征图像上各个像素点的注意力值,根据初始注意力特征图像将输入特征图像分成前景区域、中景区域和后景区域,前景区域的像素点的平均注意力值大于中景区域的像素点的平均注意力值,中景区域的像素点的平均注意力值大于后景区域的像素点的平均注意力值。对前景区域进行边长为b的正方形区块划分,对中景区域进行边长为c的正方形区块划分,对后景区域进行边长为d的正方形区块划分,生成第一区块特征图像,b小于c,c小于d。将第一区块特征图像进行复制,并将所有划分的区块向下平移b/2向右平移b/2,生成第二区块特征图像。对第一区块特征图像和第二区块特征图像进行区块窗口补齐处理和像素点0值填充处理。
终端将第一区块特征图像和第二区块特征图像输入区块像素注意力生成模块中,并且终端通过像素注意力生成模块中的BatchNorm-Conv-ReLU层将第一区块特征图像中每一个区块窗口单独进行特征通道压缩,生成压缩特征集合,终端再通过像素注意力生成模块中的BatchNorm-Conv层将压缩特征集合中每一个压缩特征还原成与对应区块窗口大小相同的特征矩阵,生成特征矩阵集合,接下来,终端通过像素注意力生成模块中的SigMoid函数层为特征矩阵集合中每一个特征矩阵中的每一个像素点计算注意力值,并拼接组合生成第一区块注意力特征图像,根据上述对第一区块特征图像进行的处理方式处理第二区块特征图像,生成第二区块注意力特征图像。在区块窗口中心的像素点的注意力值计算更合理,能够计算到附近多个方向的像素点的特征信息与其特征信息的关联性。但是,在边界的像素点的注意力值就不合理了,例如该区块窗口中最右侧的像素点只有左侧的部分像素点能够进行注意力值计算,这时,通过第二区块特征图像的区块窗口进行注意力计算,可以解决这种不合理的情况,由于第一区块特征图像上的区块窗口和第二区块特征图像上任一个区块窗口不重合,即第一区块特征图像上任一个区块窗口的边界都处于第二区块特征图像上某一个区块窗口内,在第一区块特征图像上处于边界的像素点在第二区块特征图像上就不处于边界。
接下来,将第一区块特征图像、第二区块特征图像、第一区块注意力特征图像和第二区块注意力特征图像输入特征卷积模块,对第一区块特征图像进行实例标准化处理,将实例标准化处理后的第一区块特征图像与第一区块注意力特征图像对应元素相乘,生成第一初始卷积图像,对第一初始卷积图像进行区块卷积,生成第一卷积图像。对第二区块特征图像进行实例标准化处理,将实例标准化处理后的第二区块特征图像与第二区块注意力特征图像对应元素相乘,生成第二初始卷积图像,对第二初始卷积图像进行区块卷积,生成第二卷积图像。最后将第一卷积图像和第二卷积图像进行通道维度交错叠加操作和卷积操作,生成目标卷积图像。本发明一方面利用图像中各区块窗口自身像素的注意力,减少了整张图像其他区块像素的影响,使得注意力计算更加关注自身区块内的像素,减小远处图像无关像素的影响,使得卷积能更好的针对该区块窗口中特征较明显的部分,改进了传统卷积方法对所有像素一视同仁的做法,使得图像中更精细的区块窗口部分中待处理物体相关的像素能更多地进入卷积层操作,无关像素更少的被卷积层保留,提高卷积保留物体特征的效率,减少无关像素的干扰。另一方面,将整张图像分割成不重叠的小区块,关注各个区块里的具体信息,减少其他区块窗口的影响,提高目标特征的关注度,降低了计算量,最后通过再一次区块窗口分割,使得第二次区块分割和第一次区块分割产生重叠,补足每次区块窗口分割线处的特征信息。综上,本发明仅保留像素点周围关联性较大的像素点进行注意力计算和卷积操作,避免产生过多的无用信息,大大减少了计算量,提高卷积神经网络模型的训练效果。
其次,通过先划分前景区域、中景区域和后景区域,使得优先划分出较为重要的区域,对较为重要的区域进行重点划分,和卷积操作,增加了可靠性。
请参阅图4,本申请提供了一种图像的卷积装置的一个实施例,包括:
第一获取单元401,用于获取卷积单元,卷积单元包括像素注意力生成模块和特征卷积模块;
第二获取单元402,用于获取一张输入特征图像,输入特征图像为输入卷积神经网络模型中进行训练中的图像;
划分单元403,用于将输入特征图像通过不同的划分方式分别进行区块划分,生成具有多个区块窗口的第一区块特征图像和第二区块特征图像,第一区块特征图像上任一个区块窗口的任一条边界都处于第二区块特征图像上某一个区块窗口内部;
第一输入单元404,将第一区块特征图像和第二区块特征图像输入区块像素注意力生成模块中;
第一生成单元405,用于通过区块像素注意力生成模块为第一区块特征图像和第二区块特征图像的区块窗口进行注意力计算,生成第一区块注意力特征图像和第二区块注意力特征图像,第一区块注意力特征图像和第二区块注意力特征图像上有输入特征图像上像素点的注意力值;
第二输入单元406,用于将第一区块特征图像、第二区块特征图像、第一区块注意力特征图像和第二区块注意力特征图像输入特征卷积模块;
第二生成单元407,用于使用特征卷积模块并根据第一区块注意力特征图像中的注意力值对第一区块特征图像上的像素点进行筛选卷积处理,生成第一卷积图像;
第三生成单元408,用于使用特征卷积模块并根据第二区块注意力特征图像中的注意力值对第二区块特征图像上的像素点进行筛选卷积处理,生成第二卷积图像;
第四生成单元409,用于将第一卷积图像和第二卷积图像进行通道维度交错叠加操作和卷积操作,生成目标卷积图像。
请参阅图5,本申请提供了一种图像的卷积装置的一个实施例,包括:
第一获取单元501,用于获取卷积单元,卷积单元包括像素注意力生成模块和特征卷积模块;
第二获取单元502,用于获取一张输入特征图像,输入特征图像为输入卷积神经网络模型中进行训练中的图像;
划分单元503,用于将输入特征图像通过不同的划分方式分别进行区块划分,生成具有多个区块窗口的第一区块特征图像和第二区块特征图像,第一区块特征图像上任一个区块窗口的任一条边界都处于第二区块特征图像上某一个区块窗口内部;
可选的,划分单元503,包括:
划分模块5031,用于将输入特征图像划分成至少两块大小相同但互不重合的正方形区块窗口,生成第一区块特征图像,正方形区块窗口边长为d;
生成模块5032,用于将第一区块特征图像进行复制,并将复制的第一区块特征图像中每一个正方形区块窗口向下偏移d/2,再向右偏移d/2,生成第二区块特征图像;
补齐模块5033,用于对第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理。
可选的,划分单元503还包括:
填充模块5034,用于当正方形区块窗口超出输入特征图像的有效范围时,对正方形区块窗口超出的部分进行像素点0值填充处理。
可选的,划分单元,包括:
将输入特征图像输入区块像素注意力生成模块中,生成初始注意力特征图像,初始注意力特征图像上有输入特征图像上各个像素点的注意力值;
根据初始注意力特征图像将输入特征图像分成前景区域、中景区域和后景区域,前景区域的像素点的平均注意力值大于中景区域的像素点的平均注意力值,中景区域的像素点的平均注意力值大于后景区域的像素点的平均注意力值;
对前景区域进行边长为b的正方形区块划分,对中景区域进行边长为c的正方形区块划分,对后景区域进行边长为d的正方形区块划分,生成第一区块特征图像,b小于c,c小于d;
将第一区块特征图像进行复制,并将所有划分的区块向下平移b/2向右平移b/2,生成第二区块特征图像;
对第一区块特征图像和第二区块特征图像进行区块窗口补齐处理和像素点0值填充处理。
第一输入单元504,将第一区块特征图像和第二区块特征图像输入区块像素注意力生成模块中;
第一生成单元505,用于通过区块像素注意力生成模块为第一区块特征图像和第二区块特征图像的区块窗口进行注意力计算,生成第一区块注意力特征图像和第二区块注意力特征图像,第一区块注意力特征图像和第二区块注意力特征图像上有输入特征图像上像素点的注意力值;
可选的,像素注意力生成模块包括BatchNorm-Conv-ReLU层、BatchNorm-Conv层和SigMoid函数层;
第一生成单元505,包括:
通过像素注意力生成模块中的BatchNorm-Conv-ReLU层将第一区块特征图像中每一个区块窗口单独进行特征通道压缩,生成压缩特征集合;
通过像素注意力生成模块中的BatchNorm-Conv层将压缩特征集合中每一个压缩特征还原成与对应区块窗口大小相同的特征矩阵,生成特征矩阵集合;
通过像素注意力生成模块中的SigMoid函数层为特征矩阵集合中每一个特征矩阵中的每一个像素点计算注意力值,并拼接组合生成第一区块注意力特征图像;
根据上述对第一区块特征图像进行的处理方式处理第二区块特征图像,生成第二区块注意力特征图像。
第二输入单元506,用于将第一区块特征图像、第二区块特征图像、第一区块注意力特征图像和第二区块注意力特征图像输入特征卷积模块;
第二生成单元507,用于使用特征卷积模块并根据第一区块注意力特征图像中的注意力值对第一区块特征图像上的像素点进行筛选卷积处理,生成第一卷积图像;
可选的,第二生成单元507,包括:
对第一区块特征图像进行实例标准化处理;
将实例标准化处理后的第一区块特征图像与第一区块注意力特征图像对应元素相乘,生成第一初始卷积图像;
对第一初始卷积图像进行区块卷积,生成第一卷积图像。
第三生成单元508,用于使用特征卷积模块并根据第二区块注意力特征图像中的注意力值对第二区块特征图像上的像素点进行筛选卷积处理,生成第二卷积图像;
可选的,第三生成单元508,包括:
对第二区块特征图像进行实例标准化处理;
将实例标准化处理后的第二区块特征图像与第二区块注意力特征图像对应元素相乘,生成第二初始卷积图像;
对第二初始卷积图像进行区块卷积,生成第二卷积图像。
第四生成单元509,用于将第一卷积图像和第二卷积图像进行通道维度交错叠加操作和卷积操作,生成目标卷积图像。
请参阅图6,本申请提供了一种电子设备,包括:
处理器601、存储器603、输入输出单元602以及总线604。
处理器601与存储器603、输入输出单元602以及总线604相连。
存储器603保存有程序,处理器601调用程序以执行如图1、图2-a、图2-b、图3-a、图3-b和图3-c中的卷积方法。
本申请提供了一种计算机可读存储介质,计算机可读存储介质上保存有程序,程序在计算机上执行时执行如图1、图2-a、图2-b、图3-a、图3-b和图3-c中的卷积方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种图像的卷积方法,其特征在于,包括:
获取卷积单元,所述卷积单元包括像素注意力生成模块和特征卷积模块;
获取输入特征图像,所述输入特征图像为输入卷积神经网络模型中进行训练中的图像;
将所述输入特征图像通过不同的划分方式分别进行区块划分,生成具有多个区块窗口的第一区块特征图像和第二区块特征图像,所述第一区块特征图像上任一个区块窗口的任一条边界都处于所述第二区块特征图像上某一个区块窗口内部;
将所述第一区块特征图像和所述第二区块特征图像输入区块像素注意力生成模块中;
通过所述区块像素注意力生成模块为所述第一区块特征图像和所述第二区块特征图像的区块窗口进行注意力计算,生成第一区块注意力特征图像和第二区块注意力特征图像,所述第一区块注意力特征图像和所述第二区块注意力特征图像上有所述输入特征图像上像素点的注意力值;
将所述第一区块特征图像、所述第二区块特征图像、所述第一区块注意力特征图像和所述第二区块注意力特征图像输入特征卷积模块;
使用所述特征卷积模块并根据所述第一区块注意力特征图像中的注意力值对所述第一区块特征图像上的像素点进行卷积处理,生成第一卷积图像;
使用所述特征卷积模块并根据所述第二区块注意力特征图像中的注意力值对所述第二区块特征图像上的像素点进行卷积处理,生成第二卷积图像;
将所述第一卷积图像和所述第二卷积图像进行通道维度交错叠加操作和卷积操作,生成目标卷积图像。
2.根据权利要求1所述的卷积方法,其特征在于,将所述输入特征图像通过不同的划分方式分别进行区块划分,生成具有多个区块窗口的第一区块特征图像和第二区块特征图像,包括:
将所述输入特征图像划分成至少两块大小相同但互不重合的正方形区块窗口,生成第一区块特征图像,所述正方形区块窗口边长为d;
将第一区块特征图像进行复制,并将复制的第一区块特征图像中每一个正方形区块窗口向下偏移d/2,再向右偏移d/2,生成第二区块特征图像;
对所述第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理。
3.根据权利要求2所述的卷积方法,其特征在于,在所述对所述第二区块特征图像的左侧正方形区块窗口进行区块窗口补齐处理之后,所述卷积方法还包括:
当正方形区块窗口超出所述输入特征图像的有效范围时,对所述正方形区块窗口超出的部分进行像素点0值填充处理。
4.根据权利要求2所述的卷积方法,其特征在于,使用所述特征卷积模块并根据所述第一区块注意力特征图像中的注意力值对所述第一区块特征图像上的像素点进行卷积处理,生成第一卷积图像,包括:
对所述第一区块特征图像进行实例标准化处理;
将实例标准化处理后的所述第一区块特征图像与第一区块注意力特征图像对应元素相乘,生成第一初始卷积图像;
对所述第一初始卷积图像进行区块卷积,生成第一卷积图像。
5.根据权利要求2所述的卷积方法,其特征在于,使用所述特征卷积模块并根据所述第二区块注意力特征图像中的注意力值对所述第二区块特征图像上的像素点进行卷积处理,生成第二卷积图像,包括:
对所述第二区块特征图像进行实例标准化处理;
将实例标准化处理后的所述第二区块特征图像与第二区块注意力特征图像对应元素相乘,生成第二初始卷积图像;
对所述第二初始卷积图像进行区块卷积,生成第二卷积图像。
6.根据权利要求1所述的卷积方法,其特征在于,将所述输入特征图像通过不同的划分方式分别进行区块划分,生成第一区块特征图像和第二区块特征图像,包括:
将所述输入特征图像输入区块像素注意力生成模块中,生成初始注意力特征图像,所述初始注意力特征图像上有所述输入特征图像上各个像素点的注意力值;
根据所述初始注意力特征图像将所述输入特征图像分成前景区域、中景区域和后景区域,所述前景区域的像素点的平均注意力值大于所述中景区域的像素点的平均注意力值,所述中景区域的像素点的平均注意力值大于所述后景区域的像素点的平均注意力值;
对所述前景区域进行边长为b的正方形区块划分,对所述中景区域进行边长为c的正方形区块划分,对所述后景区域进行边长为d的正方形区块划分,生成第一区块特征图像,b小于c,c小于d;
将所述第一区块特征图像进行复制,并将所有划分的区块向下平移b/2向右平移b/2,生成第二区块特征图像;
对所述第一区块特征图像和所述第二区块特征图像进行区块窗口补齐处理和像素点0值填充处理。
7.根据权利要求1至6中任一项所述的卷积方法,其特征在于,所述像素注意力生成模块包括BatchNorm-Conv-ReLU层、BatchNorm-Conv层和SigMoid函数层;
所述通过所述区块像素注意力生成模块为所述第一区块特征图像和所述第二区块特征图像的区块窗口进行注意力计算,生成第一区块注意力特征图像和第二区块注意力特征图像,包括:
通过所述像素注意力生成模块中的BatchNorm-Conv-ReLU层将所述第一区块特征图像中每一个区块窗口单独进行特征通道压缩,生成压缩特征集合;
通过所述像素注意力生成模块中的BatchNorm-Conv层将所述压缩特征集合中每一个压缩特征还原成与对应区块窗口大小相同的特征矩阵,生成特征矩阵集合;
通过所述像素注意力生成模块中的SigMoid函数层为所述特征矩阵集合中每一个特征矩阵中的每一个像素点计算注意力值,并拼接组合生成第一区块注意力特征图像;
根据上述对所述第一区块特征图像进行的处理方式处理所述第二区块特征图像,生成第二区块注意力特征图像。
8.一种图像的卷积装置,其特征在于,包括:
第一获取单元,用于获取卷积单元,所述卷积单元包括像素注意力生成模块和特征卷积模块;
第二获取单元,用于获取一张输入特征图像,所述输入特征图像为输入卷积神经网络模型中进行训练中的图像;
划分单元,用于将所述输入特征图像通过不同的划分方式分别进行区块划分,生成具有多个区块窗口的第一区块特征图像和第二区块特征图像,所述第一区块特征图像上任一个区块窗口的任一条边界都处于所述第二区块特征图像上某一个区块窗口内部;
第一输入单元,将所述第一区块特征图像和所述第二区块特征图像输入区块像素注意力生成模块中;
第一生成单元,用于通过所述区块像素注意力生成模块为所述第一区块特征图像和所述第二区块特征图像的区块窗口进行注意力计算,生成第一区块注意力特征图像和第二区块注意力特征图像,所述第一区块注意力特征图像和所述第二区块注意力特征图像上有所述输入特征图像上像素点的注意力值;
第二输入单元,用于将所述第一区块特征图像、所述第二区块特征图像、所述第一区块注意力特征图像和所述第二区块注意力特征图像输入特征卷积模块;
第二生成单元,用于使用所述特征卷积模块并根据所述第一区块注意力特征图像中的注意力值对所述第一区块特征图像上的像素点进行筛选卷积处理,生成第一卷积图像;
第三生成单元,用于使用所述特征卷积模块并根据所述第二区块注意力特征图像中的注意力值对所述第二区块特征图像上的像素点进行筛选卷积处理,生成第二卷积图像;
第四生成单元,用于将所述第一卷积图像和所述第二卷积图像进行通道维度交错叠加操作和卷积操作,生成目标卷积图像。
9.一种电子设备,其特征在于,包括:
处理器、存储器、输入输出单元以及总线;
所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述存储器保存有程序,所述处理器调用所述程序以执行如权利要求1至7任意一项所述的卷积方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行如权利要求1至7中任一项所述的卷积方法。
CN202310029970.3A 2023-01-10 2023-01-10 一种图像的卷积方法、装置、电子设备和存储介质 Active CN115909013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310029970.3A CN115909013B (zh) 2023-01-10 2023-01-10 一种图像的卷积方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310029970.3A CN115909013B (zh) 2023-01-10 2023-01-10 一种图像的卷积方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN115909013A true CN115909013A (zh) 2023-04-04
CN115909013B CN115909013B (zh) 2023-07-25

Family

ID=86495764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310029970.3A Active CN115909013B (zh) 2023-01-10 2023-01-10 一种图像的卷积方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115909013B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0409206A2 (en) * 1989-07-19 1991-01-23 Kabushiki Kaisha Toshiba Digital image display apparatus
US5420638A (en) * 1992-04-14 1995-05-30 U.S. Philips Corporation Subassembly for coding images with refresh correction of the data to be coded, and subassembly for decording signals representing these images and previously coded by means of a subassembly of the former kind
US6483521B1 (en) * 1998-02-02 2002-11-19 Matsushita Electric Industrial Co., Ltd. Image composition method, image composition apparatus, and data recording media
JP2009187138A (ja) * 2008-02-04 2009-08-20 Konica Minolta Holdings Inc 対応点探索装置
US20130343646A1 (en) * 2012-06-22 2013-12-26 Canon Kabushiki Kaisha Image processing apparatus and control method thereof
US10373317B1 (en) * 2019-01-22 2019-08-06 StradVision, Inc. Learning method and learning device for attention-driven image segmentation by using at least one adaptive loss weight map to be used for updating HD maps required to satisfy level 4 of autonomous vehicles and testing method and testing device using the same
US10402695B1 (en) * 2019-01-23 2019-09-03 StradVision, Inc. Learning method and learning device for convolutional neural network using 1×H convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
CN113537254A (zh) * 2021-08-27 2021-10-22 重庆紫光华山智安科技有限公司 图像特征提取方法、装置、电子设备及可读存储介质
CN114241446A (zh) * 2021-12-27 2022-03-25 智道网联科技(北京)有限公司 一种路牌角点的标记方法、装置、设备及存储介质
CN114743017A (zh) * 2022-04-15 2022-07-12 北京化工大学 基于Transformer全局与局部注意力交互的目标检测方法
CN115187480A (zh) * 2022-07-06 2022-10-14 北京联合大学 一种基于Transformer的图像颜色校正方法
CN115393231A (zh) * 2022-11-01 2022-11-25 深圳精智达技术股份有限公司 一种缺陷图像的生成方法、装置、电子设备和存储介质
CN115526935A (zh) * 2022-09-28 2022-12-27 山东大学 基于全局和局部信息的像素级抓取位姿检测方法及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0409206A2 (en) * 1989-07-19 1991-01-23 Kabushiki Kaisha Toshiba Digital image display apparatus
US5420638A (en) * 1992-04-14 1995-05-30 U.S. Philips Corporation Subassembly for coding images with refresh correction of the data to be coded, and subassembly for decording signals representing these images and previously coded by means of a subassembly of the former kind
US6483521B1 (en) * 1998-02-02 2002-11-19 Matsushita Electric Industrial Co., Ltd. Image composition method, image composition apparatus, and data recording media
JP2009187138A (ja) * 2008-02-04 2009-08-20 Konica Minolta Holdings Inc 対応点探索装置
US20130343646A1 (en) * 2012-06-22 2013-12-26 Canon Kabushiki Kaisha Image processing apparatus and control method thereof
US10373317B1 (en) * 2019-01-22 2019-08-06 StradVision, Inc. Learning method and learning device for attention-driven image segmentation by using at least one adaptive loss weight map to be used for updating HD maps required to satisfy level 4 of autonomous vehicles and testing method and testing device using the same
US10402695B1 (en) * 2019-01-23 2019-09-03 StradVision, Inc. Learning method and learning device for convolutional neural network using 1×H convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
CN113537254A (zh) * 2021-08-27 2021-10-22 重庆紫光华山智安科技有限公司 图像特征提取方法、装置、电子设备及可读存储介质
CN114241446A (zh) * 2021-12-27 2022-03-25 智道网联科技(北京)有限公司 一种路牌角点的标记方法、装置、设备及存储介质
CN114743017A (zh) * 2022-04-15 2022-07-12 北京化工大学 基于Transformer全局与局部注意力交互的目标检测方法
CN115187480A (zh) * 2022-07-06 2022-10-14 北京联合大学 一种基于Transformer的图像颜色校正方法
CN115526935A (zh) * 2022-09-28 2022-12-27 山东大学 基于全局和局部信息的像素级抓取位姿检测方法及系统
CN115393231A (zh) * 2022-11-01 2022-11-25 深圳精智达技术股份有限公司 一种缺陷图像的生成方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
连彦超: "基于多尺度深度融合网络和注意力机制的遥感影像分割", 《 工程科技Ⅱ辑》 *

Also Published As

Publication number Publication date
CN115909013B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
US10339643B2 (en) Algorithm and device for image processing
US8385630B2 (en) System and method of processing stereo images
US20100046837A1 (en) Generation of depth map for an image
CN111652818B (zh) 一种基于金字塔的图像滤波方法、装置及存储介质
CN112750201B (zh) 三维重建方法及相关装置、设备
US9406140B2 (en) Method and apparatus for generating depth information
CN111179196B (zh) 一种基于分而治之的多分辨率深度网络图像去高光方法
US20070154069A1 (en) Displacement estimation device and method for the same
Tseng et al. Shape-from-focus depth reconstruction with a spatial consistency model
CN111598796A (zh) 图像处理方法及装置、电子设备、存储介质
US7187785B2 (en) Image processing method and apparatus
CN111667459A (zh) 一种基于3d可变卷积和时序特征融合的医学征象检测方法、系统、终端及存储介质
CN108335267A (zh) 一种深度图像的处理方法、装置、设备和存储介质
CN112819937B (zh) 一种自适应多对象光场三维重建方法、装置及设备
CN112926667B (zh) 深度融合边缘与高层特征的显著性目标检测方法及装置
CN113256546A (zh) 一种基于彩色图指导的深度图补全方法
Liu et al. A fast multi-focus image fusion algorithm by DWT and focused region decision map
CN111353982B (zh) 一种深度相机图像序列筛选方法及装置
CN112348762A (zh) 一种基于多尺度融合生成对抗网络的单幅图像去雨方法
CN111738061A (zh) 基于区域特征提取的双目视觉立体匹配方法及存储介质
CN115909013A (zh) 一种图像的卷积方法、装置、电子设备和存储介质
CN116342519A (zh) 一种基于机器学习的图像处理方法
de Oliveira et al. On the performance of DIBR methods when using depth maps from state-of-the-art stereo matching algorithms
CN116897532A (zh) 深度图像的修复方法及装置、摄像头组件及电子设备
CN115063303A (zh) 一种基于图像修复的图像3d化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant