CN111639654B

CN111639654B - 一种图像处理方法、装置及计算机存储介质

Info

Publication number: CN111639654B
Application number: CN202010396919.2A
Authority: CN
Inventors: 程帅; 贾书军; 杨春阳
Original assignee: Pateo Connect Nanjing Co Ltd
Current assignee: Pateo Connect Nanjing Co Ltd
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2023-12-26
Anticipated expiration: 2040-05-12
Also published as: CN111639654A

Abstract

本发明公开了一种图像处理方法、装置及计算机存储介质，所述图像处理方法包括：获取输入的图像的初始特征图；对所述初始特征图进行多尺度空洞卷积处理，获取所述初始特征图的各通道的特征向量；利用所述图像的目标区域信息对所述各通道的特征向量进行引导重构，获取所述各通道的新特征向量；其中，所述图像的目标区域信息包括所述图像的前景Mask或背景Mask；对所述各通道的新特征向量进行Softmax操作，获取所述各通道的注意力值；根据所述初始特征图和所述各通道的注意力值获取所述图像的新特征图。本发明提供的图像处理方法、装置及计算机存储介质，能够提高处理效率和准确性，且方便使用。

Description

一种图像处理方法、装置及计算机存储介质

技术领域

本发明涉及图像处理领域，特别是涉及一种图像处理方法、装置及计算机存储介质。

背景技术

空间注意力机制借鉴了人类的注意力思维方式，核心目标是从众多信息中选择出对当前任务目标更关键的信息，被广泛的应用在图像分类、检测等各种不同类型的任务中，并取得了显著的成果。空间注意力机制的主要思想是在空间域快速关注图像中关键区域，减少背景因素干扰，利用关键区域的特征进行正确分类，提高检测效率及准确性。参见图1，为现有空间注意力机制网络结构示意图，空间注意力机制的主要过程为：输入特征图x维度为c×h×w，其中，c为通道数，h，w分别为高和宽。对x以通道为基准轴，对应位置最大池化得到x'，维度为1×h×w，在经过Softmax处理后，再与原特征图x的每个通道相乘，得到新特征图维度为c×h×w。要得到一个有效的新特征图/>需要增加迭代次数，让网络慢慢学习和调整，以使其对目标区域特征增强，背景区域进行抑制。但是，目前的空间注意力机制用于图像处理时存在效率不高及对提升检测效果有限的问题。

发明内容

本发明的目的在于提供一种图像处理方法、装置及计算机存储介质，能够提高处理效率和准确性，且方便使用。

为达到上述目的，本发明的技术方案是这样实现的：

第一方面，本发明实施例提供了一种图像处理方法，所述图像处理方法包括：

获取输入的图像的初始特征图；

对所述初始特征图进行多尺度空洞卷积处理，获取所述初始特征图的各通道的特征向量；

利用所述图像的目标区域信息对所述各通道的特征向量进行引导重构，获取所述各通道的新特征向量；其中，所述图像的目标区域信息包括所述图像的前景Mask和背景Mask中的至少一种；

对所述各通道的新特征向量进行Softmax操作，获取所述各通道的注意力值；

根据所述初始特征图和所述各通道的注意力值获取所述图像的新特征图。

作为其中一种实施方式，所述利用所述图像的目标区域信息对所述各通道的特征向量进行引导重构，获取所述各通道的新特征向量，包括：

将所述各通道的特征向量与所述图像的前景Mask或背景Mask进行点乘运算，获取所述各通道的新特征向量。

作为其中一种实施方式，所述将所述各通道的特征向量与所述图像的前景Mask或背景Mask进行点乘运算，获取所述各通道的新特征向量之前，还包括：

基于所述图像的前景图像区域提取所述图像的前景Mask。

作为其中一种实施方式，还包括：

对所述图像的前景Mask进行取反操作，获得所述图像的背景Mask。

作为其中一种实施方式，先利用图像的背景Mask对所述图像进行处理，后利用图像的前景Mask对所述图像进行处理。

对所述图像的前景Mask或背景Mask进行归一化处理。

作为其中一种实施方式，所述对所述各通道的新特征向量进行Softmax操作，获取所述各通道的注意力值之前，还包括：

对所述各通道的新特征向量进行归一化处理。

作为其中一种实施方式，所述根据所述初始特征图和所述各通道的注意力值获取所述图像的新特征图，包括：

将所述初始特征图与所述各通道的注意力值相乘，获得所述图像的新特征图。

第二方面，本发明实施例提供了一种图像处理装置，所述图像处理装置包括处理器以及用于存储程序的存储器；当所述程序被所述处理器执行，使得所述处理器实现第一方面所述的图像处理方法。

第三方面，本发明实施例提供了一种计算机存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现第一方面所述的图像处理方法。

本发明实施例提供的图像处理方法、装置及计算机存储介质，所述图像处理方法包括：获取输入的图像的初始特征图；对所述初始特征图进行多尺度空洞卷积处理，获取所述初始特征图的各通道的特征向量；利用所述图像的目标区域信息对所述各通道的特征向量进行引导重构，获取所述各通道的新特征向量；其中，所述图像的目标区域信息包括所述图像的前景Mask和背景Mask中的至少一种；对所述各通道的新特征向量进行Softmax操作，获取所述各通道的注意力值；根据所述初始特征图和所述各通道的注意力值获取所述图像的新特征图。如此，通过利用图像的前景Mask和/或背景Mask指导图像的新特征图的学习，从而引导网络快速关注高层特征和/或底层特征的关键区域，也就是说，通过前景引导关注前景区域而抑制背景区域，或通过背景引导关注背景区域而抑制前景区域，能够提高处理效率和准确性，且方便使用。

附图说明

图1为现有空间注意力机制网络结构示意图；

图2为本发明实施例提供的一种图像处理方法的流程示意图；

图3为本发明实施例中前景-背景引导的空间注意力机制网络结构示意图；

图4为本发明实施例中前景引导的空间注意力机制网络结构示意图；

图5为本发明实施例中背景引导的空间注意力机制网络结构示意图；

图6为本发明实施例提供的一种图像处理装置的结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明技术方案做进一步的详细阐述。除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

参见图2，为本发明实施例提供的一种图像处理方法，该图像处理方法可以由本发明实施例提供的一种图像处理装置来执行，该图像处理装置可以采用软件和/或硬件的方式来实现，在具体应用中，该图像处理装置可以具体是车载终端如车机、或移动终端如智能手机等，本实施例中以所述图像处理方法应用于车载终端为例，该图像处理方法包括以下步骤：

步骤S101：获取输入的图像的初始特征图；

步骤S102：对所述初始特征图进行多尺度空洞卷积处理，获取所述初始特征图的各通道的特征向量；

步骤S103：利用所述图像的目标区域信息对所述各通道的特征向量进行引导重构，获取所述各通道的新特征向量；其中，所述图像的目标区域信息包括所述图像的前景Mask和背景Mask中的至少一种；

步骤S104：对所述各通道的新特征向量进行Softmax操作，获取所述各通道的注意力值；

步骤S105：根据所述初始特征图和所述各通道的注意力值获取所述图像的新特征图。

需要说明的是，所述图像处理方法可以应用于能够对图像进行分类、检测等功能的空间注意力机制网络模型中。所述输入的图像的初始特征图是指输入一计算节点的图像的特征图，在不同迭代过程中，输入同一计算节点的图像的特征图不同。特征图用于表征图像的特征，例如颜色特征、灰度特征等。通常，特征图包括至少一个通道，每个通道用于表征图像的一种特征，同时，每个通道对应于一个特征矩阵，特征矩阵中的每个元素，对应于目标图像包括的一个像素。这里，通过对所述初始特征图进行多尺度空洞卷积处理，获取所述初始特征图的各通道的特征向量，即能够有效获得特征图的全局信息。

这里，所述利用图像的前景Mask对所述各通道的特征向量进行引导重构可由一前景引导空间注意力模块实现，而利用图像的背景Mask对所述各通道的特征向量进行引导重构可由一背景引导空间注意力模块实现，所述前景Mask可称为前景掩膜，所述背景Mask可称为背景掩膜。具体应用中，所述利用所述图像的目标区域信息对所述各通道的特征向量进行引导重构，获取所述各通道的新特征向量，可以是将所述各通道的特征向量输入基于所述图像的目标区域信息建立的引导空间注意力模型，从而获得对应的所述各通道的新特征向量。在对图像进行特征提取的过程中，可先利用背景引导空间注意力模块对图像进行特征提取，然后再利用前景引导空间注意力模块对利用背景引导空间注意力模块处理后的图像进行特征提取。也就是说，先利用图像的背景Mask对所述图像进行处理，后利用图像的前景Mask对所述图像进行处理。优选的，所述利用所述图像的目标区域信息对所述各通道的特征向量进行引导重构，获取所述各通道的新特征向量，包括：将所述各通道的特征向量与所述图像的前景Mask或背景Mask进行点乘运算，获取所述各通道的新特征向量。可以理解地，通过所述各通道的特征向量与所述图像的前景Mask进行点乘运算，能够有效抑制背景信息，增强前景信息，引导空间注意力网络关注感兴趣区域即前景区域；通过所述各通道的特征向量与所述图像的背景Mask进行点乘运算，能够有效抑制前景信息，增强背景信息，引导空间注意力网络关注背景区域。

在一实施方式中，所述将所述各通道的特征向量与所述图像的前景Mask或背景Mask进行点乘运算，获取所述各通道的新特征向量之前，还包括：基于所述图像的前景图像区域提取所述图像的前景Mask。这里，可对图像的前景图像区域对应的特征图进行识别，以获得掩膜目标区域，进而对所述掩膜目标区域进行掩膜区域图像分割，从而得到所述图像的前景Mask。在一实施方式中，通过对所述图像的前景Mask进行取反操作，可获得所述图像的背景Mask。

可以理解地，通过对所述各通道的特征向量进行Softmax操作，以获得数值范围在(0，1)内的所述各通道的注意力值。在一实施方式中，所述根据所述初始特征图和所述各通道的注意力值获取所述图像的新特征图，包括：将所述初始特征图与所述各通道的注意力值相乘，获得所述图像的新特征图。此外，还可结合各通道的特性为各通道设置一定的权重系数，进而根据所述初始特征图和所述各通道的注意力值以及所述各通道的权重系数获取所述图像的新特征图。

综上，上述实施例提供的图像处理方法中，通过利用图像的前景Mask和/或背景Mask指导图像的新特征图的学习，从而引导网络快速关注高层特征和/或底层特征的关键区域，也就是说，通过前景引导关注前景区域而抑制背景区域，通过背景引导关注背景区域而抑制前景区域，能够提高处理效率和准确性，且方便使用。

在一实施方式中，为了加快收敛速度，进一步提高处理效率，所述将所述各通道的特征向量与所述图像的前景Mask或背景Mask进行点乘运算，获取所述各通道的新特征向量之前，还包括：对所述图像的前景Mask或背景Mask进行归一化处理。此外，为了加快收敛速度，进一步提高处理效率，，所述对所述各通道的新特征向量进行Softmax操作，获取所述各通道的注意力值之前，还包括：对所述各通道的新特征向量进行归一化处理。

基于前述实施例相同的发明构思，本实施例通过具体示例对前述实施例的技术方案进行详细说明。为提高现有空间注意力机制网络对有效新特征图的学习效率，本发明实施例基于不同的注意力模型关注不同的对象特征的目标思想提供一种基于前景-背景引导的图像处理方法，并可将本发明实施例提供的图像处理方法称为前景-背景引导的空间注意力机制网络结构，参见图3，stage1到stage4为特征提取过程，背景引导空间注意力模型对stage2的特征进行处理，得到新的特征图作为stage3的输入，stage4的特征图经过前景引导空间注意力模型得到新的特征图。

这里，前景-背景引导的空间注意力机制网络的设计主要思想是：利用检测样本的前景(GT)区域和背景区域指导新特征的学习，同时，利用不同层级的特征图关注不同的区域思想，底层特征注意力机制关注背景纹理区域，高层特征注意力机制关注所要检测目标(即前景)区域，使用GT信息和背景信息引导网络快速关注高层特征和底层特征的关键区域。

其中，在高层特征图中，前景引导注意力模型使用前景(GT)信息引导空间注意力网络快速学习、关注感兴趣区域，前景引导的空间注意力机制网络的结构如图4所示。特征图x经过多尺度空洞卷积(multi-scale dilation)得到1-channel特征图，此特征图与前景Mask即GT Mask点乘，再经过Softmax限制得到每个空间位置的注意力值，注意力值再与原特征图点乘得到新的特征图。其中，多尺度空洞卷积可有效获得特征的全局信息，前景引导机制可有效抑制背景信息，增强前景信息，同时关注到感兴趣区域。同时，前景引导机制只是在训练过程中进行，能够有效减少训练时间。同时推理过程并不需要此引导过程，因此没有增加网络参数及计算量。引导过程可有效关注感兴趣区域，减少背景干扰，提升网络的准确率。

而在底层特征图中，背景引导注意力模型使用背景(Background)信息引导注意力网络快速学习、关注背景区域，抑制前景区域。实现过程与前景引导注意力模型基本相同，不同的是与单通道特征图x₁点乘的是背景Mask(即Background Mask)，所述背景Mask可以是对前景Mask取反操作后生成的。背景引导的空间注意力机制网络的结构如图5所示。这里，背景引导机制只是在训练过程中进行，能够有效减少训练时间。同时推理过程并不需要此引导过程，因此没有增加网络参数及计算量。引导过程可有效关注背景区域，与前景区域形成鲜明对比，得到有辨识度的特征，提升网络的准确率。

综上，本发明实施例提供的前景-背景引导注意力机制减少了网络训练时间，不增加网络参数和计算量，提高了模型训练效率及准确度。同时此方法可以即插即用到深度学习网络结构中，方便使用。

基于前述实施例相同的发明构思，本发明实施例提供了一种图像处理装置，该装置可以是车载终端、移动终端或云端服务器等，如图6所示，该装置包括：处理器110和用于存储能够在处理器110上运行的计算机程序的存储器111；其中，图6中示意的处理器110并非用于指代处理器110的个数为一个，而是仅用于指代处理器110相对其他器件的位置关系，在实际应用中，处理器110的个数可以为一个或多个；同样，图6中示意的存储器111也是同样的含义，即仅用于指代存储器111相对其他器件的位置关系，在实际应用中，存储器111的个数可以为一个或多个。所述处理器110用于运行所述计算机程序时，实现应用于上述装置的所述图像处理方法。

该装置还可包括：至少一个网络接口112。该装置中的各个组件通过总线系统113耦合在一起。可理解，总线系统113用于实现这些组件之间的连接通信。总线系统113除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线系统113。

其中，存储器111可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器111旨在包括但不限于这些和任意其它适合类型的存储器。

本发明实施例中的存储器111用于存储各种类型的数据以支持该装置的操作。这些数据的示例包括：用于在该装置上操作的任何计算机程序，如操作系统和应用程序；联系人数据；电话簿数据；消息；图片；视频等。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。这里，实现本发明实施例方法的程序可以包含在应用程序中。

基于前述实施例相同的发明构思，本实施例还提供了一种计算机存储介质，所述计算机存储介质中存储有计算机程序，计算机存储介质可以是磁性随机存取存储器(FRAM，ferromagnetic random access memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。所述计算机存储介质中存储的计算机程序被处理器运行时，实现应用于上述装置的所述图像处理方法。所述计算机程序被处理器执行时实现的具体步骤流程请参考图2所示实施例的描述，在此不再赘述。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，除了包含所列的那些要素，而且还可包含没有明确列出的其他要素。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，

所述方法包括：

获取输入的图像的初始特征图；

根据所述初始特征图和所述各通道的注意力值获取所述图像的新特征图；

所述利用所述图像的目标区域信息对所述各通道的特征向量进行引导重构，获取所述各通道的新特征向量，包括：

2.根据权利要求1所述的方法，其特征在于，

所述将所述各通道的特征向量与所述图像的前景Mask或背景Mask进行点乘运算，获取所述各通道的新特征向量之前，还包括：

基于所述图像的前景图像区域提取所述图像的前景Mask。

3.根据权利要求2所述的方法，其特征在于，

还包括：

4.根据权利要求1所述的方法，其特征在于，

先利用图像的背景Mask对所述图像进行处理，后利用图像的前景Mask对所述图像进行处理。

5.根据权利要求1所述的方法，其特征在于，

对所述图像的前景Mask或背景Mask进行归一化处理。

6.根据权利要求1所述的方法，其特征在于，

所述对所述各通道的新特征向量进行Softmax操作，获取所述各通道的注意力值之前，还包括：

对所述各通道的新特征向量进行归一化处理。

7.根据权利要求1所述的方法，其特征在于，

所述根据所述初始特征图和所述各通道的注意力值获取所述图像的新特征图，包括：

8.一种图像处理装置，其特征在于，

所述装置包括处理器以及用于存储程序的存储器；当所述程序被所述处理器执行，使得所述处理器实现如权利要求1至7中任一项所述的图像处理的方法。

9.一种计算机存储介质，其特征在于，

存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至7中任一项所述的图像处理方法。