CN110188773A

CN110188773A - 特征提取方法、图像处理方法及装置

Info

Publication number: CN110188773A
Application number: CN201910441679.0A
Authority: CN
Inventors: 黄嘉伟; 马宁宁; 张祥雨
Original assignee: Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-08-30
Anticipated expiration: 2039-05-24
Also published as: CN110188773B

Abstract

本发明提供了特征提取方法、图像处理方法及装置。其中特征提取方法，包括：获取特征图步骤，并通过第一尺寸调整步骤、第一卷积步骤、第二尺寸调整步骤对特征图的张量进行变形和卷积，再通过第三尺寸调整步骤、第二卷积步骤、第四尺寸调整步骤进一步对张量进行变形和卷积，最终通过特征提取步骤，得到特征图的特征。本发明提供的特征提取方法及装置通过在卷积神经网络卷积层中，对张量进行变形和组合，降低了卷积计算量，提高了运行效率。

Description

特征提取方法、图像处理方法及装置

技术领域

本发明一般地涉及图像识别领域，具体涉及一种特征提取方法、图像处理方法及装置。

背景技术

随着计算机技术的发展，越来越多的场景需要通过计算机技术来进行如目标检测、目标识别等图像处理工作。其中卷积神经网络(CNN)模型是现代深度视觉识别系统的核心。然而由于卷积网络通常包含巨大的计算量，因此为了将模型应用到移动设备等低功耗场景就必须对其进行化简。在众多的化简策略中，深度可分离卷积(depthwise separableconvolution)是常用的技术之一，它是通过将卷积层分解成深度卷积(depthwiseconvolution)和点卷积(pointwise convolution)的组合，降低模型的计算量。

目前的高效模型结构仍然存在以下问题：1)深度卷积理论上的计算量和参数量很低，但是实际运行中由于其低计算密度的特性导致整体效率并不高；2)组卷积(groupconvolution)作为一种降低计算量参数量的方法，同样由于计算密度低以及高计算碎片的特点，也往往在实际中难以难以达到理想的效率；3)另一些结构中由于存在一些难以优化的操作，比如张量维度重构(dimension shuffle/transpose)，成为阻碍算法部署在硬件后实现快速运算的瓶颈。

发明内容

为了解决现有技术中存在的上述问题，本发明的第一方面提供一种特征提取方法，包括：获取特征图步骤，获取特征图，特征图的参数包括特征图批次数量、特征图通道数量、特征图高度以及特征图宽度；第一尺寸调整步骤，将特征图通道数量缩小第一倍数，并将特征图批次数量增大第一倍数，得到第一张量，其中第一倍数为可整除特征图通道数量的正整数；第一卷积步骤，对第一张量进行第一卷积操作，得到第二张量；第二尺寸调整步骤，将第二张量的通道数量增大第一倍数，并将第二张量的批次数量缩小第一倍数，得到第三张量；第三尺寸调整步骤，将第三张量的通道数量缩小第二倍数，并将第三张量的高度或宽度增大第二倍数，得到第四张量，其中第二倍数为可整除第三张量的通道数量的正整数；第二卷积步骤，对第四张量进行第二卷积操作，得到第五张量；第四尺寸调整步骤，将第五张量的通道数量增大第二倍数，并将第五张量的高度或宽度缩小第二倍数，得到第六张量；特征提取步骤，基于第六张量，得到特征图的特征。

在一例中，第一卷积操作采用m*m卷积核进行卷积，其中m≥3。

在一例中，第二卷积操作采用点卷积。

在一例中，第二张量的通道数量为第一张量的通道数量的第三倍数，其中第三倍数为正整数；第五张量的通道数量相比于第四张量的通道数量缩小第三倍数。

在一例中，第一卷积操作共享权重。

在一例中，第二卷积操作共享权重。

本发明的第二方面提供一种图像处理方法，包括：图像获取步骤，获取图像；特征提取步骤，根据如第一方面的特征提取方法，提取图像的图像特征；图像识别步骤，根据图像特征进行图像识别。

本发明的第三方面提供一种特征提取装置，装置包括：获取特征图模块，用于获取特征图，特征图的参数包括特征图批次数量、特征图通道数量、特征图高度以及特征图宽度；第一尺寸调整模块，用于将特征图通道数量缩小第一倍数，并将特征图批次数量增大第一倍数，得到第一张量，其中第一倍数为可整除特征图通道数量的正整数；第一卷积模块，用于对第一张量进行第一卷积操作，得到第二张量；第二尺寸调整模块，用于将第二张量的通道数量增大第一倍数，并将第二张量的批次数量缩小第一倍数，得到第三张量；第三尺寸调整模块，用于将第三张量的通道数量缩小第二倍数，并将第三张量的高度或宽度增大第二倍数，得到第四张量，其中第二倍数为可整除第三张量的通道数量的正整数；第二卷积模块，用于对第四张量进行第二卷积操作，得到第五张量；第四尺寸调整模块，用于将第五张量的通道数量增大第二倍数，并将第五张量的高度或宽度缩小第二倍数，得到第六张量；特征提取模块，用于基于第六张量，得到特征图的特征。

本发明的第四方面提供一种图像处理装置，图像处理装置包括：图像获取模块，用于获取图像；特征提取模块，用于根据如第一方面的特征提取方法，提取图像的图像特征；图像识别模块，用于根据图像特征进行图像识别。

本发明的第五方面提供一种电子设备，包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行第一方面的特征提取方法或第二方面的图像处理方法。

本发明的第六方面提供一种计算机可读存储介质，其中存储有指令，指令被处理器执行时，执行如第一方面的特征提取方法或如第二方面的图像处理方法。

本发明提供的特征提取方法、图像处理方法及装置通过在卷积神经网络卷积层中，对张量进行变形和组合，缩短了计算时间，实现了不同图像特征(feature)的共享权重，降低了模型的参数数量，从而加快了运行速度，提高了图像处理的效率。

附图说明

通过参考附图阅读下文的详细描述，本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示出了根据本发明一实施例特征提取方法的流程示意图；

图2示出了根据本发明一实施例特征提取装置的示意图；

图3是本发明实施例提供的一种电子设备示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

需要注意，虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等，但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分，而并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。

随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对图像中的目标进行检测、追踪、识别越来越热门，对目标进行动态实时跟踪定位在智能化交通系统、智能监控系统、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值；而对目标的识别在公安、反恐等安全保障领域也起到了举足轻重的作用。卷积神经网络是上述技术的核心，其对特征提取的运行效率很大程度上决定了图像处理工作的效率。

为了提高卷积神经网络的运算速度，图1示出了本发明实施例提供的一种特征提取方法100，包括：获取特征图步骤110，第一尺寸调整步骤120，第一卷积步骤130，第二尺寸调整步骤140、第三尺寸调整步骤150、第二卷积步骤160、第四尺寸调整步骤170以及特征提取步骤180。下面对上述步骤进行详细说明。

获取特征图步骤110，获取特征图，特征图具有的参数包括特征图批次数量、特征图通道数量、特征图高度以及特征图宽度。

其中，获取的特征图可以是原始图，也可以是经过其他卷积层操作的特征图。此处将说的输入以f标识，其可以具有四维张量，尺寸为(N，C，H，W)，其中N为批次数量，C为通道数量，H为特征图的高度，W为特征图的宽度。在一例中，作为一般模型应用场景，每次仅有一张图片被送入模型，因此N一般取1，以下的分析默认N＝1，则f的尺寸为(1，C，H，W)。

第一尺寸调整步骤120，将特征图通道数量缩小第一倍数，并将特征图批次数量增大第一倍数，得到第一张量，其中第一倍数为可整除特征图通道数量的正整数。

对f进行变形，降低通道数量，增加批次数量。将f变形为第一张量f1，f1的尺寸为(g1，C/g1，H，W)，其中第一倍数g1是一个可以整除C的正整数。

第一卷积步骤130，对第一张量进行第一卷积操作，得到第二张量。

对第一张量进行第一卷积操作，第一卷积操作可以是采用普通卷积操作，也可以采用点卷积操作。

在一例中，第二张量的通道数量为第一张量的通道数量的第三倍数，其中第三倍数为正整数。

在一例中，第一卷积操作共享权重。

对f1进行第一卷积操作，得到第二张量f2，尺寸为(g1，kC/g1，H，W)，其中第三倍数k是一个正整数。k可以根据计算量和结果表达能力需求进行设定，如果通道数量C一定，需要提高表达能力，则可以增大k。要确定计算量在一定范围内，也可以设置相应的k值，并适当调整通道数量C的值。在一些实施例中，k可以取值为1或2，并通过调整C的值，以在保证效率一定时，提高表达能力。

第二尺寸调整步骤140，将第二张量的通道数量增大第一倍数，并将第二张量的批次数量缩小第一倍数，得到第三张量。

将第二张量的批次数量恢复成与特征图批次数量一致，同时通道数量进行相应的运算，即将f2变形为第三张量f3，f3的尺寸为(1，kC，H，W)。

第三尺寸调整步骤150，将第三张量的通道数量缩小第二倍数，并将第三张量的高度或宽度增大第二倍数，得到第四张量，其中第二倍数为可整除第三张量的通道数量的正整数。

此次变形是将第三张量进行变形，降低通道数量，增加特征图的高度或宽度。将f3变形为第四张量f4，f4的尺寸为(1，kC/g2，H*g2，W)，其中第二倍数g2是一个可以整除kC的正整数。

第二卷积步骤160，对第四张量进行第二卷积操作，得到第五张量。

对第四张量进行第二卷积操作，第二卷积操作可以是采用普通卷积操作，也可以采用点卷积操作。在一例中，第二卷积操作采用点卷积操作。

在一例中，相应于第二张量的通道数量为第一张量的通道数量的第三倍数，第五张量的通道数量相比于第四张量的通道数量缩小第三倍数

在一例中，第二卷积操作共享权重。

对f4进行第二卷积操作，得到第五张量f5，尺寸为(1，C/g2，H*g2，W)。

第四尺寸调整步骤170，将第五张量的通道数量增大第二倍数，并将第五张量的高度或宽度缩小第二倍数，得到第六张量。

将第五张量的通道数量、高度或宽度恢复成与特征图高度一致，即将f5变形为第六张量f6，f6的尺寸为(1，C，H，W)。

特征提取步骤180，基于第六张量，得到特征图的特征。

最终根据得到的第六张量，获取特征。

通过上述实施例，零耗时的对各种张量变形(reshape)操作的交替组合，沿着不同维度对图像特征(feature)进行组合，算法抛弃了低计算密度的深度卷积操作，且能够更充分利用GPU的并行计算，极大地提高了运行效率。张量变形操作提升效率的同时，实现了不同图像特征的共享权重，降低了模型的参数数量。降低了对硬件的要求，能够保证在移动终端等低功耗场景中的运行。

本发明实施例还提供的一种图像处理方法，包括：图像获取步骤，获取图像；特征提取步骤，根据前述任一实施例的特征提取方法，提取图像的图像特征；图像识别步骤，根据图像特征进行图像识别。

图2示出了本发明实施例提供的一种特征提取装置200，如图2所示，特征提取装置200包括：获取特征图模块210，用于获取特征图，特征图的参数包括特征图批次数量、特征图通道数量、特征图高度以及特征图宽度；第一尺寸调整模块220，用于将特征图通道数量缩小第一倍数，并将特征图批次数量增大第一倍数，得到第一张量，其中第一倍数为可整除特征图通道数量的正整数；第一卷积模块230，用于对第一张量进行第一卷积操作，得到第二张量；第二尺寸调整模块240，用于将第二张量的通道数量增大第一倍数，并将第二张量的批次数量缩小第一倍数，得到第三张量；第三尺寸调整模块250，用于将第三张量的通道数量缩小第二倍数，并将第三张量的高度或宽度增大第二倍数，得到第四张量，其中第二倍数为可整除第三张量的通道数量的正整数；第二卷积模块260，用于对第四张量进行第二卷积操作，得到第五张量；第四尺寸调整模块270，用于将第五张量的通道数量增大第二倍数，并将第五张量的高度或宽度缩小第二倍数，得到第六张量；特征提取模块280，用于基于第六张量，得到特征图的特征。

在一例中，第二卷积操作采用点卷积。

在一例中，第一卷积操作共享权重。

在一例中，第二卷积操作共享权重。

本发明实施例还提供的一种图像处理装置，包括：图像获取模块，用于获取图像；特征提取模块，用于根据如前述任一实施例的特征提取方法，提取图像的图像特征；图像识别模块，用于根据图像特征进行图像识别。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

如图3所示，本发明的一个实施方式提供了一种电子设备300。其中，该电子设备300包括存储器301、处理器302、输入/输出(Input/Output，I/O)接口303。其中，存储器301，用于存储指令。处理器302，用于调用存储器301存储的指令执行本发明实施例的特征提取方法。其中，处理器302分别与存储器301、I/O接口303连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器301可用于存储程序和数据，包括本发明实施例中涉及的特征提取方法的程序，处理器302通过运行存储在存储器301的程序从而执行电子设备300的各种功能应用以及数据处理。

本发明实施例中处理器302可以采用数字信号处理器(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现，所述处理器302可以是中央处理单元(Central Processing Unit，CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本发明实施例中的存储器301可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-OnlyMemory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)等。

本发明实施例中，I/O接口303可用于接收输入的指令(例如数字或字符信息，以及产生与电子设备300的用户设置以及功能控制有关的键信号输入等)，也可向外部输出各种信息(例如，图像或声音等)。本发明实施例中I/O接口303可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。

可以理解的是，本发明实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本发明实施例涉及的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的，已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。

Claims

1.一种特征提取方法，其中，所述方法包括：

获取特征图步骤，获取特征图，所述特征图的参数包括特征图批次数量、特征图通道数量、特征图高度以及特征图宽度；

第一尺寸调整步骤，将所述特征图通道数量缩小第一倍数，并将所述特征图批次数量增大所述第一倍数，得到第一张量，其中所述第一倍数为可整除所述特征图通道数量的正整数；

第一卷积步骤，对所述第一张量进行第一卷积操作，得到第二张量；

第二尺寸调整步骤，将所述第二张量的通道数量增大所述第一倍数，并将所述第二张量的批次数量缩小所述第一倍数，得到第三张量；

第三尺寸调整步骤，将所述第三张量的通道数量缩小第二倍数，并将所述第三张量的高度或宽度增大所述第二倍数，得到第四张量，其中所述第二倍数为可整除所述第三张量的通道数量的正整数；

第二卷积步骤，对所述第四张量进行第二卷积操作，得到第五张量；

第四尺寸调整步骤，将所述第五张量的通道数量增大所述第二倍数，并将所述第五张量的高度或宽度缩小所述第二倍数，得到第六张量；

特征提取步骤，基于所述第六张量，得到所述特征图的特征。

2.根据权利要求1所述的方法，其中，所述第一卷积操作采用m*m卷积核进行卷积，其中m≥3。

3.根据权利要求1所述的方法，其中，所述第二卷积操作采用点卷积。

4.根据权利要求1所述的方法，其中，所述第二张量的通道数量为所述第一张量的通道数量的第三倍数，其中所述第三倍数为正整数；

所述第五张量的通道数量相比于所述第四张量的通道数量缩小所述第三倍数。

5.根据权利要求1所述的方法，其中，所述第一卷积操作共享权重。

6.根据权利要求1所述的方法，其中，所述第二卷积操作共享权重。

7.一种图像处理方法，包括：

图像获取步骤，获取图像；

特征提取步骤，根据权利要求1-6任一项所述的特征提取方法，提取所述图像的图像特征；

图像识别步骤，根据所述图像特征进行图像识别。

8.一种特征提取装置，其中，所述装置包括：

获取特征图模块，用于获取特征图，所述特征图的参数包括特征图批次数量、特征图通道数量、特征图高度以及特征图宽度；

第一尺寸调整模块，用于将所述特征图通道数量缩小第一倍数，并将所述特征图批次数量增大所述第一倍数，得到第一张量，其中所述第一倍数为可整除所述特征图通道数量的正整数；

第一卷积模块，用于对所述第一张量进行第一卷积操作，得到第二张量；

第二尺寸调整模块，用于将所述第二张量的通道数量增大所述第一倍数，并将所述第二张量的批次数量缩小所述第一倍数，得到第三张量；

第三尺寸调整模块，用于将所述第三张量的通道数量缩小第二倍数，并将所述第三张量的高度或宽度增大所述第二倍数，得到第四张量，其中所述第二倍数为可整除所述第三张量的通道数量的正整数；

第二卷积模块，用于对所述第四张量进行第二卷积操作，得到第五张量；

第四尺寸调整模块，用于将所述第五张量的通道数量增大所述第二倍数，并将所述第五张量的高度或宽度缩小所述第二倍数，得到第六张量；

特征提取模块，用于基于所述第六张量，得到所述特征图的特征。

9.一种图像处理装置，其中，所述图像处理装置包括：

图像获取模块，用于获取图像；

特征提取模块，用于根据权利要求1-6任一项所述的特征提取方法，提取所述图像的图像特征；

图像识别模块，用于根据所述图像特征进行图像识别。

10.一种电子设备，其中，所述电子设备包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行如权利要求1至6中任一项所述的特征提取方法或如权利要求7所述的图像处理方法。

11.一种计算机可读存储介质，其中存储有指令，所述指令被处理器执行时，执行如权利要求1至6中任一项所述的特征提取方法或如权利要求7所述的图像处理方法。