CN112733585B

CN112733585B - 图像识别方法

Info

Publication number: CN112733585B
Application number: CN201911059779.3A
Authority: CN
Inventors: 张渊; 谢迪; 浦世亮
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2023-09-05
Anticipated expiration: 2039-10-29
Also published as: CN112733585A

Abstract

本公开公开了一种图像识别方法，涉及神经网络技术领域；所述方法包括：获取待处理的第一神经网络模型，第一神经网络模型中包括多个第一卷积层，每个第一卷积层中包括K×K的第一卷积核，所述K为大于1的整数；根据稀疏化因子，对第一神经网络模型中的第一卷积核进行轻量化处理，得到第二神经网络模型，第二神经网络模型中包括多个第二卷积层，每个第二卷积层中包括K×K及M×M组合的第二卷积核，M为小于K的正整数；当进行图像识别时，通过所述第二神经网络模型，对待识别的目标图像进行识别。由于第二神经网络模型为轻量化的网络模型，因此，通过第二神经网络模型，对待识别的目标图像进行识别时，能够提高识别效率。

Description

图像识别方法

技术领域

本公开涉及神经网络技术领域。特别涉及一种图像识别方法。

背景技术

目前，卷积神经网络已在目标检测、行为识别和人脸识别等方面得到了很好的应用。通过卷积神经网络可以训练出各种识别模型，通过不同的识别模型可以进行不同的识别操作。例如，可以通过卷积神经网络训练出图像识别模型，通过该图像识别模型，从图像中识别出目标对象。

相关技术中，由于卷积神经网络的网络规模不断增大，卷积神经网络的层数可以达到数百层，因此，训练出来的图像识别模型非常庞大，通过该图像识别模型进行目标对象的识别时的效率低。

发明内容

本公开实施例提供了一种图像识别方法，能够解决图像识别效率低的问题。

所述技术方案如下：

一方面，本公开实施例提供了一种图像识别方法，所述方法包括：

获取待处理的第一神经网络模型，所述第一神经网络模型中包括多个第一卷积层，每个第一卷积层中包括K×K的第一卷积核，所述K为大于1的整数；

根据稀疏化因子，对所述第一神经网络模型中的第一卷积核进行轻量化处理，得到第二神经网络模型，所述第二神经网络模型中包括多个第二卷积层，每个第二卷积层中包括K×K及M×M组合的第二卷积核，所述M为小于K的正整数；

当进行图像识别时，通过所述第二神经网络模型，对待识别的目标图像进行识别。

在一种可能的实现方式中，所述通过所述第二神经网络模型，对待识别的目标图像进行识别，包括：

将所述第二神经网络模型加载到计算机设备上，所述计算机设备用于采集所述目标图像，所述第二神经网络模型用于基于所述目标图像进行目标检测、动作识别或者目标跟踪中的一种或多种操作。

在另一种可能的实现方式中，所述将所述第二神经网络模型加载到计算机设备之前，所述方法还包括：

获取多个样本图像；

基于所述多个样本图像，对所述第二神经网络模型进行训练，得到图像识别模型；

所述将所述第二神经网络模型加载到计算机设备上，包括：

将所述图像识别模型加载到所述计算机设备上，所述图像识别模型用于基于所述目标图像进行目标检测、动作识别或者目标跟踪中的一种或多种操作。

在另一种可能的实现方式中，所述图像识别模型还用于从所述目标图像中识别出目标对象，所述目标对象包括人脸、人体、地形、动物、车辆和材料中的至少一个。

在另一种可能的实现方式中，所述根据稀疏化因子，对所述第一神经网络模型中的第一卷积核进行轻量化处理，得到第二神经网络模型，包括：

对于每个第一卷积层中的第一卷积核，根据第一稀疏化因子，对包括C×K×K的所述第一卷积核在输入通道方向上进行轻量化处理，得到第二卷积核；

根据所述第一神经网络模型中的输入层和输出层和所述第二卷积核对应的第二卷积层，生成所述第二神经网络模型；

其中，所述第二卷积核包括C×K×K的三阶张量及C×M×M的三阶张量的组合，所述C为所述第一卷积核在所述输入通道方向的维度，且所述C为大于1的整数。

在另一种可能的实现方式中，所述根据第一稀疏化因子，对包括C×K×K的所述第一卷积核在输入通道方向上进行轻量化处理，得到第二卷积核，包括：

根据所述第一稀疏化因子，将所述C×K×K的三阶张量在所述输入通道方向上拆分为的三阶张量和/>的三阶张量；

将所述的三阶张量进行轻量化处理，得到/>的三阶张量；

将所述的三阶张量和所述/>的三阶张量组成所述第二卷积核；

其中，所述s1为第一稀疏化因子；且所述s1为大于1的整数。

在另一种可能的实现方式中，所述根据所述第一稀疏化因子，将所述C×K×K的三阶张量在所述输入通道方向上拆分为的三阶张量和/> 的三阶张量，包括：

将包括C×K×K×N的第一卷积核在输出通道方向上划分为多组三阶C×K×K的张量，每组C×K×K的三阶张量中包括至少一个C×K×K的三阶张量；

对于每组C×K×K的三阶张量中的每个C×K×K的三阶张量，根据所述C×K×K的三阶张量在所述输入通道方向的起始位置和所述第一稀疏化因子，将所述C×K×K的三阶张量在所述输入通道方向上拆分为的三阶张量和/>的三阶张量；

其中，同一组的C×K×K的三阶张量的在所述输入通道方向的起始位置相同，不同组的C×K×K的三阶张量的/>在所述输入通道方向的起始位置不同。

在另一种可能的实现方式中，相邻两组的C×K×K的三阶张量的的三阶张量在所述输入通道方向的结束位置为另一组的C×K×K的三阶张量的/>的三阶张量在所述输入通道方向的起始位置。

对于每个第一卷积层中的第一卷积核，根据第二稀疏化因子，对包括K×K×N的第一卷积核在输出通道方向上进行轻量化处理，得到第二卷积核；

其中，所述第二卷积核包括K×K×N的三阶张量及M×M×C的三阶张量的组合，所述N为所述第一卷积核在所述输出通道方向的维度，且所述N为大于1的整数。

在另一种可能的实现方式中，所述根据第二稀疏化因子，对包括K×K×N的第一卷积核在输出通道方向上进行轻量化处理，得到第二卷积核，包括：

根据所述第二稀疏化因子，将所述K×K×N的三阶张量在所述输出通道方向上拆分为的三阶张量和/>的三阶张量；

将所述的三阶张量进行轻量化处理，得到/>的三阶张量；

其中，所述s2为第二稀疏化因子，且所述s2为大于1的整数。

对于部分第一卷积层中的第一卷积核，根据第三稀疏化因子，对包括C×K×K的所述第一卷积核在输入通道方向上进行轻量化处理，得到第二卷积核；

对于部分第一卷积层中的第一卷积核，根据第四稀疏化因子，对包括K×K×N的所述第一卷积核在输出通道方向上进行轻量化处理，得到第二卷积核；

根据所述第一神经网络模型中的输入层和输出层和得到的第二卷积核对应的第二卷积层，生成所述第二神经网络模型。

在另一种可能的实现方式中，所述M＝1。

另一方面，本公开实施例提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述处理器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述任一种可能实现方式中的图像识别方法。

另一方面，本公开实施例提供了一种计算机设备，所述计算机设备上加载第二神经网络模型，所述第二神经网络模型用于所述计算机设备基于采集的目标图像进行目标检测、动作识别或者目标跟踪中的一种或多种操作；

其中，所述第二神经网络模型为上述任一种可能实现方式中的基于所述第一神经网络模型轻量化得到的神经网络模型。

另一方面，本公开实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以上述任一种可能实现方式中所述的图像识别方法中所执行的操作。

本公开实施例提供的技术方案带来的有益效果是：

在本公开实施例中，通过对待处理的第一神经网络模型进行轻量化处理，得到第二神经网络模型，通过第二神经网络模型，对待识别的目标图像进行识别。由于第二神经网络模型为轻量化的网络模型，因此，通过第二神经网络模型，对待识别的目标图像进行识别时，能够提高识别效率。

附图说明

图1是本公开实施例提供的一种图像识别的应用场景的示意图；

图2是本公开实施例提供的一种图像识别方法的流程图；

图3是本公开实施例提供的一种第一神经网络模型的结构示意图；

图4是本公开实施例提供的一种模型轻量化方法的流程图；

图5是本公开实施例提供的一种第二卷积核的结构示意图；

图6是本公开实施例提供的另一种第二卷积核的结构示意图；

图7是本公开实施例提供的另一种第二卷积核的结构示意图；

图8是本公开实施例提供的一种模型轻量化方法的流程图；

图9是本公开实施例提供的一种第一卷积核的结构示意图；

图10是本公开实施例提供的另一种第二卷积核的结构示意图；

图11是本公开实施例提供的另一种模型轻量的示意图；

图12是本公开实施例提供的一种模型轻量化方法的流程图；

图13是本公开实施例提供的另一种模型轻量化方法的流程图；

图14是本公开实施例提供的另一种第二卷积核的结构示意图；

图15是本公开实施例提供的另一种模型轻量的示意图；

图16是本公开实施例提供的一种模型轻量化方法的流程图；

图17是本公开实施例提供的另一种模型轻量的示意图；

图18是本公开实施例提供的一种图像识别装置的结构示意图；

图19是本公开实施例提供的一种第一计算机设备的结构示意图；

图20是本公开实施例提供的一种第一计算机设备的结构示意图。

具体实施方式

为使本公开的技术方案和优点更加清楚，下面对本公开实施方式作进一步地详细描述。

本公开实施例提供了一种图像识别的应用场景，参见图1，该应用场景中包括第一计算机设备101和第二计算机设备102。第一计算机设备101和第二计算机设备102之间通过无线或者有线网络连接。

其中，第一计算机设备101用于对第一神经网络模型进行轻量化处理，得到第二神经网络模型，将第二神经网络模型加载到第二计算机设备102中，由第二计算机设备102通过第二神经网络模型，对待识别的目标图像进行识别。

其中，第二神经网络模型用于进行图像识别；并且，第二神经网络模型为训练之前的网络模型；因此，第二计算机设备102通过第二神经网络模型对目标图像进行识别之前，还需要对第二神经网络模型进行训练，得到图像识别模型。

在一种可能的实现方式中，可以由第一计算机设备101对第二神经网络模型进行训练。相应的，第一计算机设备101得到轻量化后的第二神经网络模型后，对第二神经网络模型进行训练，得到图像识别模型，将图像识别模型加载到第二计算机设备102中。

在另一种可能的实现方式中，可以由第二计算机设备102对第二神经网络模型进行训练。相应的，第一计算机设备101得到轻量化后的第二神经网络模型后，直接将第二神经网络模型加载到第二计算机设备102中，由第二计算机设备102对第二神经网络模型进行训练，得到图像识别模型。

其中，第一计算机设备101可以为一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。第二计算机设备102可以为服务器或者终端；当第二计算机设备102为终端时，第二计算机设备102可以为监控设备、手机、平板电脑或者PC(Personal Computer，个人计算机)终端等。第一神经网络模型可以为VGG系列模型、Darknet系列模型或者Resnet系列模型；在本公开实施例中，对第一神经网络模型不作具体限定。

需要说明的另一点是，该卷积神经网络模型可以应用在目标检测、行为识别或者人脸识别等方面，从而提高了目标检测、行为识别或者人脸识别的效率。本公开实施例提供的图像识别方法可以应用在各种实际应用场景中，以下结合三种示例性应用场景对本公开实施例的实际技术效果进行阐述：

(1)可以应用在目标检测的场景中：在目标检测的场景中，第二计算机设备102采集到目标图像后，将目标图像输入图像识别模型中，输出该目标图像中的目标对象；该目标对象包括人脸、人体、地形、动物、车辆和材料中的至少一个。

例如，在人脸打卡、刷脸支付或者监控安防等场景中；第二计算机设备102采集到包括用户图像的目标图像，将目标图像输入图像识别模型中，输出目标图像中包括的人脸信息，基于该人脸信息进行打卡、支付或者上报。

(2)可以应用在动作识别的场景中：在动作识别的场景中，第二计算机设备102采集到目标图像后，将目标图像输入图像识别模型中，输出该目标图像中肢体动作。

(3)可以应用在目标跟踪的场景中：在目标跟踪的场景中，第二计算机设备102采集视频流，视频流中包括多帧目标图像，将每帧目标图像输入图像识别模型中，输出该目标图像中的目标对象，从而对目标对象进行跟踪。

参见图2，本公开实施例提供了一种图像识别方法，该方法应用在第一计算机设备中，该方法包括：

201、第一计算机设备获取待处理的第一神经网络模型，第一神经网络模型的第一卷积层中包括K×K的第一卷积核。

第一神经网络模型为量化前的神经网络模型；并且，第一神经网络模型可以为卷积神经网络模型，还可以为深度神经网络模型；在本公开实施例中，对

第一神经网络模型不作具体限定。

参见图3，第一神经网络模型包括输入层、输出层和多个卷积层；输入层的输出端与第一个卷积层的输入端连接，并且，多个卷积层依次连接；最后一个卷积层的输出端与输出层连接。

例如，第一神经网络模型包括4个卷积层，分别为卷积层1、卷积层2、卷积层3和卷积层4；则输入层的输出端与卷积层1的输入端连接，卷积层1的输出端与卷积层2的输入端连接，卷积层2的输出端与卷积层3的输入端连接，卷积层3的输出端与卷积层4的输入端连接，卷积层4的输出端与输出层连接。

其中，对于每个卷积层，该卷积层包括卷积核W，卷积核W为大小为C×K×K×N的四阶张量；C为卷积核在输入通道方向的纬度；N为卷积核在输出通道方向的纬度；K为卷积核的空间纬度。其中，K为大于1的整数。例如，K为3或者4。

202、第一计算机设备根据稀疏化因子，对第一神经网络模型中的第一卷积核进行轻量化处理，得到第二神经网络模型。

第二神经网络模型包括多个第二卷积层，每个第二卷积层中包括K×K及M×M组合的第二卷积核。其中，M为小于K的正整数；例如，当K为3时，M可以为1或者2；当K为4时，M可以为1、2或者3；在本公开实施例中，M可以取1，这样能够最大限度的轻量化神经网络模型，从而大幅度提高后续图像识别的效率。

并且，稀疏化因子可以为大于1的任一整数，例如，稀疏化因子可以为3、4或者5等。并且，稀疏化因子越大，量化的级别越大，得到的第二神经网络模型越轻便，第二神经网络模型所占空间越小，通过第二神经网络模型进行图像识别的效率越高。

其中，在对第一神经网络模型进行轻量化处理时，可以在输入通道方向上对卷积核进行轻量化处理，也可以在输出通道方向上对卷积核进行轻量化处理；还可以对于部分卷积层，在输入通道方向上对卷积核进行轻量化处理，对部分卷积层，在输出通道方向上对卷积核进行轻量化处理，在以下三个实施例中，分别对这三种情况进行详细说明。

在本公开实施例中，第二神经网络模型中的卷积核由K×K的二阶张量和M×M的二阶张量组合而成，并且M为小于K的正整数。因此，本公开实施例中的第二神经网络模型是从底层卷积结构出发，在不需要经过神经网络通道裁剪或者神经网络定点压缩的处理，也能构建轻量化的第二神经网络模型，提高了获取轻量化的第二神经网络模型的效率。并且，本公开实施例中的第二神经网络模型相较于第一神经网络模型，能够较大幅度压缩第二神经网络模型的计算量和参数量，从而使得第二神经网络模型变为了轻量化的神经网络模型，能够降低了第二神经网络模型的存储空间以及通过该第二神经网络模型进行图像识别的效率。

203、当进行图像识别时，第一计算机设备通过第二神经网络模型，对待识别的目标图像进行识别。

第二神经网络模型用于基于目标图像进行目标检测、动作识别或者目标跟踪中的一种或多种操作。并且，在本步骤中，第一计算机设备可以将第二神经网络模型加载到第二计算机设备上，由第二计算机设备训练图像识别模型，通过图像识别络模型对目标图像进行识别，也即以下第一种实现方式。第一计算机设备还可以通过第二神经网络模型训练图像识别模型，将图像识别模型加载到第二计算机设备上，由第二计算机设备通过图像识别模型对目标图像进行识别，也即以下第二种实现方式。第一计算机设备还可以通过第二神经网络模型，训练图像识别模型，通过图像识别模型对待识别的目标图像进行识别，也即以下第三种实现方式。

对于第一种实现方式，第一计算机设备通过第二神经网络模型，对待识别的目标图像进行识别的步骤可以为：第一计算机设备将第二神经网络模型加载到第二计算机设备上。第二计算机设备用于采集目标图像，第二神经网络模型用于基于该目标图像进行目标检测、动作识别或者目标跟踪中的一种或多种操作。第二计算机设备获取多个样本图像，基于多个样本图像，对第二神经网络模型进行训练，得到图像识别模型，通过图像识别模型，对待识别的目标图像进行识别。

其中，当图像识别模型用于从图像中识别目标对象时，第二计算机设备通过图像识别模型，对待识别的目标图像进行识别的步骤可以为：第二计算机设备将目标图像输入图像识别模型中，输出目标图像中包括的目标对象。目标对象可以包括人脸、人体、地形、动物、车辆和材料中的至少一个。

当图像识别模型用于从图像中识别出肢体动作时，第二计算机设备通过图像识别模型，对待识别的目标图像进行识别的步骤可以为：第二计算机设备将目标图像输入图像识别模型中，输出目标图像中包括的肢体动作。

当图像识别模型用于基于图像进行跟踪时，第二计算机设备通过图像识别模型，对待识别的目标图像进行识别的步骤可以为：第二计算机设备采集视频流，视频流中包括多帧目标图像，将每帧目标图像输入图像识别模型中，输出目标图像中目标对象，从而对目标对象进行跟踪。

需要说明的另一点是，第二计算机设备只需要训练一次图像识别模型，后续进行图像识别时，直接使用训练好的图像识别模型进行识别即可，不需要重复训练图像识别模型。

对于第二种实现方式，第一计算机设备通过第二神经网络模型，对待识别的目标图像进行识别的步骤可以为：第一计算机设备获取多个样本图像，基于多个样本图像，对第二神经网络模型进行训练，得到图像识别模型，将图像识别模型加载到第二计算机设备上。第二计算机设备通过图像识别模型，对待识别的目标图像进行识别。

需要说明的一点是，第一计算机设备只需要训练一次图像识别模型，将训练好的图像识别模型加载到第二计算机设备上就行。后续第二计算机设备进行图像识别时，直接使用已加载的图像识别模型进行识别即可，不需要重复加载。

对于第三种实现方式，第一计算机设备通过第二神经网络模型，对待识别的目标图像进行识别的步骤可以为：第一计算机设备获取多个样本图像，基于多个样本图像，对第二神经网络模型进行训练，得到图像识别模型，通过图像识别模型，对待识别的目标图像进行识别。

需要说明的一点是，第一计算机设备只需要训练一次图像识别模型，后续进行图像识别时，直接使用训练好的图像识别模型进行识别即可，不需要重复训练图像识别模型。

需要说明的另一点是，目标图像可以为第一计算机设备或者第二计算机设备采集的；也可以为其他设备采集，传输至第一计算机设备或者第二计算机设备的。在本公开实施例中，对目标图像的来源不作具体限定。

参见图4，本公开实施例提供了一种模型轻量化方法，该方法应用在第一计算机设备中。在本公开实施例中，对每个第一卷积层的第一卷积核在输入通道方向上进行轻量化处理为例进行说明，该方法包括：

401、对于每个第一卷积层中的第一卷积核，第一计算机设备根据第一稀疏化因子，对包括的C×K×K的第一卷积核在输入通道方向上进行轻量化处理，得到第二卷积核。

其中，第二卷积核包括C×K×K的三阶张量及C×M×M的三阶张量的组合，C为第一卷积核在输入通道方向的维度，且C为大于1的整数。当M＝1时，第二卷积核包括C×K×K的三阶张量及C×1×1的三阶张量的组合。其中，对C×K×K的三阶张量与C×1×1的三阶张量的位置关系不作具体限定；C×1×1的三阶张量可以在C×K×K的三阶张量的上端，如图5所示。C×1×1的三阶张量也可以在C×K×K的三阶张量的下端，如图6所示。C×1×1的三阶张量还可以在C×K×K的三阶张量之间，如图7所示。并且，C×K×K的三阶张量在输入通道方向的维度大小与C×1×1的三阶张量在输入通道方向的维度大小也可以根据需要进行设置并更改；并且，当C×1×1的三阶张量在输入通道方向的维度较大时，得到的第二卷积核更加轻便。

参见图8，本步骤可以通过以下步骤4011至4013实现，包括：

4011、第一计算机设备根据第一稀疏化因子，将C×K×K的三阶张量在输入通道方向上拆分为的三阶张量和/>的三阶张量。

第一卷积核包括C×K×K×N的四阶张量；在输出通道方向上，可以认为C×K×K×N的四阶张量包括多个C×K×K的三阶张量，每个C×K×K的三阶张量在输入通道方向上拆分为的三阶张量和/>的三阶张量。每个C×K×K的三阶张量的/>在输入通道方向的起始位置可以相同，也可以不相同，也可以部分C×K×K的三阶张量的在输入通道方向的起始位置相同，部分C×K×K的三阶张量的/>在输入通道方向的起始位置不同。

在本步骤中，第一计算机设备可以在输出通道N上将多个C×K×K的三阶张量划分为多组C×K×K的三阶张量，每组C×K×K的三阶张量的在输入通道方向的起始位置相同。相应的，本步骤可以通过以下步骤(1)至(2)实现，包括：

(1)第一计算机设备将C×K×K×N在输出通道方向上划分为多组C×K×K的三阶张量，每组C×K×K的三阶张量中包括至少一个C×K×K的三阶张量。

其中，每组C×K×K的三阶张量的数量可以相等，也可以不相等。当每组C×K×K的三阶张量的数量不相等时，每组C×K×K的三阶张量的数量可以依次增减，也可以依次递减，还可以是随机的数量。

在一种可能的实现方式中，当每组C×K×K的三阶张量的数量相等时，C×K×K的三阶张量的组数可以根据第一卷积核在输入通道方向的纬度C和第一稀疏化因子s1确定；例如，C×K×K的三阶张量的组数可以为需要说明的一点是，当/>为整数时，C×K×K的三阶张量的组数可以为/>当/>为非整数时，C×K×K的三阶张量的组数可以为/>的上取整或者下取整。

在本公开实施例中，在输入通道方向引入第一稀疏化因子s1，通过将C×K×K×N的四维张量转换为的四维张量和/>的四维张量，从而能够将第二神经网络模型的计算量压缩为C×K×K×N的四维张量的/>从而降低了通过该第二神经网络模型进行图像识别的计算量，提高了识别效率。

第一稀疏化因子s1的介绍：第一稀疏化因子s1可以为大于1的整数，例如，s1为2、3、4、5、6、7、8、9或者10等任一大于1的整数。并且，第一稀疏化因子s1的取值越大，对第一神经网络模型轻量化的程度越大，得到的第二神经网络模型所占的存储空间越小以及通过第二神经网络模型进行图像识别的效率越高；但是第一稀疏化因子s1的取值越大，会影响通过第二神经网络模型进行图像识别的准确性。在本公开实施例中，设置第一稀疏化因子s1的取值为4，从而可以保证32倍的并行计算速度。

(2)对于每组C×K×K的三阶张量中的每个C×K×K的三阶张量，第一计算机设备根据C×K×K的三阶张量在输入通道方向的起始位置和第一稀疏化因子，将C×K×K的三阶张量在输入通道方向上拆分为的三阶张量和/>的三阶张量。

其中，同一组的C×K×K的三阶张量的在输入通道方向的起始位置相同，不同组的C×K×K的三阶张量的/>在输入通道方向的起始位置不同。并且，相邻两组的C×K×K的三阶张量的/>的三阶张量在输入通道方向的结束位置为另一组的C×K×K的三阶张量的/>的三阶张量在输入通道方向的起始位置。

在本公开实施例中，每组C×K×K的三阶张量的在输入通道方向的起始位置可以交替出现，从而提高了第二神经网络模型的性能。

4012、第一计算机设备将的三阶张量进行轻量化处理，得到/>的三阶张量。

4013、第一计算机设备将的三阶张量和/>的三阶张量组成第二卷积核。

图9是第一卷积核的结构示意图，为了便于作图，将二维K×K矩阵变换为列向量来表示。图10是将第一卷积核在输入通道方向上进行量化后得到第二卷积核的结构示意图，在图10中，以M＝1为例进行说明的。

需要说明的一点是，第一神经网络模型包括多个第一卷积层，可以对包括K×K的第一卷积核的第一卷积层都在输入通道方向上进行量化。例如，第一神经网络包括4个卷积层，分别为卷积层1、卷积层2、卷积层3和卷积层4。其中，卷积层1、2和4包括K×K的第一卷积核，卷积层3包括1×1的第一卷积核。在本公开实施例中，对卷积层1、卷积层2、卷积层4中的第一卷积核，在输入通道方向上，按照本公开实施例提供的方法进行轻量化处理，卷积层3中的第一卷积核不做任何处理，例如，参见图11。

402、第一计算机设备根据第一神经网络模型中的输入层和输出层和第二卷积核对应的第二卷积层，生成第二神经网络模型。

第一计算机设备将第一神经网络模型中的输入层与第二卷积核对应的第二卷积层连接，第二卷积层与第一神经网络模型中的输出层连接，得到第二神经网络模型。

在本公开实施例中，通过在输入通道方向上将第一神经网络模型的第一卷积核进行轻量化处理，得到的第二神经网络模型更轻便，减少了第二神经网络模型所占存储空间，以及提高了基于第二神经网络模型进行模型训练的计算量和效率。

参见图12，本公开实施例提供了一种模型轻量化方法，该方法应用在第一计算机设备中。在本公开实施例中，以在输出通道方向上对卷积核进行轻量化处理为例进行说明，该方法包括：

1201、对于每个第一卷积层中的第一卷积核，第一计算机设备根据第二稀疏化因子，对包括K×K×N的第一卷积核在输出通道方向上进行轻量化处理，得到第二卷积核。

其中，第二卷积核包括K×K×N的三阶张量及M×M×C的三阶张量的组合，N为第一卷积核在输出通道方向的维度，且N为大于1的整数。当M＝1时，第二卷积核包括K×K×N的三阶张量及1×1×C的三阶张量的组合。

参见图13，本步骤可以通过以下步骤12011至12013实现，包括：

12011、第一计算机设备根据第二稀疏化因子，将K×K×N的三阶张量在输出通道方向上拆分为的三阶张量和/>的三阶张量。

其中，s2为第二稀疏化因子，且s2为大于1的整数，例如，第二稀疏化因子s2可以为2、3、4、5、6或者7等任一大于1的整数。第二稀疏化因子和第一稀疏化因子可以相同，也可以不相同；在本公开实施例中，对此不作具体限定。

在本公开实施例中，以第二稀疏化因子s2和第一稀疏化因子s1相同，均为4为例进行说明。并且，当第二稀疏化因子s2为2时，在本公开实施例中，的四阶张量和的四阶张量的输入信号是不一致的，这样能够提高第二神经网络模型的稳定性。

12012、第一计算机设备将的三阶张量进行轻量化处理，得到/>的三阶张量。

的三阶张量可以连续的，/>的三阶张量的第六卷积核也可以连续的；并且，/>的三阶张量可以在/>的三阶张量之前，也可以在的三阶张量之后。例如，存在2个/> 的三阶张量和6个/>的三阶张量；并且，2个/>的三阶张量在6个/>的三阶张量之前。

在另一种可能的实现方式中，的三阶张量和/>的三阶张量可以交替出现。并且，/>的三阶张量的数量和/>的三阶张量的数量可以相等，也可以不相等。例如，当/>的三阶张量的数量和/>的三阶张量的数量相等时，1个/>的三阶张量，然后一个/>的三阶张量，然后再1个的三阶张量，再一个/>的三阶张量，以此类推。或者，2个/>的三阶张量，然后2个/>的三阶张量，然后再2个/>的三阶张量，再2个的三阶张量，以此类推。再如，当/>的三阶张量的数量和/>的三阶张量的数量不相等时，1个/>的三阶张量，然后2个/>的三阶张量，然后1个/>的三阶张量，然后再2个/>的三阶张量等。

在本公开实施例中，的三阶张量和/>的三阶张量的可以交替出现，从而提高了第二神经网络模型的性能。

12013、第一计算机设备将的三阶张量和/>的三阶张量组成第二卷积核。

图14是将第一卷积核在输出通道方向上进行量化后得到的第二卷积核的结构示意图，在图14中以M＝1为例进行说明的。

需要说明的一点是，第一神经网络模型包括多个第一卷积层，可以对包括K×K的第一卷积核的第一卷积层都在输出通道方向上进行量化。例如，第一神经网络包括4个卷积层，分别为卷积层1、卷积层2、卷积层3和卷积层4。其中，卷积层1、2和4包括K×K的第一卷积核，卷积层3包括1×1的第一卷积核。在本公开实施例中，对卷积层1、卷积层2、卷积层4中的第一卷积核，在输出通道方向上，按照本公开实施例提供的方法进行轻量化处理，卷积层3中的第一卷积核不做任何处理，例如，参见图15。

需要说明的一点是，的三阶张量的第一数量以及/>的三阶张量的第二数量都可以根据需要进行设置并更改，在本公开实施例中，对第一数量和第二数量都不作具体限定；例如，第一数量小于第二数量，或者第一数量大于第二数量，或者第一数量等于第二数量。

当第一数量大于第二数量时，被轻量化的三阶张量的数量较少，这样能够提高通过该第二神经网络模型进行图像识别的准确率；当第一数量小于第二数量时，被轻量化的三阶张量的数量较多，这样能够降低该第二神经网络模型所占的存储空间，以及提高通过第二神经网络模型进行图像识别的效率。

在本公开实施例中，在输出通道方向引入第二稀疏化因子s2，通过将C×K×K×N的四阶张量转换为的四阶张量和/>的四阶张量，从而能够将第二神经网络模型的计算量压缩为C×K×K×N的四阶张量的/>从而降低了通过第二神经网络模型进行图像识别的计算量，提高了识别效率。

1202、第一计算机设备根据第一神经网络模型中的输入层和输出层和第二卷积核对应的第二卷积层，生成第二神经网络模型。

本步骤和步骤402的处理过程相似，在此不再赘述。

在本公开实施例中，通过在输出通道方向上将第一神经网络模型的第一卷积核进行轻量化处理，得到的第二神经网络模型更轻便，减少了第二神经网络模型所占存储空间，以及提高了基于第二神经网络模型进行模型训练的计算量和效率。

参见图16，本公开实施例提供了一种模型轻量化方法，该方法应用在第一计算机设备中。在本公开实施例中，以对于部分第一卷积层的第一卷积核在输入通道方向上进行轻量化处理，对于部分第一卷积层的第一卷积核在输出通道方向上进行轻量化处理为例进行说明，该方法包括：

1601、对于部分第一卷积层中的第一卷积核，第一计算机设备根据第三稀疏化因子，对包括C×K×K的第一卷积核在输入通道方向上进行轻量化处理，得到第二卷积核。

本步骤和步骤401的处理过程相似，在此不再赘述。

1602、对于部分第一卷积层中的第一卷积核，第一计算机设备根据第四稀疏化因子，对包括K×K×N的第一卷积核在输出通道方向上进行轻量化处理，得到第二卷积核。

其中，第三稀疏化因子s3为大于1的整数；例如，第三稀疏化因子s3可以为2、3、4、5、6或者7等任一大于1的整数。同样，第四稀疏化因子s4也可以为大于1的整数；例如，第四稀疏化因子s4可以为2、3、4、5、6或者7等任一大于1的整数。并且，第三稀疏化因子s3和第四稀疏化因子s4可以相同，也可以不相同，在本公开实施例中，对此不作具体限定。

本步骤和步骤1201的处理过程相似，在此不再赘述。

需要说明的一点是，第一神经网络模型包括多个第一卷积层，可以对包括K×K的第一卷积核的第一卷积层都在输出通道方向上进行量化。例如，第一神经网络包括4个卷积层，分别为卷积层1、卷积层2、卷积层3和卷积层4。其中，卷积层1、2和4包括K×K的第一卷积核，卷积层3包括1×1的第一卷积核。在本公开实施例中，对卷积层1和卷积层4中的第一卷积核，在输入通道方向上，按照本公开实施例提供的方法进行轻量化处理，对卷积层2中的第一卷积核，在输出通道方向上，按照本公开实施例提供的方法进行轻量化处理，卷积层3中的第一卷积核不做任何处理，例如，参见图17。

1603、第一计算机设备根据第一神经网络模型中的输入层和输出层和得到的第二卷积核对应的第二卷积层，生成第二神经网络模型。

本步骤和步骤402的处理过程相似，在此不再赘述。

在本公开实施例中，通过对部分第一卷积核在输出通道方向进行轻量化处理，对于部分第一卷积核在输出通道方向上进行轻量化处理，得到的第二神经网络模型更轻便，减少了第二神经网络模型所占存储空间，以及提高了基于第二神经网络模型进行模型训练的计算量和效率。

本公开实施例提供了一种图像识别装置，该装置应用在第一计算机设备中，参见图18，该装置包括：

获取模块1801，用于获取待处理的第一神经网络模型，第一神经网络模型中包括多个第一卷积层，每个第一卷积层中包括K×K的第一卷积核，K为大于1的整数；

处理模块1802，用于根据稀疏化因子，对第一神经网络模型中的第一卷积核进行轻量化处理，得到第二神经网络模型，第二神经网络模型中包括多个第二卷积层，每个第二卷积层中包括K×K及M×M组合的第二卷积核，M为小于K的正整数；

识别模块1803，用于当进行图像识别时，通过第二神经网络模型，对待识别的目标图像进行识别。

在一种可能的实现方式中，识别模块1803，还用于将第二神经网络模型加载到计算机设备上，计算机设备用于采集目标图像，第二神经网络模型用于基于目标图像进行目标检测、动作识别或者目标跟踪中的一种或多种操作。

在另一种可能的实现方式中，识别模块1803，还用于获取多个样本图像；基于多个样本图像，对第二神经网络模型进行训练，得到图像识别模型；将图像识别模型加载到计算机设备上，图像识别模型用于基于目标图像进行目标检测、动作识别或者目标跟踪中的一种或多种操作。

在另一种可能的实现方式中，图像识别模型还用于从目标图像中识别出目标对象，目标对象包括人脸、人体、地形、动物、车辆和材料中的至少一个。

在另一种可能的实现方式中，处理模块1802，还用于对于每个第一卷积层中的第一卷积核，根据第一稀疏化因子，对包括C×K×K的第一卷积核在输入通道方向上进行轻量化处理，得到第二卷积核；根据第一神经网络模型中的输入层和输出层和第二卷积核对应的第二卷积层，生成第二神经网络模型；

其中，第二卷积核包括C×K×K的三阶张量及C×M×M的三阶张量的组合，C为第一卷积核在输入通道方向的维度，且C为大于1的整数。

在另一种可能的实现方式中，处理模块1802，还用于根据第一稀疏化因子，将C×K×K的三阶张量在输入通道方向上拆分为的三阶张量和/>的三阶张量；将/>的三阶张量进行轻量化处理，得到/>的三阶张量；将/>的三阶张量和/>的三阶张量组成第二卷积核；

其中，s1为第一稀疏化因子；且s1为大于1的整数。

在另一种可能的实现方式中，处理模块1802，还用于将包括C×K×K×N的第一卷积核在输出通道方向上划分为多组三阶C×K×K的张量，每组C×K×K的三阶张量中包括至少一个C×K×K的三阶张量；

对于每组C×K×K的三阶张量中的每个C×K×K的三阶张量，根据C×K×K的三阶张量在输入通道方向的起始位置和第一稀疏化因子，将C×K×K的三阶张量在输入通道方向上拆分为的三阶张量和/>的三阶张量；

其中，同一组的C×K×K的三阶张量的在输入通道方向的起始位置相同，不同组的C×K×K的三阶张量的/>在输入通道方向的起始位置不同。

在另一种可能的实现方式中，相邻两组的C×K×K的三阶张量的的三阶张量在输入通道方向的结束位置为另一组的C×K×K的三阶张量的/> 的三阶张量在输入通道方向的起始位置。

在另一种可能的实现方式中，处理模块1802，还用于对于每个第一卷积层中的第一卷积核，根据第二稀疏化因子，对包括K×K×N的第一卷积核在输出通道方向上进行轻量化处理，得到第二卷积核；根据第一神经网络模型中的输入层和输出层和第二卷积核对应的第二卷积层，生成第二神经网络模型；

其中，第二卷积核包括K×K×N的三阶张量及M×M×C的三阶张量的组合，N为第一卷积核在输出通道方向的维度，且N为大于1的整数。

在另一种可能的实现方式中，处理模块1802，还用于根据第二稀疏化因子，将K×K×N的三阶张量在输出通道方向上拆分为的三阶张量和/> 的三阶张量；将/>的三阶张量进行轻量化处理，得到/>的三阶张量；将的三阶张量和/>的三阶张量组成第二卷积核；

其中，s2为第二稀疏化因子，且s2为大于1的整数。

在另一种可能的实现方式中，处理模块1802，还用于对于部分第一卷积层中的第一卷积核，根据第三稀疏化因子，对包括C×K×K的第一卷积核在输入通道方向上进行轻量化处理，得到第二卷积核；对于部分第一卷积层中的第一卷积核，根据第四稀疏化因子，对包括K×K×N的第一卷积核在输出通道方向上进行轻量化处理，得到第二卷积核；根据第一神经网络模型中的输入层和输出层和得到的第二卷积核对应的第二卷积层，生成第二神经网络模型。

在另一种可能的实现方式中，M＝1。

需要说明的是：上述实施例提供的图像识别装置在图像识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像识别装置与图像识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图19是本发明实施例提供的一种第一计算机设备的结构示意图，该第一计算机设备1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)1901和一个或一个以上的存储器1902，其中，该存储器1902中存储有至少一条指令，该至少一条指令由该处理器1901加载并执行以实现上述各个方法实施例提供的图像识别方法。当然，该第一计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该第一计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

图20是本发明实施例提供的一种第二计算机设备的结构示意图，该第二计算机设备2000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)2001和一个或一个以上的存储器2002，其中，该存储器2002中存储有至少一条指令，该至少一条指令由该处理器2001加载并执行以实现上述各个方法实施例提供的图像识别方法。当然，该第一计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该第一计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

其中，第二计算机设备上加载第二神经网络模型，第二神经网络模型用于第二计算机设备基于采集的目标图像进行目标检测、动作识别或者目标跟踪中的一种或多种操作。第二神经网络模型为第一计算机设备对第一神经网络模型进行轻量化得到的神经网络模型。

本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质应用于计算机设备，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行以实现上述实施例图像识别方法。

以上所述仅是为了便于本领域的技术人员理解本公开的技术方案，并不用以限制本公开。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

对于每个第一卷积层中的第一卷积核，根据第一稀疏化因子，将包括C×K×K的所述第一卷积核在输入通道方向上拆分为的三阶张量和/>的三阶张量；其中，所述C为所述第一卷积核在所述输入通道方向的维度，且所述C为大于1的整数，所述s1为所述第一稀疏化因子；且所述s1为大于1的整数；

将所述的三阶张量进行轻量化处理，得到/>的三阶张量；

将所述的三阶张量和所述/>的三阶张量组成第二卷积核；

根据所述第一神经网络模型中的输入层和输出层和所述第二卷积核对应的第二卷积层，生成第二神经网络模型，所述第二神经网络模型中包括多个第二卷积层，每个第二卷积层中包括K×K及M×M组合的第二卷积核，所述M为小于K的正整数；

2.根据权利要求1所述的方法，其特征在于，所述通过所述第二神经网络模型，对待识别的目标图像进行识别，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述第二神经网络模型加载到计算机设备上之前，所述方法还包括：

获取多个样本图像；

所述将所述第二神经网络模型加载到计算机设备上，包括：

4.根据权利要求3所述的方法，其特征在于，所述图像识别模型还用于从所述目标图像中识别出目标对象，所述目标对象包括人脸、人体、地形、动物、车辆和材料中的至少一个。

5.根据权利要求1所述的方法，其特征在于，所述根据第一稀疏化因子，将包括C×K×K的所述第一卷积核在输入通道方向上拆分为的三阶张量和/>的三阶张量，包括：

6.根据权利要求5所述的方法，其特征在于，相邻两组的C×K×K的三阶张量的的三阶张量在所述输入通道方向的结束位置为另一组的C×K×K的三阶张量的/>的三阶张量在所述输入通道方向的起始位置。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

其中，所述N为所述第一卷积核在所述输出通道方向的维度，且所述N为大于1的整数。

8.根据权利要求7所述的方法，其特征在于，所述根据第二稀疏化因子，对包括K×K×N的第一卷积核在输出通道方向上进行轻量化处理，得到第二卷积核，包括：

将所述的三阶张量进行轻量化处理，得到/>的三阶张量；

其中，所述s2为所述第二稀疏化因子，且所述s2为大于1的整数。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.根据权利要求1-9任一项所述的方法，其特征在于，所述M＝1。