CN111178258B

CN111178258B - 一种图像识别的方法、系统、设备及可读存储介质

Info

Publication number: CN111178258B
Application number: CN201911386454.6A
Authority: CN
Inventors: 沈付旺
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2019-12-29
Filing date: 2019-12-29
Publication date: 2022-04-22
Anticipated expiration: 2039-12-29
Also published as: CN111178258A

Abstract

本申请公开了一种图像识别的方法，包括：对卷积神经网络模型每一层的权值和激活值进行线性量化处理；根据线性量化处理后的卷积神经网络模型结合加速算法生成量化推理网络；利用量化推理网络对待识别图集进行图像识别。本申请通过分别对卷积神经网络模型每一层的权值和激活值进行线性量化处理，然后根据线性量化处理后的卷积神经网络模型结合加速算法生成量化推理网络，使得图像识别过程中神经网络的推理速度得到提高，并且大幅度的降低了卷积神经网络模型的大小，节省了设备的存储空间，降低了设备运行时的能耗。本申请同时还提供了一种图像识别的系统、设备及可读存储介质，具有上述有益效果。

Description

一种图像识别的方法、系统、设备及可读存储介质

技术领域

本申请涉及图像识别领域，特别涉及一种图像识别的方法、系统、设备及可读存储介质。

背景技术

当今深度学习等人工智能算法和技术快速且不断地涌现出来，当这些技术真正地能为我们地生活服务的时候，人工智能技术才能充分发挥它的价值所在。基于深度学习的人工智能在图像识别任务上得到了突破性地进展，但这些进展仍然是建立在昂贵的深度学习设备(主要以GPU集群为主)以及巨大的能耗费用的基础上得到的。

然而，由于图像识别任务的深度学习主要是建立在深度卷积神经网络的基础上进行的，这种需要庞大计算资源的数学结构在FPGA、手机等移动或者边缘设备上的部署又成了问题。而计算资源受限的设备无法成功部署且快速运行基于深度卷积神经网络的深度学习算法，导致图像识别的速度较低。

因此，如何提高图像识别的速度是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种图像识别的方法、系统、设备及可读存储介质，用于提高图像识别的速度。

为解决上述技术问题，本申请提供一种图像识别的方法，该方法包括：

获取激活值文件、待识别图集和卷积神经网络模型；

对所述卷积神经网络模型每一层的权值进行线性量化处理；

根据所述激活值文件确定激活值量化系数，并对所述卷积神经网络模型每一层的激活值进行线性量化处理；

根据线性量化处理后的所述卷积神经网络模型结合加速算法生成量化推理网络；

利用所述量化推理网络对所述待识别图集进行图像识别。

可选的，所述获取激活值文件、待识别图集和卷积神经网络模型，包括：

获取训练图集，并利用预设推理引擎对所述训练图集中的每张图片进行推理，得到对应的推理结果；

依次从每个所述推理结果中选取每个位置的最大推理值，并将每个位置的最大推理值保存为当前层的激活值；

将每个层对应的激活值保存为所述激活值文件。

从模型库中调用卷积神经网络模型文件，生成所述卷积神经网络模型。

可选的，在根据线性量化处理后的所述卷积神经网络模型结合加速算法生成量化推理网络之前，还包括：

接收输入的加速算法修改命令；

根据所述加速算法修改命令获取对应的配置文件，并根据所述配置文件确定新加速算法；

将所述加速算法替换为所述新加速算法。

本申请还提供一种图像识别的系统，该系统包括：

获取模块，用于获取激活值文件、待识别图集和卷积神经网络模型；

第一量化模块，用于对所述卷积神经网络模型每一层的权值进行线性量化处理；

第二量化模块，用于根据所述激活值文件确定激活值量化系数，并对所述卷积神经网络模型每一层的激活值进行线性量化处理；

生成模块，用于根据线性量化处理后的所述卷积神经网络模型结合加速算法生成量化推理网络；

图像识别模块，用于利用所述量化推理网络对所述待识别图集进行图像识别。

可选的，所述获取模块包括：

推理子模块，用于获取训练图集，并利用预设推理引擎对所述训练图集中的每张图片进行推理，得到对应的推理结果；

选取子模块，用于依次从每个所述推理结果中选取每个位置的最大推理值，并将每个位置的最大推理值保存为当前层的激活值；

保存子模块，用于将每个层对应的激活值保存为所述激活值文件。

可选的，所述获取模块包括：

调用子模块，用于从模型库中调用卷积神经网络模型文件，生成所述卷积神经网络模型。

可选的，还包括：

接收模块，用于接收输入的加速算法修改命令；

获取模块，用于根据所述加速算法修改命令获取对应的配置文件，并根据所述配置文件确定新加速算法；

替换模块，用于将所述加速算法替换为所述新加速算法。

本申请还提供一种图像识别设备，该图像识别设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述任一项所述图像识别的方法的步骤。

本申请还提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述图像识别的方法的步骤。

本申请所提供图像识别的方法，包括：获取激活值文件、待识别图集和卷积神经网络模型；对卷积神经网络模型每一层的权值进行线性量化处理；根据激活值文件确定激活值量化系数，并对卷积神经网络模型每一层的激活值进行线性量化处理；根据线性量化处理后的卷积神经网络模型结合加速算法生成量化推理网络；利用量化推理网络对待识别图集进行图像识别。

本申请所提供的技术方案，通过分别对卷积神经网络模型每一层的权值和激活值进行线性量化处理，然后根据线性量化处理后的卷积神经网络模型结合加速算法生成量化推理网络，最后利用量化推理网络对待识别图集进行图像识别，使得图像识别过程中神经网络的推理速度得到提高，并且大幅度的降低了卷积神经网络模型的大小，节省了设备的存储空间，降低了设备运行时的能耗。本申请同时还提供了一种图像识别的系统、设备及可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种图像识别的方法的流程图；

图2为本申请实施例所提供的另一种图像识别的方法的流程图；

图3为本申请实施例所提供的一种图像识别的系统的结构图；

图4为本申请实施例所提供的另一种图像识别的系统的结构图；

图5为本申请实施例所提供的一种图像识别设备的结构图。

具体实施方式

本申请的核心是提供一种图像识别的方法、系统、设备及可读存储介质，用于提高图像识别的速度。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种图像识别的方法的流程图。

其具体包括如下步骤：

S101：获取激活值文件、待识别图集和卷积神经网络模型；

基于现有技术中，图像识别任务的深度学习主要是建立在深度卷积神经网络的基础上进行的，这种需要庞大计算资源的数学结构在FPGA、手机等移动或者边缘设备上的部署又成了问题。而计算资源受限的设备无法成功部署且快速运行基于深度卷积神经网络的深度学习算法，导致图像识别的速度较低；故本申请提供了一种图像识别的方法，踊跃解决上述问题；

可选的，这里提到的获取激活值文件、待识别图集和卷积神经网络模型，其具体可以为接收用户输入的激活值文件、待识别图集和卷积神经网络模型；

优选的，为了提高激活值文件的获取精度，同时避免激活值超过阈值范围，因此可以将激活值文件的各位置的元素值替换为最大值，即这里提到的获取激活值文件、待识别图集和卷积神经网络模型，其具体也可以为：

获取训练图集，并利用预设推理引擎对训练图集中的每张图片进行推理，得到对应的推理结果；

依次从每个推理结果中选取每个位置的最大推理值，并将每个位置的最大推理值保存为当前层的激活值；

将每个层对应的激活值保存为激活值文件。

优选的，该卷积神经网络模型的获取方式也可以为从模型库中调用卷积神经网络模型文件，生成卷积神经网络模型。

S102：对卷积神经网络模型每一层的权值进行线性量化处理；

这里提到的线性量化处理即为根据线性量化的基本方法，对于每层的权值，得到该层权值绝对值的最大值filter_|max|，令该最大值为有符号INT8的最大值127，即引入缩放因子α，使得filter_|max|·α＝127，该层权值的其他元素同比例进行线性缩放即：filter_quan＝filter·α，其中filter_quan为量化之后的权值，至此完成对权值的量化；

本申请在对权值的量化过程中不需要复杂的量化算法，根据基本的线性对称量化方法来完成，方便用户的理解与重现，且系统会自动从数据集中随机挑选量化所需的图片，不需要额外的量化标定数据集，极大的节省了设备的存储空间。

S103：根据激活值文件确定激活值量化系数，并对卷积神经网络模型每一层的激活值进行线性量化处理；

例如，可以根据激活值文件对激活值进行INT8量化得到每层激活值量化系数β，则相应层的激活值可以表示为act_quan＝act·β，其中，act为原始激活值大小，act_quan为量化激活值大小。

S104：根据线性量化处理后的卷积神经网络模型结合加速算法生成量化推理网络；

可选的，这里提到的加速算法具体可以为Winograd快速卷积算法，本申请实现了Winograd快速卷积算法与卷积量化的方案结合，并实现了从F(2,3)到F(5x5,3x3)的所有Winograd的卷积量化，Winograd快速卷积算法本身即可起到卷积神经网络计算加速的作用，提高计算效率。再加入相应的量化之后，不仅可以极大地提高神经网络的推理速度，亦能大幅降低模型大小，节省了设备的存储空间，降低了设备运行时的能耗；

这里提到的，根据线性量化处理后的卷积神经网络模型结合加速算法生成量化推理网络，可以通过执行如下步骤实现：

针对不同的深度卷积网络模型，自动生成相应的结合2D Winograd的量化推理网络；

具体的，在卷积计算的过程中，卷积可以表示为：

act_top＝∑act_bottom*filter

其中，act_bottom为上层激活值，act_top为本层激活值，filter为卷积计算中的权值，则卷积计算可表示为：

其中，act_{top_quan}和act_{bottom_quan}分别为本层和上层的INT8量化整数激活值，β_top和β_bottom分别为本层和上层激活值的量化系数，由此可得本层INT8量化激活值可表示为：

其中，∑act_{bottom_quan}*filter_quan括号内的部分即为卷积计算的主要部分，即需将该部分计算引入Winograd算法来实现量化的Winograd卷积加速；具体的，可以设上层的激活值act_{bottom_quan}为卷积计算的输入INT8INPUT，filter_quan为卷积计算的INT8权值，设为INT8KERNEL；然后对权值进行变换得到INT16大小的权值即：

g(INT8KERNEL)g^T＝INT16KERNEL

对输入进行变换得到INT16大小的输入即：

B^T(INT8INPUT)B＝INT16INPUT

之后进行点乘和最终的变换得到INT32大小的输出即：

INT32OUPUT＝A^T(INT16KNERNEL)⊙(INT16INPUT)A

最后再引入量化系数得到INT8的输出即：

另外，对于高阶Winograd比如F(5x5，3x3)的量化中，权值和激活值变换g(INT8KERNEL)g^T、B^T(INT8INPUT)B可能会超过INT16的大小范围，本申请还可以自动判断变换过程中的数值是否会产生过阈，假设变换的权值过阈则根据变换之后的绝对值最大值KERNEL_|max|进行缩放，即令：

这里括号内INT15是考虑到有符号的INT16最大值的绝对值不会超过无符号INT15的最大值，则INT16KERNEL可表示为：

同样的激活值可表示为如果不过阈，则变换的权值和激活值保持不变，γ，δ值为1，最终卷积计算的INT8输出可表示为：

至此可完成不同的2D Winograd与量化结合的卷积计算。

可选的，还可以利用生成的2D Winograd量化神经网络再进行相应数据集的精度测试，比如ImageNet上进行推理验证数据集，如果该精度与FP32的推理测试精度相比损失在1％以内，则输出量化系数完成结合2D Winograd的量化。如果不满足要求，则程序自动对量化系数进行微调直到精度满足要求为止。

S105：利用量化推理网络对待识别图集进行图像识别。

基于上述技术方案，本申请所提供的一种图像识别的方法，通过分别对卷积神经网络模型每一层的权值和激活值进行线性量化处理，然后根据线性量化处理后的卷积神经网络模型结合加速算法生成量化推理网络，最后利用量化推理网络对待识别图集进行图像识别，使得图像识别过程中神经网络的推理速度得到提高，并且大幅度的降低了卷积神经网络模型的大小，节省了设备的存储空间，降低了设备运行时的能耗。

针对于上一实施例，在执行步骤S104之前，还可以执行如图2所示的步骤，下面结合图2进行说明。

请参考图2，图2为本申请实施例所提供的另一种图像识别的方法的流程图。

其具体包括以下步骤：

S201：接收输入的加速算法修改命令；

S202：根据加速算法修改命令获取对应的配置文件，并根据配置文件确定新加速算法；

S203：将加速算法替换为新加速算法。

基于上述技术方案，当接收输入的加速算法修改命令时，本申请可根据加速算法修改命令获取对应的配置文件，并根据配置文件确定新加速算法，最后将加速算法替换为新加速算法，即本申请可根据用户的需求配置自动调用相应的Winograd快速卷积算法，且通过基于python的深度学习框架PyTorch进行实现，用户只需提供模型文件和简单的配置需求即可完成不同网络的Winograd量化，方便且高效。

请参考图3，图3为本申请实施例所提供的一种图像识别的系统的结构图。

该系统可以包括：

获取模块100，用于获取激活值文件、待识别图集和卷积神经网络模型；

第一量化模块200，用于对卷积神经网络模型每一层的权值进行线性量化处理；

第二量化模块300，用于根据激活值文件确定激活值量化系数，并对卷积神经网络模型每一层的激活值进行线性量化处理；

生成模块400，用于根据线性量化处理后的卷积神经网络模型结合加速算法生成量化推理网络；

图像识别模块500，用于利用量化推理网络对待识别图集进行图像识别。

请参考图4，图4为本申请实施例所提供的另一种图像识别的系统的结构图。

该获取模块100可以包括：

推理子模块，用于获取训练图集，并利用预设推理引擎对训练图集中的每张图片进行推理，得到对应的推理结果；

选取子模块，用于依次从每个推理结果中选取每个位置的最大推理值，并将每个位置的最大推理值保存为当前层的激活值；

保存子模块，用于将每个层对应的激活值保存为激活值文件。

该获取模块100可以包括：

调用子模块，用于从模型库中调用卷积神经网络模型文件，生成卷积神经网络模型。

该系统还可以包括：

接收模块，用于接收输入的加速算法修改命令；

获取模块，用于根据加速算法修改命令获取对应的配置文件，并根据配置文件确定新加速算法；

替换模块，用于将加速算法替换为新加速算法。

以上系统中的各个组成部分可实际应用于以下的实施例中：

推理子模块获取训练图集，并利用预设推理引擎对训练图集中的每张图片进行推理，得到对应的推理结果；选取子模块依次从每个推理结果中选取每个位置的最大推理值，并将每个位置的最大推理值保存为当前层的激活值；保存子模块将每个层对应的激活值保存为激活值文件。调用子模块从模型库中调用卷积神经网络模型文件，生成卷积神经网络模型。

第一量化模块对卷积神经网络模型每一层的权值进行线性量化处理；第二量化模块根据激活值文件确定激活值量化系数，并对卷积神经网络模型每一层的激活值进行线性量化处理；生成模块根据线性量化处理后的卷积神经网络模型结合加速算法生成量化推理网络；图像识别模块利用量化推理网络对待识别图集进行图像识别。

接收模块接收输入的加速算法修改命令；获取模块根据加速算法修改命令获取对应的配置文件，并根据配置文件确定新加速算法；替换模块将加速算法替换为新加速算法。

请参考图5，图5为本申请实施例所提供的一种图像识别设备的结构图。

该图像识别设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对装置中的一系列指令操作。更进一步地，处理器622可以设置为与存储介质630通信，在图像识别设备600上执行存储介质630中的一系列指令操作。

图像识别设备600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述图1至图2所描述的图像识别的方法中的步骤由图像识别设备基于该图5所示的结构实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置、设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，功能调用装置，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本申请所提供的一种图像识别的方法、系统、设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。