CN111695421B

CN111695421B - 图像识别方法、装置及电子设备

Info

Publication number: CN111695421B
Application number: CN202010370334.3A
Authority: CN
Inventors: 杨馥蔚
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2023-09-22
Anticipated expiration: 2040-04-30
Also published as: CN111695421A

Abstract

本发明提供了一种图像识别方法、装置及电子设备，涉及图像处理技术领域，该方法包括：获取待识别图像；将待识别图像输入至预训练得到的图像识别模型；其中，图像识别模型包括预处理网络、元学习网络和图像识别网络；通过元学习网络基于待识别图像生成预处理网络的参数；通过预处理网络基于元学习网络生成的参数对待识别图像进行去模糊处理，得到清晰图像；通过图像识别网络对清晰图像进行识别，得到图像识别结果。本发明可以提升图像识别精度，得到较好的图像识别效果。

Description

图像识别方法、装置及电子设备

技术领域

本发明涉及图像处理领域，尤其是涉及一种图像识别方法、装置及电子设备。

背景技术

随着图像处理技术的不断发展，图像识别的应用场景越来越丰富，诸如人脸识别、车牌号识别等，这类技术通过预先训练好的图像识别网络对输入图像进行目标识别。然而，在大多数场景中人或车等目标物都是运动的，导致输入图像通常会带有运动模糊，现有的图像识别网络在对模糊图像进行识别时的精度不高，识别效果较差。

发明内容

本发明的目的在于提供一种图像识别方法、装置及电子设备，可以提升图像识别精度，得到较好的图像识别效果。

第一方面，本发明实施例提供一种图像识别方法，方法包括：获取待识别图像；将待识别图像输入至预训练得到的图像识别模型；其中，图像识别模型包括预处理网络、元学习网络和图像识别网络；通过元学习网络基于待识别图像生成预处理网络的参数；通过预处理网络基于元学习网络生成的参数对待识别图像进行去模糊处理，得到清晰图像；通过图像识别网络对清晰图像进行识别，得到图像识别结果。

进一步，预处理网络为残差网络。

进一步，元学习网络包括依次连接的卷积层和全连接层；所述全连接层的输出节点数量与所述预处理网络所需的参数数量相同。

进一步，图像识别模型的训练过程包括：获取样本图像对；其中，样本图像对包括清晰样本图像和与清晰样本图像对应的模糊样本图像；基于样本图像对对元学习网络和图像识别网络进行训练，直至训练结束，得到训练后的图像识别模型；其中，在训练过程中，元学习网络用于基于模糊样本图像学习生成预处理网络的参数；预处理网络用于基于元学习网络输出的参数对模糊样本图像进行去模糊处理，得到去模糊图像；图像识别网络用于对去模糊图像进行图像识别。

进一步，获取样本图像对的步骤，包括：获取清晰样本图像；对清晰样本图像进行运动模糊处理，得到与清晰样本图像对应的模糊样本图像；基于清晰样本图像和模糊样本图像组成样本图像对。

进一步，对清晰样本图像进行运动模糊处理的步骤，包括：采用随机的卷积参数对清晰样本图像进行卷积处理，和/或，为清晰样本图像上添加高斯白噪声。

进一步，基于样本图像对对元学习网络和图像识别网络进行训练，直至训练结束，得到训练后的图像识别模型的步骤，包括：对图像识别网络进行预训练，得到预训练好的图像识别网络；保持预训练好的图像识别网络的参数不变，采用样本图像对对元学习网络进行初始训练，得到初始训练好的元学习网络；采用样本图像对对预训练好的图像识别网络和初始训练好的元学习网络进行联合训练，直至训练结束，得到训练后的图像识别模型。

进一步，采用样本图像对对元学习网络进行初始训练，得到初始训练好的元学习网络的步骤，包括：通过预训练好的图像识别网络对清晰样本图像进行特征提取，得到第一图像特征；通过预处理网络对模糊样本图像进行去模糊处理，得到去模糊图像；通过预训练好的图像识别网络对去模糊图像进行特征提取，得到第二图像特征；基于第一图像特征和第二图像特征确定第一损失函数值；根据第一损失函数值对元学习网络进行初始训练，得到初始训练好的元学习网络。

进一步，采用样本图像对对预训练好的图像识别网络和初始训练好的元学习网络进行联合训练的步骤，包括：基于第一图像特征确定第二损失函数值；根据第一损失函数值与第二损失函数值确定总损失值；基于总损失值调整预训练好的图像识别网络的参数以及初始训练好的元学习网络的参数。

进一步，基于第一图像特征和第二图像特征确定第一损失函数的步骤，包括：按照如下公式确定第一损失函数值：L1＝(F1-F2)²；其中，L1为第一损失函数；F1为第一图像特征；F2为第二图像特征；基于第一图像特征确定第二损失函数值的步骤，包括：按照如下公式确定第二损失函数值：L2＝softmax(F1)；其中，L2为第二损失函数值；根据第一损失函数值与第二损失函数值确定总损失值的步骤，包括：将第一损失函数值和第二损失函数值的和值作为总损失值。

第二方面，本发明实施例提供一种图像识别装置，装置包括：图像获取模块，用于获取待识别图像；图像输入模块，用于将所述待识别图像输入至预训练得到的图像识别模型；其中，所述图像识别模型包括预处理网络、元学习网络和图像识别网络；元学习模块，用于通过所述元学习网络基于所述待识别图像生成所述预处理网络的参数；预处理模块，用于通过所述预处理网络基于所述元学习网络生成的参数对所述待识别图像进行去模糊处理，得到清晰图像；图像识别模块，用于通过所述图像识别网络对所述清晰图像进行识别，得到图像识别结果。

第三方面，本发明实施例提供一种电子设备，包括：处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被处理器运行时执行如前述第一方面提及的任一项方法。

第四方面，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述前述第一方面提及的方法的步骤。

本发明实施例提供的一种图像识别方法、装置及电子设备，能够将待识别图像输入至预训练得到的图像识别模型(包括预处理网络、元学习网络和图像识别网络)，首先通过元学习网络基于待识别图像学习生成预处理网络的参数；然后通过预处理网络基于元学习网络生成的参数对待识别图像进行去模糊处理，得到清晰图像；最后通过图像识别网络对清晰图像进行图像识别。由于预处理网络的参数为与输入的待识别图像相关的参数，因此，预处理网络在对待识别图像进行去模糊时更具有针对性，去模糊处理所得到的图像更清晰，从而通过图像识别网络对经过该预处理网络处理后的清晰图像进行识别时，可以有效的提高图像识别精度，得到较好的图像识别效果。

本发明实施例的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明实施例的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子设备的结构图；

图2为本发明实施例提供的一种图像识别模型的结构示意图；

图3为本发明实施例提供的一种图像识别方法的流程图；

图4为本发明实施例提供的一种图像识别模型的训练方法的流程图；

图5为本发明实施例提供的一种元学习网络的结构示意图；

图6为本发明实施例提供的一种预处理网络的结构示意图；

图7为本发明实施例提供的一种人脸识别模型的结构示意图；

图8为本发明实施例提供的一种图像识别装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

目前，现有的图像识别网络在对模糊图像进行识别时的精度不高，识别效果较差，具体原因在于通过图像识别模型处理带有处理运动模糊的图像时，需要事先通过大量的训练数据对图像识别模型进行训练，即便如此，大量的训练数据也无法穷尽所有的模糊情况，通过不全面的训练样本训练得到的图像识别模型的图像识别精度较差，无法保证识别的效果，鲁棒性较低。以人脸识别模型为例，一方面，在对人脸识别模型进行训练时，由于训练数据有限，对于人脸识别丰富的应用场景，训练数据无法完全覆盖应用场景的丰富的运动模糊情况，应用场景的人脸分布与训练数据的人脸分布不相同，导致人脸识别网络的识别精度通常较低。另一方面，通行场景中人脸识别模型的输入图像会带有运动模糊，而人脸识别模型的训练数据通常为清晰的不带有运动模糊的图像，为了让模型能够更好地处理运动模糊图像，现有的方案在训练时通常通过数据增强、去模糊(deblur)等方式处理运动模糊图像。然而，数据增强并无法穷尽所有的运动模糊情况，通过去模糊操作生成的去模糊图像，也无法提升人脸识别的效果，即使人脸识别模型在训练时运用大量的训练数据，仍然无法保证训练样本覆盖各种应用场景运动模糊情况，因此无法保证识别的效果。为改善此问题，本发明实施例提供了一种图像识别方法、装置及电子设备，通过提出了一种图像识别模型对待识别图像进行识别，与现有的图像识别网络相比，还包含有预处理网络和元学习网络，基于元学习(meta learning)来处理图像识别中带有运动模糊的问题，可以保证最终的识别效果，从而提升图像识别的识别精度。以下对本发明实施例进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的一种图像识别方法、装置及电子设备的示例电子设备100。

如图1所示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，电子设备也可以具有其他组件和结构。

处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现，处理器102可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制电子设备100中的其它组件以执行期望的功能。

存储装置104可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行程序指令，以实现下文的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

图像采集装置110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的图像识别方法、装置及电子设备的示例电子设备可以被实现为诸如服务器、监控设备、机器人、智能手机、平板电脑、计算机等智能终端。

实施例二：

本实施例提供了一种图像识别方法，该方法中应用到图像识别模型，首先参见图2所示的一种图像识别模型的结构示意图，本实施例提供了一种图像识别模型的具体方式，主要包括预处理网络、元学习网络和图像识别网络，预处理网络分别与元学习网络和人脸识别网络连接，其中，元学习网络和预处理网路均以图像作为输入，且元学习网络的输出与预处理网络的输入相连，将图像分别输入至预处理网络和元学习网络，最终可以得到图像识别网络的输出结果。在该图像识别模型的结构基础上，参见图3所示的一种图像识别方法的流程图，该方法主要包括如下步骤S302至步骤S310：

步骤S302，获取待识别图像。

本实施例提供的图像识别方法无需图像清晰即可对图像进行识别，也即待识别图像可以是模糊图像，诸如带有运动模糊的人脸图像、车辆图像等，待识别图像可以由摄像头等图像采集设备直接采集得到，也可以通过用户上传或网络下载、其他设备发送等方式进行获取。

步骤S304，将待识别图像输入至预训练得到的图像识别模型。

上述图像识别模型包括预处理网络、元学习网络和图像识别网络，本实施例提供了一种预处理网络和元学习网络的实现结构：预处理网络可以为残差网络，元学习网络可以包括依次连接的卷积层和全连接层，且全连接层的输出节点数量与预处理网络所需的参数数量相同；当然，以上仅为示例，在实际应用中还可以采用其它结构实现，在此不进行限制。图像识别网络可以采用现有的图像识别网络，诸如SSD(Single Shot MultiBoxDetector，单阶段多框检测器)、CNN(Convolutional Neural Network，卷积神经网络)、Fast-RCNN(Faster Region-based Convolutional Neural Network，超快速神经网络)等。

步骤S306，通过元学习网络基于待识别图像生成预处理网络的参数。

在对待识别图像进行图像识别时，元学习网络以待识别图像作为输入，也即首先将待识别图像输入至元学习网络，元学习网络主要用于基于待识别图像学习生成预处理网络的参数，生成的参数即为预处理网络的参数，该参数诸如可以是预处理网络的卷积参数。

步骤S308，通过预处理网络基于元学习网络生成的参数对待识别图像进行去模糊处理，得到清晰图像。

在上述将待识别图像输入至元学习网络时，也将待识别图像输入至预处理网络，由于预处理网络的参数为元学习网络基于上述待识别图像生成的，该参数为与输入的待识别图像相关，因此，具有该参数的预处理网络在对待识别图像进行去模糊时更具有针对性，使得经过预处理网络去模糊处理所得到的图像更清晰。

步骤S310，通过图像识别网络对清晰图像进行识别，得到图像识别结果。

由于该清晰图像是预处理网络对待识别图像进行有针对性的去模糊处理得到的，与常规待识别图像相比，本实施例输入至图像识别网络的清晰图像的精度更高，可识别性更强，有助于提升图像识别网络的识别效果，可以有效改善现有技术中图像识别网络直接对待识别图像进行识别可能导致的识别精度不高、识别效果不好的问题。

本发明实施例提供的上述图像识别方法，由于预处理网络的参数为与输入的待识别图像相关的参数，因此，预处理网络在对待识别图像进行去模糊时更具有针对性，去模糊处理所得到的图像更清晰，从而通过图像识别网络对经过该预处理网络处理后的清晰图像进行识别时，可以有效的提高图像识别精度，得到较好的图像识别效果。

为便于对上述图像识别模型进行理解，本实施例进一步提供了一种训练该图像识别模型的方法，参见图4所示的一种图像识别模型的训练方法的流程图，该方法主要包括如下步骤S402和步骤S404：

步骤S402，获取样本图像对。

其中，样本图像对包括清晰样本图像和与清晰样本图像对应的模糊样本图像。清晰样本图像为包含有清晰的待识别目标的原图像，诸如为包含有清晰人脸的图像，模糊样本图像为对该清晰样本图像进行数据增强(也即模糊处理)所得到模糊图像，通过模糊样本图像来模拟真实条件下图像退化的情况。在数据增强过程中，一张清晰样本图像可以产生多张类型不同、程度不同的模糊样本图像；在实际应用中，获取的样本图像对的数量为多对，每对样本图像对中都包含一张清晰样本图像和一张模糊样本图像，多对样本图像对中的清晰样本图像相同或不同，对于包含有相同清晰样本图像的样本图像对而言，清晰样本图像对搭配的模糊样本图像不相同。

步骤S404，基于样本图像对对元学习网络和图像识别网络进行训练，直至训练结束，得到训练后的图像识别模型。

元学习(Meta Learning/Learning to learn)也即学习“如何学习”，核心思想在于学习“学习的过程”，该方法无需大量的样本数据，仅需少量的样本即可完成学习过程。在基于样本图像对对上述图像识别模型进行训练时，元学习网络主要用于基于模糊样本图像学习生成预处理网络的参数，生成的参数诸如可以是预处理网络的卷积参数。预处理网络通过元学习网络输出的上述卷积参数对模糊样本图像进行去模糊处理，得到去模糊图像，其中，去模糊处理可以通过反卷积的方式实现。将去模糊图像输入至图像识别网络，以便图像识别网络对去模糊图像进行图像识别。图像识别网络诸如可以为人脸识别网络等。

本发明实施例提供的上述图像识别模型的训练方法，由于预处理网络的参数为与输入的样本图像对相关的参数(也即为元学习网络基于输入的模糊样本图像学习生成的参数)，因此，预处理网络在对模糊样本图像进行去模糊时更具有针对性，无需全面的训练样本即可达到较高精度的去模糊效果，从而通过图像识别网络对经过该预处理网络处理后的去模糊图像进行识别时，可以有效的提高图像识别的效果。综上，本实施例提供的上述方式在对图像识别模型进行训练时可以无需大量训练数据即可训练得到图像识别效果较好的图像识别模型，并整体提升了图像识别模型的识别精度和鲁棒性。

为便于对获取样本图像对的步骤进行理解，上述步骤S402可以进一步包括如下步骤(1)至步骤(3)：

步骤(1)，获取清晰样本图像。

清晰样本图像的数量可以为多张。清晰样本图像的获取方法，可以采用诸如摄像头等图像采集设备采集得到，也可以通过用户上传或是网络上下载得到，还可以是对失焦图像进行清晰处理后得到，此处不作具体限定。

步骤(2)，对清晰样本图像进行运动模糊处理，得到与清晰样本图像对应的模糊样本图像。

在一种实施方式中，运动模糊处理可以采用随机的卷积参数对清晰样本图像进行卷积处理，和/或，为清晰样本图像上添加高斯白噪声。可以理解的是，运动模糊处理可以单独采用随机的卷积参数进行卷积处理的方式，也可以单独采用为清晰图像添加加性高斯白噪声的方式，还可以为了增强运动模糊的处理效果，采用将两种方式进行结合的方式。诸如，以两种方式结合进行运动模糊处理为例，可以通过如下公式表示：I’＝f(I)+Noise，其中，f()表示卷积处理，采用随机的卷积参数，Noise表示加性高斯白噪声，I为原图像(也即清晰样本图像)，I’是为了模拟真实条件下的图像退化(也即与清晰样本图像对应的模糊样本图像)。

步骤(3)，基于清晰样本图像和模糊样本图像组成样本图像对。

可以理解的是，每对样本图像对均由一张清晰样本图像和一张模糊样本图像组成，由于通过运动模糊处理的清晰样本图像可以产生多张类型不同、程度不同的模糊样本图像，多对样本图像对中的清晰样本图像相同或不同，对于包含有相同清晰样本图像的样本图像对而言，清晰样本图像对搭配的模糊样本图像不相同。

本实施例提供了一种基于样本图像对对元学习网络和图像识别网络进行训练，直至训练结束，得到训练后的图像识别模型的步骤，具体可以包括如下步骤1至步骤3：

步骤1，对图像识别网络进行预训练，得到预训练好的图像识别网络。

上述对图像识别网络进行预训练的方式可以采用传统的神经网络预训练的方法，诸如，预训练过程可以采用额外的一些清晰训练图像(与上述样本图像对不同)对图像识别网络进行训练，通过采用诸如反向传播算法等方式对图像识别网络的参数进行调整，直至图像识别网络的损失值收敛。预训练好的图像识别网络能够输出符合预期的图像识别结果。以图像识别网络为人脸识别网络为例，预训练好的人脸识别网络能够较好的对输入的清晰的人脸图像进行准确地识别。

步骤2，保持预训练好的图像识别网络的参数不变，采用样本图像对对元学习网络进行初始训练，得到初始训练好的元学习网络。

为便于对步骤2进行理解，本发明实施例提供了元学习网络和预处理网络的一种实现方式，元处理网络的结构示意图参见图5，元学习网络包括依次连接的卷积层和全连接层，在图5中示例性示意出2个卷积层，在实际应用中可以灵活设置卷积层数量，全连接层输出的网络参数为预处理网络的网络参数。预处理网络的结构参见图6所示，预处理网络为残差网络，本示例以包括两个卷积层的残差网络为例进行说明，由于残差网络内部的残差结构采用了跳跃连接，因此能够通过增加深度来提高准确率，并且可以缓解由于增加深度带来的梯度消失问题，从而可以较好地实现反卷积操作，也即达到去模糊效果。以预处理网络中两个卷积层的卷积核大小分别是K1*K1和K2*K2，每一层卷积核的个数(也即channel数量)分别是C1和3为例，则预处理网络需要学习的卷积参数数量为N＝3*C1*K1*K1+C1*3*K2*K2。由于元学习网络全连接层输出的网络参数也即预处理网络需要学习的网络参数，因此，全连接层的输出的节点数量也为N。在该示例中，预处理网络和元学习网络的结构示意图中的X为输入图像，大小为3*W*H，其中，3表示输入图像的RGB三个通道，W表示输入图像的宽，H表示输入图像的高。诸如，在训练过程中，同时输入给预处理网络和元学习网络的图像X可以为模糊样本图像，在训练结束后的实际应用过程中，同时输入给预处理网络和元学习网络的图像X可以为待识别图像。预处理网络的输出X’和X具有相同的大小，也为3*W*H，X’具体可以是预处理网络对模糊图像进行去模糊处理后得到的去模糊图像。在实际应用时，上述参数的设置及网络层的数量可以根据实际情况设定，此处仅作示例不作具体限定。为便于理解，上述步骤2可以进一步包括如下步骤2.1至步骤2.5：

步骤2.1，通过预训练好的图像识别网络对清晰样本图像进行特征提取，得到第一图像特征。

步骤2.2，通过预处理网络对模糊样本图像进行去模糊处理，得到去模糊图像。在一种实施方式中，预处理网络可以通过反卷积的方式对模糊样本图像进行去模糊处理，得到对模糊样本图像进行去模糊操作后的去模糊图像。

步骤2.3，通过预训练好的图像识别网络对去模糊图像进行特征提取，得到第二图像特征。

步骤2.4，基于第一图像特征和第二图像特征确定第一损失函数值。可以理解的是，第一图像特征为图像识别网络对于清晰样本图像提取的特征，第二图像特征为将模糊样本图像经过预处理网络进行去模糊操作后，又通过图像识别网络提取的特征。因此，通过第一图像特征和第二图像特征确定的第一损失函数值可以用于表征预处理网络对于模糊样本图像的去模糊效果，第一损失函数值越小说明预处理网络的去模糊效果越好。

在一种实施方式中，可以通过平方损失函数的方式确定第一损失函数值，诸如，可以按照如下公式确定第一损失函数值：L1＝(F1-F2)²；其中，L1为第一损失函数；F1为第一图像特征；F2为第二图像特征。

步骤2.5，根据第一损失函数值对元学习网络进行初始训练，得到初始训练好的元学习网络。在对元学习网络进行初始训练时，固定预训练好的图像识别网络的参数，也即保持预训练好的图像识别网络的参数不变，根据上述确定的第一损失函数值对元学习网络进行初始训练，得到初始训练好的元学习网络，具体而言，当第一损失函数值小于预设阈值时确定得到初始训练好的元学习网络。当元学习网络在初始训练好后，则解冻图像识别网络的参数，以便于下述步骤3对元学习网络和图像识别网络进行联合训练。

通过对元学习网络进行初始训练，可以让元学习网络学习去抵消图像退化对识别带来的影响。由于图像的退化可以由卷积去模拟，也即通过卷积操作来将图像进行模糊处理，因此元学习网络可以通过学习如何使预处理网络执行反卷积操作来使模糊图像变清晰，进一步可提升图像识别网络对于退化后的图像(也即模糊图像)的识别效果。现有对图像直接去模糊的方法需要大量的训练样本，且训练样本需要尽量覆盖各种不同的图像模糊方式，然而，在实际应用时并无法穷尽各种模糊的情况，在采用卷积操作进行模糊处理时，卷积核种类繁多也无法枚举，因此导致最终的识别精度不高。本实施例应用了“学习如何学习”的元学习思想，通过获取的样本图像对(清晰样本图像-模糊样本图像)对元学习网络进行训练，可以使元学习网络学习到如何使预处理网络针对模糊图像进行反卷积，以便对模糊图像进行更有效的去模糊操作。通过元学习网络去学习“如何反卷积”，降低了训练任务的难度，同时该方法无需大量的训练样本，具有更好的泛化性能。

步骤3，采用样本图像对对预训练好的图像识别网络和初始训练好的元学习网络进行联合训练，直至训练结束，得到训练后的图像识别模型。在该训练步骤中，将预训练好的图像识别网络的参数进行解冻，也即此时图像识别网络的参数在联合训练过程中可调整。

为便于理解，本实施例提供了一种采用样本图像对对预训练好的图像识别网络和初始训练好的元学习网络进行联合训练的实施方式，上述步骤3可以进一步参照如下步骤3.1至步骤3.3执行：

步骤3.1，基于第一图像特征确定第二损失函数值。在一种具体的实施方式中，第二损失函数可以通过softmax函数确定，诸如，可以按照如下公式确定第二损失函数值：L2＝softmax(F1)；其中，L2为第二损失函数值，F1为第一图像特征。

步骤3.2，根据第一损失函数值与第二损失函数值确定总损失值。由于上述确定的第一损失函数值可以用于表征预处理网络对于模糊样本图像的去模糊效果，第一损失函数值越小，表征去模糊效果越好，第二损失函数值可以表征第一图像特征的识别效果，第二损失值越小，表征图像识别网络的图像识别效果越好，在一种实施方式中，采用第一损失函数值和第二损失函数值的和值作为总损失值，也即总损失值L＝L1+L2，通过总损失值对图像识别模型整体进行训练，总损失值越小，说明图像识别模型整体的识别效果越好。

步骤3.3，基于总损失值调整预训练好的图像识别网络的参数以及初始训练好的元学习网络的参数。通过总损失值对预训练好的图像识别网络以及初始训练好的元学习网络的参数进行调整，可以更好的抵消训练过程中由于图像退化以及特征提取时对识别带来的影响，从而使训练好的图像识别网络和元学习网络具有更好的性能。

为便于理解，本实施例以图像识别模型为人脸识别模型为例，提供了一种人脸识别模型的具体训练方法，首先可以参见如图7所示的一种人脸识别模型的结构示意图，其中，元学习网络采用上述图5所示的网络结构，预处理网络采用上述图6所示的网络结构，人脸识别网络可以采用诸如卷积神经网络(Convolutional Neural Networks,CNN)等结构实现，样本图像对为具有人脸特征的样本图像对，包括清晰人脸图像以及该清晰人脸图像对应的模糊人脸图像，模糊人脸图像为对清晰人脸图像进行数据增强得到的，具体方法参见上述实施方式，此处不再赘述。

在训练时，首先对人脸识别网络进行预训练，得到预训练好的人脸识别网络，预训练好的人脸识别网络具有符合预期的识别效果，经过预训练好的人脸识别网络能够对清晰的人脸图像进行较好的人脸识别。然后将清晰人脸图像输入至预训练好的人脸识别网络，得到输出特征F1，并将模糊人脸图像输入至预处理网络，经预处理后输入至预训练好的人脸识别网络，得到特征F2。根据F1和F2计算平方损失函数L1，其中，L1＝(F1-F2)²。然后保持预训练好的人脸识别网络的参数不变，使用L1对元学习网络进行初始训练，直至L1收敛，得到初始训练好的元学习网络，此时的训练样本为清晰人脸图像以及对应的模糊人脸图像，从而使得元学习网络可以学习参数去抵消图像退化对人脸识别带来的影响。元学习网络收敛后，通过上述样本图像对对预训练好的人脸识别网络以及经过初始训练的元学习网络进行联合训练。在进行联合训练时，损失函数除上述平方损失函数L1以外，还可以加入与特征F1相关的softmax损失函数(也即softmax(F1))进行联合训练，也即，进行联合训练的损失函数值可以为L＝L1+softmax(F1)，当总损失函数值收敛时刻确定联合训练结束。

综上，本发明实施例提供的上述图像识别模型的训练方法，通过元学习网络学习生成预处理网络的参数，无需大量的训练数据即可完成学习过程，且通过元学习网络学习生成预处理网络的参数，可以使预处理网络在对模糊样本图像进行去模糊时更具有针对性，无需全面的训练样本即可达到较高精度的去模糊效果，通过元学习网络去学习“如何反卷积”来实现去模糊操作，降低了训练任务的难度，且具有更好的泛化性，进而可以有效的提高图像识别的效果。

实施例三：

对于实施例二中所提供的图像识别模型的训练方法，本发明实施例提供了一种图像识别装置，参见图8所示的一种图像识别装置的结构框图，该装置包括以下模块：

图像获取模块802，用于获取待识别图像；

图像输入模块804，用于将待识别图像输入至预训练得到的图像识别模型；其中，图像识别模型包括预处理网络、元学习网络和图像识别网络；

元学习模块806，用于通过元学习网络基于待识别图像生成预处理网络的参数；

预处理模块808，用于通过预处理网络基于元学习网络生成的参数对待识别图像进行去模糊处理，得到清晰图像；

图像识别模块810，用于通过图像识别网络对清晰图像进行识别，得到图像识别结果。

本发明实施例提供的上述图像识别装置，由于预处理网络的参数为与输入的待识别图像对相关的参数(也即为元学习网络基于输入的待识别图像学习生成的参数)，因此，预处理网络在对图像进行去模糊时更具有针对性，去模糊处理所得到的图像更清晰，从而通过图像识别网络对经过该预处理网络处理后的清晰图像进行识别时，可以有效的提高图像识别精度，得到较好的图像识别效果。

在一种实施方式中，上述预处理网络为残差网络。

在一种实施方式中，上述元学习网络包括依次连接的卷积层和全连接层；全连接层的输出节点数量与预处理网络所需的参数数量相同。

在一种实施方式中，上述装置还包括：模型训练模块，用于获取样本图像对；其中，样本图像对包括清晰图像和与清晰图像对应的模糊图像；基于样本图像对对元学习网络和图像识别网络进行训练，直至训练结束，得到训练后的图像识别模型。

在一种实施方式中，上述模型训练模块，进一步用于获取清晰样本图像；对清晰样本图像进行运动模糊处理，得到与清晰样本图像对应的模糊样本图像；基于清晰样本图像和模糊样本图像组成样本图像对。

在一种实施方式中，上述模型训练模块，进一步用于采用随机的卷积参数对清晰样本图像进行卷积处理，和/或，为清晰样本图像上添加高斯白噪声。

在一种实施方式中，上述模型训练模块，进一步用于对图像识别网络进行预训练，得到预训练好的图像识别网络；保持预训练好的图像识别网络的参数不变，采用样本图像对对元学习网络进行初始训练，得到初始训练好的元学习网络；采用样本图像对对预训练好的图像识别网络和初始训练好的元学习网络进行联合训练，直至训练结束，得到训练后的图像识别模型。

在一种实施方式中，上述模型训练模块，进一步用于通过预训练好的图像识别网络对清晰样本图像进行特征提取，得到第一图像特征；通过预处理网络对模糊样本图像进行去模糊处理，得到去模糊图像；通过预训练好的图像识别网络对去模糊图像进行特征提取，得到第二图像特征；基于第一图像特征和第二图像特征确定第一损失函数值；根据第一损失函数值对元学习网络进行初始训练，得到初始训练好的元学习网络。

在一种实施方式中，上述模型训练模块，进一步用于基于第一图像特征确定第二损失函数值；根据第一损失函数值与第二损失函数值确定总损失值；基于总损失值调整预训练好的图像识别网络的参数以及初始训练好的元学习网络的参数。

在一种实施方式中，上述模型训练模块，进一步用于基于第一图像特征和第二图像特征确定第一损失函数的步骤，包括：按照如下公式确定第一损失函数值：L1＝(F1-F2)²；其中，L1为第一损失函数；F1为第一图像特征；F2为第二图像特征；基于第一图像特征确定第二损失函数值的步骤，包括：按照如下公式确定第二损失函数值：L2＝softmax(F1)；其中，L2为第二损失函数值；根据第一损失函数值与第二损失函数值确定总损失值的步骤，包括：将第一损失函数值和第二损失函数值的和值作为总损失值。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例四：

本发明实施例所提供的图像识别方法、装置及电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获取待识别图像；

将所述待识别图像输入至预训练得到的图像识别模型；其中，所述图像识别模型包括预处理网络、元学习网络和图像识别网络；

通过所述元学习网络基于所述待识别图像生成所述预处理网络的参数；

通过所述预处理网络基于所述元学习网络生成的参数对所述待识别图像进行去模糊处理，得到清晰图像；

通过所述图像识别网络对所述清晰图像进行识别，得到图像识别结果。

2.根据权利要求1所述的方法，其特征在于，所述预处理网络为残差网络。

3.根据权利要求1所述的方法，其特征在于，所述元学习网络包括依次连接的卷积层和全连接层；所述全连接层的输出节点数量与所述预处理网络所需的参数数量相同。

4.根据权利要求1所述的方法，其特征在于，所述图像识别模型的训练过程包括：

获取样本图像对；其中，所述样本图像对包括清晰样本图像和与所述清晰样本图像对应的模糊样本图像；

基于所述样本图像对对所述元学习网络和所述图像识别网络进行训练，直至训练结束，得到训练后的图像识别模型。

5.根据权利要求4所述的方法，其特征在于，所述获取样本图像对的步骤，包括：

获取清晰样本图像；

对所述清晰样本图像进行运动模糊处理，得到与所述清晰样本图像对应的模糊样本图像；

基于所述清晰样本图像和所述模糊样本图像组成样本图像对。

6.根据权利要求5所述的方法，其特征在于，所述对所述清晰样本图像进行运动模糊处理的步骤，包括：

采用随机的卷积参数对所述清晰样本图像进行卷积处理，和/或，为所述清晰样本图像上添加高斯白噪声。

7.根据权利要求4所述的方法，其特征在于，所述基于所述样本图像对对所述元学习网络和所述图像识别网络进行训练，直至训练结束，得到训练后的图像识别模型的步骤，包括：

对所述图像识别网络进行预训练，得到预训练好的图像识别网络；

保持所述预训练好的图像识别网络的参数不变，采用所述样本图像对对所述元学习网络进行初始训练，得到初始训练好的元学习网络；

采用所述样本图像对对所述预训练好的图像识别网络和所述初始训练好的元学习网络进行联合训练，直至训练结束，得到训练后的图像识别模型。

8.根据权利要求7所述的方法，其特征在于，所述采用所述样本图像对对所述元学习网络进行初始训练，得到初始训练好的元学习网络的步骤，包括：

通过所述预训练好的图像识别网络对所述清晰样本图像进行特征提取，得到第一图像特征；

通过所述预处理网络对所述模糊样本图像进行去模糊处理，得到去模糊图像；

通过所述预训练好的图像识别网络对所述去模糊图像进行特征提取，得到第二图像特征；

基于所述第一图像特征和所述第二图像特征确定第一损失函数值；

根据所述第一损失函数值对所述元学习网络进行初始训练，得到初始训练好的元学习网络。

9.根据权利要求8所述的方法，其特征在于，所述采用所述样本图像对对所述预训练好的图像识别网络和所述初始训练好的元学习网络进行联合训练的步骤，包括：

基于所述第一图像特征确定第二损失函数值；

根据所述第一损失函数值与所述第二损失函数值确定总损失值；

基于所述总损失值调整所述预训练好的图像识别网络的参数以及所述初始训练好的元学习网络的参数。

10.根据权利要求9所述的方法，其特征在于，所述基于所述第一图像特征和所述第二图像特征确定所述第一损失函数值的步骤，包括：按照如下公式确定所述第一损失函数值：L1＝(F1-F2)²；其中，L1为所述第一损失函数；F1为所述第一图像特征；F2为所述第二图像特征；

所述基于所述第一图像特征确定第二损失函数值的步骤，包括：按照如下公式确定第二损失函数值：L2＝softmax(F1)；其中，L2为所述第二损失函数值；

所述根据所述第一损失函数值与所述第二损失函数值确定总损失值的步骤，包括：将所述第一损失函数值和所述第二损失函数值的和值作为总损失值。

11.一种图像识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取待识别图像；

图像输入模块，用于将所述待识别图像输入至预训练得到的图像识别模型；其中，所述图像识别模型包括预处理网络、元学习网络和图像识别网络；

元学习模块，用于通过所述元学习网络基于所述待识别图像生成所述预处理网络的参数；

预处理模块，用于通过所述预处理网络基于所述元学习网络生成的参数对所述待识别图像进行去模糊处理，得到清晰图像；

图像识别模块，用于通过所述图像识别网络对所述清晰图像进行识别，得到图像识别结果。

12.一种电子设备，其特征在于，包括：处理器和存储装置；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至10任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至10任一项所述的方法。