CN116362313A

CN116362313A - 训练神经网络的方法和设备以及图像识别方法

Info

Publication number: CN116362313A
Application number: CN202111581419.7A
Authority: CN
Inventors: 张梦; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2023-06-30
Also published as: JP2023093331A; US20230196735A1; EP4202852A1

Abstract

公开了一种训练神经网络的方法和设备以及图像识别方法。神经网络包括第一模型和第二模型。该训练神经网络的方法包括：从第一图像中获得第二图像，第二图像的质量低于第一图像；将第一图像输入神经网络的第一模型，并且将第二图像输入神经网络的第二模型；计算第一模型和第二模型各自的注意力图和梯度图；基于第一模型的梯度图和注意力图的点积的矩阵以及第二模型的梯度图和注意力图的点积的矩阵来构建损失函数；和通过使损失函数最小来训练神经网络。

Description

训练神经网络的方法和设备以及图像识别方法

技术领域

本公开内容涉及神经网络的领域，并且具体涉及神经网络的训练和图像识别。

背景技术

近年来，人脸识别技术在学术界和工业界都取得了很大的进展并得到了广泛的应用。在实际应用中，低质量的人脸图像的识别性能仍然是受限的。这主要是由于低质量的人脸图像会损坏一些人脸特征，从而导致用于人脸识别的模型所提取的人脸特征的质量降级并且因此导致人脸识别性能的下降。识别低质量人脸图像的场景可以是视频监控场景、便携式终端等等。

发明内容

在下文中给出了关于本公开内容的简要概述，以便提供关于本公开内容的某些方面的基本理解。应当理解，这个概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分，也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

根据本发明的一个方面，提供了一种训练神经网络的方法，神经网络包括第一模型和第二模型，该方法包括以下步骤：从第一图像中获得第二图像，第二图像的质量低于第一图像；将第一图像输入神经网络的第一模型，并且将第二图像输入神经网络的第二模型；计算第一模型和第二模型各自的注意力图和梯度图；基于第一模型的梯度图和注意力图的点积的矩阵以及第二模型的梯度图和注意力图的点积的矩阵来构建损失函数；和通过使损失函数最小来训练神经网络。

优选地，损失函数是第一模型的梯度图和注意力图的点积的矩阵与第二模型的梯度图和注意力图的点积的矩阵之差的平方。

优选地，该方法还包括在计算所述注意力图之后，对第一模型和第二模型各自的注意力图进行软化，损失函数是第一模型的梯度图和软化后的注意力图的点积的矩阵与第二模型的梯度图和软化后的注意力图的点积的矩阵之差的平方。

优选地，第一模型和第二模型是所述神经网络的两个对称的分支，并且第一模型和第二模型各自包括一个或更多个卷积层和一个或更多个全连接层。

优选地，该方法还包括在使用所构建的损失函数的同时还使用知识蒸馏损失函数和分类损失函数来训练神经网络。

优选地，上述梯度图和注意力图的点积的矩阵是格拉姆矩阵。

优选地，第一图像和第二图像包括人脸。

根据本发明的另一个方面，提供了一种图像识别方法，该方法通过将待识别的图像输入根据本发明的训练神经网络的方法训练后的神经网络中的第二模型来进行图像识别。

根据本发明的又一个方面，提供了一种训练神经网络的设备，神经网络包括第一模型和第二模型，该设备包括：获取装置，其被配置成从第一图像中获得第二图像，第二图像的质量低于第一图像；输入装置，其被配置成将第一图像输入神经网络的第一模型，并且将第二图像输入神经网络的第二模型；计算装置，其被配置成计算第一模型和第二模型各自的注意力图和梯度图；和构建装置，其被配置成基于第一模型的梯度图和注意力图的点积的矩阵以及第二模型的梯度图和注意力图的点积的矩阵来构建损失函数，其中，通过使该损失函数最小来训练神经网络。

根据本发明的其它方面，还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。

通过本发明的训练神经网络的方法和设备，使得能够改进对低质量图像的识别性能。

通过以下结合附图对本发明的优选实施方式的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

为了进一步阐述本公开内容的以上和其它优点和特征，下面结合附图对本公开内容的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解，这些附图仅描述本公开内容的典型示例，而不应看作是对本公开内容的范围的限定。在附图中：

图1示意性地示出了能够实现本发明的方案的神经网络架构；

图2是根据本发明的实施方式的训练神经网络的方法的流程图；

图3示意性地示出了高质量图像和低质量图像的注意力图和梯度图的纹理信息的对比；

图4是根据本发明的实施方式的训练神经网络的设备的框图；

图5是其中可以实现根据本发明的实施方式的方法和/或设备的通用个人计算机的示例性结构的框图。

具体实施方式

在下文中将结合附图对本公开的示范性实施方式进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤，而省略了与本公开关系不大的其他细节。

如前文所述，目前，低质量的图像、特别是人脸图像的识别性能较低。通过对低质量识别模型和高质量识别模型以及其提取的特征进行分析，发现在现有的深度学习模型中，高质量图像学习的注意力图和梯度图比低质量图像学习的注意力图和梯度图好。特别地，高质量图像的梯度图纹理更加清晰。

因此，为了解决现有技术中存在的问题，本发明提出一种基于注意力图和梯度图的、有效的低质量图像、特别是人脸图像的识别方法。

首先，构建一个双分支的神经网络模型，分别用于提取高质量图像特征和低质量图像的特征。然后，提出一种基于软化注意力的梯度纹理引导的学习方法，使得低质量模型学习高质量模型的注意力图和梯度图中的信息，使其尽可能一致，从而改进对低质量图像的识别性能。

图1示意性地示出了能够实现本发明的方案的神经网络架构。如图1所示，神经网络100包括两个对称分支，即低质量模型3和高质量模型4，每个分支都包括N级卷积层C和两个全连接层FC1、FC2。高质量图像1被输入高质量模型4，而从高质量图像1转换而来的低质量图像2被输入低质量模型3。

下面结合图1和图2来描述根据本发明的实施方式的训练神经网络的方法200。

首先，在步骤201中，从第一图像中获得第二图像，第二图像的质量低于第一图像。具体地，在本实施方式中，第一图像例如是图1中的高质量图像1，而第二图像例如是图1中的低质量图像2。

应理解，可以使用任何合适的现有技术方法来对高质量图像1进行质量降级，从而得到低质量图像2。本发明在此不再赘述。

接着，在步骤202中，将第一图像输入神经网络的第一模型，并且将第二图像输入神经网络的第二模型。具体地，在本实施方式中，第一模型例如是图1中的高质量模型4，而第二模型例如是图1中的低质量模型3。

接着，在步骤203中，计算第一模型和第二模型各自的注意力图和梯度图。具体地，在本实施方式中，分别计算高质量模型4和低质量模型3各自的注意力图6和梯度图5。

应理解，可以使用任何合适的现有技术方法来计算注意力图和梯度图。例如，可以采用以下方式来计算注意力图。

首先，使用下式(1)来计算高质量模型4和低质量模型3各自的特征图中的每个点的重要性：

其中，

表示每个特征图k对于目标类c的重要程度，/>

是对于目标类c的梯度值，并且/>

是每一个特征图的梯度，其中i,j,k分别是特征图的宽、高以及通道数。

其次，使用下式(2)来计算高质量模型4和低质量模型3各自的注意力图：

其中，ReLU表示线性整流函数，并且A^k表示特征图，其中k表示通道数。应理解，线性整流函数是一种人工神经网络中常用的激活函数。

优选地，在步骤203’中，对第一模型和第二模型各自的注意力图进行软化。具体地，在本实施方式中，分别对高质量模型4和低质量模型3各自的注意力图进行软化。例如，可以使用下式(3)来对注意力图进行软化：

其中，T是表示软化参数的温度值，其取值可以是从0到正无穷。优选地，在本发明中，T的取值可以是1到10，优选地取5。注意，当T取值为正无穷时，上式(3)降级为原始的纹理导向(TG)损失函数，而当T取值为1时，注意力图没有软化。

应理解，以上描述的注意力图软化公式只是一个示例。可以使用任何合适的现有技术方法来对注意力图进行软化。

接着，在步骤204中，基于第一模型的梯度图和(软化的)注意力图的点积的矩阵以及第二模型的梯度图和(软化的)注意力图的点积的矩阵来构建损失函数。具体地，在本实施方式中，基于高质量模型4的梯度图和(软化的)注意力图的点积的矩阵来构建SA-TG损失函数。

应指出，可以使用例如格拉姆(Gram)矩阵来构建损失函数，但是本发明不限于此，而是可以使用任何合适的矩阵来构建损失函数。例如，可以使用下式(4)来构建软注意力机制的纹理导向(SA-TG)损失函数：

其中，f_H′(x_i)是高质量图像的梯度图，f_L′(x_i′)是低质量图像的梯度图，并且G()表示Gram矩阵。

最后，在步骤205中，通过使损失函数最小来训练神经网络。具体地，在本实施方式中，通过使如上式(4)的SA-TG损失函数最小，来训练神经网络100。

下面给出了使用SA-TG损失函数训练神经网络的算法示例。应理解，根据本发明的实施方式的训练神经网络的方法200不限于以下算法，而是可以使用任何合适的算法来实现。

优选地，如图1所示，神经网络100还可以同时使用例如识别(ID)损失函数和知识蒸馏(KD)损失函数来进行训练。使用ID损失函数和KD损失函数来训练神经网络是现有技术已知的，本发明在此不再赘述。

图3示出了低质量图像和高质量图像的基于软化注意力的梯度图。从图3可以看出，高质量图像和低质量图像的注意力图和梯度图的纹理信息存在明显差异。该差异可以通过以上描述的训练神经网络的方法200来弥补，即通过使用SA-TG损失函数使得低质量模型能够学习高质量模型的信息，特别是纹理信息。

本发明的训练神经网络的方法的有益效果可以通过下面的表1体现。在表1的试验中，使用ResNet34作为神经网络模型、使用WebFace训练集进行训练、并且使用IVS证件人脸识别测试集进行测试。为了模拟低质量人脸识别，对于训练集，在WebFace中随机增加JPEG压缩模拟低质量图像。对于测试集，则分为两种情况，一种情况是证件照图像使用JPEG压缩而现场照不进行压缩，另一种情况是证件照和现场照都进行压缩。

表1

从表1可以看出，与主流的KD损失函数相比，使用本发明的SA-TG损失函数能够大大改进低质量人脸识别性能。

以上结合图1和图3详细说明了根据本发明的实施方式的训练神经网络的方法。通过以上描述可知，通过根据各实施方式的方法，改进了对低质量图像、特别是人脸图像的识别性能。

以上所讨论的方法可以完全由计算机可执行的程序来实现，也可以部分地或完全地使用硬件和/或固件来实现。当其用硬件和/或固件实现时，或者将计算机可执行的程序载入可运行程序的硬件设备时，则实现了下文将要描述的用于处理交易的设备。下文中，在不重复上文中已经讨论的一些细节的情况下给出这些设备的概要，但是应当注意，虽然这些设备可以执行前文所描述的方法，但是所述方法不一定采用所描述的设备的那些部件或不一定由那些部件执行。

图4示出了根据一个实施方式的训练神经网络的设备400，其包括获取装置401、输入装置402、计算装置403和构建装置404。获取装置401用于从第一图像中获得第二图像，第二图像的质量低于第一图像。输入装置402用于将第一图像输入神经网络的第一模型，并且将第二图像输入神经网络的第二模型。计算装置403用于计算第一模型和第二模型各自的注意力图和梯度图。构建装置404用于基于第一模型的梯度图和注意力图的点积的矩阵以及第二模型的梯度图和注意力图的点积的矩阵来构建损失函数，其中，通过使该损失函数最小来训练神经网络。

优选地，设备400还包括软化装置，其被配置成在计算注意力图之后，对第一模型和所述第二模型各自的注意力图进行软化，其中，损失函数是第一模型的梯度图和软化后的注意力图的点积的矩阵与第二模型的梯度图和软化后的注意力图的点积的矩阵之差的平方。

优选地，第一模型和第二模型是神经网络的两个对称的分支，并且第一模型和第二模型各自包括一个或更多个卷积层和一个或更多个全连接层。

图4所示的用于训练神经网络的设备400对应于图2所示的训练神经网络的方法200。因此，关于训练神经网络的设备400中的各装置的相关细节已经在对图2的训练神经网络的方法200的描述中详细给出，在此不再赘述。

上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

本发明还提出了一种图像识别方法，包括将待识别的图像输入根据本发明的实施方式的训练神经网络的方法训练后的神经网络中的低质量模型以来识别该图像。

图5是其中可以实现根据本发明的实施方式的方法和/或设备的通用个人计算机的示例性结构的框图。如图5所示，中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中，也根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM503经由总线504彼此连接。输入/输出接口505也连接到总线504。

下述部件连接到输入/输出接口505：输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要，驱动器510也可连接到输入/输出接口505。可移除介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上，使得从中读出的计算机程序根据需要被安装到存储部分508中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可移除介质511安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可移除介质511。可移除介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 502、存储部分508中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出了相应的计算机程序代码、一种存储有机器可读取的指令代码的计算机程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施方式的方法。

相应地，被配置为承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

通过以上描述，本公开的实施方式提供了以下的技术方案，但不限于此。

附记1.一种训练神经网络的方法，所述神经网络包括第一模型和第二模型，所述方法包括以下步骤：

从第一图像中获得第二图像，所述第二图像的质量低于所述第一图像；

将所述第一图像输入所述神经网络的第一模型，并且将所述第二图像输入所述神经网络的第二模型；

计算所述第一模型和所述第二模型各自的注意力图和梯度图；

基于所述第一模型的梯度图和注意力图的点积的矩阵以及所述第二模型的梯度图和注意力图的点积的矩阵来构建损失函数；和

通过使所述损失函数最小来训练所述神经网络。

附记2.根据附记1的方法，其中，所述损失函数是所述第一模型的梯度图和注意力图的点积的矩阵与所述第二模型的梯度图和注意力图的点积的矩阵之差的平方。

附记3.根据附记1的方法，还包括，在计算所述注意力图之后，对所述第一模型和所述第二模型各自的注意力图进行软化。

附记4.根据附记3的方法，其中，所述损失函数是所述第一模型的梯度图和软化后的注意力图的点积的矩阵与所述第二模型的梯度图和软化后的注意力图的点积的矩阵之差的平方。

附记5.根据附记1至4中任一项的方法，其中，所述第一模型和所述第二模型是所述神经网络的两个对称的分支。

附记6.根据附记5的方法，其中，所述第一模型和所述第二模型各自包括一个或更多个卷积层和一个或更多个全连接层。

附记7.根据附记1至4中任一项的方法，其中，所述矩阵是格拉姆矩阵。

附记8.根据附记1至4中任一项的方法，还包括同时使用所述损失函数、知识蒸馏损失函数和分类损失函数来训练所述神经网络。

附记9.根据附记1至4中任一项的方法，其中，所述第一图像和所述第二图像包括人脸。

附记10.一种图像识别方法，包括：

将待识别的图像输入根据附记1至9中任一项的方法训练后的神经网络中的所述第二模型来进行识别。

附记11.一种训练神经网络的设备，所述神经网络包括第一模型和第二模型，所述设备包括：

获取装置，其被配置成从第一图像中获得第二图像，所述第二图像的质量低于所述第一图像；

输入装置，其被配置成将所述第一图像输入所述神经网络的第一模型，并且将所述第二图像输入所述神经网络的第二模型；

计算装置，其被配置成计算所述第一模型和所述第二模型各自的注意力图和梯度图；和

构建装置，其被配置成基于所述第一模型的梯度图和注意力图的点积的矩阵以及所述第二模型的梯度图和注意力图的点积的矩阵来构建损失函数，

其中，通过使所述损失函数最小来训练所述神经网络。

附记12.根据附记11的设备，其中，所述损失函数是所述第一模型的梯度图和注意力图的点积的矩阵与所述第二模型的梯度图和注意力图的点积的矩阵之差的平方。

附记13.根据附记11的设备，还包括软化装置，其被配置成在计算所述注意力图之后，对所述第一模型和所述第二模型各自的注意力图进行软化。

附记14.根据附记13的设备，其中，所述损失函数是所述第一模型的梯度图和软化后的注意力图的点积的矩阵与所述第二模型的梯度图和软化后的注意力图的点积的矩阵之差的平方。

附记15.根据附记11至14中任一项的设备，其中，所述第一模型和所述第二模型是所述神经网络的两个对称的分支。

附记16.根据附记15的设备，其中，所述第一模型和所述第二模型各自包括一个或更多个卷积层和一个或更多个全连接层。

附记17.根据附记11至14中任一项的设备，其中，所述矩阵是格拉姆矩阵。

附记18.根据附记1至4中任一项的设备，还包括同时使用所述损失函数、知识蒸馏损失函数和分类损失函数来训练所述神经网络。

附记19.根据附记11至14中任一项的设备，其中，所述第一图像和所述第二图像包括人脸。

附记20.一种计算机可读存储介质，计算机可读存储介质存储有能够由处理器运行来执行以下操作的程序：

将所述第一图像输入神经网络的第一模型，并且将所述第二图像输入所述神经网络的第二模型；

通过使所述损失函数最小来训练所述神经网络。

最后，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上虽然结合附图详细描述了本发明的实施方式，但是应当明白，上面所描述的实施方式只是被配置为说明本发明，而并不构成对本发明的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此，本发明的范围仅由所附的权利要求及其等效含义来限定。

Claims

1.一种训练神经网络的方法，所述神经网络包括第一模型和第二模型，所述方法包括以下步骤：

通过使所述损失函数最小来训练所述神经网络。

2.根据权利要求1所述的方法，其中，所述损失函数是所述第一模型的梯度图和注意力图的点积的矩阵与所述第二模型的梯度图和注意力图的点积的矩阵之差的平方。

3.根据权利要求1所述的方法，还包括，在计算所述注意力图之后，对所述第一模型和所述第二模型各自的注意力图进行软化。

4.根据权利要求3所述的方法，其中，所述损失函数是所述第一模型的梯度图和软化后的注意力图的点积的矩阵与所述第二模型的梯度图和软化后的注意力图的点积的矩阵之差的平方。

5.根据权利要求1至4中任一项所述的方法，其中，所述第一模型和所述第二模型是所述神经网络的两个对称的分支。

6.根据权利要求5所述的方法，其中，所述第一模型和所述第二模型各自包括一个或更多个卷积层和一个或更多个全连接层。

7.根据权利要求1至4中任一项所述的方法，还包括同时使用所述损失函数、知识蒸馏损失函数和分类损失函数来训练所述神经网络。

8.根据权利要求1至4中任一项所述的方法，其中，所述矩阵是格拉姆矩阵。

9.一种图像识别方法，包括：

将待识别的图像输入根据权利要求1至8中任一项所述的方法训练后的神经网络中的所述第二模型来进行识别。

10.一种训练神经网络的设备，所述神经网络包括第一模型和第二模型，所述设备包括：

其中，通过使所述损失函数最小来训练所述神经网络。