CN113642363A

CN113642363A - 神经网络及其训练方法

Info

Publication number: CN113642363A
Application number: CN202010392572.4A
Authority: CN
Inventors: 王梦蛟; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2021-11-12

Abstract

公开了神经网络及其训练方法。所述神经网络用于检测呈现攻击，并且被配置为：针对输入的图像提取多个尺寸的特征图；将所述多个尺寸的特征图进行联接，并且基于联接后的特征图生成第一特征；基于所提取的特征图中的最大尺寸的特征图确定多个局部区域；针对所述多个局部区域分别提取特征，并且基于所提取的多个特征生成第二特征；通过将所述第一特征和所述第二特征进行联接而生成分类特征；以及基于所述分类特征来确定所述图像是真实图像还是伪造图像。

Description

神经网络及其训练方法

技术领域

本发明涉及神经网络及其训练方法，更具体地，涉及用于检测呈现攻击的神经网络以及训练该神经网络的方法。

背景技术

呈现攻击(presentation attack)是人脸识别系统的新兴威胁，其使用伪造的生物特征样本来进行认证。常见的呈现攻击包括打印攻击和重放(replay)攻击，它们分别使用打印的人脸图像(纸质文件)或预先录制的包含人脸的视频向系统进行认证。图1示出了呈现攻击的示意图。

目前，已经开发了用于检测呈现攻击的技术。特别地，基于经典深度神经网络(DNN)的呈现攻击检测模型已被广泛采用，该检测模型通常被训练以将输入的图像分类为真实人脸图像和伪造人脸图像中的一种。在训练中，首先收集真实的和伪造的面部图像作为训练样本集，然后使用损失函数(诸如softmax损失函数)对DNN检测模型进行训练，以使其能够将训练样本正确地分类为真实图像或者伪造图像。

图2示意性地示出了现有的DNN检测模型的框架。如图2所示，训练样本集包含真实面部图像110和伪造面部图像120，130。针对每一个训练图像，DNN检测模型依次提取不同级别的特征图FM1’,FM2’,FM3’，然后对级别最高且尺寸最小的特征图FM3’应用全连接层FC，从而获得特征f’。在本文中，“应用全连接层”表示一种矩阵乘法运算。例如，全连接层的操作可以表示为B＝A×W，其中A表示M×N的输入矩阵，B表示K×F的输出矩阵，W表示全连接层的参数，并且其是N×K的矩阵。

随后，检测模型基于特征f’将图像分类为真实图像和伪造图像中的一种。在训练该检测模型的过程中，例如使用softmax损失函数。

然而，这种方法存在以下问题：

(1)经典的DNN模型通常从高级别特征图(如FM3’)中捕获高度抽象的特征，以执行分类。然而，对于区分真伪图像起关键作用的是人脸图像中的纹理，而纹理信息对应于低级特征图(如FM1’)。

(2)在经典的DNN检测模型的训练中通常使用整个面部区域。但是，最具区别性的图案(pattern)通常存在于面部图像的局部区域中，而不是存在于整个面部区域。

发明内容

针对上述问题，本发明人已经认识到，在呈现攻击检测模型的训练中，低级别特征图应起到重要作用，并且图像的局部区域(local patch)应当与全局区域一起使用。

根据本发明的一个方面，提供了一种基于神经网络的用于检测呈现攻击的方法，包括：针对输入的图像提取多个尺寸的特征图；将所述多个尺寸的特征图进行联接，并且基于联接后的特征图生成第一特征；基于所提取的特征图中的最大尺寸的特征图确定多个局部区域；针对所述多个局部区域分别提取特征，并且基于所提取的多个特征生成第二特征；通过将所述第一特征和所述第二特征进行联接而生成分类特征；以及基于所述分类特征来确定所述图像是真实图像还是伪造图像。

根据本发明的另一个方面，提供了一种用于检测呈现攻击的神经网络，包括：特征图提取模块，其被配置为针对输入的图像提取多个尺寸的特征图；第一特征生成模块，其被配置为将所述多个尺寸的特征图进行联接，并且基于联接后的特征图生成第一特征；第二特征生成模块，其被配置为基于所提取的特征图中的最大尺寸的特征图确定多个局部区域，针对所述多个局部区域分别提取特征，并且基于所提取的多个特征生成第二特征；分类特征生成模块，其被配置为通过将所述第一特征和所述第二特征进行联接而生成分类特征；以及分类模块，其被配置为基于所述分类特征将所述图像分类为真实图像和伪造图像中的一个。

根据本发明的另一个方面，提供了一种基于神经网络的用于检测呈现攻击的装置，包括：存储器，其被配置为存储指令；以及处理器，其被配置为通过执行所述指令而执行以下操作：针对输入的图像提取多个尺寸的特征图；将所述多个尺寸的特征图进行联接，并且基于联接后的特征图生成第一特征；基于所提取的特征图中的最大尺寸的特征图确定多个局部区域；针对所述多个局部区域分别提取特征，并且基于所提取的多个特征生成第二特征；通过将所述第一特征和所述第二特征进行联接而生成分类特征；以及基于所述分类特征来确定所述图像是真实图像还是伪造图像。

根据本发明的另一个方面，提供了一种训练用于检测呈现攻击的神经网络的方法，其中，所述神经网络被配置为：针对输入的图像提取多个尺寸的特征图；将所述多个尺寸的特征图进行联接，并且基于联接后的特征图生成第一特征；基于所提取的特征图中的最大尺寸的特征图确定多个局部区域；针对所述多个局部区域分别提取特征，并且基于所提取的多个特征生成第二特征；通过将所述第一特征和所述第二特征进行联接而生成分类特征；所述方法包括：利用损失函数训练所述神经网络，使得所述神经网络基于所述分类特征将所述图像分类为真实图像和伪造图像中的一个。

根据本发明的另一个方面，提供了一种存储有程序的存储介质，所述程序在被计算机执行时使得所述计算机实现如上所述的方法。

附图说明

图1示意性地示出了呈现攻击。

图2示意性地示出了现有技术中的呈现攻击检测模型的框架。

图3示意性地示出了根据本发明的呈现攻击检测模型的框架。

图4示意性地示出了确定局部区域的处理。

图5示出了根据本发明的检测呈现攻击的方法的流程图。

图6示出了根据本发明的呈现攻击检测模型的逻辑框图。

图7示出了实现本发明的计算机硬件的示例性配置框图。

具体实施方式

图3示意性地示出了根据本发明的呈现攻击检测模型的框架。如图3所示，检测模型300针对输入的每一个面部图像提取不同级别的特征图FM1，FM2，FM3。特征图FM1，FM2，FM3的级别逐渐升高同时尺寸逐渐减小。

与图2所示的现有技术不同，根据本发明的检测模型300不仅仅利用最高级别的特征图，而是将所提取的特征图FM1，FM2，FM3进行联接，以获得特征图FM4。然后，基于特征图FM4生成第一特征f1。例如，可以通过对特征图FM4应用全连接层FC而生成第一特征f1，或者也可以通过使用其它已知方法来获得第一特征f1。因此，除了高级特征图FM3之外，根据本发明的检测模型300还利用了包含较多纹理信息的低级特征图FM1，从而有助于提升检测准确度。

在联接中，首先，将特征图FM1的尺寸改变为与特征图FM2相同，然后将改变后的特征FM1与特征图FM2进行联接，由此得到的特征图(未示出)的尺寸与特征图FM2相同。

然后，对所得到的特征图进行处理以将其尺寸改变为与特征图FM3相同，并且将改变尺寸的特征图与特征图FM3进行联接，从而获得特征图FM4。特征图FM4的尺寸与特征图FM3相同。

如可从图3中直观看出的，代表特征图FM1-FM4的长方体在水平方向上的长度表示维度的数目，并且与水平方向垂直的横截面表示特征图的尺寸。一般地说，在对第i个特征图和第i+1个特征图进行联接后，所得到的特征图具有与尺寸较小的第i+1个特征图相同的尺寸，并且其包含的维度数目等于第i个特征图和第i+1个特征图的维度数目之和。

需要说明的是，图3仅是示意性地示出了特征图的联接方式，本发明并不限于图3所示的示例。例如，所提取的特征图的数量和尺寸可以根据实际设计要求而改变。本领域技术人员易于将上述结合图3所描述的联接方法应用于数量更多或更少的特征图。

另一方面，如图3下半部分所示，检测模型300基于所提取的尺寸最大的特征图FM1确定多个(K个)局部区域，并针对每个局部区域提取特征，然后基于所提取的多个(K个)特征生成第二特征f2。以下进行详细描述。

关于基于特征图FM1确定局部区域的处理，图4示意性地示出了具体过程。如图4所示，针对特征图FM1，首先通过ReLU层410来抑制背景信号，然后使用自动编码器(Auto-Encoder)模块420来抑制噪声信号，增强特征图FM1中的纹理信息，然后通过执行卷积运算以及应用全连接层FC来得到K个局部区域的位置信息。ReLU层是本领域技术人员已知的技术，因此本文中省略其详细描述。有关自动编码器模块的详细描述可以在美国斯坦福大学教授Andrew Ng的在线课程“Sparse Autoencoder”中获得，其内容通过引用而并入本文中。

为了减小计算复杂度，在本发明中将局部区域的长度和宽度设置为固定值，例如20个像素。因此，针对某一局部区域，可以仅用其左上角像素的坐标(x,y)来表示其位置信息，其中x和y分别表示左上角像素的水平方向和垂直方向上的坐标。在图4中，全连接层FC可以输出K个2维向量，每个向量表示一个局部区域的位置信息。

返回参考图3，在获得K个局部区域之后，对每个局部区域应用卷积运算和全连接层FC，从而获得K个特征。为了便于说明，将K个特征中的第j个特征表示为m维的向量{p_1j,p_2j,…,p_mj}，其中j＝1,2,...,K。由此，在每一个维度(例如第1维度)上，K个特征具有K个元素(例如p₁₁,p₁₂,…,p_1K)，然后在与该维度对应的K个元素中选择最大值。以此方式，针对m个维度可以选出m个最大值，由这些最大值形成第二特征f2。这一过程在图3中表示为“MaxOut”过程。

至此，已经获得了第一特征f1和第二特征f2。检测模型300将第一特征f1和第二特征f2联接起来，以形成第三特征f3。进一步对第三特征f3应用全连接层FC，以获得分类特征fd。检测模型300基于分类特征fd，将输入图像分类为真实的人脸图像或伪造的人脸图像。

在检测模型300的训练阶段，对检测模型300输入已标注为“真实”或“伪造”的训练样本，并且使用诸如softmax损失的损失函数来进行训练。这对于本领域技术人员而言是已知技术，因此本文中不再赘述。此外，本领域技术人员还可以使用其它方法来执行训练，本发明对此不做限制。

在训练完成后，对训练好的检测模型300输入要检测的图像，检测模型300的输出可以指示输入图像是否是伪造人脸图像，从而实现对呈现攻击的检测。

图5示出了根据本发明的检测呈现攻击的方法的流程图，图6示出了根据本发明的呈现攻击检测模型的逻辑框图。以下将结合图5和图6进行详细描述。

在步骤S510，由特征图提取模块610针对输入的图像提取具有不同尺寸的多个级别的特征图。

在步骤S520，由第一特征生成模块620将所提取的各个特征图进行联接，并且对联接得到的特征图应用全连接层，以生成第一特征。

在步骤S530，由第二特征生成模块630基于最大尺寸的特征图确定多个局部区域，并且针对各个局部区域分别提取特征，然后通过“Max Out”操作基于所提取的多个特征生成第二特征。

在步骤S540，由分类特征生成模块640将第一特征和第二特征进行联接以生成第三特征，并且对第三特征应用全连接层以生成分类特征。

在步骤S550，由分类模块650基于分类特征将输入的图像分类为真实人脸图像和伪造人脸图像中的一个。

以上已经结合具体实施例描述了本发明提出的呈现攻击检测模型及其训练方法。与现有模型相比，根据本发明的检测模型利用了包含纹理信息的低级特征图，并且利用了具有丰富纹理信息的最具区别性的局部区域，从而能够提升对呈现攻击的检测精度。

在上述实施例中描述的方法可以由软件、硬件或者软件和硬件的组合来实现。包括在软件中的程序可以事先存储在设备的内部或外部所设置的存储介质中。作为一个示例，在执行期间，这些程序被写入随机存取存储器(RAM)并且由处理器(例如CPU)来执行，从而实现在本文中描述的各种方法和处理。

图7示出了根据程序执行本发明的方法的计算机硬件的示例配置框图。根据本发明的神经网络检测模型中的各个模块可以利用该计算机硬件来实现。此外，用于训练本发明的神经网络检测模型的装置也可以由该计算机硬件来实现。

如图7所示，在计算机700中，中央处理单元(CPU)701、只读存储器(ROM)702以及随机存取存储器(RAM)703通过总线704彼此连接。

输入/输出接口705进一步与总线704连接。输入/输出接口705连接有以下组件：以键盘、鼠标、麦克风等形成的输入单元706；以显示器、扬声器等形成的输出单元707；以硬盘、非易失性存储器等形成的存储单元708；以网络接口卡(诸如局域网(LAN)卡、调制解调器等)形成的通信单元709；以及驱动移动介质711的驱动器710，该移动介质711例如是磁盘、光盘、磁光盘或半导体存储器。

在具有上述结构的计算机中，CPU 701将存储在存储单元708中的程序经由输入/输出接口705和总线704加载到RAM 703中，并且执行该程序，以便执行上文中描述的方法。

要由计算机(CPU 701)执行的程序可以被记录在作为封装介质的移动介质711上，该封装介质以例如磁盘(包括软盘)、光盘(包括压缩光盘-只读存储器(CD-ROM))、数字多功能光盘(DVD)等)、磁光盘、或半导体存储器来形成。此外，要由计算机(CPU 701)执行的程序也可以经由诸如局域网、因特网、或数字卫星广播的有线或无线传输介质来提供。

当移动介质711安装在驱动器710中时，可以将程序经由输入/输出接口705安装在存储单元708中。另外，可以经由有线或无线传输介质由通信单元709来接收程序，并且将程序安装在存储单元708中。可替选地，可以将程序预先安装在ROM 702或存储单元708中。

由计算机执行的程序可以是根据本说明书中描述的顺序来执行处理的程序，或者可以是并行地执行处理或当需要时(诸如，当调用时)执行处理的程序。

本文中所描述的模块或装置仅是逻辑意义上的，并不严格对应于物理设备或实体。例如，本文所描述的每个模块的功能可能由多个物理实体来实现，或者，本文所描述的多个模块的功能可能由单个物理实体来实现。此外，在一个实施例中描述的特征、部件、元素、步骤等并不局限于该实施例，而是也可以应用于其它实施例，例如替代其它实施例中的特定特征、部件、元素、步骤等，或者与其相结合。

本发明的范围不限于在本文中描述的具体实施例。本领域普通技术人员应该理解的是，取决于设计要求和其他因素，在不偏离本发明的原理和精神的情况下，可以对本文中的实施例进行各种修改或变化。本发明的范围由所附权利要求及其等同方案来限定。

附记：

1.一种基于神经网络的用于检测呈现攻击的方法，包括：

针对输入的图像提取多个尺寸的特征图；

将所述多个尺寸的特征图进行联接，并且基于联接后的特征图生成第一特征；

基于所提取的特征图中的最大尺寸的特征图确定多个局部区域；

针对所述多个局部区域分别提取特征，并且基于所提取的多个特征生成第二特征；

通过将所述第一特征和所述第二特征进行联接而生成分类特征；以及

基于所述分类特征来确定所述图像是真实图像还是伪造图像。

2.根据1所述的方法，还包括：利用深度神经网络(DNN)针对所述图像提取所述多个尺寸的特征图。

3.根据1所述的方法，其中，将所述多个尺寸的特征图进行联接的步骤还包括：

在存在N个尺寸逐渐递减的特征图的情况下，

对第i个特征图进行处理，以将其尺寸改变为与第i+1个特征图相同，其中，i＝1,2,...,N-1；

将处理后的第i个特征图与第i+1个特征图进行联接。

4.根据3所述的方法，还包括：对联接后得到的特征图应用全连接层，以生成所述第一特征。

5.根据1所述的方法，其中，基于最大尺寸的特征图确定多个局部区域的步骤还包括：

抑制所述最大尺寸的特征图中的背景信号；

对所述最大尺寸的特征图中包含的纹理进行增强；

通过应用卷积运算和全连接层获得所述多个局部区域的位置信息。

6.根据5所述的方法，其中，使用ReLU层抑制所述背景信号，并且使用自动编码器增强所述纹理。

7.根据1所述的方法，其中，基于所提取的多个特征形成第二特征的步骤还包括：

针对所提取的多个特征中的每一个维度，选择对应于该维度的所有元素中的最大值；

利用针对各个维度选出的最大值形成所述第二特征。

8.根据1所述的方法，其中，所述真实图像是实时获取的人脸图像，所述伪造图像是预先准备的包含人脸的图像或视频帧。

9.一种训练用于检测呈现攻击的神经网络的方法，其中，所述神经网络被配置为：

针对输入的图像提取多个尺寸的特征图；

通过将所述第一特征和所述第二特征进行联接而生成分类特征；

所述方法包括：

利用损失函数训练所述神经网络，使得所述神经网络基于所述分类特征将所述图像分类为真实图像和伪造图像中的一个。

10.根据9所述的方法，其中，所述损失函数是Softmx损失函数。

11.一种基于神经网络的用于检测呈现攻击的装置，包括：

存储器，其被配置为存储指令；以及

处理器，其被配置为通过执行所述指令而执行以下操作：

针对输入的图像提取多个尺寸的特征图；

以及

12.一种用于检测呈现攻击的神经网络，包括：

特征图提取模块，其被配置为针对输入的图像提取多个尺寸的特征图；

第一特征生成模块，其被配置为将所述多个尺寸的特征图进行联接，并且基于联接后的特征图生成第一特征；

第二特征生成模块，其被配置为基于所提取的特征图中的最大尺寸的特征图确定多个局部区域，针对所述多个局部区域分别提取特征，并且基于所提取的多个特征生成第二特征；

分类特征生成模块，其被配置为通过将所述第一特征和所述第二特征进行联接而生成分类特征；

分类模块，其被配置为基于所述分类特征将所述图像分类为真实图像和伪造图像中的一个。

13.一种存储有程序的存储介质，所述程序在被计算机执行时使得所述计算机执行上述的方法。

Claims

1.一种基于神经网络的用于检测呈现攻击的方法，包括：

针对输入的图像提取多个尺寸的特征图；

2.根据权利要求1所述的方法，还包括：利用深度神经网络(DNN)针对所述图像提取所述多个尺寸的特征图。

3.根据权利要求1所述的方法，其中，将所述多个尺寸的特征图进行联接的步骤还包括：

在存在N个尺寸逐渐递减的特征图的情况下，

将处理后的第i个特征图与第i+1个特征图进行联接。

4.根据权利要求3所述的方法，还包括：对联接后得到的特征图应用全连接层，以生成所述第一特征。

5.根据权利要求1所述的方法，其中，基于最大尺寸的特征图确定多个局部区域的步骤还包括：

抑制所述最大尺寸的特征图中的背景信号；

对所述最大尺寸的特征图中包含的纹理进行增强；

6.根据权利要求5所述的方法，其中，使用ReLU层抑制所述背景信号，并且使用自动编码器增强所述纹理。

7.根据权利要求1所述的方法，其中，基于所提取的多个特征生成第二特征的步骤还包括：

利用针对各个维度选出的最大值形成所述第二特征。

8.根据权利要求1所述的方法，其中，所述真实图像是实时获取的人脸图像，所述伪造图像是预先准备的包含人脸的图像或视频帧。

针对输入的图像提取多个尺寸的特征图；

所述方法包括：

10.一种基于神经网络的用于检测呈现攻击的装置，包括：

存储器，其被配置为存储指令；以及

处理器，其被配置为通过执行所述指令而执行以下操作：

针对输入的图像提取多个尺寸的特征图；