CN110399799B

CN110399799B - 图像识别和神经网络模型的训练方法、装置和系统

Info

Publication number: CN110399799B
Application number: CN201910559035.1A
Authority: CN
Inventors: 吴凡
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2022-07-26
Anticipated expiration: 2039-06-26
Also published as: CN110399799A

Abstract

本申请涉及一种图像识别和神经网络模型的训练方法、装置、系统和可读存储介质。该方法包括：获取待处理图像组；待处理图像组包括属于同一对象的多个待处理图像；将待处理图像组输入神经网络模型中，输出待处理图像组的目标融合特征；神经网络模型包括至少一个卷积块、一个特征融合块和一个全局处理块；特征融合块位于任一卷积块之后，且位于全局处理块之前，用于对待处理图像组中各待处理图像经过卷积处理得到的中间特征进行融合处理，得到待处理图像组的中间融合特征；全局处理块用于对中间融合特征进行全局处理，得到目标融合特征；采用待处理图像组对应的目标融合特征，进行对象相关的图像识别处理。采用本方法能降低图像识别处理时的误判率。

Description

图像识别和神经网络模型的训练方法、装置和系统

技术领域

本申请涉及图像处理技术领域，特别是涉及一种图像识别方法、神经网络模型的训练方法、图像识别装置、神经网络模型的训练装置、图像识别系统和可读存储介质。

背景技术

随着身份识别技术的发展，脸部识别技术以其自然性、非强制性等特点广泛应用在解锁、支付、安防等领域。示例性地，一种脸部识别技术是从脸部查询图像中提取出图像特征作为查询特征，并计算该查询特征与从脸部底库图像中提取出的底库特征的相似度，通过相似度来判断该脸部查询图像与该脸部底库图像是否对应同一个对象。

当存在同一对象的多张脸部图像时(多张脸部图像可以是脸部查询图像可以是脸部底库图像)，以脸部底库图像为例，传统技术可以从同一对象的多张脸部底库图像中选取拍摄角度最正的脸部底库图像，并从该拍摄角度最正的脸部底库图像中提取出图像特征作为底库特征，以通过计算查询特征与该底库特征的相似度来进行图像识别处理。

然而，上述传统技术没有充分利用同一对象的多张脸部图像的信息，容易在进行该对象相关的图像识别处理时出现误判。

发明内容

基于此，有必要针对上述技术问题，提供一种能够降低图像识别处理时的误判率的图像识别方法、神经网络模型的训练方法、图像识别装置、神经网络模型的训练装置、图像识别系统和可读存储介质。

第一方面，一种图像识别方法，所述方法包括：

获取待处理图像组；所述待处理图像组包括属于同一对象的多个待处理图像；

将所述待处理图像组输入神经网络模型中，输出所述待处理图像组的目标融合特征；所述神经网络模型包括至少一个卷积块、一个特征融合块和一个全局处理块；所述特征融合块位于任一卷积块之后，且位于所述全局处理块之前，用于对所述待处理图像组中各待处理图像经过卷积处理得到的中间特征进行融合处理，得到所述待处理图像组的中间融合特征；所述全局处理块用于对所述中间融合特征或经过卷积处理后的中间融合特征进行全局处理，得到所述目标融合特征；

采用所述待处理图像组对应的目标融合特征，进行所述对象相关的图像识别处理。

在其中一个实施例中，所述神经网络模型包括依次连接的一个卷积网络、所述特征融合块和所述全局处理块，所述卷积网络包括至少一个所述卷积块；将所述待处理图像组输入神经网络模型中，输出所述待处理图像组的目标融合特征，包括：

将所述待处理图像组中各待处理图像分别输入所述卷积网络中进行特征提取处理，分别得到各所述待处理图像的中间特征；

将各所述待处理图像的中间特征输入所述特征融合块中进行融合处理，得到所述待处理图像组的中间融合特征；

将所述待处理图像组的中间融合特征输入所述全局处理块中进行全局处理，输出所述全局处理后得到的目标融合特征。

在其中一个实施例中，所述待处理图像的中间特征为对应多个通道的多个中间特征；所述将各所述待处理图像的中间特征输入所述特征融合块中进行融合处理，得到所述待处理图像组的中间融合特征，包括：

将属于同一通道的各所述待处理图像的中间特征输入所述特征融合块中进行融合处理，得到所述待处理图像组的中间融合特征；其中，每个通道对应一个中间融合特征。

在其中一个实施例中，所述将属于同一通道的各所述待处理图像的中间特征输入所述特征融合块中进行融合处理，得到所述待处理图像组的中间融合特征，包括：

将属于同一通道的各所述待处理图像的中间特征中的相应特征位进行按位运算，将所述按位运算得到的结果作为所述待处理图像组的中间融合特征；所述按位运算包括以下内容中的至少一种：计算各相应特征位的算数平均值、计算各相应特征位的最大值、计算各相应特征位的归一化指数平均值。

在其中一个实施例中，所述特征融合块包括至少一个全连接层，所述将属于同一通道的各所述待处理图像的中间特征输入所述特征融合块中进行融合处理，得到所述待处理图像组的中间融合特征，包括：

将各所述待处理图像的中间特征输入所述至少一个全连接层进行全连接处理，得到各所述待处理图像的中间特征中各特征位的注意力系数；

根据各所述待处理图像的中间特征中各相应特征位的注意力系数，对各所述待处理图像的中间特征中的相应特征位进行加权求和运算，将所述加权求和运算得到的结果作为所述待处理图像组的中间融合特征。

在其中一个实施例中，根据各所述待处理图像的中间特征中各相应特征位的注意力系数，对各所述待处理图像的中间特征中的相应特征位进行加权求和运算，包括：

采用归一化指数函数对各所述待处理图像的中间特征中各相应特征位的注意力系数进行归一化，将归一化的结果作为各所述待处理图像的中间特征中各相应特征位的权值；

采用各所述待处理图像的中间特征中各相应特征位的权值，对各所述待处理图像的中间特征中的相应特征位进行加权求和运算。

在其中一个实施例中，所述方法还包括：

获取各训练样本图像组；所述训练样本图像组包括属于同一对象的预设数目的样本图像，且所述训练样本图像组标注有对象标签；所述预设数目与所述待处理图像组中待处理图像的数目相等；

将各所述训练样本图像组输入初始神经网络模型中，输出各所述训练样本图像组的目标融合特征；

根据各所述训练样本图像组的目标融合特征和对象标签，计算所述初始神经网络模型的损失函数的值；

根据所述损失函数的值，对所述初始神经网络模型的待训练参数进行调整，得到所述神经网络模型；所述待训练参数包括所述特征融合块中至少一个全连接层的参数。

在其中一个实施例中，所述待处理图像为脸部图像，在将所述待处理图像组输入神经网络模型中，输出所述待处理图像组的目标融合特征之前，所述方法还包括：

对所述待处理图像组中的各脸部图像进行脸部对齐处理，得到脸部对齐处理后的待处理图像组。

在其中一个实施例中，所述全局处理块包括以下内容中的至少一种：全局池化层、全连接层。

第二方面，一种神经网络模型的训练方法，包括：

获取各训练样本图像组；所述训练样本图像组包括属于同一对象的多个样本图像，且标注有对象标签；

将各所述训练样本图像组输入初始神经网络模型中，输出各所述训练样本图像组的目标融合特征；所述初始神经网络模型包括至少一个卷积块、一个特征融合块和一个全局处理块；所述特征融合块位于任一卷积块之后，且位于所述全局处理块之前，用于对各所述训练样本图像组中各训练样本图像经过卷积处理得到的中间特征进行融合处理，得到各所述训练样本图像组的中间融合特征；所述全局处理块用于对各所述训练样本图像组的中间融合特征或经过卷积处理后的中间融合特征进行全局处理，得到各所述训练样本图像组的目标融合特征；

根据所述损失函数的值，对所述初始神经网络模型的待训练参数进行调整，得到训练后的神经网络模型。

第三方面，一种图像识别装置，包括：

图像组获取模块，用于获取待处理图像组；所述待处理图像组包括属于同一对象的多个待处理图像；

图像组处理模块，用于将所述待处理图像组输入神经网络模型中，输出所述待处理图像组的目标融合特征；所述神经网络模型包括至少一个卷积块、一个特征融合块和一个全局处理块；所述特征融合块位于任一卷积块之后，且位于所述全局处理块之前，用于对所述待处理图像组中各待处理图像经过卷积处理得到的中间特征进行融合处理，得到所述待处理图像组的中间融合特征；所述全局处理块用于对所述中间融合特征或经过卷积处理后的中间融合特征进行全局处理，得到所述目标融合特征；

图像识别模块，用于采用所述待处理图像组对应的目标融合特征，进行所述对象相关的图像识别处理。

第四方面，一种神经网络模型的训练装置，包括：

样本图像组获取模块，用于获取各训练样本图像组；所述训练样本图像组包括属于同一对象的多个样本图像，且标注有对象标签；

样本图像组处理模块，用于将各所述训练样本图像组输入初始神经网络模型中，输出各所述训练样本图像组的目标融合特征；所述初始神经网络模型包括至少一个卷积块、一个特征融合块和一个全局处理块；所述特征融合块位于任一卷积块之后，且位于所述全局处理块之前，用于对各所述训练样本图像组中各训练样本图像经过卷积处理得到的中间特征进行融合处理，得到各所述训练样本图像组的中间融合特征；所述全局处理块用于对各所述训练样本图像组的中间融合特征或经过卷积处理后的中间融合特征进行全局处理，得到各所述训练样本图像组的目标融合特征；

损失函数计算模块，用于根据各所述训练样本图像组的目标融合特征和对象标签，计算所述初始神经网络模型的损失函数的值；

神经网络训练模块，用于根据所述损失函数的值，对所述初始神经网络模型的待训练参数进行调整，得到训练后的神经网络模型。

第五方面，一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面提供的图像识别方法，也可以实现第二方面提供的神经网络模型的训练方法。

第六方面，一种图像识别系统，包括拍摄装置和计算机设备；所述拍摄装置用于拍摄获取同一对象的多个待处理图像，并将所述多个待处理图像发送给所述计算机设备进行图像识别处理；所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面提供的图像识别方法，也可以实现第二方面提供的神经网络模型的训练方法。

上述图像识别方法、神经网络模型的训练方法、图像识别装置、神经网络模型的训练装置、图像识别系统和可读存储介质，以脸部底库图像为例，因为融合处理位于全局处理之前，因此融合处理得到的中间融合特征中包括各脸部底库图像的特征中的特有对象信息，实现了各脸部底库图像的互补，即使该中间融合特征再进行全局处理，那也是对各脸部底库图像互补得到的中间融合特征进行全局化处理，全局化处理得到的目标融合特征仍然具备各脸部底库图像的特征中的特有对象信息，即具有更全面的对象信息，在进行该对象相关的图像识别处理时可以降低误判率。

附图说明

图1为一个实施例中图像识别方法的应用环境图；

图2a为一个实施例中图像识别方法的流程示意图；

图2b为一个实施例中神经网络模型的结构示意图；

图3a为一个实施例中神经网络模型的结构示意图；

图3b为一个实施例中图像识别方法的流程示意图；

图3c为一个实施例中图像识别方法的示意图；

图4为一个实施例中神经网络模型的训练方法的流程示意图；

图5为一个实施例中神经网络模型的训练方法的流程示意图；

图6为一个实施例中图像识别装置的结构框图；

图7为一个实施例中神经网络模型的训练装置的结构框图；

图8为一个实施例中图像识别系统的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的图像识别方法，可以但不限于应用于如图1所示的应用环境中。其中，拍摄装置12可以拍摄获取同一对象的多个待处理图像，并将多个待处理图像发送给计算机设备11；计算机设备11可以根据上述多个待处理图像，进行与该对象相关的图像识别处理。其中，计算机设备11可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、服务器等。

在一个实施例中，如图2a所示，提供了一种图像处理方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

S201，获取待处理图像组；待处理图像组包括属于同一对象的多个待处理图像。

示例性地，上述多个待处理图像可以是在不同拍摄环境和/或不同对象状态下拍摄的图像；例如可以是同一对象的不同拍摄角度下(如正面、左侧、右侧、从上向下、从下向上)的图像，也可以是同一对象不同光照条件下(明亮的室外、昏暗的室内)的图像，也可以是同一对象不同情绪下的图像(高兴、悲伤)，也可以是同一对象不同时间下(如早晨、中午、晚上)的图像，等等，也可以是同一对象的上述不同类型的图像的集合。该对象可以包括但不限于：人、花卉、场景、物品等；相应地，待处理图像可以为人脸图像、花卉图像、场景图像等，可以分别进行人脸识别、花卉识别、场景识别等不同图像识别任务，本实施例对此并不限制。

上述待处理图像组可以是计算机设备接收到的其它设备发送的同一对象的多个待处理图像，如拍摄装置、其它计算机设备等，也可以是计算机设备本地存储的同一对象的多个待处理图像，或者是其它来源的同一对象的多个待处理图像；总之，计算机设备需要对上述多个待处理图像组成的待处理图像组进行特征提取处理以及融合处理，并基于处理得到的待处理图像组的目标融合特征进行与该对象相关的图像识别处理，应用场景可以但不限于是身份认证、刷脸支付、图像相似度比对等图像识别任务的场景。

当然，在S201之后，本实施例还可以对待处理图像组中各待处理图像进行各种类型的预处理，然后才将预处理后的待处理图像组输入神经网络模型中；各种类型的预处理包括但不限于以下内容中的至少一种：图像减去均值的处理、对感兴趣区域的图像提取(例如通过人脸识别从待处理的人的图像中提取出脸部图像，甚至进一步地提取出脸部图像中的关键点区域的图像，如眼睛图像、鼻子图像等)、归一化处理等；本实施例对此并不限制。本实施例对于来源于视频的多张待处理图像或不同场景采集的多张待处理图像等均可适用，并不限制待处理图像的来源。

S202，将待处理图像组输入神经网络模型中，输出待处理图像组的目标融合特征；神经网络模型包括至少一个卷积块、一个特征融合块和一个全局处理块；特征融合块位于任一卷积块之后，且位于全局处理块之前，用于对待处理图像组中各待处理图像经过卷积处理得到的中间特征进行融合处理，得到待处理图像组的中间融合特征；全局处理块用于对中间融合特征或经过卷积处理后的中间融合特征进行全局处理，得到目标融合特征。

其中，神经网络模型可以对待处理图像组中各待处理图像进行特征提取处理；该神经网络模型可以采用任意能够进行特征提取处理的神经网络的架构，如VGG(VisualGeometry Group Network，视觉几何组网络)，Res Net(残差神经网络)，Inception(将1x1、3x3等各个尺寸的卷积特征和池化特征堆叠在一起)等。相应地，卷积块的架构可以为ResNet架构、Inception架构等。卷积块可以包括至少一个卷积层，还可以包括激活层、池化层(局部池化层，不同于全局池化层)、归一化层等；本实施例对此并不限制。示例性地，卷积块可以为卷积层-批归一化层-relu激活层的结构，输出均大于等于0，有激活对应的意义；这种带空间位置信息的语义特征，具有可解释性，从而在后续的max(最大化处理)等简单的融合处理下，就能达到很好的提升性能的效果。

示例性地，参照图2b所示的一种本实施例的神经网络模型的结构，具体地，包括：多个卷积块、一个特征融合块和一个全局处理块，特征融合块位于任意两个卷积块之间，例如图2b中的卷积块1和卷积块N之间。特征融合块可以与卷积块1和卷积块N分别连接，用于将卷积块1分别从待处理图像组中的三个待处理图像中提取出的三个中间特征进行融合处理，得到待处理图像组的中间融合特征，卷积块N可以对待处理图像组的中间融合特征进行卷积处理，提取出中间融合特征中的更深层次的特征作为待处理图像组的新的中间融合特征。当然，在卷积块1和卷积块N之间，除了特征融合块之外还可以存在其它如卷积块、激活层、池化层等非全局处理的神经网络层或神经网络块，本实施例对此并不限制。同样地，卷积特征块N和全局处理块可以直接连接，全局处理块可以对卷积块处理得到的新的中间融合特征进行全局处理，得到目标融合特征；卷积特征块N和全局处理块之间也可以存在如激活层、池化层等非全局处理的神经网络层或神经网络块。

其中，特征融合块可以对待处理图像组中各待处理图像经过卷积处理得到的中间特征进行融合处理，得到待处理图像组的中间融合特征。因为在经过融合处理前，各待处理图像经过了相同的特征提取过程，因此各待处理图像的中间特征为相同大小，因此存在相应的特征位。针对任一特征位，特征融合块可以获取各待处理图像的中间特征中该特征位的各个特征值，并对各特征值进行诸如加权求和等融合处理，并将该融合处理得到的融合值作为中间融合特征中该特征位的特征值。

在一种神经网络模型中，全局处理位于融合处理之前，以脸部底库图像为例，当存在同一对象的多张脸部底库图像时，可以将该多张脸部底库图像输入神经网络模型中进行特征提取处理，得到各脸部底库图像的特征，然后将各脸部底库图像特征进行融合处理，输出融合处理后得到的底库特征。但是，因为各脸部底库图像的特征一般是在特征提取处理过程中通过全局处理得到的，全局处理会混淆各脸部底库图像的特征中的特有对象信息(例如各图像为同一对象的不同拍摄角度的图像，那么全局处理会混淆各图像特征中不同空间位置的对象信息)，使得属于同一对象的各图像特征趋于一致，具有普适性；因此各脸部底库图像的特征基本已经失去了特有对象信息，即使后续再进行加权融合，融合得到的底库特征也基本失去了各脸部底库图像的特有对象信息。

而在本实施例中，融合处理位于全局处理之前，仍以脸部底库图像为例，融合处理得到的中间融合特征中包括各脸部底库图像的特征中的特有对象信息，实现了各脸部底库图像的互补，即使该中间融合特征再进行全局处理，那也是对各脸部底库图像互补得到的中间融合特征进行全局化处理，全局化处理得到的目标融合特征仍然具备各脸部底库图像的特征中的特有对象信息。需要说明的是，卷积处理并不是全局处理，因为卷积处理可以保留特征的更多的空间细节，比如特征的位置信息。

S203，采用待处理图像组对应的目标融合特征，进行对象相关的图像识别处理。

根据以上论述，基于本实施例的图像识别方法得到的待处理图像组对应的目标融合特征具有更全面的对象信息，在进行该对象相关的图像识别处理时可以降低误判率。

例如，当待处理图像组中各待处理图像为底库图像时，计算机设备可以采用待处理图像组对应的目标融合特征作为对象的底库特征，进行对象相关的图像识别处理；当查询特征与底库特征属于同一对象时，因为底库特征具有更全面的对象信息，可以保证查询特征与底库特征存在一定的相似度，因此可以降低误拒绝率。或者，当待处理图像组中各待处理图像为查询图像时，采用待处理图像组对应的目标融合特征作为各查询图像的查询特征，进行对象相关的图像识别处理；当查询特征与底库特征属于不同对象时，因为查询特征具有更全面的对象信息，可以降低查询特征与底库特征的相似度，因此可以降低误接受率。同样地，还可以在将同一对象的多张底库图像进行本实施例的融合处理得到的目标融合特征作为该对象的底库特征的同时，将同一对象的多张查询图像进行本实施例的融合处理得到的目标融合特征作为该对象的查询特征，可以同时降低误拒绝率和误接受率。

示例性地，在刷脸门禁场景中，在进行底库图像录入时，针对任一合法员工，门禁终端的摄像头可以拍摄获取多张不同拍摄角度的员工脸部图像，并将多张员工脸部图像输入上述神经网络模型中，输出目标融合特征作为该合法员工的底库特征；如此，门禁终端中可以存储多个合法员工的底库特征；在进行图像识别处理时，针对某一待识别对象，可以获取该待识别对象的脸部图像，并从该脸部图像中提取出图像特征作为查询特征，将该查询特征与多个合法员工的底库特征进行比对，并根据比对结果进行开门或警示。可以理解的是，可以采用本实施例的神经网络模型从该待识别对象的脸部图像中提取图像特征以提高识别准确性，当然也可以采用其它神经网络模型。当采用本实施例的神经网络模型时，若该待识别对象的脸部图像仅有一张，则可以通过复制得到多张脸部图像，便于本实施例的神经网络模型进行处理；若该待识别对象的脸部图像有多张，则可以通过本实施例的神经网络模型进行处理，得到目标融合特征作为待识别对象的查询特征。

总之，本实施例的图像识别方法中，以脸部底库图像为例，因为融合处理位于全局处理之前，因此融合处理得到的中间融合特征中包括各脸部底库图像的特征中的特有对象信息，实现了各脸部底库图像的互补，即使该中间融合特征再进行全局处理，那也是对各脸部底库图像互补得到的中间融合特征进行全局化处理，全局化处理得到的目标融合特征仍然具备各脸部底库图像的特征中的特有对象信息，即具有更全面的对象信息，在进行该对象相关的图像识别处理时可以降低误判率。

仍以底库特征为例，虽然在存在同一对象的多张待处理图像时，传统技术还存在如下几种处理策略：(1)从多张待处理图像中选取拍摄角度最正的待处理图像的图像特征，作为底库特征，通过计算查询特征与该底库特征的相似度来进行图像识别处理；(2)从多张待处理图像中分别提取出图像特征作为底库特征，并分别计算查询特征与多个底库特征的多个相似度，选取多个相似度的最大值或平均值作为目标相似度来进行图像识别处理；(3)对多张待处理图像的图像特征直接相加取平均，将平均结果作为底库特征，通过计算查询特征与该底库特征的相似度来进行图像识别处理。但是，上述几种策略存在如下问题：策略(1)没有充分利用多张图像的信息，因此误判率较高，例如，对一些拍摄角度较大的人脸图像识别准确率较低；策略(2)在1vN场景下，计算量显著增大，对安防等底库图像较多的场景不适用；策略(3)中对象的各特征通常约束范数到一个超球面，而通过特征直接相加平均的方式得到的新的特征的范数会小于超球面半径，可能并不能作为该对象的特征，因此可能识别准确率更低。

另外，待处理图像的质量其实有高有低，传统方法通常会被低质量图像拉低性能，而本实施例的图像识别方法可更充分地利用每张图像各区域的“长处”(富余信息)，从而提高图像识别性能。

可选地，当待处理图像为脸部图像时，在S202之前，上述方法还可以包括：

示例性地，针对某个脸部图像，脸部对齐处理可以从该脸部图像中确定该脸部图像的多个脸部关键点的位置，并计算该脸部图像的多个脸部关键点的位置和预设的多个脸部关键点的位置之间的仿射变换矩阵，然后基于该仿射变换矩阵对该脸部图像进行仿射变换。可见，基于仿射变换后的待处理图像组中的各脸部图像中同一脸部关键点的位置相对稳定，因此基于不同待处理图像提取出的中间特征可以更加有效且准确地相互补充，从而更加准确且充分地利用了多张脸部图像给出的多个局部有效信息，得到更为全面准确地中间融合特征以及最后的目标融合特征。

当然，针对除脸部图像以外的其它类型的待处理图像，也可以通过类似于脸部对齐处理等处理方法对待处理图像进行对齐处理，从而保证待处理图像组中的各待处理图像中同一关键点的位置相对稳定，实现更加准确且有效地相互补充。

具体地，上述全局处理块包括以下内容中的至少一种：全局池化层(GlobalPooling)、全连接层(Fully Connected layer，FC)。其中，全局池化层可以但不限于是全局最大池化层、全局平均池化层等。示例性地，全局处理块包括依次连接的全局平均池化层和全连接层，该全连接层中还可以进行L2normalize(L2范数归一化)的预处理。

参照图3a所示的一种神经网络模型的结构，具体地，包括：依次连接的一个卷积网络(Convolutional Neural Networks,CNN)、特征融合块和全局处理块；卷积网络包括至少一个卷积块，例如图3a中的卷积块1。在一种实施方式中，特征融合块可以与卷积块1和全局处理块分别直接连接；在另一种实施方式中，在卷积块1和特征融合块之间，还可以存在其它如激活层、池化层等非全局处理的神经网络层或神经网络块，本实施例对此并不限制。

参照图3b所示，以图3a所示的神经网络模型的结构为例，上述S202可以包括：

S301，将待处理图像组中各待处理图像分别输入卷积网络中进行特征提取处理，分别得到各待处理图像的中间特征。

参照图3c所示，示例性地，卷积网络可以采用多个卷积核通过多次卷积从待处理图像1中提取出待处理图像1的中间特征，例如中间特征以(C,H,W)的格式可以表示为(2048,3,3)，即2048个通道对应的3×3的中间特征；同样地，卷积网络也可以分别从待处理图像2和待处理图像3中提取出中间特征。

S302，将各待处理图像的中间特征输入特征融合块中进行融合处理，得到待处理图像组的中间融合特征。

可以理解的是，当通道数为1时，特征融合块可以将待处理图像1～3的三个中间特征直接进行融合处理；例如，将各待处理图像的中间特征中的相应特征位进行按位运算，将按位运算得到的结果作为待处理图像组的中间融合特征。

当卷积核为多个时，通道数为多个，即待处理图像的中间特征为对应多个通道的多个中间特征；则可以将属于同一通道的各待处理图像的中间特征输入特征融合块中进行融合处理，得到待处理图像组的中间融合特征；其中，每个通道对应一个中间融合特征。例如，针对通道M，可以将待处理图像1～3的三个中间特征中通道M对应的3×3的中间特征进行融合处理，得到通道M对应的中间融合特征，可以表示为(M,3,3)。

在一个实施方式中，特征融合块可以不存在网络参数，相应地，融合处理过程可以包括：将属于同一通道的各待处理图像的中间特征中的相应特征位进行按位运算，将按位运算得到的结果作为待处理图像组的中间融合特征；按位运算包括以下内容中的至少一种：计算各相应特征位的算数平均值、计算各相应特征位的最大值、计算各相应特征位的归一化指数平均值。

以计算各相应特征位的归一化指数平均值为例，示例性地，针对通道M，可以分别获取待处理图像1～3的中间特征中某一特征位(M,i,j)对应的3个特征值，求取这三个特征值对应的归一化指数平均值，作为通道M对应的中间融合特征中相应特征位(M,i,j)的特征值。可以理解的是，相对于平均值而言，归一化指数平均值可以使得特征值较大的特征更为凸出，因为特征值较大的特征为高激活特征，更能代表相应对象，使得中间融合特征更能代表该对象，因此最终基于中间融合特征得到的目标融合特征更准确，从而提升图像识别性能。

类似地，当按位运算为计算各相应特征位的最大值时，相当于有效提取各待处理图像的中间特征中的高激活特征，相对于平均值而言，得到的目标融合特征更准确，从而提升图像识别性能，且运算简单高效，适用范围广。

在一个实施方式中，特征融合块也可以存在网络参数，相应地，融合处理过程可以包括：将各待处理图像的中间特征输入所述至少一个全连接层进行全连接处理，得到各待处理图像的中间特征中各特征位的注意力系数；根据各待处理图像的中间特征中各相应特征位的注意力系数，对各待处理图像的中间特征中的相应特征位进行加权求和运算，将加权求和运算得到的结果作为待处理图像组的中间融合特征。例如，某待处理图像z的中间特征中某一特征位(c,i,j)的注意力系数

相当于是各待处理图像的中间特征中所有特征位对应的特征值的加权求和，权值为全连接层中相应网络参数。

其中，特征融合块可以包括一个全连接层，也可以包括多个全连接层。待处理图像组中待处理图像的数目为K，如果采用一个全连接层，则该全连接层的输入的维度为K×C×H×W，输出的维度为K×C×H×W，则全连接层的参数有(K×C×H×W)²个，运算量极大。如果采用两个依次连接的全连接层来计算注意力系数，第一个全连接层的输入的维度为K×C×H×W，输出的维度可以为m，第二个全连接层输入的维度为m，输出的维度为K×C×H×W，每个全连接层的参数为K×C×H×W×m。因为m的取值可以为远小于K×C×H×W的正整数，采用两个全连接层相当于先降维，再升维恢复原有维度，因此全连接层的参数极大降低，运算量也极大降低。当然，也可以采用多于两层的全连接层或者其它形式来计算注意力系数，本实施例对此并不限制。

具体地，基于注意力系数进行的融合处理过程可以包括：将各待处理图像的中间特征中各相应特征位的注意力系数，作为各待处理图像的中间特征中的相应特征位的权值；采用各待处理图像的中间特征中各相应特征位的权值，对各待处理图像的中间特征中的相应特征位进行加权求和运算。当然，也可以采用归一化指数函数对各待处理图像的中间特征中各相应特征位的注意力系数进行归一化，将归一化的结果作为各待处理图像的中间特征中各相应特征位的权值；然后进行加权求和运算。其中，归一化的过程可以如下式所示：

其中，

为待处理图像z的中间特征中某一特征位(c,i,j)的注意力系数，相应地，

为待处理图像z的中间特征中某一特征位(c,i,j)的权重。同样地，上述归一化过程可以使得注意力系数较大的权重更为凸出，即使得注意力系数较大的特征更为凸出，因为全连接层中的系数是训练得到的，注意力系数是经过全连接层得到的，因此注意力系数较大的特征一般更能代表对象特征，因此采用上述归一化过程可以使得基于归一化后的注意力系数作为权重进行的融合处理得到的中间融合特征更能代表该对象，最终基于中间融合特征得到的目标融合特征更准确，从而提升图像识别性能。

当然，注意力系数的计算过程也可以为：将属于同一通道的各待处理图像的中间特征中各相应特征位输入至少一个全连接层进行全连接处理，得到各待处理图像的中间特征中各相应特征位的注意力系数；即某待处理图像z的中间特征中某一特征位(c,i,j)的注意力系数

相当于是与各待处理图像的中间特征中特征位(c,i,j)对应的各特征值的加权求和，仅与各待处理图像的相应特征位的特征值相关，与其它特征位的特征值无关；如此可以降低运算量。

总之，基于注意力系数进行的融合处理拟合能力更强，适应性广，但是增加了网络参数和运算量；基于不带网络参数的融合处理，拟合能力较弱，但是运算量较小。因此可以根据需求和场景，以及实际计算能力和内存大小，选择合适的融合处理策略。

S303，将待处理图像组的中间融合特征输入全局处理块中进行全局处理，输出全局处理后得到的目标融合特征。

参照图3c所示，示例性地，可以对融合处理得到的(2048,3,3)格式的中间融合特征进行全局平均池化处理，即分别对各通道中的3×3的特征中的9个特征值进行平均处理，得到9个特征的平均值，因此得到一个2048维的特征；再将全局平均池化处理得到的2048维的特征进行L2归一化进行无量纲化，基于L2归一化后的2048维的特征再输入全连接层中进行全连接处理，得到全连接处理后的2048维的特征，作为目标融合特征。

在对上述神经网络模型进行训练时，示例性地，可以采用分类损失、三元组损失等作为损失函数来进行训练。可以理解的是，上述不带网络参数的融合处理块对于待处理图像组中待处理图像的数目基本是没有限制的，因此基于此融合处理块的神经网络模型对待处理图像组中待处理图像的数目也是基本没有限制的，不过一般而言，可以设置待处理图像组中待处理图像的数目为3、4或5，推荐为3。

而对于上述基于注意力系数的融合处理块，因为融合处理块中存在全连接层，全连接层的中的参数是需要训练的，因此基于该融合处理块的神经网络模型对待处理图像组中待处理图像的数目是有限制的，与训练样本图像组中同一对象的样本图像的数目相等。具体地，参照图4所示，示出了一种神经网络模型的训练方法，可以包括：

S401，获取各训练样本图像组；训练样本图像组包括属于同一对象的预设数目的样本图像，且训练样本图像组标注有对象标签；预设数目与待处理图像组中待处理图像的数目相等。

同样地，预设数目K可以为3、4或5，一般固定为3；当同一对象的样本图像的数目小于K时，可以通过复制图像的方式补足到K。同样地，在实际应用时，待处理图像组中的待处理图像也可以通过复制的方式进行补足。

S402，将各训练样本图像组输入初始神经网络模型中，输出各训练样本图像组的目标融合特征。

S403，根据各训练样本图像组的目标融合特征和对象标签，计算初始神经网络模型的损失函数的值。

示例性地，损失函数可以为分类损失，或者为三元组损失，或者为分类损失与三元组损失的加权求和。以分类损失为例，具体地，可以将各训练样本图像组的目标融合特征输入归一化指数softmax网络，计算获得各训练样本图像组的对象分类向量，该对象分类向量可以表征训练样本图像组属于各对象的概率；计算各训练样本图像组的对象标签对应的独热向量与对象分类向量之间的交叉熵损失，作为损失函数的值。

S404，根据损失函数的值，对初始神经网络模型的待训练参数进行调整，得到神经网络模型；待训练参数包括特征融合块中至少一个全连接层的参数。

例如，通过计算损失函数的梯度，根据各种优化算法，例如最速下降法等，优化初始神经网络模型的参数，该参数包括但不限于特征融合块中至少一个全连接层的参数。

总之，本实施例的神经网络模型的训练方法训练出的神经网络模型，可以基于全连接层计算各待处理图像的中间特征中各特征位的注意力系数，并基于注意力系数进行融合处理，由于基于注意力系数进行的融合处理拟合能力更强，因此得到的待处理图像组的中间融合特征可以更能代表该待处理图像组对应的对象，从而可以提高神经网络模型的性能。

需要说明的是，若实际需要调整K为其它值，神经网络模型也只需要简单迁移，就可以使用；例如，针对已经训练的K＝3的神经网络模型，当需要对K＝5的神经网络模型进行训练时，可以直接继续沿用除特征融合块中的网络参数之外的其它网络参数，例如卷积网络中的网络参数、全局处理块中的网络参数，仅需要对特征融合块中的网络参数进行训练。

此外，神经网络模型中的卷积网络可以是预先训练的；也可以采用其它对同一类型对象进行特征提取的卷积网络的网络参数，对本实施例中神经网络模型中的卷积网络的网络参数进行初始化，再采用各训练样本图像组进行微调，方便加速训练效率和提升性能。

参照图5所示，示出了一种神经网络模型的训练方法，可以包括：

S501，获取各训练样本图像组；训练样本图像组包括属于同一对象的多个样本图像，且标注有对象标签；

S502，将各训练样本图像组输入初始神经网络模型中，输出各训练样本图像组的目标融合特征；初始神经网络模型包括至少一个卷积块、一个特征融合块和一个全局处理块；特征融合块位于任一卷积块之后，且位于全局处理块之前，用于对各训练样本图像组中各训练样本图像经过卷积处理得到的中间特征进行融合处理，得到各训练样本图像组的中间融合特征；全局处理块用于对各训练样本图像组的中间融合特征或经过卷积处理后的中间融合特征进行全局处理，得到各训练样本图像组的目标融合特征；

S503，根据各训练样本图像组的目标融合特征和对象标签，计算初始神经网络模型的损失函数的值；

S504，根据损失函数的值，对初始神经网络模型的待训练参数进行调整，得到训练后的神经网络模型。

上述神经网络模型的训练方法可以参照上述图像识别方法的描述，这里不再赘述。

应该理解的是，虽然图2a,3b,4,5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2a,3b,4,5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种图像识别装置，包括：图像组获取模块61、图像组处理模块62和图像识别模块63，其中：

图像组获取模块61，用于获取待处理图像组；待处理图像组包括属于同一对象的多个待处理图像；

图像组处理模块62，用于将待处理图像组输入神经网络模型中，输出待处理图像组的目标融合特征；神经网络模型包括至少一个卷积块、一个特征融合块和一个全局处理块；特征融合块位于任一卷积块之后，且位于全局处理块之前，用于对待处理图像组中各待处理图像经过卷积处理得到的中间特征进行融合处理，得到待处理图像组的中间融合特征；全局处理块用于对中间融合特征或经过卷积处理后的中间融合特征进行全局处理，得到目标融合特征；

图像识别模块63，用于采用待处理图像组对应的目标融合特征，进行对象相关的图像识别处理。

可选地，神经网络模型包括依次连接的一个卷积网络、特征融合块和全局处理块，卷积网络包括至少一个卷积块；图像组处理模块62可以包括：

特征提取单元，用于将待处理图像组中各待处理图像分别输入卷积网络中进行特征提取处理，分别得到各待处理图像的中间特征；

融合处理单元，用于将各待处理图像的中间特征输入特征融合块中进行融合处理，得到待处理图像组的中间融合特征；

全局处理单元，用于将待处理图像组的中间融合特征输入全局处理块中进行全局处理，输出全局处理后得到的目标融合特征。

可选地，待处理图像的中间特征为对应多个通道的多个中间特征；融合处理单元具体用于将属于同一通道的各待处理图像的中间特征输入特征融合块中进行融合处理，得到待处理图像组的中间融合特征；其中，每个通道对应一个中间融合特征。

可选地，融合处理单元还用于将属于同一通道的各待处理图像的中间特征中的相应特征位进行按位运算，将按位运算得到的结果作为待处理图像组的中间融合特征；按位运算包括以下内容中的至少一种：计算各相应特征位的算数平均值、计算各相应特征位的最大值、计算各相应特征位的归一化指数平均值。

可选地，融合处理单元还用于将各待处理图像的中间特征输入至少一个全连接层进行全连接处理，得到各待处理图像的中间特征中各特征位的注意力系数；根据各待处理图像的中间特征中各相应特征位的注意力系数，对各待处理图像的中间特征中的相应特征位进行加权求和运算，将加权求和运算得到的结果作为待处理图像组的中间融合特征。

可选地，融合处理单元还用于采用归一化指数函数对各待处理图像的中间特征中各相应特征位的注意力系数进行归一化，将归一化的结果作为各待处理图像的中间特征中各相应特征位的权值；采用各待处理图像的中间特征中各相应特征位的权值，对各待处理图像的中间特征中的相应特征位进行加权求和运算。

可选地，该装置还可以包括神经网络训练模块，该神经网络训练模块可以包括：

样本图像组获取单元，用于获取各训练样本图像组；训练样本图像组包括属于同一对象的预设数目的样本图像，且训练样本图像组标注有对象标签；预设数目与待处理图像组中待处理图像的数目相等；

样本图像组处理单元，用于将各训练样本图像组输入初始神经网络模型中，输出各训练样本图像组的目标融合特征；

损失函数计算单元，用于根据各训练样本图像组的目标融合特征和对象标签，计算初始神经网络模型的损失函数的值；

神经网络训练单元，用于根据损失函数的值，对初始神经网络模型的待训练参数进行调整，得到神经网络模型；待训练参数包括特征融合块中至少一个全连接层的参数。

可选地，待处理图像为脸部图像，该装置还可以包括：

对齐处理模块，用于对待处理图像组中的各脸部图像进行脸部对齐处理，得到脸部对齐处理后的待处理图像组。

可选地，全局处理块包括以下内容中的至少一种：全局池化层、全连接层。

在一个实施例中，如图7所示，提供了一种神经网络模型的训练装置，包括：样本图像组获取模块71、样本图像组处理模块72、损失函数计算模块73和神经网络训练模块74，其中：

样本图像组获取模块71，用于获取各训练样本图像组；训练样本图像组包括属于同一对象的多个样本图像，且标注有对象标签；

样本图像组处理模块72，用于将各训练样本图像组输入初始神经网络模型中，输出各训练样本图像组的目标融合特征；初始神经网络模型包括至少一个卷积块、一个特征融合块和一个全局处理块；特征融合块位于任一卷积块之后，且位于全局处理块之前，用于对各训练样本图像组中各训练样本图像经过卷积处理得到的中间特征进行融合处理，得到各训练样本图像组的中间融合特征；全局处理块用于对各训练样本图像组的中间融合特征或经过卷积处理后的中间融合特征进行全局处理，得到各训练样本图像组的目标融合特征；

损失函数计算模块73，用于根据各训练样本图像组的目标融合特征和对象标签，计算初始神经网络模型的损失函数的值；

神经网络训练模块74，用于根据损失函数的值，对初始神经网络模型的待训练参数进行调整，得到训练后的神经网络模型。

关于图像识别装置的具体限定可以参见上文中对于图像识别方法的限定，关于神经网络模型的训练装置的具体限定可以参见上文中对于神经网络模型的训练方法的限定，在此不再赘述。上述图像识别装置和神经网络模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时一方面可以实现以下步骤：

获取待处理图像组；待处理图像组包括属于同一对象的多个待处理图像；

将待处理图像组输入神经网络模型中，输出待处理图像组的目标融合特征；神经网络模型包括至少一个卷积块、一个特征融合块和一个全局处理块；特征融合块位于任一卷积块之后，且位于全局处理块之前，用于对待处理图像组中各待处理图像经过卷积处理得到的中间特征进行融合处理，得到待处理图像组的中间融合特征；全局处理块用于对中间融合特征或经过卷积处理后的中间融合特征进行全局处理，得到目标融合特征；

采用待处理图像组对应的目标融合特征，进行对象相关的图像识别处理。

另一方面也可以实现以下步骤：

获取各训练样本图像组；训练样本图像组包括属于同一对象的多个样本图像，且标注有对象标签；

将各训练样本图像组输入初始神经网络模型中，输出各训练样本图像组的目标融合特征；初始神经网络模型包括至少一个卷积块、一个特征融合块和一个全局处理块；特征融合块位于任一卷积块之后，且位于全局处理块之前，用于对各训练样本图像组中各训练样本图像经过卷积处理得到的中间特征进行融合处理，得到各训练样本图像组的中间融合特征；全局处理块用于对各训练样本图像组的中间融合特征或经过卷积处理后的中间融合特征进行全局处理，得到各训练样本图像组的目标融合特征；

根据各训练样本图像组的目标融合特征和对象标签，计算初始神经网络模型的损失函数的值；

根据损失函数的值，对初始神经网络模型的待训练参数进行调整，得到训练后的神经网络模型。

参照图8所示，本实施例提出了一种图像识别系统，包括拍摄装置81和计算机设备82；拍摄装置81用于拍摄获取同一对象的多个待处理图像，并将多个待处理图像发送给计算机设备82进行图像识别处理；计算机设备82包括存储器和处理器，存储器存储有计算机程序，该处理器执行计算机程序时一方面可以实现以下步骤：

另一方面也可以实现以下步骤：

该计算机设备可以但不限于是终端、服务器等，以终端为例，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像识别方法和神经网络模型的训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

将所述待处理图像组输入神经网络模型中，输出所述待处理图像组的目标融合特征；所述神经网络模型包括至少一个卷积块、一个特征融合块和一个全局处理块；所述特征融合块位于任一卷积块之后，且位于所述全局处理块之前，用于对所述待处理图像组中各待处理图像经过卷积处理得到的中间特征进行融合处理，得到所述待处理图像组的中间融合特征；进行融合处理得到的所述中间融合特征中包括各脸部底库图像的特征中的特有对象信息，用于实现各所述脸部底库图像的互补；所述全局处理块用于对所述中间融合特征或经过卷积处理后的中间融合特征进行全局处理，得到所述目标融合特征；

采用所述待处理图像组对应的目标融合特征，进行所述对象相关的图像识别处理；

所述神经网络模型包括依次连接的一个卷积网络、所述特征融合块和所述全局处理块，所述卷积网络包括至少一个所述卷积块；所述将所述待处理图像组输入神经网络模型中，输出所述待处理图像组的目标融合特征，包括：

将各所述待处理图像的中间特征输入所述特征融合块中进行融合处理，得到所述待处理图像组的中间融合特征；所述特征融合块还用于获取各所述待处理图像的中间特征中该特征位的各个特征值，并对各所述特征值进行融合处理，得到融合处理后的融合值，将所述融合值确定为所述中间融合特征中该特征位的特征值；

将所述待处理图像组的中间融合特征输入所述全局处理块中进行全局处理，输出所述全局处理后得到的目标融合特征；

所述待处理图像的中间特征为对应多个通道的多个中间特征；各所述待处理图像的中间特征为相同大小，存在相应的特征位；所述将各所述待处理图像的中间特征输入所述特征融合块中进行融合处理，得到所述待处理图像组的中间融合特征，包括：

2.根据权利要求1所述的方法，其特征在于，所述将属于同一通道的各所述待处理图像的中间特征输入所述特征融合块中进行融合处理，得到所述待处理图像组的中间融合特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述特征融合块包括至少一个全连接层，所述将属于同一通道的各所述待处理图像的中间特征输入所述特征融合块中进行融合处理，得到所述待处理图像组的中间融合特征，包括：

4.根据权利要求3所述的方法，其特征在于，根据各所述待处理图像的中间特征中各相应特征位的注意力系数，对各所述待处理图像的中间特征中的相应特征位进行加权求和运算，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述全局处理块包括以下内容中的至少一种：全局池化层、全连接层。

7.一种神经网络模型的训练方法，其特征在于，包括：

将各所述训练样本图像组输入初始神经网络模型中，输出各所述训练样本图像组的目标融合特征；所述初始神经网络模型包括至少一个卷积块、一个特征融合块和一个全局处理块；所述特征融合块位于任一卷积块之后，且位于所述全局处理块之前，用于对各所述训练样本图像组中各训练样本图像经过卷积处理得到的中间特征进行融合处理，得到各所述训练样本图像组的中间融合特征；进行融合处理得到的所述中间融合特征中包括各脸部底库图像的特征中的特有对象信息，用于实现各所述脸部底库图像的互补；所述全局处理块用于对各所述训练样本图像组的中间融合特征或经过卷积处理后的中间融合特征进行全局处理，得到各所述训练样本图像组的目标融合特征；

根据所述损失函数的值，对所述初始神经网络模型的待训练参数进行调整，得到训练后的神经网络模型；

所述神经网络模型包括依次连接的一个卷积网络、所述特征融合块和所述全局处理块，所述卷积网络包括至少一个所述卷积块；所述将各所述训练样本图像组输入初始神经网络模型中，输出各所述训练样本图像组的目标融合特征，包括：

将所述各所述训练样本图像组中各待处理图像分别输入所述卷积网络中进行特征提取处理，分别得到各所述待处理图像的中间特征；

8.一种图像识别装置，其特征在于，包括：

图像组处理模块，用于将所述待处理图像组输入神经网络模型中，输出所述待处理图像组的目标融合特征；所述神经网络模型包括至少一个卷积块、一个特征融合块和一个全局处理块；所述特征融合块位于任一卷积块之后，且位于所述全局处理块之前，用于对所述待处理图像组中各待处理图像经过卷积处理得到的中间特征进行融合处理，得到所述待处理图像组的中间融合特征；进行融合处理得到的所述中间融合特征中包括各脸部底库图像的特征中的特有对象信息，用于实现各所述脸部底库图像的互补；所述全局处理块用于对所述中间融合特征或经过卷积处理后的中间融合特征进行全局处理，得到所述目标融合特征；

图像识别模块，用于采用所述待处理图像组对应的目标融合特征，进行所述对象相关的图像识别处理；

所述神经网络模型包括依次连接的一个卷积网络、所述特征融合块和所述全局处理块，所述卷积网络包括至少一个所述卷积块；所述图像组处理模块，还用于：将所述待处理图像组中各待处理图像分别输入所述卷积网络中进行特征提取处理，分别得到各所述待处理图像的中间特征；将各所述待处理图像的中间特征输入所述特征融合块中进行融合处理，得到所述待处理图像组的中间融合特征；将所述待处理图像组的中间融合特征输入所述全局处理块中进行全局处理，输出所述全局处理后得到的目标融合特征；其中，所述特征融合块还用于获取各所述待处理图像的中间特征中该特征位的各个特征值，并对各所述特征值进行融合处理，得到融合处理后的融合值，将所述融合值确定为所述中间融合特征中该特征位的特征值；

所述待处理图像的中间特征为对应多个通道的多个中间特征；各所述待处理图像的中间特征为相同大小，存在相应的特征位；所述图像组处理模块，还用于：将属于同一通道的各所述待处理图像的中间特征输入所述特征融合块中进行融合处理，得到所述待处理图像组的中间融合特征；其中，每个通道对应一个中间融合特征。

9.一种神经网络模型的训练装置，其特征在于，包括：

样本图像组处理模块，用于将各所述训练样本图像组输入初始神经网络模型中，输出各所述训练样本图像组的目标融合特征；所述初始神经网络模型包括至少一个卷积块、一个特征融合块和一个全局处理块；所述特征融合块位于任一卷积块之后，且位于所述全局处理块之前，用于对各所述训练样本图像组中各训练样本图像经过卷积处理得到的中间特征进行融合处理，得到各所述训练样本图像组的中间融合特征；进行融合处理得到的所述中间融合特征中包括各脸部底库图像的特征中的特有对象信息，用于实现各所述脸部底库图像的互补；所述全局处理块用于对各所述训练样本图像组的中间融合特征或经过卷积处理后的中间融合特征进行全局处理，得到各所述训练样本图像组的目标融合特征；

神经网络训练模块，用于根据所述损失函数的值，对所述初始神经网络模型的待训练参数进行调整，得到训练后的神经网络模型；

所述神经网络模型包括依次连接的一个卷积网络、所述特征融合块和所述全局处理块，所述卷积网络包括至少一个所述卷积块；所述样本图像组处理模块，还用于：将所述各所述训练样本图像组中各待处理图像分别输入所述卷积网络中进行特征提取处理，分别得到各所述待处理图像的中间特征；将各所述待处理图像的中间特征输入所述特征融合块中进行融合处理，得到所述待处理图像组的中间融合特征；将所述待处理图像组的中间融合特征输入所述全局处理块中进行全局处理，输出所述全局处理后得到的目标融合特征；其中，所述特征融合块还用于获取各所述待处理图像的中间特征中该特征位的各个特征值，并对各所述特征值进行融合处理，得到融合处理后的融合值，将所述融合值确定为所述中间融合特征中该特征位的特征值；

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

11.一种图像识别系统，其特征在于，包括拍摄装置和计算机设备；所述拍摄装置用于拍摄获取同一对象的多个待处理图像，并将所述多个待处理图像发送给所述计算机设备进行图像识别处理；所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。