CN110348387A

CN110348387A - 一种图像数据处理方法、装置以及计算机可读存储介质

Info

Publication number: CN110348387A
Application number: CN201910629829.0A
Authority: CN
Inventors: 武文琦; 叶泽雄; 肖万鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-10-18
Anticipated expiration: 2039-07-12
Also published as: CN110348387B

Abstract

本申请公开了一种图像数据处理方法、装置以及计算机可读存储介质，该方法包括：获取包含目标对象的待识别图像，提取待识别图像中目标对象的身份特征信息以及表情特征信息；将身份特征信息与表情特征信息进行融合，得到融合特征信息；根据融合特征信息确定待识别图像中的目标对象的表情属性类型。采用本申请，可提高识别目标对象的表情属性类型的准确性。

Description

一种图像数据处理方法、装置以及计算机可读存储介质

技术领域

本申请涉及数据处理的技术领域，尤其涉及一种图像数据处理方法、装置以及计算机可读存储介质。

背景技术

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。同时，随着对人机交互技术的深入研究，用户还可通过人机对话进行情感分析，其主要原理就是在人机对话过程中，实时识别用户的面部表情，根据识别出的用户的面部表情对应作出相应的回复。但是，此件过程中，人脸表情识别的准确度是一重大难点。

目前虽然可以识别出用户的表情类型，但是，由于不同用户在做同一类型表情时，可能会存在较大差异，并且，对于两种不同类型的表情，同一用户又可能会做出相似的表情，因此，目前的人脸表情识别技术难以保证表情识别的准确度。

申请内容

本申请提供了一种图像数据处理方法、装置以及计算机可读存储介质，可提高针对表情属性类型识别的准确性。

本申请一方面提供了一种图像数据处理方法，包括：

获取包含目标对象的待识别图像；

提取所述待识别图像中所述目标对象的身份特征信息以及表情特征信息；

将所述身份特征信息与所述表情特征信息进行融合，得到融合特征信息；

根据所述融合特征信息确定所述待识别图像中的所述目标对象的表情属性类型。

其中，所述将所述身份特征信息与所述表情特征信息进行融合，得到融合特征信息，包括：

将所述身份特征信息对应的第一特征图与所述表情特征信息对应的第二特征图进行拼接，得到拼接特征图；

基于图像识别模型中的卷积网络，对所述拼接特征图中的所述第一特征图与第二特征图进行融合，得到融合特征图，将所述融合特征图确定为所述融合特征信息。

其中，所述根据所述融合特征信息确定所述待识别图像中的所述目标对象的表情属性类型，包括：

根据所述融合特征信息，确定所述目标对象分别与多种表情属性类型之间的偏向概率；

将所述多种表情属性类型中的每种表情属性类型对应的偏向概率中，数值最大的偏向概率对应的表情属性类型确定为所述目标对象的表情属性类型。

其中，所述根据所述融合特征信息，确定所述目标对象分别与多种表情属性类型之间的偏向概率，包括：

基于图像识别模型和所述融合特征信息，确定所述目标对象的对象身份；

确定所述图像识别模型中所述对象身份分别与所述多种表情属性类型对应的属性识别特征，将所述多种表情属性类型对应的属性识别特征确定为目标识别特征；

将所述融合特征信息和所述目标识别特征进行特征匹配，根据匹配结果确定所述目标对象分别与所述多种表情属性类型之间的偏向概率。

本申请另一方面提供了一种图像数据处理方法，包括：

获取包含样本对象的样本图像，基于初始图像识别模型，提取所述样本图像中所述样本对象的样本身份特征信息和样本表情特征信息；

将所述样本身份特征信息和所述样本表情特征信息进行融合，得到样本融合特征信息；

根据所述样本融合特征信息、所述初始图像识别模型中的身份增强网络以及表情分类网络，修正所述初始图像识别模型的网络参数；

将包含修正后的网络参数的初始图像识别模型确定为图像识别模型；所述图像识别模型用于基于目标对象的身份特征信息以及表情特征信息识别所述目标对象的表情属性类型。

其中，所述基于初始图像识别模型，提取所述样本图像中所述样本对象的样本身份特征信息和样本表情特征信息，包括：

基于所述初始图像识别模型中的身份特征提取网络，提取所述样本身份特征信息，得到所述样本身份特征信息对应的第一样本特征图；

基于所述初始图像识别模型中的表情特征提取网络，提取所述样本表情特征信息，得到所述样本表情特征信息对应的第二样本特征图；

则，所述将所述样本身份特征信息和所述样本表情特征信息进行融合，得到样本融合特征信息，包括：

基于所述初始图像识别模型中的拼接网络，将所述第一样本特征图与所述第二样本特征图进行拼接，得到样本拼接特征图；

基于所述初始图像识别模型中的卷积网络，对所述样本拼接特征图中的第一样本特征图与第二样本特征图进行融合，得到样本融合特征图，将所述样本融合特征图确定为所述样本融合特征信息。

其中，所述根据所述样本融合特征信息、所述初始图像识别模型中的身份增强网络以及表情分类网络，修正所述初始图像识别模型的网络参数，包括：

基于所述初始图像识别模型中的特征融合网络，对所述样本融合特征信息中所包含的融合特征进行增强，得到所述样本融合特征信息对应的目标融合信息；

获取所述身份增强网络对应的第一损失函数值，获取所述表情分类网络对应的第二损失函数值，根据所述第一损失函数值和所述第二损失函数值确定联合损失函数值；

根据所述目标融合信息和所述联合损失函数值，修正所述初始图像识别模型的网络参数。

其中，所述获取所述身份增强网络对应的第一损失函数值，包括：

获取所述初始图像识别模型识别出的所述样本对象分别与多种对象身份之间的第一样本偏向概率；

根据所述第一样本偏向概率和所述样本对象的对象身份标签，确定所述第一损失函数值。

其中，所述获取所述表情分类网络对应的第二损失函数值，包括：

获取所述初始图像识别模型识别出的所述样本对象分别与多种表情属性类型之间的第二样本偏向概率；

根据所述第二样本偏向概率和所述样本对象的表情属性类型标签，确定所述第二损失函数值。

其中，所述初始图像识别模型的网络参数包括所述特征融合网络的网络参数、所述身份特征提取网络的网络参数和所述表情特征提取网络的网络参数；所述根据所述目标融合信息和所述联合损失函数值，修正所述初始图像识别模型的网络参数，包括：

基于所述联合损失函数值修正所述特征融合网络的网络参数；

基于所述拼接网络，拆分所述联合损失函数值，得到所述第一损失函数值和所述第二损失函数值；

基于所述第一损失函数值修正所述身份特征提取网络的网络参数，基于所述第二损失函数值修正所述表情特征提取网络的网络参数。

其中，所述初始图像识别模型中还包括第一训练网络和第二训练网络；还包括：

基于所述第一训练网络对所述身份特征提取网络进行预训练，得到所述第一训练网络对应的网络参数；

基于所述第二训练网络对所述表情特征提取网络进行预训练，得到所述第二训练网络对应的网络参数；

基于所述第一训练网络对应的网络参数和所述第二训练网络对应的网络参数，修正所述特征融合网络的网络参数。

本申请一方面提供了一种图像数据处理装置，包括：

第一获取模块，用于获取包含目标对象的待识别图像；

特征提取模块，用于提取所述待识别图像中所述目标对象的身份特征信息以及表情特征信息；

第一融合模块，用于将所述身份特征信息与所述表情特征信息进行融合，得到融合特征信息；

第一确定模块，用于根据所述融合特征信息确定所述待识别图像中的所述目标对象的表情属性类型。

其中，所述第一融合模块，包括：

第一拼接单元，用于将所述身份特征信息对应的第一特征图与所述表情特征信息对应的第二特征图进行拼接，得到拼接特征图；

第一融合单元，用于基于图像识别模型中的卷积网络，对所述拼接特征图中的所述第一特征图与第二特征图进行融合，得到融合特征图，将所述融合特征图确定为所述融合特征信息。

其中，所述第一确定模块，包括：

概率确定单元，用于根据所述融合特征信息，确定所述目标对象分别与多种表情属性类型之间的偏向概率；

第一确定单元，用于将所述多种表情属性类型中的每种表情属性类型对应的偏向概率中，数值最大的偏向概率对应的表情属性类型确定为所述目标对象的表情属性类型。

其中，所述概率确定单元，包括：

第一确定子单元，用于基于图像识别模型和所述融合特征信息，确定所述目标对象的对象身份；

第二确定子单元，用于确定所述图像识别模型中所述对象身份分别与所述多种表情属性类型对应的属性识别特征，将所述多种表情属性类型对应的属性识别特征确定为目标识别特征；

匹配子单元，用于将所述融合特征信息和所述目标识别特征进行特征匹配，根据匹配结果确定所述目标对象分别与所述多种表情属性类型之间的偏向概率。

本申请另一方面提供了一种图像数据处理装置，包括：

第二获取模块，用于获取包含样本对象的样本图像，基于初始图像识别模型，提取所述样本图像中所述样本对象的样本身份特征信息和样本表情特征信息；

第二融合模块，用于将所述样本身份特征信息和所述样本表情特征信息进行融合，得到样本融合特征信息；

修正模块，用于根据所述样本融合特征信息、所述初始图像识别模型中的身份增强网络以及表情分类网络，修正所述初始图像识别模型的网络参数；

第二确定模块，用于将包含修正后的网络参数的初始图像识别模型确定为图像识别模型；所述图像识别模型用于基于目标对象的身份特征信息以及表情特征信息识别所述目标对象的表情属性类型。

其中，所述第二获取模块，包括：

第一提取单元，用于基于所述初始图像识别模型中的身份特征提取网络，提取所述样本身份特征信息，得到所述样本身份特征信息对应的第一样本特征图；

第二提取单元，用于基于所述初始图像识别模型中的表情特征提取网络，提取所述样本表情特征信息，得到所述样本表情特征信息对应的第二样本特征图；

则，所述第二融合模块，包括：

第二拼接单元，用于基于所述初始图像识别模型中的拼接网络，将所述第一样本特征图与所述第二样本特征图进行拼接，得到样本拼接特征图；

第二融合单元，用于基于所述初始图像识别模型中的卷积网络，对所述样本拼接特征图中的第一样本特征图与第二样本特征图进行融合，得到样本融合特征图，将所述样本融合特征图确定为所述样本融合特征信息。

其中，所述修正模块，包括：

增强单元，用于基于所述初始图像识别模型中的特征融合网络，对所述样本融合特征信息中所包含的融合特征进行增强，得到所述样本融合特征信息对应的目标融合信息；

第二确定单元，用于获取所述身份增强网络对应的第一损失函数值，获取所述表情分类网络对应的第二损失函数值，根据所述第一损失函数值和所述第二损失函数值确定联合损失函数值；

修正单元，用于根据所述目标融合信息和所述联合损失函数值，修正所述初始图像识别模型的网络参数。

其中，所述第二确定单元，包括：

第一获取子单元，用于获取所述初始图像识别模型识别出的所述样本对象分别与多种对象身份之间的第一样本偏向概率；

第四确定子单元，用于根据所述第一样本偏向概率和所述样本对象的对象身份标签，确定所述第一损失函数值。

其中，所述第二确定单元，包括：

第二获取子单元，用于获取所述初始图像识别模型识别出的所述样本对象分别与多种表情属性类型之间的第二样本偏向概率；

第六确定子单元，用于根据所述第二样本偏向概率和所述样本对象的表情属性类型标签，确定所述第二损失函数值。

其中，所述初始图像识别模型的网络参数包括所述特征融合网络的网络参数、所述身份特征提取网络的网络参数和所述表情特征提取网络的网络参数；所述修正单元，包括：

第一修正子单元，用于基于所述联合损失函数值修正所述特征融合网络的网络参数；

拆分子单元，用于基于所述拼接网络，拆分所述联合损失函数值，得到所述第一损失函数值和所述第二损失函数值；

第二修正子单元，用于基于所述第一损失函数值修正所述身份特征提取网络的网络参数，基于所述第二损失函数值修正所述表情特征提取网络的网络参数。

其中，所述初始图像识别模型中还包括第一训练网络和第二训练网络；所述图像数据处理装置还包括：

第一预训练模块，用于基于所述第一训练网络对所述身份特征提取网络进行预训练，得到所述第一训练网络对应的网络参数；

第二预训练模块，用于基于所述第二训练网络对所述表情特征提取网络进行预训练，得到所述第二训练网络对应的网络参数；

融合修正模块，用于基于所述第一训练网络对应的网络参数和所述第二训练网络对应的网络参数，修正所述特征融合网络的网络参数。

本申请一方面提供了一种图像数据处理装置，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如本申请中一方面/另一方面中的方法。

本申请一方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述一方面/另一方面中的方法。

本申请首先获取需要被识别的目标图像，并在目标图像中提取目标图像所包含的对象的身份特征信息以及表情特征信息，从而可根据提取得到的身份特征信息以及表情特征信息，识别出目标图像中所包含的对象的表情属性类型。由此可见，本申请提出的方法考虑到了需要被识别的对象的身份特征，从而可以根据对象的身份特征信息以及表情特征信息，识别出对象的表情属性类型，提高了针对对象的表情属性类型的识别准确度。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请提供的一种系统的架构示意图；

图1b是本申请提供的一种表情识别的场景示意图；

图2是本申请提供的一种图像数据处理方法的流程示意图；

图3是本申请提供的另一种图像数据处理方法的流程示意图；

图4是本申请提供的另一种图像数据处理方法的流程示意图；

图5是本申请提供的一种网络的结构示意图；

图6是本申请提供的一种初始图像识别模型的结构示意图；

图7是本申请提供的一种图像识别模型的结构示意图；

图8a是本申请提供的一种子网络的结构示意图；

图8b是本申请提供的另一种子网络的结构示意图；

图8c是本申请提供的另一种子网络的结构示意图；

图9是本申请提供的一种图像数据处理装置的结构示意图；

图10是本申请提供的另一种图像数据处理装置的结构示意图；

图11是本申请提供的另一种图像数据处理装置的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请涉及到计算机视觉技术(Computer Vision,CV)。计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。

请参见图1a，是本申请提供的一种系统的架构示意图。如图1a所示，该系统结构示意图包括服务器100、终端200a、终端200b和终端200c，服务器100可以和终端200a、终端200b和终端200c之间相互通信。此处以服务器100与终端200a之间的通信为例进行本申请的说明。终端200a可以接收到用户录入的人脸图像(例如包含用户人脸的照片)，终端200a也可以在对用户进行录像时，从录像中捕获用户的人脸图像，该人脸图像中包含有用户的真实人脸。终端200a可以将获取到人脸图像发送给服务器100。请一并参见图1b，是本申请提供的一种表情识别的场景示意图。如图1b所示，图像D为服务器100接收到的终端200a发送的人脸图像，服务器100可以将图像D输入到图像识别模型m中。其中，图像识别模型m为已被训练好的模型，图像识别模型m可以提取图像D中所包含的人脸的身份特征信息(该身份特征信息用于识别出图像D中的人脸所属的用户身份)，图像识别模型m还可以提取图像D中所包含的人脸的表情特征信息(该表情特征信息用于识别出图像D中的人脸的表情类型)，其中，表情类型也可以称之为表情属性类型。如图1b所示，首先，图像识别模型m可以通过提取得到的身份特征信息，识别出图像D中的人脸为用户“花花”的人脸。图像识别模型m在训练过程中，已经通过用户“花花”的人脸数据训练过了。例如，可以获取到用户“花花”针对各种类型表情的图像(可以是通过终端200a拍摄的用户“花花”针对各种类型表情的照片，进而终端200a将拍摄的用户“花花”针对各种类型表情的照片发送给服务器100得到的)，其中，表情的类型可以包括高兴、生气、厌恶、悲伤、害怕和吃惊6种类型，则上述用户“花花”针对各种类型表情的图像可以包括若干个高兴表情的图像、若干个生气表情的图像、若干个厌恶表情的图像、若干个悲伤表情的图像、若干个害怕表情的图像和若干个吃惊表情的图像。图像识别模型m经过用户“花花”的各类表情的图像训练之后，已经保留了用户“花花”针对各类表情的不同面部特征，之后再对包含有用户“花花”的人脸的图像进行表情识别时，图像识别模型m可以针对预先已训练有的用户“花花”针对各类表情的表情特征，更加准确地识别出用户“花花”的表情类型。其中，特征集f1中为图像识别模型m预先训练得到的用户“花花”针对各种类型表情的不同表情特征，以5种类型的表情为例进行说明，即特征集f1中包括用户“花花”针对表情类型1的表情特征、针对表情类型2的表情特征、针对表情类型3的表情特征、针对表情类型4的表情特征和针对表情类型5的表情特征。图像识别模型m可以将在图像D中提取得到的用户“花花”的表情特征信息与特征集f1中的各种类型表情的表情特征进行对比，当对比出特征集f1中某种类型表情的表情特征与在图像D中提取得到的表情特征信息高度相似时，则可判定该高度相似的表情特征对应的表情类型即是图像D中的人脸的表情类型f2。例如，可以将特征集f1中与图像D中的表情特征信息之间的相似度最高的表情特征所指向的表情类型，判定为图像D中的人脸的表情类型f2。服务器100可以将对图像D的识别结果发送给终端200a，其中，识别结果包括识别出的图像D中的人脸所属的用户身份以及图像D中的人脸的表情类型f2，终端200a可以在应用界面中显示接收到的识别结果。如图1b所示，当识别出图像D中人脸所属的用户身份为“花花”，并且图像D中的人脸的表情类型f2为“开心”的表情类型时，终端200a中可以显示图像D中的人脸所属的用户身份，即“花花”，还可以显示图像D中的人脸的表情类型f2，即“开心”的表情类型。另外，后续服务器可以根据识别出的图像D中用户“花花”的表情类型，对应向用户“花花”给出相应的回复。例如，当用户“花花”在人机视频对话时，终端200a可以将视频过程中捕获到的用户“花花”的人脸图像D发送给服务器100，服务器100通过图像识别模型识别出图像D中用户“花花”的表情类型。当识别出为悲伤的表情，服务器可以生成相应的回复，例如生成一些安慰性的话语(可以通过语音形式)，并将该安慰性的话语的语音发送给终端200a，终端200a可以播放接收到的语音，以实现与用户“花花”的视频对话的交互。

可选的，上述识别图像D中的人脸的表情类型的过程也可由终端200a独立完成，即不需要服务器100识别出图像D中的人脸图像的表情类型，再将针对表情类型的识别结果发送给终端200a。终端200a可以直接识别出图像D中的人脸的表情类型，并在终端的应用界面中显示识别结果。其中，表情识别的执行设备可根据实际应用场景决定，这里不做限制。

采用本申请所提供的方法，可以首先识别出获取到的人脸图像中的人脸的用户身份，确定用户身份之后，可以根据图像识别模型预先训练有的已确认的用户身份针对各类表情的表情特征，有针对性地识别出人脸图像中的用户的表情，缩小了表情特征识别的范围，提高了表情识别的准确性。本申请所提供的方法可应用于人机交互的过程中，例如，通过人机交互进行情感分析，可以将终端200a作为一个虚拟人物，与用户进行视频对话。终端200a可以将实时识别出的用户的表情类型作为辅助数据，若终端200a已通过心理学相关数据集训练过，则，终端200a在分析用户的对话数据之后，结合识别出的用户的表情类型，可以对用户做相应的心理辅导。例如，当用户说“我分手了”，并且识别出用户的表情为“悲伤”的表情类型时，终端200a可以向用户回复“别伤心了，时间是治愈一切的良药”；当用户说“我分手了”，并且识别出用户的表情为“高兴”的表情类型时，终端200a可以向用户回复“哈哈，恭喜你重回单身一族”。由此可见，准确识别出用户的人脸表情，可以更准确地实现人机交互。本申请提供的方法首先可以确定用户人群，并通过确定的用户人群的各种类型表情的表情图像对图像识别模型进行训练，使得训练后的图像识别模型在后续进行表情识别时，可以首先识别出用户的身份，进而根据识别出的用户的身份准确地识别出用户的表情类型。

请参见图2，是本申请提供的一种图像数据处理方法的流程示意图，如图2所示，所述方法可以包括：

步骤S101，获取包含目标对象的待识别图像，提取所述待识别图像中所述目标对象的身份特征信息以及表情特征信息；

具体的，获取待识别图像，该待识别图像中包括目标对象，目标对象可以是人脸图像。其中，待识别图像可以是获取到用户录入的照片(该照片可以是通过拍摄设备拍摄的用户的照片，该照片中包括用户的人脸图像)，待识别图像还可以是在录像中捕获或者截图得到的包含用户人脸的图像。其中，待识别图像的具体获取来源根据实际应用场景决定，这里不做限制。更多的，可以提取获取到的待识别图像中的身份特征信息和表情特征信息。其中，身份特征信息用于后续识别待识别图像中的目标对象的具体身份，即识别出目标对象到底是哪一个用户，用于辅助识别目标对象的表情属性类型；表情特征信息用于后续识别目标对象的表情属性类型。

步骤S102，将所述身份特征信息与所述表情特征信息进行融合，得到融合特征信息；

具体的，将上述身份特征信息与表情特征信息进行融合，即将身份特征信息与表情特征信息融合为一个特征，将融合得到的特征称之为融合特征信息。该融合特征信息中同时具有上述身份特征信息与表情特征信息两种特征信息，通过该融合特征信息，可以实现同时考虑上述身份特征信息与表情特征信息两种特征信息，识别待识别图像中的目标对象的表情属性类型。

步骤S103，根据所述融合特征信息确定所述待识别图像中的所述目标对象的表情属性类型；

具体的，图像识别模型可以通过输入的待识别图像得到该融合特征信息，图像识别模型首先可以根据融合特征信息对目标对象的身份进行识别，例如识别出目标对象的身份为用户“明明”，识别出目标对象的身份之后，可以根据融合特征信息中的表情特征信息识别出目标对象的表情属性类型。例如，图像识别模型预先已经被用户“明明”针对各种表情类型的表情图像训练过了，即图像识别模型中已经训练有用户“明明”针对各种类型表情的表情特征，可以将融合特征信息中的表情特征信息与预先训练得到的用户“明明”针对多种表情的表情特征进行特征匹配，将匹配到的图像识别模型中已有的用户“明明”的表情特征中，与融合特征信息中的表情特征信息匹配度最高的表情特征对应的表情类型，判定为待识别图像中用户“明明”的表情属性类型。

本申请首先获取包含目标对象的待识别图像，提取所述待识别图像中所述目标对象的身份特征信息以及表情特征信息；将所述身份特征信息与所述表情特征信息进行融合，得到融合特征信息；根据所述融合特征信息确定所述待识别图像中的所述目标对象的表情属性类型。由此可见，本申请提出的方法考虑到了目标对象的身份特征，从而可以根据目标对象的身份特征信息以及表情特征信息，识别出目标对象的表情属性类型，提高了针对目标对象的表情属性类型的识别准确度。

请参见图3，是本申请提供的另一种图像数据处理方法的流程示意图，如图3所示，所述方法可以包括：

步骤S201，获取包含目标对象的待识别图像，提取所述待识别图像中所述目标对象的身份特征信息以及表情特征信息；

其中，上述步骤S201的具体实现过程可以参见图2对应的实施例中对步骤S101的描述，这里不再进行赘述。

步骤S202，将所述身份特征信息对应的第一特征图与所述表情特征信息对应的第二特征图进行拼接，得到拼接特征图；

具体的，将上述待识别图像输入图像识别模型中，图像识别模型可以根据提取得到的待识别图像中的目标对象的身份特征信息，生成该身份特征信息对应的第一特征图，该第一特征图中包含了目标对象的身份特征。图像识别模型也可以根据提取得到的待识别图像中的目标对象的表情特征信息，生成该表情特征信息对应的第二特征图。其中，上述第一特征图与第二特征图的维度相同，可以将上述第一特征图和第二特征图进行拼接，得到拼接特征图。拼接特征图的通道数为第一特征图的通道数与第二特征图的通道数之和。例如，第一特征图的通道数为3，第二特征图的通道数为5，则拼接特征图的通道数可以是8。上述第一特征图的大小可以是W×H×D，其中W表示第一特征图的通道数，可以将该通道数W理解为第一特征图的个数，则W×H×D表示，W个长为H宽为D的第一特征图。第二特征图的大小可以与第一特征图的大小相同，即第二特征特征图的大小也可以是W×H×D。

步骤S203，基于图像识别模型中的卷积网络，对所述拼接特征图中的所述第一特征图与第二特征图进行融合，得到融合特征图，将所述融合特征图确定为所述融合特征信息；

具体的，可以通过图像识别模型中的卷积网络，对拼接特征图中的第一特征图与第二特征图进行融合，使得拼接特征图中的两种特征融合得更加精细。其中，卷积网络还能降低拼接特征图的维度。由于拼接特征图是通过将第一特征图与第二特征图直接拼接得到，因此，拼接特征图的维度为第一特征图与第二特征图之和，通过上述卷积网络对拼接特征图进行卷积运算之后，可以使得得到的融合特征图与上述第一特征图或第二特征图的大小相同(即维度相同)。可以将通过卷积网络得到的融合特征图作为融合特征信息。

步骤S204，基于图像识别模型和所述融合特征信息，确定所述目标对象的对象身份；

具体的，由于融合特征信息同时融合了目标对象的身份特征信息与表情特征信息，因此，图像识别模型可以通过融合特征信息中的身份特征信息对目标对象的身份进行识别，即确定目标对象的对象身份。例如，图像识别模型可以预先被用户“天天”、用户“小小”、用户“多多”和用户“娜娜”的人脸图像训练过，即图像识别模型中包含四种对象身份，分别为“天天”对应的对象身份、“小小”对应的对象身份、“多多”对应的对象身份和“娜娜”对应的对象身份，并且，图像识别模型可以识别出上述四个对象身份对应的人脸图像。若上述待识别图像中的目标对象为“天天”的人脸图像，则，图像识别模型可以根据融合特征信息识别出目标对象的对象身份为用户“天天”。

步骤S205，确定所述图像识别模型中所述对象身份分别与所述多种表情属性类型对应的属性识别特征，将所述多种表情属性类型对应的属性识别特征确定为目标识别特征；

具体的，由于图像识别模型已经预先被上述用户“天天”、用户“小小”、用户“多多”和用户“娜娜”的人脸图像(包括用户针对各种类型表情的图像)训练过，因此，图像识别模型中已经训练有上述四个用户的对象身份针对各种类型表情的表情特征。例如，针对同一表情“高兴”，用户“天天”做出的表情可以是龇牙大笑，用户“小小”做出的表情可以是抿嘴笑，用户“多多”做出的表情可以是嘴不动，而眼明显放大且带笑意，用户“娜娜”做出的表情可以是不漏齿，嘴角明显上扬，因此不同用户做同一表情时的面部表现可能差异较大(可以称之为类内差异性)。再例如，针对同一用户“天天”，“天天”做出生气的表情时可以是嘴角向下，“天天”做出厌恶的表情时也可以是嘴角向下，因此，对于同一用户在做不同的表情时的面部表现可能非常相似(可以称之为类间相似性)。通过考虑用户的身份特征信息可以有效解决上述类内差异性和类间相似性。当识别出用户身份时，可以根据预先训练有的识别出的用户身份针对各种表情的表情特征，对识别出的用户身份的表情进行识别，从而提高针对用户的表情识别准确度。若上述识别出的目标对象的对象身份为用户“天天”，则，可以将用户“天天”在图像识别模型中预先训练得到的，针对多种表情属性类型的属性识别特征，作为目标识别特征。其中，“天天”对应的多种表情属性类型可以包括高兴对应的表情属性类型、生气对应的表情属性类型、厌恶对应的表情属性类型、悲伤对应的表情属性类型、害怕对应的表情属性类型和吃惊对应的表情属性类型，则上述多种表情属性类型对应的属性识别特征可以是“天天”针对高兴的表情属性类型的属性识别特征、“天天”针对生气的表情属性类型的属性识别特征、“天天”针对厌恶的表情属性类型的属性识别特征、“天天”针对悲伤的表情属性类型的属性识别特征、“天天”针对害怕的表情属性类型的属性识别特征和“天天”针对吃惊的表情属性类型的属性识别特征。属性识别特征即是用户针对不同类型表情的面部特征，不同用户针对不同表情属性类型具有不同的属性识别特征。

步骤S206，将所述融合特征信息和所述目标识别特征进行特征匹配，根据匹配结果确定所述目标对象分别与所述多种表情属性类型之间的偏向概率；

具体的，由于融合特征信息同时融合了目标对象的身份特征信息与表情特征信息，因此，图像识别模型可以通过融合特征信息中的表情特征信息对目标对象的表情属性类型进行识别。可以将融合特征信息与上述目标识别特征进行特征匹配(或者可以称之为特征对比)。例如，当识别出目标对象的对象身份为“天天”时，则上述融合特征信息中包含了“天天”的表情特征信息，上述目标识别特征中包含了“天天”针对各种类型表情的属性识别特征。可以将融合特征信息中的表情特征信息与“天天”针对各种类型表情的属性识别特征进行特征匹配，并得到目标对象分别与多种表情属性类型之间的偏向概率，该偏向概率表征了目标对象的表情属性类型为某种表情属性类型的概率，偏向概率也可以理解为目标对象的表情属性类型与某种表情属性类型之间的匹配度。其中，上述偏向概率可以是一个概率分布，该概率分布中包含了目标对象的表情属性类型与每种表情属性类型之间的偏向概率。

步骤S207，将所述多种表情属性类型中的每种表情属性类型对应的偏向概率中，数值最大的偏向概率对应的表情属性类型确定为所述目标对象的表情属性类型；

具体的，将上述多种表情属性类型中的每种表情属性类型对应的偏向概率中，数值最大的偏向概率对应的表情属性类型判定为目标对象的表情属性类型。即将上述多种表情属性类型对应的属性识别特征中，与融合特征信息中的表情特征信息最匹配的属性识别特征所对应的表情属性类型，判定为目标对象的表情属性类型。例如，当上述目标对象为“天天”的人脸图像，融合特征信息与“天天”针对高兴的属性识别特征的偏向概率为0.2，融合特征信息与“天天”针对生气的属性识别特征的偏向概率为0.1，融合特征信息与“天天”针对厌恶的属性识别特征的偏向概率为0.3，融合特征信息与“天天”针对悲伤的属性识别特征的偏向概率为0.1，融合特征信息与“天天”针对害怕的属性识别特征的偏向概率为0.2，融合特征信息与“天天”针对高兴的属性识别特征的偏向概率为0.1。则可以判定目标对象的表情属性类型为厌恶对应的表情属性类型。

请参见图4，是本申请提供的另一种图像数据处理方法的流程示意图，如图4所示，所述方法可以包括：

步骤S301，获取包含样本对象的样本图像，基于所述初始图像识别模型中的身份特征提取网络，提取所述样本身份特征信息，得到所述样本身份特征信息对应的第一样本特征图；

具体的，获取包含样本对象的样本图像，其中，样本对象可以是样本用户的人脸，样本用户的人脸又可以是具有各种类型表情的人脸，因此，样本图像可以是包含各种类型表情的人脸的图像。样本图像可以从图像数据集中获取，例如，从CK+(人脸表情数据集)、MMI(开源数据集，包含表情数据集)或OULU-CASIA VIS(自发表情数据集)中获取样本图像，则可以取图像数据集中一部分图像作为样本图像，用于训练初始图像识别模型，可以取图像数据集中另一部分图像作为测试图像，用于测试训练完成的初始图像识别模型。样本图像还可以是采集到的固定使用人群的人脸图像，例如，可以事先确定后续需要使用本申请中训练完成的初始图像识别模型进行表情识别的用户人群，将该用户人群针对各种类型表情的人脸图像作为样本图像。可以拍摄下上述用户人群中的每一个用户针对各种类型表情的多张照片，也可以是上述用户人群中每一个用户上传的其各自针对各种类型表情的多张照片。例如，用户1针对高兴类型表情的10张照片、用户1针对生气类型表情的10张照片、用户1针对厌恶类型表情的10张照片、用户1针对悲伤类型表情的10张照片、用户1针对害怕类型表情的10张照片和用户1针对吃惊类型表情的10张照片。同样，用户2针对高兴类型表情的10张照片、用户2针对生气类型表情的10张照片、用户2针对厌恶类型表情的10张照片、用户2针对悲伤类型表情的10张照片、用户2针对害怕类型表情的10张照片和用户2针对吃惊类型表情的10张照片。其中，上述用户人群的用户数量、表情类型的数量和用户针对某种类型表情的照片数量根据实际应用场景决定，这里不做限制。即上述用户人群的用户数量可以是x1，上述表情类型的数量(即多少种类型的表情，上述是以高兴、生气、厌恶、悲伤、害怕和吃惊6种类型的表情为例)可以是x2，上述用户针对某种类型表情的照片数量(上述是以10张为例)可以是x3，则x1、x2和x3的数值可以根据实际应用场景决定。其中，可以使用SeetaFace(人脸检测器)对原始采集到的人脸图像(包括在图像数据集中获取到的图像和获取到的上述用户人群的照片)进行人脸检测，将检测到的人脸图像进行裁剪和缩放至60×60像素，进一步的，可以调整得到的60×60像素的人脸图像的尺寸，得到48×48像素的样本图像，用于作为初始图像识别模型的输入。

更多的，由于可能会存在样本图像的数量过少的问题，且样本图像的数量过少会导致模型在训练时发生过拟合现象，因此，还可以在现有获取到的样本图像的基础上，增加样本图像的数量。具体如下：可以采用数据增广的的方法获取更多的样本图像。可以将原本的样本图像进行水平翻转，则现在就拥有了原本的样本图像以及水平翻转后的样本图像，此时，样本图像可以包括原本的样本图像以及水平翻转后的样本图像，样本图像的数量增大1倍。接着，可以将原本的样本图像进行旋转，旋转的角度可以是{-15°，-10°，-5°，5°，10°，15°，}，即将一个原本的样本图像分别翻转6个角度，得到6个角度对应的样本图像，则原本的样本图像的数量增大6倍。同样，还可以将水平翻转后的样本图像进行旋转，旋转的角度可以是{-15°，-10°，-5°，5°，10°，15°，}，即将一个水平翻转后的样本图像分别翻转6个角度，得到6个角度对应的水平翻转后的样本图像，则水平翻转后的样本图像的数量增大6倍。到此为止，就获得了原本的样本图像对应的1倍样本图像、水平翻转后的样本图像对应的1倍的样本图像、原本的样本图像经6个角度旋转得到的6倍样本图像以及水平翻转后的样本图像经6个角度旋转得到的6倍样本图像，一共为14倍的样本图像。则可以根据原本的1倍数量的样本图像，通过数据增广得到14倍的样本图像，大大增加了样本图像的数量。同时，通过数据增广操作使得通过旋转后的样本图像进行训练完成的初始图像识别模型，对于输入的图像的轻微旋转改变具有一定的鲁棒性。其中，上述水平翻转得到的样本图像以及旋转得到的样本图像相较于原本的样本图像的尺寸并未发生变化，即通过数据增广操作得到的14倍的样本图像的图像尺寸相同。其中，可以根据模型的实际训练情况，选择是否需要通过数据增广操作增加样本图像的数量，这里不做限制。

上述初始图像识别模型可以是IDEnNet(密集卷积网络)，可以通过初始图像识别模型中的身份特征提取网络，提取样本图像中样本对象的样本身份特征信息，提取得到的样本身份特征信息用于识别样本图像中样本对象的对象身份，可以根据提取得到的样本身份特征信息生成第一样本特征图，可以将第一样本特征图表示为即样本身份特征信息在初始图像生成模型中的存在形式为特征图，第一样本特征图中包含了提取得到的样本身份特征信息。身份特征提取网络可以是两个DenseNet(一种神经网络)网络模块拼接得到的，其中，用于提取身份特征信息的两个DenseNet网络模块都是经过预训练得到的，两个DenseNet网络模块的预训练可以是在ImageNet(图像识别网络)基础上训练的。其中，DenseNet中某层的输出直连到之后的每一层，这些特征是不需要后面的层次重新做卷积的，后面的层次直接就可以使用直连得到的特征，对于靠后面的层次来说唯一要用卷积来提取的，只有前面层次没有提取过的新特征，所以真正要用的卷积个数减少了，使得DenseNet总的参数更少，减少了计算量。并且之后后面层次所产生的的梯度可以直接通过直连传到靠前的层次，减少了梯度消失的可能性。因此，使用DenseNet网络可以较好地实现图像特征的提取与网络训练。

步骤S302，基于所述初始图像识别模型中的表情特征提取网络，提取所述样本表情特征信息，得到所述样本表情特征信息对应的第二样本特征图；

具体的，可以通过初始图像识别模型中的表情特征提取网络，提取样本图像中样本对象的样本表情特征信息，样本表情特征信息用于识别样本图像中样本对象的表情属性类型，可以根据提取得到的样本表情特征信息生成第二样本特征图，第二样本特征图可以表示为即样本表情特征信息在初始图像生成模型中的存在形式为特征图，第二样本特征图中包含了提取得到的样本表情特征信息。其中，表情特征提取网络也可以是两个DenseNet网络模块拼接得到的，其中，用于提取表情特征信息的两个DenseNet网络模块也都是经过预训练得到的，两个DenseNet网络模块的预训练可以是在ImageNet(图像识别网络)基础上训练的。

步骤S303，基于所述初始图像识别模型中的拼接网络，将所述第一样本特征图与所述第二样本特征图进行拼接，得到样本拼接特征图；

具体的，可以通过初始图像识别模型中的concatenate(拼接网络)，将上述第一样本特征图和第二样本特征图拼接起来，具体请参见公式(1)：

其中，y^cat表示拼接之后得到的特征图，即样本拼接特征图，f^cat表示拼接网络。

步骤S304，基于所述初始图像识别模型中的卷积网络，对所述样本拼接特征图中的第一样本特征图与第二样本特征图进行融合，得到样本融合特征图，将所述样本融合特征图确定为所述样本融合特征信息；

具体的，可以通过初始图像识别模型中的卷积网络，实现对样本拼接特征图中的第一样本特征图与第二样本特征图的特征融合。其中，卷积网络也可以是一个卷积层conv。卷积网络中包含卷积滤波器f，可以将第一样本特征图和第二样本特征图放在同一空间位置，即第一样本特征图和第二样本特征图的特征维度相同，第一样本特征图和第二样本特征图的尺寸大小也可以保持相同。可以通过上述卷积滤波器f对样本拼接特征图进行卷积，实现对样本拼接特征图中的特征的融合，使得卷积网络之后的网络模块可以通过卷积网络得到的融合特征信息更好地学习到拼接特征图中的拼接特征。并且，在训练中的反向传播过程中可以更精细地优化融合的样本表情特征信息和样本身份特征信息。使得初始图像识别模型的参数对于身份信息的变化具有更强的适应性。具体参见下述公式(2)：

y^conv＝y^cat*f+b (2)

其中，y^conv表示对样本拼接特征图进行融合之后的特征图，即样本融合特征图，b为偏置项，f为卷积滤波器，y^cat为样本拼接特征图。

上述卷积滤波器f的尺寸可以是1×1×2D×DC，DC表示卷积滤波器f的通道数，通过卷积滤波器f实现了在相同的空间位置融合了第一样本特征图和第二样本特征图并且，通过卷积滤波器f也降低了样本拼接特征图的特征维度，通过卷积滤波器f得到的样本融合特征图的大小可以与上述第一样本特征图和第二样本特征图的大小一致。可以将上述得到的样本融合特征图作为样本融合特征信息。

步骤S305，基于所述初始图像识别模型中的特征融合网络，对所述样本融合特征信息中所包含的融合特征进行增强，得到所述样本融合特征信息对应的目标融合信息；

具体的，可以通过初始图像识别模型中的特征融合网络，对样本融合特征信息中所包含的融合特征进行增强，得到样本融合特征信息对应的目标融合信息。特征融合网络在对样本融合特征信息进行增强时，可以学习到样本融合特征信息中所包含的图像特征。上述特征融合网络可以是一个DenseNet网络模块，特征融合网络也可以加深初始图像识别网络的网络深度。特征融合网络的输出可以对下述身份增强网络与表情分类网络共享。

步骤S306，获取所述身份增强网络对应的第一损失函数值，获取所述表情分类网络对应的第二损失函数值，根据所述第一损失函数值和所述第二损失函数值确定联合损失函数值；

具体的，可以获取初始图像识别模型识别出的样本对象分别与多种对象身份之间的第一样本偏向概率：其中，第一样本偏向概率可以是一个概率分布，即样本对象分别与多种对象身份之间的第一样本偏向概率所构成的概率分布，可以通过softmax(分类网络，可以用作输出层)网络层输出第一样本偏向概率对应的概率分布，该概率分布表征了初始图像识别模型识别出的样本对象为某种对象身份的概率是多少。其中，每个样本图像还具有对象身份的对象身份标签，该对象身份标签表明样本图像中的样本对象真实的对象身份是什么。例如，可以为样本对象针对每种对象身份设置0和1的对象身份标签，0代表样本对象不是该种对象身份，1代表样本对象是该种对象身份。可以通过上述得到的每个样本图像对应的第一样本偏向概率与其对应的对象身份标签，得到第一损失函数值，该第一损失函数值为身份增强网络对应的损失函数值。例如，初始图像识别模型中一共有5种对象身份，分别为：对象身份1、对象身份2、对象身份3、对象身份4和对象身份5。样本图像针对每种对象身份的第一样本偏向概率依次为0.1、0.2、0.4、0.2和0.1，并且，样本图像针对每种对象身份对应的对象身份标签依次为0、1、0、0和0，则表明样本对象的对象身份为对象身份2。则可以通过对象身份2的对象身份标签“1”与对象身份2对应的第一样本偏向概率0.2，得到第一损失函数值，具体参见下述身份增强网络的损失函数的公式(3):

其中，为了约束身份增强网络的训练，可以通过Focal loss(一种损失函数，用于解决正负样本比例失衡问题)得到上述损失函数。上述L_id为身份增强网络的损失函数，α和γ为用于约束训练过程的超参数，并且，α≥0，γ≥0，根据实际的模型训练和模型测试的结果可以知道，当α取0.1，γ取15时，初始图像识别模型的识别效果最佳。其中，α和γ的具体取值根据实际应用场景决定，这里不做限制。p_j为softmax输出的第j个值，即第j个对象身份对应的第一样本偏向概率。y_j表示第j个对象身份对应的对象身份标签的值(例如0或者1)。c表示样本图像的个数。则将上述样本图像针对每种对象身份对应的第二样本偏向概率和每种对象身份对应的对象身份标签的标签值带入公式(3)，例如，对象身份2的对象身份标签的标签值为“1”，对象身份3对应的第一样本偏向概率为0.2，则表明，对象身份3对应的公式中的y_j等于1，p_j等于0.2，由此，可以得到单个样本图像针对身份增强网络的损失函数值为：

当有多个样本图像时，例如，当有5个样本图像，分别为样本图像1、样本图像2、样本图像3、样本图像4和样本图像5。则可以将样本图像1、样本图像2、样本图像3、样本图像4和样本图像5中每个样本图像对应的损失函数值相加，得到上述第一损失函数值L_id，则上述第一损失函数值L_id可以理解为，是将所有的样本图像的对象身份标签分别指向的真实对象身份所对应的第一样本偏向概率，带入公式(3)得到的损失函数值之和。其中，上述身份增强网络用于对样本对象的对象身份进行识别，通过身份增强网络可以增强样本对象的身份特征信息。

可以获取初始图像识别模型识别出的样本对象分别与多种表情属性类型之间的第二样本偏向概率：其中，第二样本偏向概率可以是一个概率分布，即样本对象分别与多种表情属性类型之间的第二样本偏向概率所构成的概率分布，可以通过softmax网络层输出第二样本偏向概率对应的概率分布，该概率分布表征了初始图像识别模型识别出的样本对象为某种表情属性类型的概率是多少。其中，每个样本图像还具有表情属性类型的表情属性类型标签，该表情属性类型标签表明样本图像中的样本对象真实的表情属性类型是什么。例如，可以为样本图像针对每种表情属性类型设置0和1的表情属性类型标签，0代表样本图像不是对应的表情属性类型，1代表样本图像是对应的表情属性类型。可以通过上述得到的每个样本图像对应的第二样本偏向概率与其对应的表情属性类型标签，得到第二损失函数值，该第二损失函数值为表情分类网络对应的损失函数值。例如，初始图像识别模型中一共有5种表情属性类型，分别为：表情属性类型1、表情属性类型2、表情属性类型3、表情属性类型4和表情属性类型5。样本图像针对每种表情属性类型对应的第二样本偏向概率分别为0.1、0.2、0.4、0.2和0.1，并且，每种表情属性类型对应的表情属性类型标签依次为0、0、1、0和0，表明样本对象的表情属性类型为表情属性类型3。则可以通过表情属性类型3的对象身份标签“1”与表情属性类型3对应的第一样本偏向概率0.4，得到第二损失函数值，具体参见下述表情分类网络的损失函数的公式(4):

其中，表情分类网络使用的是交叉熵损失，表示为上述L_emo，L_emo为表情分类网络的损失函数，p_i为softmax输出的第i个值，即第i个表情属性类型对应的第二样本偏向概率。y_i表示第i个表情属性类型对应的表情属性类型标签的值(例如可以是0或者1)。c表示样本图像的个数。则将上述样本图像针对每种表情属性类型对应的第二样本偏向概率和每种表情属性类型对应的表情属性类型标签的标签值带入公式(4)，例如，表情属性类型3的表情属性类型标签的标签值为“1”，表情属性类型3对应的第二样本偏向概率为0.4，则表明，表情属性类型3对应的公式中的y_i等于1，p_i等于0.4，由此，可以得到单个样本图像针对表情分类网络的损失函数值为：

-(0*log0.1+0*log0.2+1*log0.4+0*log0.2+0*log0.1)＝-1*log0.4，

当有多个样本图像时，例如，当有5个样本图像，分别为样本图像1、样本图像2、样本图像3、样本图像4和样本图像5。则可以将样本图像1、样本图像2、样本图像3、样本图像4和样本图像5中每个样本图像对应的损失函数值相加，得到上述第二损失函数值L_emo，则上述第二损失函数值L_emo可以理解为，是将所有的样本图像的表情属性类型标签分别指向的真实的表情属性类型(并且为多个样本图像对应的同一种真实表情属性类型，因此每种表情属性类型分别对应一个第二损失函数值)所对应的第二样本偏向概率，带入公式(4)得到的损失函数值之和。其中，上述表情分类网络用于对样本对象的表情属性类型进行识别。

其中，上述身份增强网络与表情分类网络为基于约束的多任务学习中的两个分支网络，表情分类网络为主任务，身份增强网络为用于辅助表情分类网络进行表情属性类型识别的辅助任务，辅助任务的损失函数值要小于主任务的损失函数值，并且，辅助任务的损失函数值要大于0，辅助任务用于监督初始图像识别模型的整个训练过程，并且，在不停止训练的情况下可以增强主任务的鲁棒性，通过身份增强网络可以增强在目标融合信息中的身份特征信息，从而提升初始图像识别模型的整体识别性能。当辅助任务出现过拟合时会导致主任务的训练出现异常，上述损失函数L_id可以在身份增强网络训练时达到过拟合之前对其进行约束，由于公式(3)L_id中相较于公式(4)L_emo多了α(1-p_j)^γ，因此L_id的损失值在身份增强网络训练过程中会迅速地衰减，从而阻止身份增强网络出现过拟合现象。上述身份增强网络与表情分类网络在在训练时相互约束，具体体现在训练时身份增强网络对应的损失函数值与表情分类网络对应的损失函数值之间的相互约束。

更多的，上述基于约束的多任务学习的方法可以作为一种通用方法，即当存在多个辅助任务时，可以采用与上述基于约束的多任务学习的方法同样的思路实现多个任务的图像识别，即多个任务之间的损失函数值之间相互约束，并且辅助任务的损失函数值小于主任务的损失函数值。

可以通过上述得到的第一损失函数值L_id和第二损失函数值L_emo，得到联合损失函数值，具体如下公式(5)：

L_joint＝L_emo+L_id (5)

其中，L_joint为联合损失函数值。其中上述第一损失函数值可以通过第一梯度图表示，上述第二损失函数值可以通过第二梯度图表示，其中第一梯度图与第二梯度图用于指示初始图像识别模型的网络参数的修正方向。因此，上述联合损失函数值即是将第一梯度图与第二梯度图相加，可以通过将第一梯度图与第二梯度图中对应位置的像素值相加，得到上述联合损失函数值对应的联合梯度图。

步骤S307，基于所述联合损失函数值修正所述特征融合网络的网络参数；

具体的，可以将上述得到的联合损失函数值反向传播至特征融合网络，通过该联合损失函数值可以同时针对身份特征学习与表情特征学习两方面，修正特征融合网络的网络参数。例如，可以将上述联合梯度图反向传播至特征融合网络，修正特征融合网络的网络参数。

可以通过第一训练网络对上述身份特征提取网络进行预训练，通过第二训练网络对上述表情特征提取网络进行预训练。当对身份特征提取网络预训练完成之后，可以相应得到第一训练网络的网络参数。当对表情特征提取网络预训练完成之后，可以相应得到第二训练网络的网络参数。可以通过第一训练网络的网络参数和第二训练网络的网络参数再次修正上述特征融合网络的网络参数。例如，将特征融合网络的网络参数修正至，经联合损失函数值修正的特征融合网络的网络参数、第一训练网络的网络参数和第二训练网络的网络参数的平均值，即将该三个网络的网络参数的平均值作为特征融合网络的网络参数。其中，某个网络的网络参数即是该网络中多个网络层之间的权重值，可以让上述第一训练网络与第二训练网络的权重值对特征融合网络进行共享，则特征融合网络可以取三个网络的权重值的平均值作为自己的权重值。

步骤S308，基于所述拼接网络，拆分所述联合损失函数值，得到所述第一损失函数值和所述第二损失函数值；

具体的，可以通过特征融合网络将上述联合损失函数值反向传播至拼接网络，由于联合损失函数值为第一损失函数值与第二损失函数值之和，可以理解为联合梯度图为第一梯度图与第二梯度图相加得到的，并且第一梯度图有其自己的通道，第二梯度图有其自己的通道，因此，拼接网络可以识别出分别所属于第一梯度图与第二梯度图的通道，进而根据不同的通道所属者将上述联合特征图进行拆分，得到第一梯度图和第二梯度图，即实现了，将联合损失函数值进行拆分，得到第一损失函数值和第二损失函数值。

步骤S309，基于所述第一损失函数值修正所述身份特征提取网络的网络参数，基于所述第二损失函数值修正所述表情特征提取网络的网络参数；

具体的，可以通过拼接网络将拆分得到的，身份增强网络对应的第一损失函数值与表情分类网络对应的第二损失函数值，分别反向传播至身份特征提取网络和表情特征提取网络。通过第一损失函数值修正身份特征提取网络的网络参数，通过第二损失函数值修正表情特征提取网络的网络参数。

步骤S310，将包含修正后的网络参数的初始图像识别模型确定为图像识别模型；

具体的，将包含修正后的网络参数的初始图像识别模型确定为图像识别模型。其中，可以根据对初始图像识别模型的训练次数，判断初始图像识别模型的网络参数(包括特征融合网络的网络参数，身份特征提取网络的网络参数和表情特征提取网络的网络参数)是否修正完成。可以设置训练次数阈值，当对初始图像识别模型的训练次数达到训练次数阈值时，则判定初始图像识别模型的网络参数修正完成，即判定初始图像识别模型已训练至收敛状态。例如，设置训练次数阈值为3000次，则当对初始图像识别模型的训练次数达到3000时，则可认为初始图像识别模型的网络参数已经修正完成。将网络参数修正完成的初始图像识别模型称之为上述图像识别模型，该图像识别模型可以根据目标对象的身份特征信息以及表情特征信息，识别出目标对象的表情属性类型。其中，用于训练初始图像识别模型的样本图像包括目标对象针对多种表情属性类型的图像，即图像识别模型中包含预先训练有的目标对象针对各种类型表情的表情特征，因此，图像识别模型可以识别出目标对象的对象身份，进而根据识别出的对象身份与目标对象的表情特征信息识别目标对象的表情属性类型。例如，当向图像识别模型输入包含目标对象的待识别图像时，图像识别模型可以提取出待识别图像中的目标对象的身份特征信息与表情特征信息，并将提取得到的身份特征信息与表情特征信息进行融合，得到融合特征信息，图像识别模型可以根据得到根据该融合特征信息识别出目标对象的表情属性类型。

更多的，可以实时获取到上述图像识别模型未训练过的新用户的样本图像(即新用户针对各种类型表情的人脸图像)，通过获取到的新用户的样本图像再次对图像识别模型进行训练，则之后图像识别模型也可以针对身份特征信息识别出新用户的表情属性类型，通过新用户的样本图像不断对图像识别模型进行持续训练，可以增加图像识别模型的使用人群。可以设置时间周期，例如设置时间周期为3个月，则可以使用3个月中获取到的新用户的样本图像对图像识别模型再次进行训练，以此不断壮大图像识别模型的使用人群。

上述图像识别模型也可以对预先未训练过的对象的人脸图像进行表情属性类型的识别，只是在识别过程中，会通过人脸图像中的表情特征信息直接识别出对象的表情属性类型，而不会借助对象的身份特征信息识别对象的表情属性类型。

本申请首先获取包含样本对象的样本图像，基于初始图像识别模型，提取所述样本图像中所述样本对象的样本身份特征信息和样本表情特征信息；将所述样本身份特征信息和所述样本表情特征信息进行融合，得到样本融合特征信息；根据所述样本融合特征信息、所述初始图像识别模型中的身份增强网络以及表情分类网络，修正所述初始图像识别模型的网络参数；将包含修正后的网络参数的初始图像识别模型确定为图像识别模型；所述图像识别模型用于基于目标对象的身份特征信息以及表情特征信息识别所述目标对象的表情属性类型。由此可见，本申请提出的方法考虑到了样本对象的样本身份特征，从而可以根据样本对象的样本身份特征信息以及样本表情特征信息，训练初始图像识别模型，使得训练完成的图像识别模型在识别目标对象的表情属性类型时，识别准确度更高。

请参见图5，是本申请提供的一种网络的结构示意图。图5中的网络结构为DenseNet网络模块的网络结构，上述身份特征提取网络、表情特征提取网络和特征融合网络都可以是DenseNet网络构成的。如图5所示，DenseNet网络中包括网络层第n层和网络层第m层，其中，在第n层中提取得到了k1个特征t1，第n层可以通过与第m层直连，进而直接将自己提取到的k1个特征t1输入到第m层，第m层可以直接使用接收到的k1个特征t1，而不需要重新提取这k1个特征t1，第m层只需提取自己需要的并且之前的网络层未提取过的特征，例如k2个特征t2。由此，第m层就有了第n层提取到的k1个特征t1与自己提取得到的k2个特征t2。通过上述DenseNet网络中前面层次的网络层直接将自己提取到的特征输入到后面层次的网络层，后面层次的网络层可以直接使用前面层次输入的特征，从而可以减少整个网络的网络参数。

请参见图6，是本申请提供的一种初始图像识别模型的结构示意图。网络a1为身份特征提取网络，网络a1中包括2个DenseNet网络，分别为网络b1和网络b2，其中网络b1和网络b2也可以称之为Identity dense block(密集块)。网络b1和网络b2通过组合网络和池化层(pooling)进行连接。其中，网络b1和网络b2之间的组合网络可以是BN-Relu-Conv，其中，BN(Batch Normalization)为一个网络层，Relu为一个分段的线性函数，conv为卷积层。上述Relu的表达式如下公式(6)所示：

Relu函数在函数值大于0时，取其本身的值x，在函数值小于等于0时，取0。Relu函数的泛化能力较好，可以很好地应用到分类训练中。上述DenseNet网络中每个网络层相较于下一层都是隐层，而BN可以对深层神经网络中的每个隐层神经元的激活值做白化操作，即对输入数据分布变换到0均值，使得神经网络可以更快地训练至收敛。上述网络b1和网络b2之间的组合网络中的卷积层的核大小可以是1*1的，网络b1和网络b2之间的池化层的核大小可以是2*2的。上述网络b1与网络b2都包括6个网络层，该6个网络层依次可以是BN、Relu、Conv(核大小为1*1)、BN、Relu、Conv(核大小为3*3)，并且网络b1与网络b2中的卷积层Conv可以都包含12个滤波器。网络a2为表情特征提取网络，网络a2中也包括2个DenseNet网络，分别为网络b3和网络b4，其中网络b3和网络b4也可以称之为Emotion dense block(密集块)。网络b3和网络b4通过组合网络和池化层(pooling)进行连接。其中，网络b3和网络b4之间的组合网络也可以是BN-Relu-Conv。上述网络b3和网络b4之间的组合网络中的卷积层的核大小可以是1*1的，网络b3和网络b4之间的池化层的核大小可以是2*2的。上述网络b3与网络b4都包括6个网络层，该6个网络层依次可以是BN、Relu、Conv(核大小为1*1)、BN、Relu、Conv(核大小为3*3)，并且网络b3与网络b4中的卷积层Conv可以都包含12个滤波器。上述网络a1可以是通过网络a4进行预训练得到的，上述网络a2可以是通过网络a5进行预训练得到的。其中，网络a4和网络a5的结构是一致的。网络a4中包括卷积层conv、池化层poooling、网络b5(网络b5可以是一个DenseNet网络模块，也可以称之为Dense Block)、组合网络BN-Relu、全局平均池化层(GAP，Global Average Pooling)、全连接层FC_I和损失函数3，即loss_I。网络a5中包括卷积层conv、池化层poooling、网络b6(网络b6可以是一个DenseNet网络模块，也可以称之为Dense Block)、组合网络BN-Relu、全局平均池化层(GAP，Global Average Pooling)、全连接层FC_E和损失函数4，即loss_E。通过网络a4和网络a5对网络a1和网络a2预训练完成之后，即可开始本申请中对初始图像识别模型进行训练的过程。具体为：可以将样本图像p输入初始图像识别模型中，初始图像识别模型中的网络a1可以提取样本图像p中的样本身份特征信息，得到样本身份特征信息对应的第一样本特征图网络a2可以提取样本图像p中的样本表情特征信息，得到样本表情特征信息对应的第二样本特征图网络a8(Fine-tuning)为用于网格调优的网络。网络a1可以将第一样本特征图输入到拼接网络(拼接网络可以是一个拼接层)中，网络a2可以将第二样本特征图输入到拼接网络中。拼接网络可以将第一样本特征图输和第二样本特征图进行拼接，得到样本拼接特征图y^cat。拼接网络可以将样本拼接特征图y^cat输入到卷积网络(卷积网络可以是一个卷积层)中，通过卷积网络对样本拼接特征图y^cat中的身份特征信息与表情特征信息进行融合，得到样本融合特征图y^conv。卷积网络之后还连接有池化层(核大小可以是2*2的)，经池化层之后，将样本融合特征图y^conv输入到网络a3(Fusion Dense Block)中。网络a3为特征融合网络，网络a3可以很好地学习到样本融合特征图y^conv中的融合特征(包括身份特征与表情特征融合之后的特征)，通过网络a3可以得到目标融合信息。其中，目标融合信息可以是一个特征图，可以将目标融合信息对应的特征图称之为目标特征图。上述第一样本特征图、第二样本特征图和目标特征图的尺寸大小一致。网络a3可以将目标融合信息输入到组合网络(BN-Relu)中，再经组合网络(BN-Relu)输入到全局平均池化层(GAP，Global Average Pooling)中。通过全局平均池化层(核大小可以是3*3)可以将目标融合信息输入到全连接层1和全连接层2，全连接层1用于连接身份特征信息对应的第一损失函数，全连接层2用于连接表情特征信息对应的第二损失函数。网络a6为身份增强网络(IdentityEnhancing Branch)，网络a6可以输出对样本图像p中的样本对象的身份识别结果(即样本图像p中的样本对象对应与多种对象身份之间的第一样本偏向概率)。网络a7为表情分类网络(Expression Classification Branch)，网络a7可以输出对样本图像p中的样本对象的表情识别结果(即样本图像p中的样本对象对应与多种表情属性类型之间的第二样本偏向概率)。其中，上述网络a6和网络a7作为多任务学习中的两个分支任务，可以相互约束进行学习。可以通过第一损失函数得到的第一损失函数值和第二损失函数得到的第二损失函数值，修正上述网络a1的网络参数、网络a2的网络参数和网络a3的网络参数。可以将第一损失函数值与第二损失函数值进行联合相加，得到联合损失函数值，将该联合损失函数值经全局平均池化层和组合网络反向传播至网络a3，以通过该联合损失函数值修正网络a3的网络参数。再经网络a3、池化层和卷积网络将联合损失函数值反向传播至拼接网络，拼接网络可以对联合损失函数值进行拆分，拆分回第一损失函数值和第二损失函数值。其中第一损失函数值可以对应于一个梯度图，第二损失函数值可以对应于一个梯度图，联合损失函数值可以对应于一个梯度图，联合损失函数值对应的梯度图为第一损失函数值对应的梯度图与第二损失函数值对应的梯度图之和。则，将联合损失函数值拆分为第一损失函数值与第二损失函数值，即是将联合损失函数值对应的梯度图拆分为第一损失函数值对应的梯度图与第二损失函数值对应的梯度图，可以通过不同梯度图的通道分别所属于不同对象(包括第一损失函数值与第二损失函数值)的原理进行拆分。将通过拼接网络拆分得到的第一损失函数值反向传播到到网络a1，以通过第一损失函数值修正网络a1的网络参数，将通过拼接网络拆分得到的第二损失函数值反向传播到到网络a2，以通过第二损失函数值修正网络a2的网络参数。可以采用上述的方法通过大量的样本图像对初始图像识别模型进行训练。其中，通过上述的方法对网络a3的网络参数进行修正之后，还可以通过网络a4的网络参数与网络a5的网络参数再次修正网络a3的网络参数，例如，可以将网络a3的网络参数修正至此时网络a3的网络参数、网络a4的网络参数和网络a5的网络参数对应的网络参数的平均值，或者，可以为网络a3的网络参数、网络a4的网络参数和网络a5的网络参数分别设置不同的权重值，根据权重值对网络a3的网络参数、网络a4的网络参数和网络a5的网络参数求和，将求和得到的网络参数作为网络a3最终的网络参数。

可选的，上述网络a1中的Identity dense block的个数与网络a2中的Emotiondense block的个数可以根据实际应用场景决定，这里不做限制。

请参见图7，是本申请提供的一种图像识别模型的结构示意图。图7中的图像识别模型是通过图6中的初始图像识别模型得到的，图6中的初始图像识别模型训练完成之后只需要图7中图像识别模型所包含的结构，即可实现基于身份特征信息对目标对象的表情属性类型进行识别。图7中的图像识别模型中包括网络a1(即身份特征提取网络)、网络a2(即表情特征提取网络)、网络a8(即网格调优的网络)以及网络a7(即表情分类网络)。在应用图像识别模型时，可以将待识别图像p输入到图像识别模型中，通过图像识别模型中的网络1提取待识别图像p中的目标对象的身份特征信息，通过图像识别模型中的网络2提取待识别图像p中的目标对象的表情特征信息，通过网络a8融合目标对象的表情特征信息与身份特征信息，得到融合特征信息，并通过该融合特征信息对目标对象的表情属性类型进行识别，通过网络a7输出对目标对象的表情属性类型的识别结果。

请参见图8a，是本申请提供的一种子网络的结构示意图，请一并参见图8b，是本申请提供的另一种子网络的结构示意图，请一并参见图8c，是本申请提供的另一种子网络的结构示意图。通过图6中的初始图像识别模型的结构，可以得到4种子网络的网络结构。其中，第一种子网络是在图6的网络结构中去掉网络a4和网络a5之后得到的子网络，另外三种即是图8a、图8b和图8c中分别所示的三种子网络。图8a中的子网络包括网络a2(即表情特征识别网络)、网络a8(即网格调优的网络)和网络a7(表情分类网络)。图8b中的子网络包括网络a2(即表情特征识别网络)、网络a8(即网格调优的网络)、网络a7(即表情分类网络)和网络a6(即身份增强网络)。图8c中的子网络包括网络a1(即身份特征识别网络)、网络a8(即网格调优的网络)和网络a7(即表情分类网络)。在对图像识别模型进行测试时，可以分别对上述4种子网络进行测试，得到四种子网络对于表情识别的准确性。通过测试结果可知，上述第一种子网络对于表情识别的准确度最高。其中，上述第一种子网络即是本申请的初始图像识别模型中所采用的子网络，通过训练初始图像识别模型中的第一种子网络，可以得到表情识别准确率更高的图像识别模型。

在对本申请训练得到的图像识别模型进行测试时，采用了数据可视化分析，利用Fusion Dense Block输出端的热度图可以体现不同身份信息与相同身份信息之间的表情差异性。热度图中通过不同颜色标注了针对某个图像的表情识别的关键区域。对于同一个用户(例如用户1)的两种不同表情(例如厌恶和悲伤)，并且用户1针对厌恶和悲伤两种不同情绪的面部表情非常相似，若是直接通过表情特征信息识别用户1为厌恶的表情，则很有可能会识别出为用户1的表情为悲伤的表情属性类型，导致识别结果不准确。通过查看热度图可以知道，在增加身份特征信息对用户1的表情属性类型进行识别时，用户1针对厌恶表情的识别的关键区域集中在眼部，用户1针对悲伤表情的识别的关键区域集中在嘴部，因此可以有效区分用户1的相似的两种表情，解决了类间相似性。对于不同用户(例如用户2和用户3)相同的表情(例如开心的表情)，并且用户2和用户3做出开心表情时的面部差异较大，若是直接通过表情特征信息识别用户2和用户3的表情，也很大可能识别错误。通过查看热度图可以知道，在增加身份特征信息对用户1和用户2的表情属性类型进行识别时，用户2针对开心表情的识别的关键区域集中在嘴部，用户3针对开心表情的识别的关键区域集中也在嘴部，因此可以有效识别出用户2和用户3差异较大的同一种表情，解决了类内差异性。由此可见，通过引入身份信息辅助识别目标对象的表情，可以大大提高表情识别的准确性。

请参见图9，是本申请提供的一种图像数据处理装置的结构示意图。如图9所示，该图像数据处理装置1可以包括：第一获取模块11、特征提取模块12、第一融合模块13和第一确定模块14；

第一获取模块11，用于获取包含目标对象的待识别图像；

特征提取模块12，用于提取所述待识别图像中所述目标对象的身份特征信息以及表情特征信息；

第一融合模块13，用于将所述身份特征信息与所述表情特征信息进行融合，得到融合特征信息；

第一确定模块14，用于根据所述融合特征信息确定所述待识别图像中的所述目标对象的表情属性类型。

其中，所述第一获取模块11、特征提取模块12、第一融合模块13和第一确定模块14的具体功能实现方式请参见图2对应的实施例中的步骤S101-步骤S103，这里不再进行赘述。

其中，所述第一融合模块13，包括第一拼接单元131和第一融合单元132；

第一拼接单元131，用于将所述身份特征信息对应的第一特征图与所述表情特征信息对应的第二特征图进行拼接，得到拼接特征图；

第一融合单元132，用于基于图像识别模型中的卷积网络，对所述拼接特征图中的所述第一特征图与第二特征图进行融合，得到融合特征图，将所述融合特征图确定为所述融合特征信息。

其中，所述第一拼接单元131和第一融合单元132的具体功能实现方式请参见图3对应的实施例中的步骤S202-步骤S203，这里不再进行赘述。

其中，所述第一确定模块14，包括概率确定单元141和第一确定单元142：

概率确定单元141，用于根据所述融合特征信息，确定所述目标对象分别与多种表情属性类型之间的偏向概率；

第一确定单元142，用于将所述多种表情属性类型中的每种表情属性类型对应的偏向概率中，数值最大的偏向概率对应的表情属性类型确定为所述目标对象的表情属性类型。

其中，所述概率确定单元141的具体功能实现方式请参见图3对应的实施例中的步骤S204-步骤S206，，所述第一确定单元142的具体功能实现方式请参见图3对应的实施例中的步骤S207，这里不再进行赘述。

其中，所述概率确定单元141，包括第一确定子单元1411、第二确定子单元1412和匹配子单元1413：

第一确定子单元1411，用于基于图像识别模型和所述融合特征信息，确定所述目标对象的对象身份；

第二确定子单元1412，用于确定所述图像识别模型中所述对象身份分别与所述多种表情属性类型对应的属性识别特征，将所述多种表情属性类型对应的属性识别特征确定为目标识别特征；

匹配子单元1413，用于将所述融合特征信息和所述目标识别特征进行特征匹配，根据匹配结果确定所述目标对象分别与所述多种表情属性类型之间的偏向概率。

其中，所述第一确定子单元1411、第二确定子单元1412和匹配子单元1413的具体功能实现方式请参见图3对应的实施例中的步骤S204-步骤S206，这里不再进行赘述。

请参见图10，是本申请提供的另一种图像数据处理装置的结构示意图。如图10所示，该图像数据处理装置2可以包括：第二获取模块21、第二融合模块22、修正模块23和第二确定模块24；

第二获取模块21，用于获取包含样本对象的样本图像，基于初始图像识别模型，提取所述样本图像中所述样本对象的样本身份特征信息和样本表情特征信息；

第二融合模块22，用于将所述样本身份特征信息和所述样本表情特征信息进行融合，得到样本融合特征信息；

修正模块23，用于根据所述样本融合特征信息、所述初始图像识别模型中的身份增强网络以及表情分类网络，修正所述初始图像识别模型的网络参数；

第二确定模块24，用于将包含修正后的网络参数的初始图像识别模型确定为图像识别模型；所述图像识别模型用于基于目标对象的身份特征信息以及表情特征信息识别所述目标对象的表情属性类型。

其中，所述第二获取模块21的具体功能实现方式请参见图4对应的实施例中的步骤S301，所述第二融合模块22的具体功能实现方式请参见图4对应的实施例中的步骤S302-步骤S304，所述修正模块23的具体功能实现方式请参见图4对应的实施例中的步骤S305-步骤S309，所述第二确定模块24的具体功能实现方式请参见图4对应的实施例中的步骤S310，这里不再进行赘述。

其中，所述第二获取模块21，包括第一提取单元211和第二提取单元212：

第一提取单元211，用于基于所述初始图像识别模型中的身份特征提取网络，提取所述样本身份特征信息，得到所述样本身份特征信息对应的第一样本特征图；

第二提取单元212，用于基于所述初始图像识别模型中的表情特征提取网络，提取所述样本表情特征信息，得到所述样本表情特征信息对应的第二样本特征图；

则，所述第二融合模块22，包括第二拼接单元221和第二融合单元222：

第二拼接单元221，用于基于所述初始图像识别模型中的拼接网络，将所述第一样本特征图与所述第二样本特征图进行拼接，得到样本拼接特征图；

第二融合单元222，用于基于所述初始图像识别模型中的卷积网络，对所述样本拼接特征图中的第一样本特征图与第二样本特征图进行融合，得到样本融合特征图，将所述样本融合特征图确定为所述样本融合特征信息。

其中，所述第一提取单元211和第二提取单元212的具体功能实现方式请参见图4对应的实施例中的步骤S301-步骤S302，所述第二拼接单元221和第二融合单元222的具体功能实现方式请参见图4对应的实施例中的步骤S303-步骤S304，这里不再进行赘述。

其中，所述修正模块23，包括增强单元231、第二确定单元232和修正单元233：

增强单元231，用于基于所述初始图像识别模型中的特征融合网络，对所述样本融合特征信息中所包含的融合特征进行增强，得到所述样本融合特征信息对应的目标融合信息；

第二确定单元232，用于获取所述身份增强网络对应的第一损失函数值，获取所述表情分类网络对应的第二损失函数值，根据所述第一损失函数值和所述第二损失函数值确定联合损失函数值；

修正单元233，用于根据所述目标融合信息和所述联合损失函数值，修正所述初始图像识别模型的网络参数。

其中，所述增强单元231和第二确定单元232的具体功能实现方式请参见图4对应的实施例中的步骤S305-步骤S306，所述修正单元233的具体功能实现方式请参见图4对应的实施例中的步骤S307-步骤S309，这里不再进行赘述。

其中，所述第二确定单元232，包括第一获取子单元2321和第四确定子单元2322：

第一获取子单元2321，用于获取所述初始图像识别模型识别出的所述样本对象分别与多种对象身份之间的第一样本偏向概率；

第四确定子单元2322，用于根据所述第一样本偏向概率和所述样本对象的对象身份标签，确定所述第一损失函数值。

其中，所述第一获取子单元2321和第四确定子单元2322的具体功能实现方式请参见图4对应的实施例中的步骤S306，这里不再进行赘述。

其中，所述第二确定单元232，包括第二获取子单元2323和第六确定子单元2324：

第二获取子单元2323，用于获取所述初始图像识别模型识别出的所述样本对象分别与多种表情属性类型之间的第二样本偏向概率；

第六确定子单元2324，用于根据所述第二样本偏向概率和所述样本对象的表情属性类型标签，确定所述第二损失函数值。

其中，所述第二获取子单元2323和第六确定子单元2324的具体功能实现方式请参见图4对应的实施例中的步骤S306，这里不再进行赘述。

其中，所述初始图像识别模型的网络参数包括所述特征融合网络的网络参数、所述身份特征提取网络的网络参数和所述表情特征提取网络的网络参数；所述修正单元233，包括第一修正子单元2331、拆分子单元2332和第二修正子单元2333：

第一修正子单元2331，用于基于所述联合损失函数值修正所述特征融合网络的网络参数；

拆分子单元2332，用于基于所述拼接网络，拆分所述联合损失函数值，得到所述第一损失函数值和所述第二损失函数值；

第二修正子单元2333，用于基于所述第一损失函数值修正所述身份特征提取网络的网络参数，基于所述第二损失函数值修正所述表情特征提取网络的网络参数。

其中，所述第一修正子单元2331、拆分子单元2332和第二修正子单元2333的具体功能实现方式请参见图4对应的实施例中的步骤S307-步骤S309，这里不再进行赘述。

其中，所述初始图像识别模型中还包括第一训练网络和第二训练网络；所述图像数据处理装置2还包括第一预训练模块25、第二预训练模块26和融合修正模块27：

第一预训练模块25，用于基于所述第一训练网络对所述身份特征提取网络进行预训练，得到所述第一训练网络对应的网络参数；

第二预训练模块26，用于基于所述第二训练网络对所述表情特征提取网络进行预训练，得到所述第二训练网络对应的网络参数；

融合修正模块27，用于基于所述第一训练网络对应的网络参数和所述第二训练网络对应的网络参数，修正所述特征融合网络的网络参数。

其中，所述第一预训练模块25、第二预训练模块26和融合修正模块27的具体功能实现方式请参见图4对应的实施例中的步骤S307，这里不再进行赘述。

请参见图11，是本申请提供的另一种图像数据处理装置的结构示意图。如图11所示，所述图像数据处理装置1000可以包括：处理器1001，网络接口1004和存储器1005，此外，所述图像数据处理装置1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图11所示的图像数据处理装置1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现前文图2、图3和图4中任一个所对应实施例中对所述图像数据处理方法的描述。

应当理解，本申请中所描述的图像数据处理装置1000可执行前文图2、图3和图4中任一个所对应实施例中对所述图像数据处理方法的描述，也可执行前文图9所对应实施例中对所述图像数据处理装置1和前文图10所对应实施例中对所述图像数据处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请还提供了一种计算机可读存储介质，且所述计算机可读存储介质中存储有前文提及的图像数据处理装置1和图像数据处理装置2所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图2、图3和图4中任一个所对应实施例中对所述图像数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖范围。

Claims

1.一种图像数据处理方法，其特征在于，包括：

获取包含目标对象的待识别图像；

2.根据权利要求1所述的方法，其特征在于，所述将所述身份特征信息与所述表情特征信息进行融合，得到融合特征信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述融合特征信息确定所述待识别图像中的所述目标对象的表情属性类型，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述融合特征信息，确定所述目标对象分别与多种表情属性类型之间的偏向概率，包括：

5.一种图像数据处理方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于初始图像识别模型，提取所述样本图像中所述样本对象的样本身份特征信息和样本表情特征信息，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述样本融合特征信息、所述初始图像识别模型中的身份增强网络以及表情分类网络，修正所述初始图像识别模型的网络参数，包括：

8.根据权利要求7所述的方法，其特征在于，所述获取所述身份增强网络对应的第一损失函数值，包括：

9.根据权利要求7所述的方法，其特征在于，所述获取所述表情分类网络对应的第二损失函数值，包括：

10.根据权利要求7所述的方法，其特征在于，所述初始图像识别模型的网络参数包括所述特征融合网络的网络参数、所述身份特征提取网络的网络参数和所述表情特征提取网络的网络参数；所述根据所述目标融合信息和所述联合损失函数值，修正所述初始图像识别模型的网络参数，包括：

11.根据权利要求10所述的方法，其特征在于，所述初始图像识别模型中还包括第一训练网络和第二训练网络；还包括：

12.一种图像数据处理装置，其特征在于，包括：

第一获取模块，用于获取包含目标对象的待识别图像，提取所述待识别图像中所述目标对象的身份特征信息以及表情特征信息；

13.一种图像数据处理装置，其特征在于，包括：

14.一种图像数据处理装置，其特征在于，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如权利要求1-11任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-11任一项所述的方法。