CN108388876B

CN108388876B - 一种图像识别方法、装置以及相关设备

Info

Publication number: CN108388876B
Application number: CN201810206459.5A
Authority: CN
Inventors: 张凯皓; 罗文寒; 马林; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2022-04-22
Anticipated expiration: 2038-03-13
Also published as: CN110569795A; WO2019174439A1; US20200302180A1; CN110569795B; EP3767522A1; US11393206B2; EP3767522A4; CN108388876A

Abstract

本发明实施例公开了一种图像识别方法、装置以及相关设备，所述方法包括：获取包含目标对象的目标视频，在所述目标视频中提取目标视频帧图像，并根据对象关键点信息、所述目标视频中的多个视频帧生成多个关键点视频帧，并将所述多个关键点视频帧组合为关键点视频帧序列；提取所述关键点视频帧序列的动态时序特征信息，并提取所述目标视频帧图像的静态结构特征信息；根据所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息，识别所述目标视频中的目标对象对应的属性类型。采用本发明，可以提高脸部表情的识别准确率。

Description

一种图像识别方法、装置以及相关设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种图像识别方法、装置以及相关设备。

背景技术

脸部表情是人类进行非语言交流的一种重要媒介，表情含有丰富的行为信息，既是感情的主要载体，也是语言交流的重要补充，对脸部表情的识别可以进一步地了解相应的心里状态。在实际应用中，脸部表情识别可以应用于远程教育、智能机器人、安全驾驶、辅助医疗、情感分析与计算等领域。

现有的表情脸部表情识别方法主要是利用深度学习提取单张脸部图像/脸部表情视频的空间结构特征信息，进而根据提取出来的空间结构特征信息识别脸部图像/脸部表情视频的表情类别，但空间结构特征信息所包含的表情信息非常有限，容易受到外界环境和个体差异的影响，而且必须要求待识别的脸部图像/脸部表情视频的表情非常明显，才能准确识别对应的表情类别。由于表情的产生和消失是一个变化的过程，若只分析脸部图像/脸部表情视频的静态特征，无法准确判断对应的表情类别。

上述可见，基于单一的空间结构特征信息分析脸部图像/脸部表情视频，无法准确识别脸部图像/脸部表情视频中脸部表情的类别。

发明内容

本发明实施例提供一种图像识别方法、装置以及相关设备，可以提高脸部表情的识别准确率。

本发明一方面提供了一种图像识别方法，包括：

获取包含目标对象的目标视频，在所述目标视频中提取目标视频帧图像，并根据对象关键点信息、所述目标视频中的多个视频帧生成多个关键点视频帧，并将所述多个关键点视频帧组合为关键点视频帧序列；

提取所述关键点视频帧序列的动态时序特征信息，并提取所述目标视频帧图像的静态结构特征信息；

根据所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息，识别所述目标视频中的目标对象对应的属性类型。

其中，所述提取所述关键点视频帧序列的动态时序特征信息，包括：

在所述关键点视频帧序列中的每个关键点视频帧中提取关键标志区域，将所有关键点视频帧中具有相同关键标志区域组合为单位关键点视频帧序列；

将各单位关键点视频帧序列分别输入递归神经网络模型中，提取每个单位关键点视频帧序列的动态时序特征信息；

根据各单位关键点视频帧序列对应的关键标志区域之间的位置关系，将所述各单位关键点视频帧序列的动态时序特征信息进行连接，得到所述关键点视频帧序列的动态时序特征信息。

其中，所述提取所述目标视频帧图像的静态结构特征信息，包括：

将所述目标视频帧图像输入卷积神经网络模型的输入层中；

通过卷积层的卷积处理和池化层的池化处理，提取所述目标视频帧图像的静态结构特征信息。

其中，所述根据所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息，识别所述目标视频中的目标对象对应的属性类型，包括：

根据递归神经网络模型中的分类器，识别所述关键点视频帧序列的动态时序特征信息与所述递归神经网络模型中多个属性类型特征的匹配度，将由所述关键点视频帧序列的动态时序特征信息得到的匹配度与所述递归神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第一标签信息集合；

根据所述卷积神经网络中的分类器，识别所述目标视频帧图像的静态结构特征信息与所述卷积神经网络模型中多个属性类型特征的匹配度，将由所述目标视频帧图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第二标签信息集合；

将所述第一标签信息集合和所述第二标签信息集合进行融合，得到所述目标视频中的目标对象对应的属性类型。

将所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息进行融合，得到融合特征信息；

根据递归神经网络模型中的分类器，识别所述融合特征信息与所述递归神经网络模型中多个属性类型特征的匹配度，将由所述递归神经网络模型得到的匹配度与所述递归神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第一标签信息集合；

根据卷积神经网络中的分类器，识别所述融合特征信息与所述卷积神经网络中多个属性类型特征的匹配度，将由所述卷积神经网络模型得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第二标签信息集合；

其中，所述将所述第一标签信息集合和所述第二标签信息集合进行融合，得到所述目标视频中的目标对象对应的属性类型，包括：

在所述第一标签信息集合和所述第二标签信息集合中，将属于相同标签信息所关联的匹配度进行加权平均，并将加权平均后的匹配度和所述标签信息进行关联，得到目标标签信息集合；

在所述目标标签信息集合中提取具有最大匹配度所关联的标签信息，并将提取出的标签信息，作为所述目标视频中的目标对象对应的属性类型。

其中，还包括：

获取第一样本图像和第二样本图像；

提取所述第一样本图像的静态结构特征信息，并根据所述卷积神经网络模型中的分类器，识别所述第一样本图像的静态结构特征信息与所述卷积神经网络模型中多个属性类型特征的匹配度，将由所述第一样本图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第三标签信息集合；

提取所述第二样本图像的静态结构特征信息，并根据所述卷积神经网络模型中的分类器，识别所述第二样本图像的静态结构特征信息与所述多个属性类型特征的匹配度，将由所述第二样本图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第四标签信息集合；

根据所述第一样本图像的静态结构特征信息和所述第三标签信息集合、所述第二样本图像的静态结构特征信息和所述第四标签信息集合，确定模型损失值，并根据所述模型损失值，调整所述卷积神经网络模型中参数的权值。

其中，所述模型损失值包括识别损失值和验证损失值；

所述根据所述第一样本图像的静态结构特征信息和所述第三标签信息集合、所述第二样本图像的静态结构特征信息和所述第四标签信息集合，确定模型损失值，包括：

根据所述第三标签信息集合、所述第一样本图像对应的样本属性类型，生成所述第一样本图像的识别损失值；

根据所述第四标签信息集合、所述第二样本图像对应的样本属性类型，生成所述第二样本图像的识别损失值；

根据所述第一样本图像的静态结构特征信息、所述第一样本图像对应的样本属性类型、所述第二样本图像的静态结构特征信息、所述第二样本图像对应的样本属性类型，生成所述验证损失值；

根据所述第一样本图像的识别损失值、所述第二样本图像的识别损失值、所述验证损失值，生成所述模型损失值。

本发明另一方面提供了一种图像识别装置，包括：

第一获取模块，用于获取包含目标对象的目标视频，在所述目标视频中提取目标视频帧图像，并根据对象关键点信息、所述目标视频中的多个视频帧生成多个关键点视频帧，并将所述多个关键点视频帧组合为关键点视频帧序列；

第一提取模块，用于提取所述关键点视频帧序列的动态时序特征信息；

第二提取模块，用于提取所述目标视频帧图像的静态结构特征信息；

第一识别模块，用于根据所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息，识别所述目标视频中的目标对象对应的属性类型。

其中，所述第一提取模块，包括：

组合单元，用于在所述关键点视频帧序列中的每个关键点视频帧中提取关键标志区域，将所有关键点视频帧中具有相同关键标志区域组合为单位关键点视频帧序列；

第一提取单元，用于将各单位关键点视频帧序列分别输入递归神经网络模型中，提取每个单位关键点视频帧序列的动态时序特征信息；

连接单元，用于根据各单位关键点视频帧序列对应的关键标志区域之间的位置关系，将所述各单位关键点视频帧序列的动态时序特征信息进行连接，得到所述关键点视频帧序列的动态时序特征信息。

其中，所述第二提取模块，包括：

输入单元，用于将所述目标视频帧图像输入卷积神经网络模型的输入层中；

第二提取单元，用于通过卷积层的卷积处理和池化层的池化处理，提取所述目标视频帧图像的静态结构特征信息。

其中，所述第一识别模块，包括：

第一识别单元，用于根据递归神经网络模型中的分类器，识别所述关键点视频帧序列的动态时序特征信息与所述递归神经网络模型中多个属性类型特征的匹配度，将由所述关键点视频帧序列的动态时序特征信息得到的匹配度与所述递归神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第一标签信息集合；

第二识别单元，用于根据所述卷积神经网络中的分类器，识别所述目标视频帧图像的静态结构特征信息与所述卷积神经网络模型中多个属性类型特征的匹配度，将由所述目标视频帧图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第二标签信息集合；

第一融合单元，用于将所述第一标签信息集合和所述第二标签信息集合进行融合，得到所述目标视频中的目标对象对应的属性类型。

其中，所述第一识别模块，包括：

第二融合单元，用于将所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息进行融合，得到融合特征信息；

第三识别单元，用于根据递归神经网络模型中的分类器，识别所述融合特征信息与所述递归神经网络模型中多个属性类型特征的匹配度，将由所述递归神经网络模型得到的匹配度与所述递归神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第一标签信息集合；

第四识别单元，用于根据卷积神经网络中的分类器，识别所述融合特征信息与所述卷积神经网络中多个属性类型特征的匹配度，将由所述卷积神经网络模型得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第二标签信息集合；

其中，所述第一融合单元，包括：

计算子单元，用于在所述第一标签信息集合和所述第二标签信息集合中，将属于相同标签信息所关联的匹配度进行加权平均，并将加权平均后的匹配度和所述标签信息进行关联，得到目标标签信息集合；

确定子单元，用于在所述目标标签信息集合中提取具有最大匹配度所关联的标签信息，并将提取出的标签信息，作为所述目标视频中的目标对象对应的属性类型。

其中，还包括：

第二获取模块，用于获取第一样本图像和第二样本图像；

第二识别模块，用于提取所述第一样本图像的静态结构特征信息，并根据所述卷积神经网络模型中的分类器，识别所述第一样本图像的静态结构特征信息与所述卷积神经网络模型中多个属性类型特征的匹配度，将由所述第一样本图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第三标签信息集合；

第三识别模块，用于提取所述第二样本图像的静态结构特征信息，并根据所述卷积神经网络模型中的分类器，识别所述第二样本图像的静态结构特征信息与所述多个属性类型特征的匹配度，将由所述第二样本图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第四标签信息集合；

确定模块，用于根据所述第一样本图像的静态结构特征信息和所述第三标签信息集合、所述第二样本图像的静态结构特征信息和所述第四标签信息集合，确定模型损失值，并根据所述模型损失值，调整所述卷积神经网络模型中参数的权值。

其中，所述模型损失值包括识别损失值和验证损失值；

所述确定模块，包括：

第一生成单元，用于根据所述第三标签信息集合、所述第一样本图像对应的样本属性类型，生成所述第一样本图像的识别损失值；

第二生成单元，用于根据所述第四标签信息集合、所述第二样本图像对应的样本属性类型，生成所述第二样本图像的识别损失值；

第三生成单元，用于根据所述第一样本图像的静态结构特征信息、所述第一样本图像对应的样本属性类型、所述第二样本图像的静态结构特征信息、所述第二样本图像对应的样本属性类型，生成所述验证损失值；

第四生成单元，用于根据所述第一样本图像的识别损失值、所述第二样本图像的识别损失值、所述验证损失值，生成所述模型损失值。

本发明另一方面提供了一种终端设备，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如本发明实施例中一方面中的方法。

本发明实施例另一方面提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如本发明实施例中一方面中的方法。

本发明实施例通过获取包含目标对象的目标视频，在所述目标视频中提取目标视频帧图像，并根据对象关键点信息、所述目标视频中的多个视频帧生成多个关键点视频帧，并将所述多个关键点视频帧组合为关键点视频帧序列；提取所述关键点视频帧序列的动态时序特征信息，并提取所述目标视频帧图像的静态结构特征信息；根据所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息，识别所述目标视频中的目标对象对应的属性类型。由于可以根据目标视频得到目标视频帧图像和关键点视频帧序列，进而分别提取动态时序特征信息和静态结构特征信息，再根据上述两种特征信息共同识别目标视频中脸部表情对应的属性类型。因此，通过提取目标视频的动态时序特征信息和静态结构特征信息，可以丰富目标视频的特征类型，进而根据多种特征类型提高目标视频中脸部表情的识别准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a-图1b是本发明实施例提供的一种图像识别方法的场景示意图；

图2是本发明实施例提供的一种图像识别方法的流程示意图；

图3是本发明实施例提供的另一种图像识别方法的流程示意图；

图4是本发明实施例提供的另一种图像识别方法的流程示意图；

图4a是本发明实施例提供的一种识别目标对象的属性类型的示意图；

图5是本发明实施例提供的另一种图像识别方法的流程示意图；

图5a是本发明实施例提供的一种调整卷积神经网络模型的示意图；

图6是本发明实施例提供的一种图像识别装置的结构示意图；

图7是本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1a-1b，是本发明实施例提供的一种图像识别方法的场景示意图。如图1a所示，用户开启智能手机中的前置摄像头、视频录制功能，用于录制脸部表情的视频。在采集视频的过程中，首先对采集到的视频中的视频帧图像10a中的五官形变程度进行检测，例如眼睛周围的肌肉是否收缩、眉毛之间距离是否减小、嘴角上扬幅度或者下垂幅度等，由于视频帧图像10a的五官形变程度不大，即视频帧图像10a中脸部表情不明显；用户持续录制表情视频，终端继续对采集到视频中的视频帧图像10b中的五官形变程度进行检测，同样视频帧图像10b的五官形变程度较小，视频帧图像10b中脸部表情仍不明显；终端持续采集表情视频，并持续对采集到视频的图像帧进行检测。对采集到视频中的视频帧图像10c中的五官形变程度进行检测，虽然视频帧图像10c中嘴角存在下垂，但视频帧图像10b的整体脸部表情仍不明显；终端继续对采集到的视频中的视频帧图像10d中的五官进行检测，由于视频帧图像10d中眼睛周围的肌肉收缩强烈且嘴角下垂幅度大，可以判定视频帧图像10d中脸部表情明显，接下来就对采集到的视频进行表情分析。如图1b所示，将录制的视频中的视频帧图像10a、视频帧图像10b、...、视频帧图像10c、视频帧图像10d进行组合，得到视频帧图像序列10e，在视频帧图像序列10e中提取最后一帧视频帧图像(即视频帧图像10d)，将最后一帧视频帧图像中的人脸分割出来，得到目标图像10g。

根据脸部的关键点信息，将视频帧图像序列10e中的所有视频帧图像转换为关键点视频帧序列10f，即分别将视频帧图像10a、视频帧图像10b、...、视频帧图像10c、视频帧图像10d转换为关键点视频帧图像，再将关键点视频帧图像组合为关键点视频帧序列10f。根据脸部五官的所在的区域，将关键点视频帧序列10f中所有关键点视频帧图像中眉毛所在的区域组合为眉毛视频帧序列10j、眼睛所在的区域组合为眼睛视频帧序列10k、鼻子所在的区域组合为鼻子视频帧序列10l、嘴巴所在的区域组合为嘴巴视频帧序列10m。利用递归神经网络模型(recurrent neural network，RNN)，提取眉毛视频帧序列10j的局部动态时序特征信息以及眼睛视频帧序列10k的局部动态时序特征信息，并将上述两项局部动态时序特征信息进行合并，得到眉毛-眼睛的局部动态时序特征信息10n，同理利用递归神经网络模型提取鼻子视频帧序列10s的局部动态时序特征信息以及嘴巴视频帧序列10m的局部动态时序特征信息，并将上述两项局部动态时序特征信息进行合并，得到鼻子-嘴巴的局部动态时序特征信息10t。再利用递归神经网络模型，提取眉毛-眼睛的局部动态时序特征信息10n的全局动态时序特征信息，和鼻子-嘴巴的局部动态时序特征信息10n的全局动态时序特征信息，将上述两项全局动态时序特征信息合并，得到脸部动态时序特征信息10p。利用递归神经网络模型中的分类器，计算脸部动态时序特征信息10p与6种基本表情(高兴、悲伤、惊讶、恐惧、厌恶、愤怒)特征匹配的概率，分别为：0.03高兴、0.7悲伤、0.02惊讶、0.1恐惧、0.1厌恶、0.05愤怒，其中，数值表示脸部动态时序特征信息10p与6中基本表情特征匹配的概率。

将目标图像10g输入至卷积神经网络10i中的输入层，利用卷积神经网络10i中的卷积运算和池化运算，提取目标图像10g的静态结构特征信息，利用卷积神经网络10i中的分类器，计算目标图像10g的静态结构特征信息与6种基本表情特征匹配的概率，分别为：0.02高兴、0.75悲伤、0.03惊讶、0.05恐惧、0.05厌恶、0.1愤怒，其中，数值表示目标图像10g的静态结构特征信息与6中基本表情特征匹配的概率。最后，利用融合控制器10q，将脸部动态时序特征信息10p与6中基本表情特征匹配的概率、目标图像10g的静态结构特征信息与6中基本表情特征匹配的概率进行融合，即具有相同基本表情的概率进行加权平均，得到：(0.03高兴+0.02高兴)/2＝0.025高兴、(0.7悲伤+0.75悲伤)/2＝0.725悲伤、(0.02惊讶+0.03惊讶)/2＝0.025惊讶、(0.1恐惧+0.05恐惧)/2＝0.075恐惧、(0.1厌恶+0.05高兴)/2＝0.075厌恶、(0.05愤怒+0.1愤怒)/2＝0.075愤怒。因此，与录制的视频中的脸部表情对应的属性类型为：悲伤(0.725悲伤>0.075恐惧＝0.075厌恶＝0.075愤怒>0.025高兴＝0.025惊讶)。对于视频帧图像10d的下一帧图像，也可以持续检测下一帧图像的五官形变程度，进而计算包含下一帧图像的视频对应的属性类型以及对应的概率。若计算出的属性类型与预设的属性类型相同，且该属性类型对应的概率大于预设的概率阈值时，则终端执行相应的操作。例如，若计算出的属性类型是：悲伤，且属性类型“悲伤”对应的概率为0.85，则终端执行支付操作或者执行拍照操作。

其中，提取特征信息、识别视频中目标对象对应的属性类型的具体过程可以参见以下图2至图5a所对应的实施例。

进一步地，请参见图2，是本发明实施例提供的一种图像识别方法的流程示意图。如图2所示，所述图像识别方法可以包括：

步骤S101，获取包含目标对象的目标视频，在所述目标视频中提取目标视频帧图像，并根据对象关键点信息、所述目标视频中的多个视频帧生成多个关键点视频帧，并将所述多个关键点视频帧组合为关键点视频帧序列；

具体的，获取包含目标对象的视频，作为目标视频，其中，目标对象可以包括：人、动物、植物等物种，由于视频是由多帧连续的图像构成的，因此目标视频中多帧连续的图像中均包含目标对象。在目标视频中提取任意一帧图像作为目标视频帧图像(如上述图1对应实施例中的目标图像10g)，由于后续需要提取目标视频帧图像的特征信息，要求目标视频帧图像中的目标对象的特征明显，所以可以在目标视频中提取最后一帧图像或者靠近最后一帧的图像作为目标视频帧图像。根据目标视频中目标对象的关键点信息，将目标视频中每个视频帧转换为关键点视频帧，其中关键点信息是能够代表目标对象的标志性部位，例如，当目标对象是小狗时，关键点信息就是小狗的尾巴、四肢、耳朵等标志性部位；当目标对象是人时，关键点信息就是眉毛、眼睛、鼻子等脸部标志性部位，关键点视频帧是目标对象的标志性区域由多个离散圆点组成的视频帧。根据关键点视频帧的时间顺序，将所有关键点视频帧组合为关键点视频帧序列(如上述图1对应实施例中的关键点视频帧序列10f)，该关键点视频帧序列不仅包含目标对象的静态结构特征信息，还包括多个关键点视频之间的动态时序特征信息。

步骤S102，提取所述关键点视频帧序列的动态时序特征信息，并提取所述目标视频帧图像的静态结构特征信息；

具体的，在关键点视频帧中的每个关键点视频帧中提取关键标志区域，关键标志区域是能够代表关键点视频帧中目标对象特征的区域(例如，目标对象是人时，眼睛所在的区域、鼻子所在的区域等就是关键标志区域)，按照关键点视频帧的时间顺序，将所有关键点视频中具有相同关键标志区域组合为单位关键点视频帧序列(如上述图1对应实施例中的眉毛视频帧序列10j、眼睛视频帧序列10k、鼻子视频帧序列10l、嘴巴视频帧序列10m)，上述可知，关键标志区域的数量和单位关键视频帧序列的数量一致。将每个单位关键点视频帧序列输入至递归神经网络模型(Recurrent Neural Network，RNN)中，根据单位关键点视频帧序列中多个单位关键点视频帧之间上下文纹理(context texture)信息的关联性以及相互之间的依赖性，可以将多个单位关键点视频帧之间的上下文纹理关联性转换为结构化的循环依赖关系，进而提取出单位关键点视频帧序列的动态时序特征信息，其中每个单位关键点视频帧序列都对应一个动态时序特征信息。递归神经网络模型可以用公式(1)表示：

其中，h表示当前层的隐藏状态，z表示单一隐藏层RNN的输出，W_xh,W_hh,W_hz是输入层和隐藏层之间的权重，b_h和b_z分别表示隐藏层和输出层的偏置项，H(·)和O(·)均为激活函数。

上述提取单位关键点视频帧序列的动态时序特征信息是利用递归神经网络模型，当然也可以采用长短期记忆神经网络模型(Long-Short Term Memory，LSTM)或者门控重复单元模型(Gated Recurrent Unit，GRU)等模型用于提取单位关键点视频帧序列的动态时序特征信息。LSTM包括自连接记忆单元，是一种可以计算复杂的动态时序远程上下文信息的模型，该模型可以表示为：

其中，公式(2)中的σ(·)是σ函数，i,f,o因此表示输入门、遗忘门、输出门。所有的W表示两门之间的权重。

提取每个单位关键点视频帧序列的动态时序特征信息后，根据各单位关键点视频帧序列对应的关键标志区域之间的位置关系，将位置相近的关键标志区域对应的单位关键点视频帧序列的动态时序特征信息进行连接，得到关键点视频帧序列的动态时序特征信息(如上述图1对应实施例中的脸部动态时序特征信息10p)，即连接多个局部的动态时序特征信息得到全局的动态时序特征信息；也可以再次利用递归神经网络模型，提取连接后的动态时序特征信息的特征信息，并再次连接该特征信息以得到关键点视频帧序列的动态时序特征信息，即通过低层次的局部特征信息之间的关联性，得到高层次的全局特征。

为了提高后续目标视频帧图像识别的准确率，可以先将目标视频帧图像调整至固定尺寸大小，随后将调整尺寸后的目标视频帧图像输入卷积神经网络模型中的输入层。卷积神经网络模型可以包括输入层、卷积层、池化层、全连接层和输出层；其中输入层的参数大小等于调整尺寸后的目标视频帧图像的尺寸。当目标视频帧图像输入至卷积神经网络的输出层后，随后进入卷积层，首先随机选取目标视频帧图像中的一小块作为样本，并从这个小样本中学习到一些特征信息，然后利用这个样本作为一个窗口依次滑过目标视频帧图像的所有像素区域，也就是说，从样本中学习到的特征信息跟目标视频帧图像做卷积运算，从而获得目标视频帧图像不同位置上最显著的特征信息。在做完卷积运算后，已经提取到目标视频帧图像的特征信息，但仅仅通过卷积运算提取的特征数量大，为了减少计算量，还需进行池化运算，也就是将从目标视频帧图像中通过卷积运算提取的特征信息传输至池化层，对提取的特征信息进行聚合统计，这些统计特征信息的数量级要远远低于卷积运算提取到的特征信息的数量级，同时还会提高分类效果。常用的池化方法主要包括平均池化运算方法和最大池化运算方法。平均池化运算方法是在一个特征信息集合里计算出一个平均特征信息代表该特征信息集合的特征；最大池化运算是在一个特征信息集合里提取出最大特征信息代表该特征信息集合的特征。通过卷积层的卷积处理和池化层的池化处理，可以提取出目标视频帧图像的静态结构特征信息，同时该态结构特征信息的数量少。卷积神经网络中的卷积层可以只有一层也可以有多层，同理池化层可以只有一层也可以有多层。提取关键点视频帧序列的动态时序特征信息可以在提取目标视频帧图像的静态特征信息之前，可以在之后，也可以同时提取上述两种类型的特征信息。

步骤S103，根据所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息，识别所述目标视频中的目标对象对应的属性类型。

具体的，利用递归神经网络模型中的分类器，识别关键点视频帧序列的动态时序特征信息与递归神经网络模型中多个属性类型特征的匹配度，并将上述多个匹配度和属性类型特征对应的标签信息进行关联，得到第一标签信息集合，即第一标签信息集合中既有匹配度也有关联的标签信息，标签信息是指属性类型特征对应的属性类型。属性类型可以是关于脸部表情的属性类型，例如，“愤怒”、“开心”、“恐惧”等；也可以是关于行为动作的属性类型，例如，“散步”、“慢跑”、“快跑”等；也可以是关于手势的属性类型，例如，“请”、“同意”、“拒绝”等。同理，利用卷积神经网络中的分类器，识别目标视频帧图像的静态结构特征信息与卷积神经网络模型中多个属性类型特征的匹配度，并将上述多个匹配度和属性类型特征对应的标签信息进行关联，得到第二标签信息集合，同样第二标签信息集合中既有匹配度也有关联的标签信息，其中递归神经网络模型中属性类型特征的种类与卷积神经网络模型中属性类型特征的种类可以相同，也可以不同，以脸部表情为例进行说明，递归神经网络模型中存在3种属性类型特征，分别是：“伤心”属性类型特征、“惊讶”属性类型特征、“开心”属性类型特征，而卷积神经网络模型中存在2种属性类型特征，分别是“伤心”属性类型特征、“惊讶”属性类型特征。将得到的第一标签信息集合中和第二标签信息集合进行融合，融合后匹配度最高所对应的标签信息即是目标视频中目标对象对应的属性类型。

可选的，将关键点视频帧序列的动态时序特征信息和目标视频帧图像的静态结构特征信息进行融合，得到融合特征信息，利用递归神经网络模型中的分类器，识别融合特征信息与递归神经网络模型中多个属性类型特征的匹配度，并将上述多个匹配度和属性类型特征对应的标签信息进行关联，得到第一标签信息集合，即第一标签信息集合中既有匹配度也有关联的标签信息。利用卷积神经网络中的分类器，识别融合特征信息与卷积神经网络模型中多个属性类型特征的匹配度，并将上述多个匹配度和属性类型特征对应的标签信息进行关联，得到第二标签信息集合，同样第二标签信息集合中既有匹配度也有关联的标签信息，同样地，递归神经网络模型中属性类型特征的种类与卷积神经网络模型中属性类型特征的种类可以相同，也可以不同。将得到的第一标签信息集合和第二标签信息集合进行融合，融合后匹配度最高所对应的标签信息即是目标视频中目标对象对应的属性类型。

本发明实施例通过获取包含目标对象的目标视频，在所述目标视频中提取目标视频帧图像，并根据对象关键点信息、所述目标视频中的多个视频帧生成多个关键点视频帧，并将所述多个关键点视频帧组合为关键点视频帧序列；提取所述关键点视频帧序列的动态时序特征信息，并提取所述目标视频帧图像的静态结构特征信息；根据所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息，识别所述目标视频中的目标对象对应的属性类型。由于可以根据目标视频得到目标视频帧图像和关键点视频帧序列，进而分别提取动态时序特征信息和静态结构特征信息，再根据上述两种特征信息共同识别目标视频对应的属性类型。因此，通过提取目标视频的动态时序特征信息和静态结构特征信息，可以丰富目标视频的特征类型，进而可以根据多种特征类型提高目标视频中脸部表情的识别准确率。

进一步的，请参见图3，是本发明实施例提供的另一种图像识别方法的流程示意图。如图3所示，上述图像识别方法可以包括：

步骤S201，获取包含目标对象的目标视频，在所述目标视频中提取目标视频帧图像，并根据对象关键点信息、所述目标视频中的多个视频帧生成多个关键点视频帧，并将所述多个关键点视频帧组合为关键点视频帧序列；

步骤S202，提取所述关键点视频帧序列的动态时序特征信息，并提取所述目标视频帧图像的静态结构特征信息；

其中，步骤S201-步骤S202的具体实现方式可以参见上述图2所对应实施例中的步骤S101-步骤S102，此处不再赘述。

步骤S203，根据递归神经网络模型中的分类器，识别所述关键点视频帧序列的动态时序特征信息与所述递归神经网络模型中多个属性类型特征的匹配度，将由所述关键点视频帧序列的动态时序特征信息得到的匹配度与所述递归神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第一标签信息集合；

具体的，提取关键点视频帧序列的动态时序特征信息后，根据递归神经网络模型中的分类器，识别关键点视频帧序列的动态时序特征信息与递归神经网络模型中多个属性类型特征的匹配度，上述分类器是提前训练完成的，该分类器的输入是动态时序特征信息，分类器的输出是动态时序特征信息与多种属性类型特征的匹配度，匹配度越高说明关键点视频帧序列中的目标对象与属性类型特征对应的属性类型的匹配概率越大；递归神经网络模型中包含的属性类型特征的数量和种类是训练递归神经网络模型时由训练数据集中包含的属性类型的数量个种类决定的。可以采用公式(3)计算与多种属性类型特征的匹配度：

其中，w_i表示各属性类型特征的权重，a_c(w_i)表示所有属性类型特征的权重之和，l表示一种属性类型特征。

将上述得到的与多个属性类型特征的匹配度和多个属性类型特征对应的标签信息进行关联，得到第一标签信息集合。例如，识别的是关于脸部表情的属性类型，递归神经网络模型中存在“开心”属性类型特征、“伤心”属性类型特征、“恐惧”属性类型特征，根据分类器识别动态时序特征信息A与“开心”属性类型特征的匹配度为0.2；识别动态时序特征信息A与“伤心”属性类型特征的匹配度为0.1；识别动态时序特征信息A与“恐惧”属性类型特征的匹配度为0.7，再关联对应的标签信息，即得到第一标签信息集合：0.2-开心、0.1-伤心、0.7-恐惧。

步骤S204，根据所述卷积神经网络模型中的分类器，识别所述目标视频帧图像的静态结构特征信息与所述卷积神经网络模型中多个属性类型特征的匹配度，将由所述目标视频帧图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第二标签信息集合；

具体的，提取目标视频帧图像的静态结构特征信息后，根据卷积神经网络模型中的分类器，识别目标视频帧图像的静态结构特征信息与卷积神经网络模型中多个属性类型特征的匹配度，上述分类器同样也是提前训练完成的，该分类器的输入是静态结构特征信息，分类器的输出是静态结构特征信息与多种属性类型特征的匹配度，匹配度越高说明目标视频帧图像中的目标对象与属性类型特征对应的属性类型的匹配概率越大；卷积神经网络模型中包含的属性类型特征的数量和种类是训练卷积神经网络模型时由训练数据集中包含的属性类型的数量和种类决定的。可以采用公式(4)计算与多种属性类型特征的匹配度：

其中，m表示卷积神经网络模型中全连接层的神经元个数，x_i、b_j、w_i,j分别表示静态结构特征信息、两层之间的偏置项、两层之间的权值。

将上述得到的与多个属性类型特征的匹配度和多个属性类型特征对应的标签信息进行关联，得到第二标签信息集合。例如，识别的是关于手势的属性类型，卷积神经网络模型中存在“谢谢”属性类型特征、“请”属性类型特征、“同意”属性类型特征，根据分类器识别静态结构特征信息B与“谢谢”属性类型特征的匹配度为0.1；识别静态结构特征信息B与“请”属性类型特征的匹配度为0.3；识别静态结构特征信息B与“同意”属性类型特征的匹配度为0.6，再关联对应的标签信息，即得到第二标签信息集合：0.1-谢谢、0.3-请、0.6-同意。递归神经网络中的多种属性类型特征对应的标签信息与卷积神经网络中的多种属性类型特征对应的标签信息可以相同，也可以不同。

步骤S205，将所述第一标签信息集合和所述第二标签信息集合进行融合，得到所述目标视频中的目标对象对应的属性类型。

具体的，在第一标签信息集合和第二标签信息集合中，将属于相同标签信息所关联的匹配度进行加权平均，并将加权平均后的匹配度和执行加权平均对应的标签信息进行关联，得到的标签信息集合称之为目标标签信息集合，可以将上述两个集合(第一标签信息集合和第二标签信息集合)中没有交集的标签信息对应的匹配度过滤，即没有交集的标签信息对应的匹配度不必执行加权平均运算。在目标标签信息集合中提取最大匹配度所关联的标签信息，该标签信息即是目标视频中目标对象对应的属性类型。例如，第一标签信息集合为：0.2-散步、0.1-快跑、0.7-慢跑；第二标签信息集合为：0.3-爬行、0.1-快跑、0.6-慢跑，相同标签信息所关联的匹配度进行加权平均得到，目标标签信息集合为：(0.1+0.1)/2＝0.1-快跑、(0.7+0.6)/2＝0.65-慢跑，第一标签信息集合中的“0.2-散步”和第二标签信息集合中的“0.3-爬行”被过滤，因此，属性类型“慢跑”就是目标视频中目标对象对应的属性类型。

进一步的，请参见图4，是本发明实施例提供的另一种图像识别方法的流程示意图。如图3所示，上述图像识别方法可以包括：

步骤S301，获取包含目标对象的目标视频，在所述目标视频中提取目标视频帧图像，并根据对象关键点信息、所述目标视频中的多个视频帧生成多个关键点视频帧，并将所述多个关键点视频帧组合为关键点视频帧序列；

步骤S302，提取所述关键点视频帧序列的动态时序特征信息，并提取所述目标视频帧图像的静态结构特征信息；

其中，步骤S301-步骤S302的具体实现方式可以参见上述图2所对应实施例中的步骤S101-步骤S102，此处不再赘述。

步骤S303，将所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息进行融合，得到融合特征信息；

具体的，将关键点视频帧序列的动态时序特征信息和目标视频帧图像的静态结构特征信息进行融合，得到目标视频中目标对象的时空特征信息，将上述时空特征信息称之为融合特征信息。特征信息融合的过程可以是首先将动态时序特征信息和静态结构特征信息归一化到同一个范围区间内，将上述两种特征信息直接连接起来，作为融合特征信息；也可以是归一化到同一个范围区间内后，利用主成分分析(Principal Component Analysis，PCA)将两种特征信息中较高维度的特征信息降维为两种特征信息维度一致，也可以利用支持向量机(Support Vector Machine，SVM)将两种特征信息中较低维度的特征信息升维至两种特征信息维度一致，再利用高斯模型(Gaussian Model)或者混合高斯模型(GaussianMixed Model)对上述两种维度一致的特征信息进行统一建模处理，处理后得到的特征信息即是融合特征信息。

步骤S304，根据递归神经网络模型中的分类器，识别所述融合特征信息与所述递归神经网络模型中多个属性类型特征的匹配度，将由所述递归神经网络模型得到的匹配度与所述递归神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第一标签信息集合；

具体的，得到融合特征信息后，根据递归神经网络模型中的分类器，识别融合特征信息与递归神经网络模型中多个属性类型特征的匹配度，上述分类器是提前训练完成的，该分类器的输入是融合特征信息，分类器的输出是融合特征信息与多种属性类型特征的匹配度，匹配度越高说明融合特征信息与属性类型特征对应的属性类型的匹配概率越大。递归神经网络模型中包含的属性类型特征的数量和种类是训练递归神经网络模型时由训练数据集中包含的属性类型决定的。将上述得到的与多个属性类型特征的匹配度和多个属性类型特征对应的标签信息进行关联，得到第一标签信息集合，标签信息属性类型特征对应的属性类别，例如，标签信息可以是：悲伤、恐惧、惊吓等关于脸部表情的属性类别；也可以是奔跑、快走、散步等关于动作姿态的属性类别；也可以是谢谢、请、不行等关于手势的属性类别。

步骤S305，根据卷积神经网络中的分类器，识别所述融合特征信息与所述卷积神经网络中多个属性类型特征的匹配度，将由所述卷积神经网络模型得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第二标签信息集合；

具体的，得到融合特征信息后，根据卷积神经网络模型中的分类器，识别融合特征信息与卷积神经网络模型中多个属性类型特征的匹配度，上述分类器是提前训练完成的，该分类器的输入是融合特征信息，分类器的输出是融合特征信息与多种属性类型特征的匹配度，匹配度越高说明融合特征信息与属性类型特征对应的属性类型的匹配概率越大；卷积神经网络模型中包含的属性类型特征的数量和种类是训练卷积神经网络模型时由训练数据集中包含的属性类型决定的。将上述得到的与多个属性类型特征的匹配度和多个属性类型特征对应的标签信息进行关联，得到第二标签信息集合。需要说明的是，递归神经网络中的多种属性类型特征对应的标签信息与卷积神经网络中的多种属性类型特征对应的标签信息可以相同，也可以不同；由于第一标签信息集合和第二标签信息集合是通过两个不同的分类器得到的，因此得到第一标签信息集合和得到第二标签信息集合在时间顺序上没有限定。

步骤S306，将所述第一标签信息集合和所述第二标签信息集合进行融合，得到所述目标视频中的目标对象对应的属性类型；

其中，步骤S306的具体实现方式可以参见上述图3所对应实施例中的步骤S205，此处不再赘述。

请参见图4a，是本发明实施例提供的一种识别目标对象的属性类型的示意图。如图4a所示，从目标视频中提取出关键点视频帧序列30a和目标图像30b，递归神经网络模型中的全连接层输出关键点视频帧序列30a的动态时序特征信息，上述动态时序特征信息映射到包含200个神经元的神经元集合30c中。卷积神经网络模型中的全连接层输出目标图像30b的静态结构特征信息，上述静态结构特征信息映射到包含150个神经元的神经元集合30d中，将动态时序特征信息和静态结构特征信息进行融合，即是将神经元集合30c和神经元集合30d进行融合，得到包含350个神经元的神经元集合30e。将神经元集合30e中的神经元输入递归神经网络模型中的分类器30f，得到第一标签信息集合为：0.1-开心、0.2愤怒、0.7伤心；将神经元集合30e中的神经元输入卷积神经网络模型中的分类器30g，得到第二标签信息集合为：0.2-开心、0.2-愤怒、0.6-伤心。再将第一标签信息集合(0.1-开心、0.2-愤怒、0.7-伤心)和第二标签信息集合(0.2-开心、0.2-愤怒、0.6-伤心)中相同标签信息对应的匹配度进行加权平均，得到目标标签信息集合：0.15-开心、0.2-愤怒、0.65-伤心，因此目标视频中目标对象的属性类型为：“伤心”属性类型。

进一步的，请参见图5，是本发明实施例提供的另一种图像识别方法的流程示意图。如图5所示，上述图像识别方法可以包括：

步骤S401，获取第一样本图像和第二样本图像；

具体的，获取两张图像分别作为第一样图像和第二样本图像，其中，第一样本图像的样本属性类型和第二样本图像的样本属性类型可以相同，也可以不同。例如，第一样本图像的样本属性类型是：厌恶、第二样本图像的样本属性类型可以是厌恶，也可以是其他属性类型，例如：焦虑、愤怒等，样本属性类型是样本图像中对象的真实属性类型。

步骤S402，提取所述第一样本图像的静态结构特征信息，并根据所述卷积神经网络模型中的分类器，识别所述第一样本图像的静态结构特征信息与所述卷积神经网络模型中多个属性类型特征的匹配度，将由所述第一样本图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第三标签信息集合；

具体的，通过卷积处理和池化处理，可以提取出第一样本图像的静态结构特征信息，其中卷积处理和池化处理提取图像的静态结构特征信息的具体过程可以参见上述图2所对应实施例中的步骤S102的描述。得到第一样本图像的静态结构特征信息后，根据卷积神经网络模型中的分类器，识别第一样本图像的静态结构特征信息与卷积神经网络模型中多个属性类型特征的匹配度，匹配度越高说明第一样本图像的静态结构特征信息与卷积神经网络模型中包含的属性类型特征的匹配概率越大。将上述得到的与多个属性类型特征的匹配度和多个属性类型特征对应的标签信息进行关联，得到第三标签信息集合。

步骤S403，提取所述第二样本图像的静态结构特征信息，并根据所述卷积神经网络模型中的分类器，识别所述第二样本图像的静态结构特征信息与所述多个属性类型特征的匹配度，将由所述第二样本图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第四标签信息集合；

具体的，通过卷积处理和池化处理，可以提取出第二样本图像的静态结构特征信息。得到第二样本图像的静态结构特征信息后，根据卷积神经网络模型中的分类器，识别第二样本图像的静态结构特征信息与卷积神经网络模型中多个属性类型特征的匹配度，匹配度越高说明第二样本图像的静态结构特征信息与卷积神经网络模型中包含的属性类型特征的匹配概率越大。属性类型特征的数量和种类是训练卷积神经网络模型时设置的。将上述得到的与多个属性类型特征的匹配度和多个属性类型特征对应的标签信息进行关联，得到第四标签信息集合。

步骤S404，根据所述第一样本图像的静态结构特征信息和所述第三标签信息集合、所述第二样本图像的静态结构特征信息和所述第四标签信息集合，确定模型损失值，并根据所述模型损失值，调整所述卷积神经网络模型中参数的权值；

具体的，根据第三标签信息集合和第一样本图像对应的样本属性类型，生成第一样本图像的识别损失值(第一样本图像的识别损失值可以用Reloss_1表示)，可以根据公式(5)计算识别损失值：

其中，x表示图像(第一样本图像或第二样本图像)的静态结构特征信息，p(x)表示图像的样本属性类型，q(x)表示第三标签信息集合中的多个匹配度。

同理根据第四标签信息和第二样本图像对应的样本属性类型，利用公式(5)，生成第二样本图像的识别损失值(第二样本图像的识别损失值可以用Reloss_2表示)。

检测第一样本图像对应的样本属性类型和第二样本图像对应的样本属性类型是否相同，若第一样本图像对应的样本属性类型和第二样本图像对应的样本属性类型相同，将第一样本图像的静态结构特征信息和第二样本图像的静态结构特征信息代入公式(6)，计算验证损失值(验证损失值可以用Veloss表示)：

其中，公式(6)中，x_i表示第一样本图像，x_j表示第二样本图像，f(x_i)表示第一样本图像的静态结构特征信息，f(x_j)表示第二样本图像的静态结构特征信息。

若第一样本图像对应的样本属性类型和第二样本图像对应的样本属性类型不同，将第一样本图像的静态结构特征信息和第二样本图像的静态结构特征信息代入公式(7)，计算验证损失值：

其中，公式(7)中，x_i表示第一样本图像，x_j表示第二样本图像，f(x_i)表示第一样本图像的静态结构特征信息，f(x_j)表示第二样本图像的静态结构特征信息，δ是一个预设的控制变量。

将第一样本图像的识别损失值(Reloss_1)、第二样本图像的识别损失值(Reloss_2)、验证损失值确定为模型损失值(Veloss)，根据模型损失值反向调整卷积神经网络模型中卷积层、池化层、全连接层中神经元的权值，目的是尽可能地增大不同表情特征之间的差异，同时减小同一表情特征之间的差异。当然，为了平衡两种损失(识别损失值和验证损失值)，可以为每种损失设置一个平衡因子。权值调整完成的卷积神经网络模型可以用于提取图像的静态结构特征信息。

请参见图5a是，本发明实施例提供的一种调整卷积神经网络模型的示意图。图像20a和图像20b中均包含脸部表情，将图像20a输入卷积神经网络模型中，通过多个卷积层的卷积处理和多个池化层的池化处理，以及全连接层中神经元的共享权值，得到图像20a的静态结构特征信息，并将图像20a的静态结构特征信息存储在特征存储单元20c中；同理，将图像20b输入卷积神经网络模型中，通过卷积层、池化层和全连接层得到图像20b的静态结构特征信息，将图像20b的静态结构特征信息存储在特征存储单元20d中。识别损失值计算器根据图像20a的静态结构特征信息，并根据该静态结构特征信息和图像20a中脸部表情的真实属性类型(伤心)，计算图像20a的识别损失值；识别损失值计算器根据图像20b的静态结构特征信息，并根据该静态结构特征信息和图像20b中脸部表情的真实属性类型(开心)，计算图像20b的识别损失值；验证损失值计算器根据图像20a的静态特征信息和20b的静态特征信息，计算验证损失值。权值控制器根据图像20a的识别损失值、图像20b的识别损失值、验证损失值反向调整卷积神经网络模型中卷积层、池化层、以及全连接层多个神经元的权值。

步骤S405，获取包含目标对象的目标视频，在所述目标视频中提取目标视频帧图像，并根据对象关键点信息、所述目标视频中的多个视频帧生成多个关键点视频帧，并将所述多个关键点视频帧组合为关键点视频帧序列；

步骤S406，提取所述关键点视频帧序列的动态时序特征信息，并提取所述目标视频帧图像的静态结构特征信息；

步骤S407，根据所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息，识别所述目标视频中的目标对象对应的属性类型。

其中，步骤S405-步骤S407的具体实现方式可以参见上述图2所对应实施例中的步骤S101-步骤S103，此处不再赘述。

进一步的，请参见图6，是本发明实施例提供的一种图像识别装置的结构示意图。如图6所示，所述图像识别装置1可以包括：第一获取模块11，提取模块12，第一识别模块13；

第一获取模块11，用于获取包含目标对象的目标视频，在所述目标视频中提取目标视频帧图像，并根据对象关键点信息、所述目标视频中的多个视频帧生成多个关键点视频帧，并将所述多个关键点视频帧组合为关键点视频帧序列；

第一提取模块12，用于提取所述关键点视频帧序列的动态时序特征信息；

第二提取模块13，用于提取所述目标视频帧图像的静态结构特征信息；

第一识别模块14，用于根据所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息，识别所述目标视频中的目标对象对应的属性类型。

其中，第一获取模块11，第一提取模块12，第二提取模块13，第一识别模块14的具体功能实现方式可以参见上述图2对应实施例中的步骤S101-步骤S103，这里不再进行赘述。

请一并参见图6，第一提取模块12可以包括：组合单元121，第一提取单元122，连接单元123；

组合单元121，用于在所述关键点视频帧序列中的每个关键点视频帧中提取关键标志区域，将所有关键点视频帧中具有相同关键标志区域组合为单位关键点视频帧序列；

第一提取单元122，用于将各单位关键点视频帧序列分别输入递归神经网络模型中，提取每个单位关键点视频帧序列的动态时序特征信息；

连接单元123，用于根据各单位关键点视频帧序列对应的关键标志区域之间的位置关系，将所述各单位关键点视频帧序列的动态时序特征信息进行连接，得到所述关键点视频帧序列的动态时序特征信息。

其中，组合单元121、第一提取单元122、连接单元123的具体功能实现方式可以参见上述图2对应实施例中的步骤S102这里不再进行赘述。

请一并参见图6，第二提取模块13可以包括：输入单元131，第二提取单元132；

输入单元131，用于将所述目标视频帧图像输入卷积神经网络模型的输入层中；

第二提取单元132，用于通过卷积层的卷积处理和池化层的池化处理，提取所述目标视频帧图像的静态结构特征信息。

其中，输入单元131，第二提取单元132的具体功能实现方式可以参见上述图2对应实施例中的步骤S102这里不再进行赘述。

请参见图6，第一识别模块14包括：第一识别单元141，第二识别单元142，第一融合单元143，第二融合单元144，第三识别单元145，第四识别单元146；

第一识别单元141，用于根据递归神经网络模型中的分类器，识别所述关键点视频帧序列的动态时序特征信息与所述递归神经网络模型中多个属性类型特征的匹配度，将由所述关键点视频帧序列的动态时序特征信息得到的匹配度与所述递归神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第一标签信息集合；

第二识别单元142，用于根据所述卷积神经网络中的分类器，识别所述目标视频帧图像的静态结构特征信息与所述卷积神经网络模型中多个属性类型特征的匹配度，将由所述目标视频帧图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第二标签信息集合；

第一融合单元143，用于将所述第一标签信息集合和所述第二标签信息集合进行融合，得到所述目标视频中的目标对象对应的属性类型；

第二融合单元144，用于将所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息进行融合，得到融合特征信息；

第三识别单元145，用于根据递归神经网络模型中的分类器，识别所述融合特征信息与所述递归神经网络模型中多个属性类型特征的匹配度，将由所述递归神经网络模型得到的匹配度与所述递归神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第一标签信息集合；

第四识别单元146，用于根据卷积神经网络中的分类器，识别所述融合特征信息与所述卷积神经网络中多个属性类型特征的匹配度，将由所述卷积神经网络模型得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第二标签信息集合；

其中，第一识别单元141，第二识别单元142，第一融合单元143的具体功能实现方式可以参见上述图3对应实施例中的步骤S203-步骤S205，第二融合单元144，第三识别单元145，第四识别单元146的具体功能实现方式可以参见上述图3对应实施例中的步骤S303-步骤S305，这里不再进行赘述。其中，第一识别单元141，第二识别单元142在执行相应操作时，第二融合单元144，第三识别单元145，第四识别单元146可以停止执行操作；同样的，第二融合单元144，第三识别单元145，第四识别单元146在执行相应操作时，第一识别单元141，第二识别单元142可以停止执行操作。

请参见图6，第一融合单元143可以包括：计算子单元1431，确定子单元1432；

计算子单元1431，用于在所述第一标签信息集合和所述第二标签信息集合中，将属于相同标签信息所关联的匹配度进行加权平均，并将加权平均后的匹配度和进行加权平均所对应的标签信息进行关联，得到目标标签信息集合；

确定子单元1432，用于在所述目标标签信息集合中提取具有最大匹配度所关联的标签信息，并将提取出的标签信息，作为所述目标视频中的目标对象对应的属性类型。

其中，计算子单元1431，确定子单元1432的具体功能实现方式可以参见上述图3对应实施例中的步骤S205，这里不再进行赘述。

如图6所示，所述图像识别装置1可以包括：第一获取模块11，第一提取模块12，，第二提取模块13，第一识别模块14；图像识别装置1还可以包括：第二获取模块15，第二识别模块16，第三识别模块17，确定模块18；

第二获取模块15，用于获取第一样本图像和第二样本图像；

第二识别模块16，用于提取所述第一样本图像的静态结构特征信息，并根据所述卷积神经网络模型中的分类器，识别所述第一样本图像的静态结构特征信息与所述卷积神经网络模型中多个属性类型特征的匹配度，将由所述第一样本图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第三标签信息集合；

第三识别模块17，用于提取所述第二样本图像的静态结构特征信息，并根据所述卷积神经网络模型中的分类器，识别所述第二样本图像的静态结构特征信息与所述多个属性类型特征的匹配度，将由所述第二样本图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第四标签信息集合；

确定模块18，用于根据所述第一样本图像的静态结构特征信息和所述第三标签信息集合、所述第二样本图像的静态结构特征信息和所述第四标签信息集合，确定模型损失值，并根据所述模型损失值，调整所述卷积神经网络模型中参数的权值。

其中，第二获取模块15，第二识别模块16，第三识别模块17，确定模块18的具体功能实现方式可以参见上述图5对应实施例中的步骤S401-步骤S404，这里不再进行赘述。

如图6所示，确定模块18包括：第一生成单元181，第二生成单元182，第三生成单元183，第四生成单元184；

第一生成单元181，用于根据所述第三标签信息集合、所述第一样本图像对应的样本属性类型，生成所述第一样本图像的识别损失值；

第二生成单元182，用于根据所述第四标签信息集合、所述第二样本图像对应的样本属性类型，生成所述第二样本图像的识别损失值；

第三生成单元183，用于根据所述第一样本图像的静态结构特征信息、所述第一样本图像对应的样本属性类型、所述第二样本图像的静态结构特征信息、所述第二样本图像对应的样本属性类型，生成所述验证损失值；

第四生成单元184，用于根据所述第一样本图像的识别损失值、所述第二样本图像的识别损失值、所述验证损失值，生成所述模型损失值。

其中，第一生成单元181，第二生成单元182，第三生成单元183，第四生成单元184的具体功能实现方式可以参见上述图5对应实施例中的步骤S404，这里不再进行赘述。

进一步地，请参见图7，是本发明实施例提供的一种终端设备的结构示意图。如图7所示，上述图6中的图像识别装置1可以应用于所述终端设备1000，所述终端设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，所述终端设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示，作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图7所示的终端设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1004中存储的设备控制应用程序，以实现：

在一个实施例中，所述处理器1001在执行所述提取所述关键点视频帧序列的动态时序特征信息时，具体执行以下步骤：

在一个实施例中，所述处理器1001在执行所述提取所述目标视频帧图像的静态结构特征信息时，具体执行以下步骤：

将所述目标视频帧图像输入卷积神经网络模型的输入层中；

在一个实施例中，所述处理器1001在执行所述根据所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息，识别所述目标视频中的目标对象对应的属性类型时，具体执行以下步骤：

根据所述卷积神经网络模型中的分类器，识别所述目标视频帧图像的静态结构特征信息与所述卷积神经网络模型中多个属性类型特征的匹配度，将由所述目标视频帧图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第二标签信息集合；

在一个实施例中，所述处理器1001在执行所述将所述第一标签信息集合和所述第二标签信息集合进行融合，得到所述目标视频中的目标对象对应的属性类型时，具体执行以下步骤：

在一个实施例中，所述处理器1001还执行以下步骤：

获取第一样本图像和第二样本图像；

提取所述第一样本图像的静态结构特征信息，并根据所述卷积神经网络模型中的分类器，识别所述第一样本图像的静态结构特征信息与所述卷积神经网络模型中多个属性类型姿特征的匹配度，将由所述第一样本图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第三标签信息集合；

在一个实施例中，所述模型损失值包括识别损失值和验证损失值；

所述处理器1001在执行所述根据所述第一样本图像的静态结构特征信息和所述第三标签信息集合、所述第二样本图像的静态结构特征信息和所述第四标签信息集合，确定模型损失值时，具体执行以下步骤：

应当理解，本发明实施例中所描述的终端设备1000可执行前文图2到图5a所对应实施例中对所述图像识别方法的描述，也可执行前文图6所对应实施例中对所述图像识别装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且所述计算机存储介质中存储有前文提及的图像识别装置1所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图2到图5a所对应实施例中对所述图像识别方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种图像识别方法，其特征在于，包括：

获取包含目标对象的目标视频，在所述目标视频中提取目标视频帧图像，并根据对象关键点信息、所述目标视频中的多个视频帧生成多个关键点视频帧，并将所述多个关键点视频帧组合为关键点视频帧序列；所述对象关键点信息是指所述目标对象的标志性部位；

将各单位关键点视频帧序列分别输入递归神经网络模型中，提取每个单位关键点视频帧序列的局部动态时序特征信息；

根据各单位关键点视频帧序列对应的关键标志区域之间的位置关系，将位置相近的关键标志区域对应的单位关键点视频帧序列的局部动态时序特征信息进行连接，得到至少两个连接后的局部动态时序特征信息；

通过所述递归神经网络模型，分别提取所述至少两个连接后的局部动态时序特征信息的特征信息，将连接后的局部动态时序特征信息的特征信息进行连接，得到所述关键点视频帧序列的动态时序特征信息；

提取所述目标视频帧图像的静态结构特征信息；

2.根据权利要求1所述的方法，其特征在于，所述提取所述目标视频帧图像的静态结构特征信息，包括：

将所述目标视频帧图像输入卷积神经网络模型的输入层中；

3.根据权利要求1所述的方法，其特征在于，所述根据所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息，识别所述目标视频中的目标对象对应的属性类型，包括：

根据卷积神经网络模型中的分类器，识别所述目标视频帧图像的静态结构特征信息与所述卷积神经网络模型中多个属性类型特征的匹配度，将由所述目标视频帧图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第二标签信息集合；

4.根据权利要求1所述的方法，其特征在于，所述根据所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息，识别所述目标视频中的目标对象对应的属性类型，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述将所述第一标签信息集合和所述第二标签信息集合进行融合，得到所述目标视频中的目标对象对应的属性类型，包括：

6.根据权利要求2所述的方法，其特征在于，还包括：

获取第一样本图像和第二样本图像；

7.根据权利要求6所述的方法，其特征在于，所述模型损失值包括识别损失值和验证损失值；

根据所述第三标签信息集合和所述第一样本图像对应的样本属性类型，生成所述第一样本图像的识别损失值；

根据所述第四标签信息集合和所述第二样本图像对应的样本属性类型，生成所述第二样本图像的识别损失值；

根据所述第一样本图像的静态结构特征信息、所述第一样本图像对应的样本属性类型、所述第二样本图像的静态结构特征信息和所述第二样本图像对应的样本属性类型，生成所述验证损失值；

根据所述第一样本图像的识别损失值、所述第二样本图像的识别损失值和所述验证损失值，生成所述模型损失值。

8.一种图像识别装置，其特征在于，包括：

第一获取模块，用于获取包含目标对象的目标视频，在所述目标视频中提取目标视频帧图像，并根据对象关键点信息、所述目标视频中的多个视频帧生成多个关键点视频帧，并将所述多个关键点视频帧组合为关键点视频帧序列；所述对象关键点信息是指所述目标对象的标志性部位；

第一识别模块，用于根据所述关键点视频帧序列的动态时序特征信息和所述目标视频帧图像的静态结构特征信息，识别所述目标视频中的目标对象对应的属性类型；

所述第一提取模块，包括：

第一提取单元，用于将各单位关键点视频帧序列分别输入递归神经网络模型中，提取每个单位关键点视频帧序列的局部动态时序特征信息；

连接单元，用于根据各单位关键点视频帧序列对应的关键标志区域之间的位置关系，将位置相近的关键标志区域对应的单位关键点视频帧序列的局部动态时序特征信息进行连接，得到至少两个连接后的局部动态时序特征信息，通过所述递归神经网络模型，分别提取所述至少两个连接后的局部动态时序特征信息的特征信息，将连接后的局部动态时序特征信息的特征信息进行连接，得到所述关键点视频帧序列的动态时序特征信息。

9.根据权利要求8所述的装置，其特征在于，所述第二提取模块，包括：

10.根据权利要求8所述的装置，其特征在于，所述第一识别模块，包括：

第二识别单元，用于根据卷积神经网络中的分类器，识别所述目标视频帧图像的静态结构特征信息与所述卷积神经网络模型中多个属性类型特征的匹配度，将由所述目标视频帧图像的静态结构特征信息得到的匹配度与所述卷积神经网络模型中多个属性类型特征对应的标签信息进行关联，得到第二标签信息集合；

11.根据权利要求8所述的装置，其特征在于，所述第一识别模块，包括：

12.一种终端设备，其特征在于，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1-7任一项所述的方法。

13.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-7任一项所述的方法。