CN110147699B

CN110147699B - 一种图像识别方法、装置以及相关设备

Info

Publication number: CN110147699B
Application number: CN201810325819.3A
Authority: CN
Inventors: 刘家瑛; 宋思捷; 厉扬豪; 马林; 刘威; 王巨宏; 黄婷婷
Original assignee: Peking University; Tencent Technology Shenzhen Co Ltd
Current assignee: Peking University; Tencent Technology Shenzhen Co Ltd
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2023-11-21
Anticipated expiration: 2038-04-12
Also published as: CN110147699A

Abstract

本发明实施例公开了一种图像识别方法、装置以及相关设备，方法包括：根据多个样本视频以及与所述多个样本视频关联的多个辅助数据，生成识别模型的调整辅助参数；根据所述多个样本视频的分类误差参数以及所述调整辅助参数调整识别模型，当调整辅助参数和分类误差参数之和小于目标阈值时，将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。采用本发明，可以提高图像识别的准确率。

Description

一种图像识别方法、装置以及相关设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种图像识别方法、装置以及相关设备。

背景技术

动作识别是通过相关技术对视频或者图像序列中的运动行为提取出具有分辨能力的特征并进行识别分析。动作识别在视频检测、运动分析、虚拟现实、辅助医疗、人机智能交互等领域具有广泛的作用。例如，在视频检测中可以实现目标检测和异常事件识别，有效遏制犯罪，保证场所内人们的人身、财产安全；在体育竞技领域中，可以提供精确的数据分析和支持，提升竞技领域的公正性。

基于深度学习对动作识别的流程是：首先将视频图像数据输入到卷积神经网络模型中，用前向传播的方法通过神经元传递信息，然后用基于反向传播的方法更新卷积神经网络模型的权值参数。训练完成后的卷积神经网络模型可以自动地从视频图像中学习动作特征，并利用这些动作特征进行后续的分类识别。

基于一种模态的数据训练识别模型，数据类型单一，造成识别模型在识别图像过程中缺少提取出更具有判别了的特征的能力，进而图像识别的准确率低下。

发明内容

本发明实施例提供一种图像识别方法、装置以及相关设备，可以提高图像识别的准确率。

本发明一方面提供了一种图像识别方法，包括：

根据多个样本视频以及与所述多个样本视频关联的多个辅助数据，生成识别模型的调整辅助参数；

根据所述多个样本视频的分类误差参数以及所述调整辅助参数调整识别模型，当调整辅助参数和分类误差参数之和小于目标阈值时，将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。

其中，所述根据多个样本视频以及与所述多个样本视频关联的多个辅助数据，生成识别模型的调整辅助参数包括：

根据所述多个样本视频，生成每个样本视频分别对应的样本时空特征信息；

根据所述多个辅助数据，生成每个辅助数据分别对应的辅助时序特征信息；

根据所述多个样本视频和所述多个辅助数据之间的属性关联关系、多个样本时空特征信息、多个辅助时序特征信息，生成所述识别模型的调整辅助参数。

其中，所述根据所述多个样本视频，生成每个样本视频分别对应的样本时空特征信息，包括：

获取所述多个样本视频，在所述每个样本视频中提取多个样本视频帧图像，并生成与每个样本视频帧图像分别对应的样本光流图像序列；

根据所述每个样本视频中的所述样本视频帧图像，生成所述每个样本视频分别对应的第一时空特征信息，并根据所述每个样本视频中的所述样本光流图像序列，生成所述每个样本视频分别对应的第二时空特征信息；

将所述第一时空特征信息和所述第二时空特征信息均作为所述样本时空特征信息。

其中，所述生成与每个样本视频帧图像分别对应的样本光流图像序列，包括：

根据样本视频帧图像和与所述样本视频帧图像相邻的视频帧图像，生成多个样本光流图像，并将所述多个样本光流图像组合为所述样本光流图像序列；

将所述样本光流图像序列中的样本光流图像的分辨率与所述样本视频帧图像的分辨率均调整至目标分辨率。

其中，所述根据所述每个样本视频中的所述样本视频帧图像，生成所述每个样本视频分别对应的第一时空特征信息，并根据所述每个样本视频中的所述样本光流图像序列，生成所述每个样本视频分别对应的第二时空特征信息，包括：

基于所述识别模型中的卷积神经网络，对每个样本视频帧图像以及每个样本光流图像序列分别进行卷积处理，提取所述每个样本视频帧图像分别对应的空间特征信息，以及提取每个样本光流图像序列分别对应的空间特征信息；

基于所述识别模型中的递归神经网络，对所述每个样本视频帧图像的空间特征信息以及所述每个样本光流图像序列的空间特征信息分别进行时序处理，得到所述每个样本视频帧图像和每个样本光流图像序列分别对应的时空特征信息；

根据所述每个样本视频中的所述样本视频帧图像对应的时空特征信息，生成所述每个样本视频分别对应的第一时空特征信息；以及

根据所述每个样本视频中的所述样本光流图像序列对应的时空特征信息，生成所述每个样本视频分别对应的所述第二时空特征信息。

其中，所述根据所述多个辅助数据，生成每个辅助数据分别对应的辅助时序特征信息，具体包括：

获取与所述多个样本视频关联的多个辅助数据，并基于辅助递归神经网络模型，对每个辅助数据分别进行时序处理，得到所述每个辅助数据分别对应的辅助时序特征信息。

其中，所述调整辅助参数包括第一辅助参数和第二辅助参数；所述分类误差参数包括第一分类误差子参数和第二分类误差子参数；所述目标阈值包括第一阈值和第二阈值；

所述根据所述多个样本视频的分类误差参数以及所述调整辅助参数调整识别模型，当调整辅助参数和分类误差参数之和小于目标阈值时，将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型，包括：

根据所述第一辅助参数和第一分类误差子参数之和、所述第二辅助参数和第二分类误差子参数之和，调整所述识别模型，当所述第一辅助参数和所述第一分类误差子参数之和小于所述第一阈值，且所述第二辅助参数和所述第二分类误差子参数之和小于所述第二阈值时，将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。

其中，所述根据所述多个样本视频和所述多个辅助数据之间的属性关联关系、多个样本时空特征信息、多个辅助时序特征信息，生成识别模型的调整辅助参数，包括：

若所述多个样本视频和所述多个辅助数据之间为样本对应关系，则根据属于相同对象内容的样本时空特征信息和辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数；

若所述多个样本视频和所述多个辅助数据之间为类别对应关系，则根据属于相同属性类型的样本时空特征信息和辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数；

若所述多个样本视频和所述多个辅助数据之间为模态对应关系，则根据所有样本时空特征信息与所有辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数。

其中，所述根据属于相同对象内容的样本时空特征信息和辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数，包括：

分别计算属于相同对象内容的第一时空特征信息与辅助时序特征信息之间的欧式距离，并将与所述第一时空特征信息对应的所有欧式距离的平均值，确定为所述第一辅助参数；

分别计算属于相同对象内容的第二时空特征信息与辅助时序特征信息之间的欧式距离，并将与所述第二时空特征信息对应的所有欧式距离的平均值，确定为所述第二辅助参数。

其中，所述根据属于相同属性类型的样本时空特征信息和辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数，包括：

分别计算属于相同属性类型的第一时空特征信息与辅助时序特征信息之间的最大平均差异值，并将与所述第一时空特征信息对应的所有最大平均差异值之和，确定为所述第一辅助参数；

分别计算属于相同属性类型的第二时空特征信息与辅助时序特征信息之间的最大平均差异值，并将与所述第二时空特征信息对应的所有最大平均差异值之和，确定为所述第二辅助参数。

其中，所述根据所有样本时空特征信息与所有辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数，包括：

计算所有第一时空特征信息与所有辅助时序特征信息之间的最大平均差异值，作为所述第一辅助参数；

计算所有第二时空特征信息与所有辅助时序特征信息之间的最大平均差异值，作为所述第二辅助参数。

其中，还包括：

分别识别每个第一时空特征信息与所述识别模型中多个属性类型特征之间的匹配度，将由所述每个第一时空特征信息得到的匹配度与所述识别模型中多个属性类型特征对应的标签信息进行关联，得到第一标签信息集合；

分别识别每个第二时空特征信息与所述识别模型中多个属性类型特征之间的匹配度，将由所述每个第二时空特征信息得到的匹配度与所述识别模型中多个属性类型特征对应的标签信息进行关联，得到第二标签信息集合；

根据所述第一标签信息集合和所述第二标签信息集合确定所述分类误差参数。

其中，所述根据所述第一标签信息集合和所述第二标签信息集合确定所述分类误差参数，包括：

根据所述第一标签信息集合、所述多个样本视频的样本属性类型，确定所述第一分类误差子参数；

根据所述第二标签信息集合、所述多个样本视频的样本属性类型，确定所述第二分类误差子参数；

将所述第一分类误差子参数和所述第二分类误差子参数均作为所述分类误差参数。

其中，还包括：

若获取到图像识别请求，则根据所述图像识别请求获取包含目标对象的目标视频，在所述目标视频中提取目标视频帧图像，并生成与所述目标视频帧图像对应的目标光流图像序列；

基于所述目标识别模型生成所述目标视频帧图像的第三时空特征信息以及所述目标光流图像序列的第四时空特征信息，并分别识别所述第三时空特征信息、所述第四时空特征信息与所述目标识别模型中多个属性类型特征的匹配度；

将由所述第三时空特征信息得到的匹配度与所述目标识别模型中多个属性类型特征对应的标签信息进行关联，得到第三标签信息集合，以及将由所述第四时空特征信息得到的匹配度与所述目标识别模型中多个属性类型特征对应的标签信息进行关联，得到第四标签信息集合；

将所述第三标签信息集合和所述第四标签信息集合进行融合，得到所述目标视频中的目标对象对应的属性类型。

其中，所述将所述第三标签信息集合和所述第四标签信息集合进行融合，得到所述目标视频中的目标对象对应的属性类型，包括：

在所述第三标签信息集合和所述第四标签信息集合中，将属于相同标签信息所关联的匹配度进行加权平均，并将加权平均后的匹配度和所述标签信息进行关联，得到目标标签信息集合；

在所述目标标签信息集合中提取具有最大匹配度所关联的标签信息，并将提取出的标签信息，作为所述目标视频中的目标对象对应的属性类型。

本发明另一方面提供了一种图像识别装置，包括：

第一生成模块，用于根据多个样本视频以及与所述多个样本视频关联的多个辅助数据，生成识别模型的调整辅助参数；

调整模块，用于根据所述多个样本视频的分类误差参数以及所述调整辅助参数调整识别模型，当调整辅助参数和分类误差参数之和小于目标阈值时，将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。

其中，所述第一生成模块，包括：

第一生成单元，用于根据所述多个样本视频，生成每个样本视频分别对应的样本时空特征信息；

第二生成单元，用于根据所述多个辅助数据，生成每个辅助数据分别对应的辅助时序特征信息；

参数生成单元，用于根据所述多个样本视频和所述多个辅助数据之间的属性关联关系、多个样本时空特征信息、多个辅助时序特征信息，生成所述识别模型的调整辅助参数。

其中，所述第一生成单元，包括：

获取子单元，用于获取所述多个样本视频，在所述每个样本视频中提取多个样本视频帧图像；

获取子单元，还用于生成与每个样本视频帧图像分别对应的样本光流图像序列；

生成子单元，用于根据所述每个样本视频中的所述样本视频帧图像，生成所述每个样本视频分别对应的第一时空特征信息，并根据所述每个样本视频中的所述样本光流图像序列，生成所述每个样本视频分别对应的第二时空特征信息；

特征确定单元，用于将所述第一时空特征信息和所述第二时空特征信息均作为所述样本时空特征信息。

其中，所述获取子单元，包括：

组合子单元，用于根据所述样本视频帧图像和与所述样本视频帧图像相邻的视频帧图像，生成多个样本光流图像，并将所述多个样本光流图像组合为所述样本光流图像序列；

调整子单元，用于将所述样本光流图像序列中的样本光流图像的分辨率与所述样本视频帧图像的分辨率均调整至目标分辨率。

其中，所述生成子单元，包括：

第一提取子单元，用于基于所述识别模型中的卷积神经网络，对每个样本视频帧图像以及每个样本光流图像序列分别进行卷积处理，提取所述每个样本视频帧图像分别对应的空间特征信息，以及提取每个样本光流图像序列分别对应的空间特征信息；

第二提取子单元，用于基于所述识别模型中的递归神经网络，对所述每个样本视频帧图像的空间特征信息以及所述每个样本光流图像序列的空间特征信息分别进行时序处理，得到所述每个样本视频帧图像和每个样本光流图像序列分别对应的时空特征信息。

第一提取子单元，还用于根据所述每个样本视频中的所述样本视频帧图像对应的时空特征信息，生成所述每个样本视频分别对应的第一时空特征信息；

第二提取子单元，还用于根据所述每个样本视频中的所述样本光流图像序列对应的时空特征信息，生成所述每个样本视频分别对应的所述第二时空特征信息。

其中，所述第二生成单元，具体用于：获取与所述多个样本视频关联的多个辅助数据，并基于辅助递归神经网络模型，对每个辅助数据分别进行时序处理，得到所述每个辅助数据分别对应的辅助时序特征信息。

所述调整模块，具体用于：

其中，所述参数生成单元，包括：

第一计算子单元，用于若所述多个样本视频和所述多个辅助数据之间为样本对应关系，则根据属于相同对象内容的样本时空特征信息和辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数；

第二计算子单元，用于若所述多个样本视频和所述多个辅助数据之间为类别对应关系，则根据属于相同属性类型的样本时空特征信息和辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数；

第三计算子单元，用于若所述多个样本视频和所述多个辅助数据之间为模态对应关系，则根据所有样本时空特征信息与所有辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数。

其中，所述第一计算子单元，包括：

第一确定子单元，用于分别计算属于相同对象内容的第一时空特征信息与辅助时序特征信息之间的欧式距离，并将与所述第一时空特征信息对应的所有欧式距离的平均值，确定为所述第一辅助参数；

第二确定子单元，用于分别计算属于相同对象内容的第二时空特征信息与辅助时序特征信息之间的欧式距离，并将与所述第二时空特征信息对应的所有欧式距离的平均值，确定为所述第二辅助参数。

其中，

所述第一确定子单元，还用于分别计算属于相同属性类型的第一时空特征信息与辅助时序特征信息之间的最大平均差异值，并将与所述第一时空特征信息对应的所有最大平均差异值之和，确定为所述第一辅助参数；

所述第二确定子单元，还用于分别计算属于相同属性类型的第二时空特征信息与辅助时序特征信息之间的最大平均差异值，并将与所述第二时空特征信息对应的所有最大平均差异值之和，确定为所述第二辅助参数。

其中，

所述第一确定子单元，还用于计算所有第一时空特征信息与所有辅助时序特征信息之间的最大平均差异值，作为所述第一辅助参数；

第二确定子单元，还用于计算所有第二时空特征信息与所有辅助时序特征信息之间的最大平均差异值，作为所述第二辅助参数。

其中，还包括：

第一确定模块，用于分别识别每个第一时空特征信息与所述识别模型中多个属性类型特征之间的匹配度，将由所述每个第一时空特征信息得到的匹配度与所述识别模型中多个属性类型特征对应的标签信息进行关联，得到第一标签信息集合；

第二确定模块，用于分别识别每个第二时空特征信息与所述识别模型中多个属性类型特征之间的匹配度，将由所述每个第二时空特征信息得到的匹配度与所述识别模型中多个属性类型特征对应的标签信息进行关联，得到第二标签信息集合；

第三确定模块，用于根据所述第一标签信息集合和所述第二标签信息集合确定所述分类误差参数。

其中，所述第三确定模块，包括：

第一确定单元，用于根据所述第一标签信息集合、所述多个样本视频的样本属性类型，确定所述第一分类误差子参数；

第二确定单元，用于根据所述第二标签信息集合、所述多个样本视频的样本属性类型，确定所述第二分类误差子参数；

第三确定单元，用于将所述第一分类误差子参数和所述第二分类误差子参数均确定为所述分类误差参数。

其中，还包括：

第二生成模块，用于若获取到图像识别请求，则根据所述图像识别请求获取包含目标对象的目标视频，在所述目标视频中提取目标视频帧图像，并生成与所述目标视频帧图像对应的目标光流图像序列；

所述第一确定模块，还用于基于所述目标识别模型生成所述目标视频帧图像的第三时空特征信息以及所述目标光流图像序列的第四时空特征信息，并分别识别所述第三时空特征信息、所述第四时空特征信息与所述目标识别模型中多个属性类型特征的匹配度；

所述第二确定模块，还用于将由所述第三时空特征信息得到的匹配度与所述目标识别模型中多个属性类型特征对应的标签信息进行关联，得到第三标签信息集合，以及将由所述第四时空特征信息得到的匹配度与所述目标识别模型中多个属性类型特征对应的标签信息进行关联，得到第四标签信息集合；

所述第三确定模块，还用于将所述第三标签信息集合和所述第四标签信息集合进行融合，得到所述目标视频中的目标对象对应的属性类型。

其中，

所述第一确定单元，还用于在所述第三标签信息集合和所述第四标签信息集合中，将属于相同标签信息所关联的匹配度进行加权平均，并将加权平均后的匹配度和所述标签信息进行关联，得到目标标签信息集合；

所述第二确定单元，还用于在所述目标标签信息集合中提取具有最大匹配度所关联的标签信息，并将提取出的标签信息，作为所述目标视频中的目标对象对应的属性类型。

本发明另一方面提供了一种终端设备，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如本发明实施例中一方面中的方法。

本发明实施例另一方面提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如本发明实施例中一方面中的方法。

本发明实施例通过根据多个样本视频以及与所述多个样本视频关联的多个辅助数据，生成识别模型的调整辅助参数；根据所述多个样本视频的分类误差参数以及所述调整辅助参数调整识别模型，当调整辅助参数和分类误差参数之和小于目标阈值时，将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。由于可以根据不同模态的样本数据调整识别模型的参数，使得调整后的识别模型可以兼容多种模态的数据，增强识别模型提取图像特征信息的准确性，使提取出来的特征信息更具有判别力，进而提高识别模型后续对图像识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a-图1b是本发明实施例提供的一种图像识别方法的场景示意图；

图2是本发明实施例提供的一种图像识别方法的流程示意图；

图3是本发明实施例提供的另一种图像识别方法的流程示意图；

图3a是本发明实施例提供的一种图像识别方法的场景示意图；

图4是本发明实施例提供的另一种图像识别方法的流程示意图；

图4a是本发明实施例提供的一种确定调整辅助参数的示意图；

图5是本发明实施例提供的另一种图像识别方法的流程示意图；

图5a是本发明实施例提供的另一种确定调整辅助参数的示意图；

图6是本发明实施例提供的另一种图像识别方法的流程示意图；

图6a是本发明实施例提供的另一种确定调整辅助参数的示意图；

图7是本发明实施例提供的另一种图像识别方法的流程示意图；

图8是本发明实施例提供的一种图像识别装置的结构示意图；

图9是本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1a-图1b，是本发明实施例提供的一种图像识别方法的场景示意图。如图1a所示，该图像识别方法可应用于图像获取装置，例如摄像头中。在该方法中，首先获取用于训练行为检测模型的样本视频10a、样本视频10b和样本视频10c。对样本视频10a来说，将样本视频10a中的所有视频帧作为样本视频帧图像，将每一个样本视频帧图像和与该样本视频帧图像前向相邻和后向相邻的样本视频帧转图像换并组合为样本光流图像序列，即一个样本视频帧图像对应一个样本光流图像序列。将样本视频10a中的所有样本视频帧图像分别输入行为检测模型中的卷积神经网络10d，用于提取每一个样本视频帧图像的空间结构特征信息；将从样本视频帧图像提取出来的空间结构特征信息输入递归神经网络10x，用于提取每一个样本视频帧图像在时域和空域上的特征信息，将上述所有样本视频帧图像在时域和空域上的特征信息组合为第一时空特征信息，即是与样本视频10a对应的第一时空特征信息。将所有的样本光流图像序列分别输入行为检测模型中的卷积神经网络10f，用于提取每一个样本光流图像序列的空间结构特征信息；将从样本光流图像序列提取出来的空间结构特征信息输入递归神经网络10y，用于提取每一个样本光流图像序列10c在时域和空域上的特征信息，将上述所有样本光流图像序列在时域和空域上的特征信息组合为第二时空特征信息，即是与样本视频10a对应的第二时空特征信息。基于行为检测模型中的分类器10g识别上述提取出来的第一时空特征信息，得到识别结果，根据分类器10g识别出来的结果与样本视频10a真实的属性类型(奔跑)，确定第一分类误差。基于行为检测模型中的分类器10h识别上述提取出来的第二时空特征信息，得到识别结果，根据分类器10h识别出来的结果与样本视频真实的属性类型(奔跑)，确定第二分类误差。采用上述方式，还可以提取出样本视频10b的第一时空特征信息、样本视频10b的第二时空特征信息，进而确定样本视频10b的第一分类误差和第二分类误差；还可以提取出样本视频10c的第一时空特征信息、样本视频10c的第二时空特征信息，进而确定样本视频10c的第一分类误差和第二分类误差。将上述3个样本视频分别对应的第一分类误差的平均值作为第一误差参数，将上述3个样本视频分别对应的第二分类误差的平均值作为第二误差参数。获取与动作行为相关的三维骨架数据10e与三维骨架数据10e对应的真实属性类型(行走)。基于递归神经网络，提取三维骨架数据10e在时域空间内的时序特征信息，根据上述3个样本视频和三维骨架数据10e之间的属性关联关系，确定特征距离计算方式，根据该计算方式计算3个样本视频的第一时空特征信息和三维骨架数据10e的时序特征信息之间的特征距离，并将该特征距离作为第一辅助参数；采用相同的计算方式计算3个样本视频的第二时空特征信息和三维骨架数据10e的时序特征信息之间的特征距离，将该特征距离作为第二辅助参数。根据第一误差参数和第一辅助参数，对行为检测模型中的卷积神经网络10d和递归神经网络10x反向传播，调整卷积神经网络10d和递归神经网络10x中的参数；同理，根据第二误差参数和第二辅助参数，对行为检测模型中的卷积神经网络10f和递归神经网络10y反向传播，调整卷积神经网络10f和递归神经网络10y中的参数，以训练行为检测模型。通过对上述的样本视频重复上述步骤，以训练行为检测模型，直至该行为检测模型识别样本视频的识别误差在可接受范围内，即是当行为检测模型收敛时，就可以停止训练。上述方法可应用于多个不同的真实场景中。例如，为了提高公共安全，训练一个行为检测模型，该模型对公共摄像头所采集到的视频中的人物对象的行为进行实时地异常行为检测，即检测行为类型是否为特定的异常行为，一旦检测到摄像头所采集到的视频中存在恶意行为(例如，打架、行窃等)，就发出警报并标识出发生恶意行为的区域，以降低公共安全威胁。又例如，在人机交互方面，可在机器人上应用该检测模型，帮助机器人对人类行为作出反馈，带来更好的人机交互体验。再例如，在医疗监护方面，可将上述方法植入到监护系统中，通过检测摄像头等获取的视频信息，分析病患的行为，从而能够对例如摔倒等紧急情况及时作出预警，使病患得到及时救助。

如图1b所示，当获取到行为识别请求时，获取待识别的目标视频20a，将目标视频20a中当前视频帧作为目标视频帧图像20b。将目标视频帧图像20b以及与该目标视频帧前向相邻和后向相邻的视频帧转换并组合为目标光流图像序列20c。基于行为检测模型中的卷积神经网络10d的卷积处理和递归神经网络10x的时序处理，提取目标视频帧图像20b的时空特征信息，基于行为检测模型中的分类器10g识别目标视频帧图像20b的时空特征信息，得到第一标签信息集合为：0.1-奔跑、0.6-跳远、0.3-行走(奔跑、跳远、行走为属性类型，0.1、0.6、0.3为与属性类型匹配的概率)。同理，基于行为检测模型中的卷积神经网络10f的卷积处理和递归神经网络10y的时序处理，提取目标光流图像序列20c的时空特征信息，基于行为检测模型中的分类器10h识别目标光流图像序列20c的时空特征信息，得到第二标签信息集合为：0.1-奔跑、0.7-跳远、0.2-跳高。将上述第一标签信息集合和第二标签信息集合进行标签融合，即是将具有相同属性类型的概率进行加权平均，得到目标标签信息集合：0.1-奔跑((0.1+0.1)/2＝0.1)、0.75-跳远((0.6+0.7)/2＝0.65)。因此，根据目标标签信息集合“0.1-奔跑、0.65-跳远”，确定与目标视频20a对应的行为属性类型为：跳远，并输出标签信息20p为“跳远”。

此外，提取特征信息、生成调整辅助参数的具体过程可以参见以下图2至图7所对应的实施例。

进一步地，请参见图2，是本发明实施例提供的一种图像识别方法的流程示意图。如图2所示，所述图像识别方法可以包括：

步骤S101，根据多个样本视频以及与所述多个样本视频关联的多个辅助数据，生成识别模型的调整辅助参数。

具体的，获取用于训练识别模型(如上述图1a所对应实施例中的行为检测模型)的多个视频，该视频均称之为样本视频(如上述图1a所对应的实施例中的样本视频10a或者样本视频10b或者样本视频10c)，并生成每个样本视频对应的样本时空特征信息，其中每一个样本视频中的对象都只具有一种属性类型，对象可以包括：人、动物、植物等物种，属性类型可以是关于脸部表情的属性类型，例如，“愤怒”、“开心”、“恐惧”等；也可以是关于行为动作的属性类型，例如，“散步”、“慢跑”、“快跑”等；也可以是关于手势的属性类型，例如，“请”、“同意”、“拒绝”等。获取与样本视频中视频内容相关的辅助数据(如上述图1a所对应的实施例中的三维骨架数据10e)，例如，若样本视频的视频内容是关于脸部表情的，则辅助数据可以是人脸图像、人脸关键点区域数据等；若样本视频的视频内容是关于行为动作的，则辅助数据可以是三维骨架数据、行为发生的音频数据等，并分别生成每一个辅助数据对应的辅助时序特征信息。

检测多个样本视频和多个辅助数据之间的属性关联关系，若多个样本视频和多个辅助数据之间为样本对应关系，则分别计算属于同一个对象且同一个属性类型(同一的业务行为)的样本时空特征信息和辅助时序特征信息之间的特征距离，根据该特征距离确定调整辅助参数。样本对应关系是指样本视频和辅助数据在每一帧上都一一对应，一一对应既是指时间上的一一对应也是指业务行为上的一一对应，换句话说一个对象完成业务行为时，同时采集的视频和辅助数据之间的关系就是样本对应关系，调整辅助参数是用于调整识别模型的参数，增强该识别模型的识别能力。例如，A在操场上奔跑了3分钟，奔跑3分钟过程中同时采集的视频数据和辅助数据(例如，辅助数据为奔跑3分钟过程中的音频数据)就满足样本对应关系。

若多个样本视频和多个辅助数据之间为类别对应关系，则分别计算属于同一个属性类型(同一的业务行为，但不必是同一个对象完成的)的样本时空特征信息和辅助时序特征信息之间特征距离，根据该特征距离确定调整辅助参数。类别关系是指样本视频中对象所具有的属性类型的种类和辅助数据中对象所具有的属性类型的种类相同，或者辅助数据中对象所具有的属性类型的种类包含样本视频中对象所具有的属性类型的种类，但样本视频中的对象和辅助数据中的对象可以不同，且属于同一个属性类型样本视频所对应的完成时间和辅助数据所对应的完成时间可以相同也可以不同。例如，有2个样本视频和2个辅助数据，其中一个样本视频的视频内容是对象B在室外跑步，另一个样本视频的视频内容是对象B在室外喝水；其中一个辅助数据是对象C在室内跑步的三维骨架坐标数据，另一个辅助数据是对象C在室内喝水的三维骨架坐标数据，且两者的跑步速度、幅度均可以不一样，两者的喝水速度、幅度也可以不一样，可见这2个样本视频和这2个辅助数据之间的属性类型相同而对象不同，因此，可以称这2个样本视频和这2个辅助数据之间的关系为类别对应关系。

若多个样本视频和多个辅助数据之间为模态对应关系，则计算所有样本时空特征信息和辅助时序特征信息之间的特征距离，并根据该特征距离确定调整辅助参数。模态对应关系是样本视频中的对象具有的属性类型的种类和辅助数据中对象具有的属性类型的种类不同，或者辅助数据中对象所具有的属性类型的种类没有完全包含样本视频中对象所具有的属性类型的种类，即样本视频和辅助数据之间在属性类型上不完全相同，只是两种不同模态的数据。例如，有2个样本视频和2个辅助数据，其中一个样本视频的视频内容是对象D在室外跳远，另一个样本视频的视频内容是对象F在室外跳高；其中一个辅助数据是对象G在室内跑步的心脏跳动频率数据，另一个辅助数据是对象H在室内跳远的心脏跳动频率数据，上述2个样本视频和2个辅助数据之间的属相类型不完全相同，因此，可以称这2个样本视频和这2个辅助数据之间的关系为模态对应关系。

上述可见，三种属性关联关系(样本对应关系、类别对应关系、模态对应关系)是包含与被包含的集合关系，其中模态对应关系包含类别对应关系，类型对应关系包含样本对应关系，且样本对应关系的优先级大于类别对应关系的优先级大于模态对应关系的优先级，当多个样本视频和多个辅助数据满足多种对应关系时，只需要将优先级最高的对应关系确定为多个样本视频和多个辅助数据之间的属性关联关系。举例来说，当多个样本视频和多个辅助数据之间满足样本对应关系时，必然也满足类别对应关系和模态对应关系，而样本对应关系的优先级均大于类别对应关系的优先级和模态对应关系的优先级，因此将样本对应关系作为多个样本视频和多个辅助数据之间的属性关联关系。

步骤S102，根据所述多个样本视频的分类误差参数以及所述调整辅助参数调整识别模型，当调整辅助参数和分类误差参数之和小于目标阈值时，将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。

具体的，根据多个样本视频的分类误差参数以及由属性关联关系确定的调整辅助参数对识别模型反向传播，即是调整识别模型中的参数。通过不断地调整识别模型中的参数，提高识别模型对视频中对象的属性类型的识别能力，直至当调整后的识别模型所生成的调整辅助参数和分类误差参数之和小于预设的目标阈值时，将识别模型确定为用于后续识别视频中对象的属性类型的目标识别模型。其中，分类误差参数是根据识别模型识别样本视频的识别结果和样本视频真实的属性类型确定的，若样本视频的识别结果和真实的属性类型相同，则分类误差参数的数值小；若样本视频的识别结果和真实的属性类型不同，则分类误差参数的数值大。

进一步地，请参见图3，图3是本发明实施例提供的另一种图像识别方法的流程示意图。图像识别方法可以包括：

步骤S201，根据所述多个样本视频，生成每个样本视频分别对应的样本时空特征信息；

具体的，为了更清楚的说明如何生成样本时空特征信息，接下来以生成一个样本视频的样本时空特征信息例进行说明，当存在多个样本视频时，只需将每一个样本视频执行相同的步骤，用于提取对应的样本时空特征信息。将样本视频中所有的视频帧作为样本视频帧图像(当然，为了提高运算速度，由于视频的帧与帧之间的变化量很小，可以间隔固定长度取视频帧作为样本视频帧图像)，以一个样本视频帧图像为例，根据样本视频帧图像的时空微分(时空梯度函数)，计算每一个像素点的速度矢量，同时通过加权矩阵的控制对梯度进行不同的平滑处理，即可以在运动场上得到样本视频帧图像在二维图像上的投影，该投影图像即是光流图像，由样本视频帧图像得到的光流图像称之为样本光流图像，一帧视频帧图像可以投影两张光流图像。上述是通过梯度的方法计算光流图像，也可以通过能量的方法、匹配的方法、相位的方法等计算样本视频帧图像对应的样本光流图像。类似的，基于上述梯度的方法，生成与上述样本视频帧图像相邻的视频帧图像对应的光流图像，也称之为样本光流图像，其中与上述样本视频帧图像相邻可以是与样本视频帧图像前向相邻也可以是与样本视频帧图像后向相邻，同样一帧视频帧图像对应两张光流图像。将上述生成的多个样本光流图像(由样本视频帧图像生成的样本光流图像和由样本视频帧图像相邻的视频帧图像生成的样本光流图像)，组合为光流图像序列，称之为样本光流图像序列，即一个样本视频帧图像就对应一个样本光流图像序列。为了方便后续对样本光流图像序列和样本视频帧图像的处理，将所有样本光流图像序列中的所有样本光流图像的分辨率与所有样本视频帧图像的分辨率均调整为目标分辨率，当然目标分辨率是提前设置的。以一个样本视频为例，基于识别模型中的卷积神经网络在空域空间上的卷积处理，和识别模型中的递归神经网络在时域空间上的时序处理，提取该样本视频中的每个样本视频帧图像的时空特征信息，将提取出来的所有样本视频帧图像的时空特征信息组合为第一时空特征信息，其中组合的方式可以是将所有样本视频帧的时空特征信息的平均值作为该样本视频的第一时空特征信息；基于识别模型中的卷积神经网络在空域空间上的卷积处理，和识别模型中的递归神经网络在时域空间上的时序处理，提取该样本视频中的每个样本光流图像序列的时空特征信息，将提取出来的所有样本光流图像序列的时空特征信息组合为第二时空特征信息，其中组合的方式也可以是将所有样本光流图像序列的时空特征信息的平均值作为该样本视频的第二时空特征信息。上述两种时空特征信息(第一时空特征信息和第二时空特征信息)统称为样本时空特征信息。对于其他样本视频，也可以基于同样的方式获取到对应的第一时空特征信息和第二时空特征信息，即样本时空特征信息。

以一个样本视频为例，提取第一时空特征信息的具体过程为：识别模型包括第一识别子模型和第二识别子模型，基于识别模型中的第一识别子模型中的卷积神经网络(Convolutional Neural Network)的卷积处理，即随机选取样本视频帧图像中的一小部分特征信息作为样本(卷积核)，将这个样本作为一个窗口依次滑过所有的样本视频帧图像，也就是上述样本和样本视频帧图像做卷积运算，从而获得样本视频帧图像中的空间特征信息。卷积运算后，提取了样本视频帧图像的空间特征信息，但上述空间特征信息的数量庞大，为了减少后续计算量，基于卷积神经网络的池化处理(Pooling)，即是对上述空间特征信息进行聚合统计，聚合统计后的空间特征信息的数量要远远低于卷积运算提取的空间特征信息的数量，同时还会提高后续分类效果。常用的池化方法主要包括平均池化运算方法和最大池化运算方法。平均池化运算方法是在一个特征信息集合里计算出一个平均特征信息代表该特征信息集合的特征；最大池化运算是在一个特征信息集合里提取出最大特征信息代表该特征信息集合的特征。基于第一识别子模型中的递归神经网络(recurrentneural network)的时序处理，即在递归神经网络模型的遗忘门中，处理器首先计算需要从单元状态(cell state)中去除的信息；然后在输入门(input gate)中，处理器计算出在单元状态中需要存储的信息；最后在输出门(output gate)中，更新单元状态，也就是处理器将单元旧状态乘以需要去除的信息，然后再加上需要存储的信息，就得到单元新状态。样本视频帧图像的空间特征信息通过与多个单元状态之间的线性作用，可以提取隐藏在样本视频帧图像中的时空特征信息。采用上述方法，提取所有的样本视频帧图像的时空特征信息，并将所有时空特征信息组合为第一时空特征信息。

以一个样本视频为例，提取第二时空特征信息的具体过程为：识别模型包括第一识别子模型和第二识别子模型，基于识别模型中的第二识别子模型中的卷积神经网络的卷积处理，即随机选取样本光流图像序列中的一小部分特征信息作为样本(卷积核)，将这个样本作为一个窗口依次滑过所有的样本光流图像序列，也就是上述样本和所有样本光流图像序列做卷积运算，从而获得样本光流图像序列中的空间特征信息。卷积运算后，提取了样本光流图像序列的空间特征信息，但上述空间特征信息的数量庞大，为了减少后续计算量，基于卷积神经网络的池化处理，也就是对上述空间特征信息进行聚合统计。基于第二识别子模型中的递归神经网络的时序处理，即在递归神经网络模型的遗忘门中，处理器首先计算需要从单元状态中去除的信息；然后在输入门中，处理器计算出在单元状态中需要存储的信息；最后在输出门中，更新单元状态，也就是处理器将单元旧状态乘以需要去除的信息，然后再加上需要存储的信息，就得到单元新状态。样本光流图像序列的空间特征信息通过与多个单元状态之间的线性作用，可以提取隐藏在样本光流图像序列中的时空特征信息，采用上述方法，提取所有的样本光流图像序列的时空特征信息，并将所有时空特征信息组合为第二时空特征信息。值得注意的是，虽然上述第一识别子模型和第二识别子模型中均包括卷积神经网络和递归神经网络，但各自的卷积神经网络和递归神经网络不论是在网络参数、网络深度或者是网络堆叠个数均存在差异。

步骤S202，根据所述多个辅助数据，生成每个辅助数据分别对应的辅助时序特征信息。

具体的，仍以生成一个辅助数据对应的辅助时序特征信息为例，基于辅助递归神经网络模型，对获取的辅助数据进行时序处理，即在递归神经网络模型的遗忘门中，终端设备中的处理器计算需要从单元状态中去除的信息；然后在输入门中，处理器计算出在单元状态中需要存储的信息；最后在输出门中，更新单元状态，也就是处理器将单元旧状态乘以需要去除的信息，然后再加上需要存储的信息，就得到单元新状态。辅助数据通过与多个单元状态之间的线性作用，将上下文纹理(context texture)信息的关联性转换为结构化的循环依赖关系，进而提取隐藏在辅助数据中的时序特征信息，从辅助数据中提取出来的时序特征信息称之为辅助时序特征信息。

步骤S203，根据所述多个样本视频和所述多个辅助数据之间的属性关联关系、多个样本时空特征信息、多个辅助时序特征信息，生成所述识别模型的调整辅助参数。

具体的，调整辅助参数包括对应第一识别子模型对应的第一辅助参数和对应第二识别子模型对应的第二辅助参数。检测多个样本视频和多个辅助数据之间的属性关联关系，若多个样本视频和多个辅助数据之间为样本对应关系，则分别计算属于同一个对象且同一个属性类型(同一的业务行为)的样本时空特征信息和辅助时序特征信息之间的特征距离，根据该特征距离确定调整辅助参数，也就说计算属于同一个对象且同一个属性类型的第一时空特征信息和辅助时序特征信息之间的特征距离，将该特征距离作为第一辅助参数；并计算属于同一个对象且同一个属性类型的第二时空特征信息和辅助时序特征信息之间的特征距离，将该特征距离作为第二辅助参数。样本对应关系是指样本视频和辅助数据在每一帧上都一一对应，一一对应既是指时间上的一一对应也是指业务行为上的一一对应，换句话说一个对象完成业务行为时，同时采集的视频和辅助数据之间的关系就是样本对应关系。

若多个样本视频和多个辅助数据之间为类别对应关系，则分别计算属于同一个属性类型(同一的业务行为，但不必是同一个对象完成的)的样本时空特征信息和辅助时序特征信息之间特征距离，根据该特征距离确定调整辅助参数，也就说计算属于同一个属性类型的第一时空特征信息和辅助时序特征信息之间的特征距离，将上述特征距离作为第一辅助参数；计算属于同一个属性类型的第二时空特征信息和辅助时序特征信息之间的特征距离，将上述特征距离作为第二辅助参数。其中类别关系是指样本视频中对象所具有的属性类型的种类和辅助数据中对象所具有的属性类型的种类相同，或者辅助数据中对象所具有的属性类型的种类包含样本视频中对象所具有的属性类型的种类，但样本视频中的对象和辅助数据中的对象可以不同，且属于同一个属性类型样本视频所对应的完成时间和辅助数据所对应的完成时间可以相同也可以不同。

若多个样本视频和多个辅助数据之间为模态对应关系，则计算所有样本时空特征信息和辅助时序特征信息之间的特征距离，并根据该特征距离确定调整辅助参数，也就说计算所有第一时空特征信息和所有辅助时序特征信息之间的特征距离作为，将上述特征距离作为第一辅助参数；计算所有第二时空特征信息和所有辅助时序特征信息之间特征距离，将上述特征距离作为第二辅助参数。其中模态对应关系是样本视频中的对象具有的属性类型的种类和辅助数据中对象具有的属性类型的种类不同，或者辅助数据中对象所具有的属性类型的种类没有完全包含样本视频中对象所具有的属性类型的种类，即样本视频和辅助数据之间在属性类型上不完全相同，只是两种不同模态的数据。

步骤S204，根据所述第一辅助参数和所述第一分类误差子参数之和、所述第二辅助参数和所述第二分类误差子参数之和，调整所述识别模型，当所述第一辅助参数和所述第一分类误差子参数之和小于所述第一阈值，且所述第二辅助参数和所述第二分类误差子参数之和小于所述第二阈值时，将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。

具体的，识别模型包括第一识别子模型和第二识别子模型，分类误差参数包括与第一识别子模型对应的第一分类误差子参数和与第二识别子模型对应的第二分类误差子参数。同样，目标阈值包括与第一识别子模型对应的第一阈值和与第二识别子模型对应的第二阈值。根据所述第一辅助参数和所述第一分类误差子参数之和、所述第二辅助参数和所述第二分类误差子参数之和，调整所述识别模型，即是根据第一辅助参数和第一分类误差之和调整第一识别子模型的参数；根据第二辅助参数和第二分类误差之和调整第二识别子模型的参数。当调整后的第一识别子模型所生成的第一分类误差子参数和第一辅助参数之和小于第一阈值，且调整后的第二识别子模型所生成的第二分类误差子参数和第二辅助参数之和小于第二阈值时，将调整后的第一识别子模型和第二识别子模型(识别模型)确定为用于识别属性类型的目标识别模型。其中，分类误差参数是根据识别模型识别样本视频的识别结果和样本视频真实的属性类型确定的，若样本视频的识别结果和真实的属性类型相同，则分类误差参数的数值小；若样本视频的识别结果和真实的属性类型不同，则分类误差参数的数值大。

下面举例说明，图3a是本发明实施例提供的一种图像识别方法的场景示意图。根据样本视频30a生成多张样本视频帧图像和多个样本光流图像、根据样本视频30b生成多张样本视频帧图像和多个样本光流图像、根据样本视频30z分别生成多张样本视频帧图像和多个样本光流图像。基于第一识别子模型30x中的卷积层30d的卷积处理和池化层30e的池化处理，分别提取与样本视频30a对应的每个样本视频帧图像的空间特征信息；基于长短期记忆网络层30r的时序处理，提取样本视频30a中每个样本视频帧图像的时空特征信息，并组合为样本视频30a的第一时空特征信息；基于分类器30f识别上述第一时空特征信息，得到上述第一时空特征信息的识别结果，计算器30p根据识别结果和样本视频30a的真实属性计算样本视频30a的第一样本误差，按照相同的方式，可以得到样本30b的第一样本误差和样本视频30z的第一样本误差，计算器30p计算上述3个第一样本误差的平均值作为第一识别子模型30x的第一分类误差子参数。基于第二识别子模型30y中的卷积层30g的卷积处理和池化层30h的池化处理，分别提取与样本视频30a对应的每个样本光流图像序列的空间特征信息；基于长短期记忆网络层30k的时序处理，提取样本视频30a对应的每个样本光流图像序列的时空特征信息，并组合为样本视频30a的第二时空特征信息；基于分类器30s识别上述第二时空特征信息，得到上述第二时空特征信息的识别结果，计算器30p根据识别结果和样本视频30a的真实属性计算样本视频30a的第二样本误差，按照相同的方式，可以得到样本30b的第二样本误差和样本视频30z的第二样本误差，计算器30p计算上述3个第二样本误差的平均值作为第二识别子模型30y的第二分类误差子参数。基于长短期记忆网络层30k提取辅助数据30c的辅助时序特征信息，根据样本视频30a、样本视频30b、样本视频30z和辅助数据30c之间的属性关联关系(由于辅助数据30c的属性类型没有包含所有样本视频的属性类型，所以这里将辅助数据30c与所有样本视频之间的属相关联关系为模态对应关系)，确定特征分布距离计算方式。计算器30p根据该计算方式可以计算由样本视频30a的第一时空特征信息、样本视频30b的第一时空特征信息、样本视频30z的第一时空特征信息所形成的特征矩阵(也可以理解为特征空间的分布)，与辅助数据30c的辅助时序特征信息所形成的特征矩阵之间的特征距离，并将该特征距离作为第一辅助参数；计算器30p根据该计算方式还可以计算由样本视频30a的第二时空特征信息、样本视频30b的第二时空特征信息、样本视频30z的第二时空特征信息所形成的特征矩阵，与辅助数据30c的辅助时序特征信息所形成的特征矩阵之间的特征距离，并将该特征距离作为第二辅助参数。控制器30q根据第一辅助参数、第一分类误差子参数调整第一识别模型30x的参数，控制器30q根据第二辅助参数、第二分类误差子参数调整第一识别模型30y的参数。

本发明实施例通过获取样本视频，并生成所述样本视频对应的多个样本时空特征信息；获取辅助数据，并生成所述辅助数据对应的多个辅助时序特征信息；根据所述样本视频和所述辅助数据之间的属性关联关系、所述多个样本时空特征信息、所述多个辅助时序特征信息，生成调整辅助参数；根据所述调整辅助参数、分类误差参数，调整识别模型，使基于调整后的识别模型所生成的调整辅助参数和分类误差参数之和小于目标阈值，并将所述调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。由于可以根据不同模态样本数据所生成的多种类型的特征信息调整识别模型的参数，使得调整后的检测模型可以兼容多种模态的数据，增强识别模型提取图像特征信息的准确性，使提取出来的特征信息更具有判别力，进而提高识别模型后续对图像识别的准确率。

请参见图4，是本发明实施例提供的另一种图像识别方法的流程示意图。如图4所示，所述图像识别方法可以包括：

步骤S301，根据所述多个样本视频，生成每个样本视频分别对应的样本时空特征信息。

步骤S302，根据所述多个辅助数据，生成每个辅助数据分别对应的辅助时序特征信息。

其中，步骤S301-步骤S302的具体实现方式可以参见上述图3所对应实施例中的步骤S201-步骤S202，此处不再赘述。

步骤S303，若所述多个样本视频和所述多个辅助数据之间为样本对应关系，则分别计算属于相同对象内容的第一时空特征信息与辅助时序特征信息之间的欧式距离。

具体的，若多个样本视频和多个辅助数据之间为样本对应关系，即每一个样本视频都存在一一对应的辅助数据，则分别计算对象相同且属性类型相同对应的第一时空特征信息和辅助时序特征信息之间的欧式距离，就等价于用第一时空特征信息恢复辅助时序特征信息。可以知道计算出来的欧式距离的个数就等于样本视频的数量。其中，可以采用公式(1)计算属于相同对象内容对应的第一时空特征信息和辅助时序特征信息之间的欧式距离：

其中，n表示样本的数量；a_i和r_i分别表示第i个样本视频所对应的第一时空特征信息和第i个辅助数据的辅助时序特征信息。

步骤S304，将与所述第一时空特征信息对应的所有欧式距离之和的平均值，确定为所述第一辅助参数。

具体的，将步骤S303计算出来的所有欧式距离的平均值确定为第一辅助参数。

步骤S305，分别计算属于相同对象内容的第二时空特征信息与辅助时序特征信息之间的欧式距离，并将与所述第二时空特征信息对应的所有欧式距离之和的平均值，确定为所述第二辅助参数。

具体的，计算对象相同且属性类型相同的第二时空特征信息和辅助时序特征信息之间的欧式距离，并将上述计算出来的所有欧式距离的平均值确定为第二辅助参数。同样上述计算出来的欧式距离的个数就等于样本视频的数量。其中，可以采用公式(2)计算属于相同属性类型对应的第二时空特征信息和辅助时序特征信息之间的欧式距离：

其中，n表示样本视频的数量；b_i和r_i分别表示第i个样本视频所对应的第二时空特征信息和第i个辅助数据的辅助时序特征信息。也可以采用样本集均值、相对熵(Kullback-Leibler)等距离度量方式计算第一时空特征信息、第二时空特征信息分别与辅助时序特征信息之间距离。

步骤S306，根据所述第一辅助参数和所述第一分类误差子参数之和、所述第二辅助参数和所述第二分类误差子参数之和，调整所述识别模型，当所述第一辅助参数和所述第一分类误差子参数之和小于所述第一阈值，且所述第二辅助参数和所述第二分类误差子参数之和小于所述第二阈值时，将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。

其中，步骤S306的具体实现方式可以参见上述图3所对应实施例中的步骤S204，此处不再赘述。

可选的，基于识别模型中的分类器，分别识别与多个样本视频分别对应的多个第一时空特征信息与识别模型中多个属性类型特征的匹配度，也就是分别识别与多个样本视频分别对应的多个第一时空特征信息与第一识别子模型中多个属性类型特征的匹配度，将得到的多个匹配度与对应的标签信息进行关联，得到标签信息集合均称之为第一标签信息集合。第一标签信息集合中既有匹配度也有关联的标签信息，且第一标签信息集合的数量就等于样本视频的数量，标签信息是指属性类型特征对应的属性类型。匹配度越高说明样本视频中的对象与属性类型特征对应的属性类型的匹配概率越大。根据每一个第一标签信息集合和每个第一标签信息集合对应的样本视频真实的样本属性类型，确定每一个样本视频对应的第一样本误差，将所有的第一样本误差的平均值确定为第一分类误差子参数；当然，第一标签信息集合中数据分布和样本视频真实的样本属性类型的匹配度，与第一样本误差和第一分类误差子参数均成正相关关系。类似的，基于识别模型中的分类器，分别识别与多个样本视频分别对应的多个第二时空特征信息与识别模型中多个属性类型特征的匹配度，也就是分别识别与多个样本视频分别对应的多个第二时空特征信息与第二识别子模型中多个属性类型特征的匹配度，将得到的多个匹配度与对应的标签信息进行关联，得到标签信息集合均称之为第二标签信息集合。根据每一个第二标签信息集合和每一个第二标签信息集合对应的样本视频真实的样本属性类型，确定每一个样本视频对应的第二样本误差，将所有的第二样本误差的平均值确定为第二分类误差子参数；第二标签信息集合中数据分布和样本视频真实的样本属性类型的匹配度，与第二样本误差和第二分类误差子参数也都成正相关关系。

参见图4a，是本发明实施例提供的一种确定调整辅助参数的示意图，3个样本视频中的内容分别为对象A跳远、对象B跳高、对象C散步；同步采集了对象A跳远的辅助数据，对象B跳高的辅助数据，对象C散步的辅助数据。根据第一识别子模型，提取样本视频1的第一时空特征信息A1、样本视频2的第一时空特征信息B1、样本视频3的第一时空特征信息C1。根据第二识别子模型，提取样本视频1的第二时空特征信息A2、样本视频2的第二时空特征信息B2、样本视频3的第二时空特征信息C2。根据辅助递归神经网络模型，提取辅助数据1的辅助时序特征信息A3、辅助数据2的辅助时序特征信息B3、辅助数据3的辅助时序特征信息C3。由于多个样本视频和多个辅助数据为样本对应关系(因为每一个样本视频都存在一一对应的辅助数据)，因此分别计算第一时空特征信息A1与辅助时序特征信息A3之间的欧式距离(“跳远”属性类型)、第一时空特征信息B1与辅助时序特征信息B3之间的欧式距离(“跳高”属性类型)、第一时空特征信息C1与辅助时序特征信息C3之间的欧式距离(“散步”属性类型)，将上述3个欧式距离的平均值ds1作为第一辅助参数。分别计算第二时空特征信息A2与辅助时序特征信息A3之间的欧式距离(“跳远”属性类型)、第二时空特征信息B2与辅助时序特征信息B3之间的欧式距离(“跳高”属性类型)、第二时空特征信息C2与辅助时序特征信息C3之间的欧式距离(“散步”属性类型)，将上述3个欧式距离的平均值ds2作为第二辅助参数。

进一步地，请参见图5，是本发明实施例提供的另一种图像识别方法的流程示意图。如图5所示，所述图像识别方法可以包括：

步骤S401，根据所述多个样本视频，生成每个样本视频分别对应的样本时空特征信息。

步骤S402，根据所述多个辅助数据，生成每个辅助数据分别对应的辅助时序特征信息。

其中，步骤S401-步骤S402的具体实现方式可以参见上述图3所对应实施例中的步骤S201-步骤S202，此处不再赘述。

步骤S403，若所述多个样本视频和所述多个辅助数据之间为类别对应关系，则分别计算属于相同属性类型的第一时空特征信息与辅助时序特征信息之间的最大平均差异值。

具体的，若多个样本视频和多个辅助数据之间为类别对应关系，即样本视频中对象具有的属性类型和辅助数据中对象具有的属性类型相同，则分别计算属于相同属性类型的所有第一时空特征信息所形成的的矩阵与上述同样属性类型的所有辅助时序特征信息所形成的的矩阵之间的最大平均差异值。其中，可以采用公式(3)计算属于相同属性类型对应的第一时空特征信息和辅助时序特征信息之间的最大平均差异值：

/>

其中，n表示属于任意一种属性类型的样本视频的数量；c_i和c_i'分别表示第i个样本视频所对应的第一时空特征信息和第i'样本视频所对应的第一时空特征信息；r_j和r_j'分别表示第j个辅助数据的辅助时序特征信息和第j'个辅助数据的辅助时序特征信息；k(x,y)为高斯核函数；若样本视频i的属性类型与样本视频j的属性类型属于同一个类别，则M_i,j为1，否则为0。

步骤S404，将与所述第一时空特征信息对应的所有最大平均差异值之和，确定为所述第一辅助参数。

具体的，将步骤S403计算出来的所有最大平均差异值之和，作为第一辅助参数。

步骤S405，分别计算属于相同属性类型的第二时空特征信息与辅助时序特征信息之间的最大平均差异值，并将与所述第二时空特征信息对应的所有最大平均差异值之和，确定为所述第二辅助参数。

具体的，分别计算属于相同属性类型的所有第二时空特征信息所形成的矩阵与上述同样属性类型的所有辅助时序特征信息所形成的矩阵之间的最大平均差异值，并将计算出来的所有最大平均差异值之和作为第二辅助参数。其中，可以采用公式(4)计算属于相同属性类型对应的第二时空特征信息和辅助时序特征信息之间的最大平均差异值：

其中，n表示属于任意一种属性类型的样本视频的数量；d_i和d_i'分别表示第i个样本视频所对应的第二时空特征信息和第i'样本视频所对应的第二时空特征信息；r_j和r_j'分别表示第j个辅助数据的辅助时序特征信息和第j'个辅助数据的辅助时序特征信息；k(x,y)为高斯核函数；若样本视频i的属性类型与样本视频j的属性类型属于同一个类别，则M_i,j为1，否则为0。也可以采用样本集均值、相对熵等距离度量方式计算第一时空特征信息、第二时空特征信息分别与辅助时序特征信息之间距离。

步骤S406，根据所述第一辅助参数和所述第一分类误差子参数之和、所述第二辅助参数和所述第二分类误差子参数之和，调整所述识别模型，当所述第一辅助参数和所述第一分类误差子参数之和小于所述第一阈值，且所述第二辅助参数和所述第二分类误差子参数之和小于所述第二阈值时，将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。

其中，步骤S406的具体实现方式可以参见上述图3所对应实施例中的步骤S204，此处不再赘述。

参见图5a，是本发明实施例提供的另一种确定调整辅助参数的示意图，3个样本视频的内容分别是：对象D关于愤怒的脸部表情、对象E关于愤怒的脸部表情、对象F关于伤心的脸部表情。2个辅助数据是：对象G关于愤怒的脸部表情的辅助数据、对象H关于伤心的脸部表情的辅助数据。根据第一识别子模型，提取样本视频4的第一时空特征信息D1、样本视频5的第一时空特征信息E1、样本视频6的第一时空特征信息T1；根据第二识别子模型，提取样本视频4的第二时空特征信息D2、样本视频5的第二时空特征信息E2、样本视频6的第二时空特征信息T2。根据辅助递归神经网络模型，提取辅助数据4的辅助时序特征信息D3、辅助数据5的辅助时序特征信息E3。由于多个样本视频和多个辅助数据为类别对应关系(因为样本数据所包含的属性类型和辅助数据所包含的属性类型相同)，因此分别计算样本视频4的第一时空特征信息D1和样本视频5的第一时空特征信息E1所形成的特征矩阵，与辅助数据4的辅助时序特征信息D3之间的最大平均差异值dc1(“愤怒”属性类型)，计算样本视频6的第一时空特征信息T1与辅助数据5的辅助时序特征信息E3之间的最大平均差异值dc1(“伤心”属性类型)，将上述两个最大平均差异值dc1之和作为第一辅助参数。计算样本视频4的第二时空特征信息D2和样本视频5的第二时空特征信息E2所形成的特征矩阵，与辅助数据4的辅助时序特征信息D3之间的最大平均差异值dc2(“愤怒”属性类型)，计算样本视频6的第二时空特征信息T2与辅助数据5的辅助时序特征信息E3之间的最大平均差异值dc2(“伤心”属性类型)，将上述两个最大平均差异值dc2之和作为第二辅助参数。

进一步地，请参见图6，是本发明实施例提供的另一种图像识别方法的流程示意图。如图6所示，所述图像识别方法可以包括：

步骤S501，根据所述多个样本视频，生成每个样本视频分别对应的样本时空特征信息。

步骤S502，根据所述多个辅助数据，生成每个辅助数据分别对应的辅助时序特征信息。

其中，步骤S501-步骤S502的具体实现方式可以参见上述图3所对应实施例中的步骤S201-步骤S202，此处不再赘述。

步骤S503，若所述多个样本视频和所述多个辅助数据之间为模态对应关系，则计算所有第一时空特征信息与辅助时序特征信息之间的最大平均差异值。

具体的，若多个样本视频和多个辅助数据之间为模态对应关系，即样本视频中对象具有的属性类型和辅助数据中对象具有的属性类型不完全相同，则计算所有第一时空特征信息所形成的矩阵与所有辅助时序特征信息所形成的矩阵之间的最大平均差异值。可以采用公式(5)计算所有第一时空特征信息和所有辅助时序特征信息之间的最大平均差异值：

其中，n表示样本视频的数量；g_i和g_i'分别表示第i个样本视频所对应的第一时空特征信息和第i'样本视频所对应的第一时空特征信息；r_j和r_j'分别表示第j个辅助数据的辅助时序特征信息和第j'个辅助数据的辅助时序特征信息；k(x,y)为高斯核函数。

步骤S504，将与所有第一时空特征信息对应的最大平均差异值，确定为所述第一辅助参数。

具体的，将步骤S503计算出来的所有最大平均差异值，作为第一辅助参数。

步骤S505，计算所有第二时空特征信息与辅助时序特征信息之间的最大平均差异值，并将与所有第二时空特征信息对应的最大平均差异值，确定为所述第二辅助参数。

具体的，计算所有第二时空特征信息所形成的矩阵与所有辅助时序特征信息所形成的矩阵之间的最大平均差异值，将上述计算出来的最大差异值作为第二辅助参数。可以采用公式(6)计算所有第二时空特征信息和所有辅助时序特征信息之间的最大平均差异值：

其中，n表示样本视频的数量；h_i和h_i'分别表示第i个样本视频所对应的第二时空特征信息和第i'样本视频所对应的第一时空特征信息；r_j和r_j'分别表示第j个辅助数据的辅助时序特征信息和第j'个辅助数据的辅助时序特征信息；k(x,y)为高斯核函数。也可以采用样本集均值、相对熵等距离度量方式计算第一时空特征信息、第二时空特征信息分别与辅助时序特征信息之间距离。

步骤S506，根据所述第一辅助参数和所述第一分类误差子参数之和、所述第二辅助参数和所述第二分类误差子参数之和，调整所述识别模型，当所述第一辅助参数和所述第一分类误差子参数之和小于所述第一阈值，且所述第二辅助参数和所述第二分类误差子参数之和小于所述第二阈值时，将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。

其中，步骤S506的具体实现方式可以参见上述图3所对应实施例中的步骤S204，此处不再赘述。

请参见图6a，是本发明实施例提供的另一种确定调整辅助参数的示意图，2个样本视频的内容分别是：对象G关于开心的脸部表情、对象H关于恐惧的脸部表情。2个辅助数据是：对象K关于惊讶的脸部表情的辅助数据、对象M关于伤心的脸部表情的辅助数据。根据第一识别子模型，提取样本视频7的第一时空特征信息H1、样本视频8的第一时空特征信息P1；根据第二识别子模型，提取样本视频7的第二时空特征信息H2、样本视频8的第二时空特征信息P2；根据辅助递归神经网络模型，提取辅助数据6的辅助时序特征信息H3、辅助数据7的辅助时序特征信息P3。由于多个样本视频和多个辅助数据为模态对应关系(因为2个样本数据具有的属性类型和2个辅助数据具有的属性类型不完全相同)，因此分别计算样本视频7的第一时空特征信息H1和样本视频8的第一时空特征信息P1所形成的矩阵，与辅助数据6的辅助时序特征信息H3和辅助数据7的辅助时序特征信息P3所形成的矩阵之间的最大平均差异值dD1、计算样本视频7的第二时空特征信息H2和样本视频8的第二时空特征信息P2所形成的矩阵，与辅助数据6的辅助时序特征信息H3和辅助数据7的辅助时序特征信息P3所形成的矩阵之间的最大平均差异值dD2。将上述最大平均差异值dD1作为第一辅助参数，最大平均差异值dD2作为第二辅助参数。

进一步地，请参见图7，是本发明实施例提供的另一种图像识别方法的流程示意图。如图7所示，所述图像识别方法可以包括：

步骤S601，根据多个样本视频以及与所述多个样本视频关联的多个辅助数据，生成识别模型的调整辅助参数；

步骤S602，根据所述调整辅助参数、多个样本视频的分类误差参数，调整识别模型，使基于调整后的识别模型所生成的调整辅助参数和分类误差参数之和小于目标阈值，并将所述调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。

其中，步骤S601-步骤S602的具体实现方式可以参见上述图2所对应实施例中的步骤S101-步骤S102，此处不再赘述。

步骤S603，若获取到图像识别请求，则根据所述图像识别请求获取包含目标对象的目标视频，在所述目标视频中提取目标视频帧图像，并生成与所述目标视频帧图像对应的目标光流图像序列。

具体的，监测是否接收到图像识别请求，若接收到请求，则根据该图像识别请求获取待识别的视频，称之为目标视频，目标视频中的对象称之为目标对象。将目标视频中视频帧均作为目标视频帧图像(可以是多帧视频帧均作为目标视频帧图像，也可以是目标视频的当前帧作为目标视频帧图像)。与训练识别模型类似，根据目标视频帧图像的时空微分，计算目标视频帧图像中每一个像素点的速度矢量，同时通过加权矩阵的控制对梯度进行不同的平滑处理，即可以得到与目标视频帧图像对应的光流图像，称之为目标光流图像。同样的方式，生成与上述目标视频帧图像相邻的视频帧图像对应的光流图像，也称之为目标光流图像，其中与目标视频帧图像相邻可以是与目标视频帧图像前向相邻也可以是与目标视频帧图像后向相邻。将上述生成的多个目标光流图像，组合为光流图像序列，称之为目标光流图像序列。当目标视频帧图像的数量不止一个时，则按照上述方法生成每一个目标视频帧图像对应的目标光流图像序列。需要说明的是，目标视频中的对象只具有一种属性类型，若目标视频中的对象具有多种属性类型，需要首先将目标视频分割为只包含一种属性类型的视频段，在执行后续的提取目标视频帧图像和生成目标光流图像序列的操作。

步骤S604，基于所述目标识别模型生成所述目标视频帧图像的第三时空特征信息，并识别所述第三时空特征信息与所述目标识别模型中多个属性类型特征的匹配度，并将由所述第三时空特征信息得到的匹配度与所述目标识别模型中多个属性类型特征对应的标签信息进行关联，得到第三标签信息集合。

具体的，训练完毕的目标识别模型包括第一目标识别子模型和第二目标识别子模型，第一目标识别子模型就是调整后的识别模型中的第一识别子模型，第二目标识别子模型就是调整后的识别模型中的第二识别子模型。基于目标识别模型生成第三时空特征信息，也就是基于目标识别模型中的第一目标识别子模型中的卷积神经网络在空域空间上的卷积处理，和递归神经网络在时域空间上的时序处理，提取目标视频帧图像的时空特征信息，称之为第三时空特征信息。当目标视频帧图像的数量不止一个时，则提取每一个目标视频帧图像的时空特征信息，并将所有的时空特征信息组合为第三时空特征信息(组合的方式可以是将上述所有时空特征信息的平均值作为第三时空特征信息)。基于目标识别模型中的分类器，识别第三时空特征信息和上述分类器中多个属性类型特征的匹配度，将得到的多个匹配度与对应的标签信息进行关联，得到标签信息集合称之为第三标签信息集合。第三标签信息集合中既有匹配度也有关联的标签信息，标签信息是指属性类型特征对应的属性类型。其中，属性类型可以是关于脸部表情的属性类型，例如，“惊讶”、“开心”、“愤怒”等；也可以是关于行为动作的属性类型，例如，“散步”、“跳跃”、“快跑”等。匹配度越高说明目标对象与属性类型特征对应的属性类型的匹配概率越大；目标识别模型中包含的属性类型特征的数量和种类是训练识别模型时由训练数据集中包含的属性类型的数量个种类决定的。例如，识别的是关于脸部表情的属性类型，第一目标识别子模型中存在“开心”属性类型特征、“伤心”属性类型特征、“恐惧”属性类型特征，根据分类器识别第三时空特征信息与“开心”属性类型特征的匹配度为0.2；识别第三时空特征信息与“伤心”属性类型特征的匹配度为0.1；识别第三时空特征信息与“恐惧”属性类型特征的匹配度为0.7，再关联对应的标签信息，即得到第三标签信息集合：0.2-开心、0.1-伤心、0.7-恐惧。

步骤S605，基于所述目标识别模型生成所述目标光流图像序列的第四时空特征信息，并识别所述第四时空特征信息与所述目标识别模型中多个属性类型特征的匹配度，并将由所述第四时空特征信息得到的匹配度与所述目标识别模型中多个属性类型特征对应的标签信息进行关联，得到第四标签信息集合。

具体的，基于目标识别模型生成第四时空特征信息，也就是基于目标识别模型中的第二目标识别子模型中的卷积神经网络在空域空间上的卷积处理，和递归神经网络在时域空间上的时序处理，提取目标光流图像序列的时空特征信息，称之为第四时空特征信息。当目标光流图像序列的数量不止一个时，则提取每一个目标光流图像序列的时空特征信息，并将所有的时空特征信息组合为第四时空特征信息(组合的方式可以是将上述所有时空特征信息的平均值作为第四时空特征信息)。基于目标识别模型中的分类器，识别第四时空特征信息和上述分类器中多个属性类型特征的匹配度，将得到的多个匹配度与对应的标签信息进行关联，得到标签信息集合称之为第四标签信息集合。例如，识别的是关于行为动作的属性类型，第二目标识别子模型中存在“散步”属性类型特征、“快跑”属性类型特征、“跳跃”属性类型特征，根据分类器识别第四时空特征信息与“散步”属性类型特征的匹配度为0.6；识别第四时空特征信息与“快跑”属性类型特征的匹配度为0.1；识别第四时空特征信息与“跳跃”属性类型特征的匹配度为0.3，每一个匹配度再关联对应的标签信息，即得到第四标签信息集合：0.6-散步、0.1-快跑、0.3-跳跃。

步骤S606，将所述第三标签信息集合和所述第四标签信息集合进行融合，得到所述目标视频中的目标对象对应的属性类型。

具体的，在第三标签信息集合和第四标签信息集合中，将属于相同标签信息所关联的匹配度进行加权平均，并将加权平均后的匹配度和执行加权平均对应的标签信息进行关联，得到的标签信息集合称之为目标标签信息集合，可以将上述两个标签信息集合(第三标签信息集合和第四标签信息集合)中没有交集的标签信息所对应的匹配度过滤，即没有交集的标签信息对应的匹配度不必执行加权平均运算。在目标标签信息集合中提取最大匹配度所关联的标签信息，该标签信息即是目标视频中目标对象对应的属性类型。例如，第一标签信息集合为：0.2-跳高、0.1-跳远、0.7-奔跑；第二标签信息集合为：0.3-散步、0.1-跳远、0.6-奔跑，相同标签信息所关联的匹配度进行加权平均得到，目标标签信息集合为：(0.1+0.1)/2＝0.1-跳远、(0.7+0.6)/2＝0.65-奔跑，第一标签信息集合中的“0.2-跳高”和第二标签信息集合中的“0.3-散步”被过滤，因此，匹配度最高所对应的标签信息，即属性类型“慢跑”就是目标视频中目标对象对应的属性类型。

进一步的，请参见图8，是本发明实施例提供的一种图像识别装置的结构示意图。如图8所示，所述图像识别装置1可以包括：第一生成模块11、调整模块12。

第一生成模块11，用于根据多个样本视频以及与所述多个样本视频关联的多个辅助数据，生成识别模型的调整辅助参数；

调整模块12，用于根据所述多个样本视频的分类误差参数以及所述调整辅助参数调整识别模型，当调整辅助参数和分类误差参数之和小于目标阈值时，将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。

其中，第一生成模块11、调整模块12的具体功能实现方式可以参见上述图2对应实施例中的步骤S101-步骤S102，这里不再进行赘述。

请一并参见图8，第一生成模块11可以包括：第一生成单元111、第二生成单元112、参数生成单元113。

第一生成单元111，用于根据所述多个样本视频，生成每个样本视频分别对应的样本时空特征信息；

第二生成单元112，用于根据所述多个辅助数据，生成每个辅助数据分别对应的辅助时序特征信息；

参数生成单元113，用于根据所述多个样本视频和所述多个辅助数据之间的属性关联关系、多个样本时空特征信息、多个辅助时序特征信息，生成所述识别模型的调整辅助参数。

其中，第一生成单元111、第二生成单元112、参数生成单元113的具体功能实现方式可以参见上述图3对应实施例中的步骤S201-步骤S203，这里不再进行赘述。

请一并参见图8，第一生成单元111可以包括：获取子单元1111、生成子单元1112、特征确定子单元1113。

获取子单元1111，用于获取所述多个样本视频，在所述每个样本视频中提取多个样本视频帧图像，并生成与每个样本视频帧图像分别对应的样本光流图像序列；

生成子单元1112，用于根据所述每个样本视频中的所述样本视频帧图像，生成所述每个样本视频分别对应的第一时空特征信息，并根据所述每个样本视频中的所述样本光流图像序列，生成所述每个样本视频分别对应的第二时空特征信息；

特征确定子单元1113，用于将所述第一时空特征信息和所述第二时空特征信息均作为所述样本时空特征信息。

其中，获取子单元1111、生成子单元1112、特征确定子单元1113的具体功能实现方式可以参见上述图3对应实施例中的步骤S201，这里不再进行赘述。

请再参见图8，生成子单元1112可以包括：第一提取子单元11121、第二提取子单元11122。

第一提取子单元11121，用于基于所述识别模型中的卷积神经网络，对每个样本视频帧图像以及每个样本光流图像序列分别进行卷积处理，提取所述每个样本视频帧图像分别对应的空间特征信息，以及提取每个样本光流图像序列分别对应的空间特征信息；

第二提取子单元11122，用于基于所述识别模型中的递归神经网络，对所述每个样本视频帧图像的空间特征信息以及所述每个样本光流图像序列的空间特征信息分别进行时序处理，得到所述每个样本视频帧图像和每个样本光流图像序列分别对应的时空特征信息。

第一提取子单元11121，还用于根据所述每个样本视频中的所述样本视频帧图像对应的时空特征信息，生成所述每个样本视频分别对应的第一时空特征信息；

第二提取子单元11122，还用于根据所述每个样本视频中的所述样本光流图像序列对应的时空特征信息，生成所述每个样本视频分别对应的所述第二时空特征信息。

其中，第一提取子单元11121、第二提取子单元11122的具体功能实现方式可以参见上述图3对应实施例中的步骤S201，这里不再进行赘述。

请参见图8，调整模块12具体用于：根据所述第一辅助参数、第一分类误差子参数之和以及第二辅助参数、第二分类误差子参数之和，调整所述识别模型，当所述第一辅助参数和所述第一分类误差子参数之和小于所述第一阈值且所述第二辅助参数和所述第二分类误差子参数之和小于所述第二阈值时，将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。

请一并参见图8，参数生成单元113可以包括：第一计算子单元1131、第二计算子单元1132、第三计算子单元1133。

第一计算子单元1131，用于若所述多个样本视频和所述多个辅助数据之间为样本对应关系，则根据属于相同对象内容的样本时空特征信息和辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数；

第二计算子单元1132，用于若所述多个样本视频和所述多个辅助数据之间为类别对应关系，则根据属于相同属性类型的样本时空特征信息和辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数；

第三计算子单元1133，用于若所述多个样本视频和所述多个辅助数据之间为模态对应关系，则根据所有样本时空特征信息与所有辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数。

其中，第一计算子单元1131、第二计算子单元1132、第三计算子单元1133的具体功能实现方式可以参见上述图3对应实施例中的步骤S203，这里不再进行赘述。

请一并参见图8，第一计算子单元1131可以包括：第一确定子单元11311、第二确定子单元11312。

第一确定子单元11311，用于分别计算属于相同对象内容的第一时空特征信息与辅助时序特征信息之间的欧式距离，并将与所述第一时空特征信息对应的所有欧式距离的平均值，确定为所述第一辅助参数；

第二确定子单元11312，用于分别计算属于相同对象内容的第二时空特征信息与辅助时序特征信息之间的欧式距离，并将与所述第二时空特征信息对应的所有欧式距离的平均值，确定为所述第二辅助参数；

第一确定子单元11311，还用于分别计算属于相同属性类型的第一时空特征信息与辅助时序特征信息之间的最大平均差异值，并将与所述第一时空特征信息对应的所有最大平均差异值之和，确定为所述第一辅助参数；

第二确定子单元11312，还用于分别计算属于相同属性类型的第二时空特征信息与辅助时序特征信息之间的最大平均差异值，并将与所述第二时空特征信息对应的所有最大平均差异值之和，确定为所述第二辅助参数。

第一确定子单元11311，还用于计算所有第一时空特征信息与所有辅助时序特征信息之间的最大平均差异值，作为所述第一辅助参数；

第二确定子单元11312，还用于计算所有第二时空特征信息与所有辅助时序特征信息之间的最大平均差异值，作为所述第二辅助参数。

其中，第一确定子单元11311的具体功能实现方式可以参见上述图4对应实施例中的步骤S303-步骤S304、图5对应实施例中的步骤S403-步骤S404、图6对应实施例中的步骤S503-步骤S504；第二确定子单元11312的具体功能实现方式可以参见上述图4对应实施例中的步骤S305、图5对应实施例中的步骤S405、图6对应实施例中的步骤S505，这里不再进行赘述。

请一并参见图8，图像识别装置1可以包括：第一生成模块11、调整模块12；还可以包括：第一确定模块13、第二确定模块14、第三确定模块15。

第一确定模块13，用于分别识别每个第一时空特征信息与所述识别模型中多个属性类型特征之间的匹配度，将由所述每个第一时空特征信息得到的匹配度与所述识别模型中多个属性类型特征对应的标签信息进行关联，得到第一标签信息集合；

第二确定模块14，用于分别识别每个第二时空特征信息与所述识别模型中多个属性类型特征之间的匹配度，将由所述每个第二时空特征信息得到的匹配度与所述识别模型中多个属性类型特征对应的标签信息进行关联，得到第二标签信息集合；

第三确定模块15，用于根据所述第一标签信息集合和所述第二标签信息集合确定所述分类误差参数。

其中，第一确定模块13、第二确定模块14、第三确定模块15的具体功能实现方式可以参见上述图4对应实施例中的步骤S306，这里不再进行赘述。

请参见图8，第三确定模块15可以包括：第一确定单元151、第二确定单元152、第三确定单元153。

第一确定单元151，用于根据所述第一标签信息集合、所述多个样本视频的样本属性类型，确定所述第一分类误差子参数；

第二确定单元152，用于根据所述第二标签信息集合、所述多个样本视频的样本属性类型，确定所述第二分类误差子参数；

第三确定单元153，用于将所述第一分类误差子参数和所述第二分类误差子参数均作为所述分类误差参数。

其中，第一确定单元151、第二确定单元152、第三确定单元153的具体功能实现方式可以参见上述图4对应实施例中的步骤S306，这里不再进行赘述。

请一并参见图8，图像识别装置1可以包括：第一生成模块11、调整模块12、第一确定模块13、第二确定模块14、第三确定模块15；还可以包括：第二生成模块16。

第二生成模块16，用于若获取到图像识别请求，则根据所述图像识别请求获取包含目标对象的目标视频，在所述目标视频中提取目标视频帧图像，并生成与目标视频帧图像对应的目标光流图像序列；

第一确定模块13，还用于基于所述目标识别模型生成所述目标视频帧图像的第三时空特征信息以及所述目标光流图像序列的第四时空特征信息，并分别识别所述第三时空特征信息、所述第四时空特征信息与所述目标识别模型中多个属性类型特征的匹配度；

第二确定模块14，还用于将由所述第三时空特征信息得到的匹配度与所述目标识别模型中多个属性类型特征对应的标签信息进行关联，得到第三标签信息集合，以及将由所述第四时空特征信息得到的匹配度与所述目标识别模型中多个属性类型特征对应的标签信息进行关联，得到第四标签信息集合；

第三确定模块15，还用于将所述第三标签信息集合和所述第四标签信息集合进行融合，得到所述目标视频中的目标对象对应的属性类型。

其中，第二生成模块16、第一确定模块13、第二确定模块14、第三确定模块15的具体功能实现方式可以参见上述图7对应实施例中的步骤S603-步骤S606这里不再进行赘述。

第一确定单元151，还用于在所述第三标签信息集合和所述第四标签信息集合中，将属于相同标签信息所关联的匹配度进行加权平均，并将加权平均后的匹配度和所述标签信息进行关联，得到目标标签信息集合；

所述第二确定单元152，还用于在所述目标标签信息集合中提取具有最大匹配度所关联的标签信息，并将提取出的标签信息，作为所述目标视频中的目标对象对应的属性类型。

其中，第一确定单元151、第二确定单元152的具体功能实现方式可以参见上述图7对应实施例中的步骤S606这里不再进行赘述。

本发明实施例通过获取样本视频，并生成所述样本视频对应的多个样本时空特征信息；获取辅助数据，并生成所述辅助数据对应的多个辅助时序特征信息；根据所述样本视频和所述辅助数据之间的属性关联关系、所述多个样本时空特征信息、所述多个辅助时序特征信息，生成调整辅助参数；根据所述调整辅助参数、分类误差参数，调整识别模型，使基于调整后的识别模型所生成的调整辅助参数和分类误差参数之和小于目标阈值，并将所述调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。由于可以根据不同模态样本数据所生成的多种类型的特征信息调整识别模型的参数，使得调整后的检测模型兼具多种模态的优势，增强识别模型提取图像特征信息的准确性，使提取出来的特征信息更具有判别力，进而提高识别模型后续对图像识别的准确率。

进一步地，请参见图9，是本发明实施例提供的一种终端设备的结构示意图。如图9所示，上述图8中的图像识别装置可以应用于所述终端设备1000，所述终端设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，所述终端设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图9所示的终端设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

在一个实施例中，所述处理器1001在执行根据多个样本视频以及与所述多个样本视频关联的多个辅助数据，生成识别模型的调整辅助参数时，具体执行以下步骤：

在一个实施例中，所述处理器1001在执行根据所述多个样本视频，生成每个样本视频分别对应的样本时空特征信息时，具体执行以下步骤：

根据所述每个样本视频中的所述样本视频帧图像，生成所述每个样本视频分别对应的第一时空特征信息，并根据所述每个样本视频中的所述样本光流图像序列，生成所述每个样本视频分别对应的第二时空特征信息。

在一个实施例中，所述处理器1001在执行根据所述每个样本视频中的所述样本视频帧图像，生成所述每个样本视频分别对应的第一时空特征信息，并根据所述每个样本视频中的所述样本光流图像序列，生成所述每个样本视频分别对应的第二时空特征信息时，具体执行以下步骤：

在一个实施例中，所述处理器1001在执行所述根据所述多个辅助数据，生成每个辅助数据分别对应的辅助时序特征信息时，具体执行以下步骤：

在一个实施例中，所述调整辅助参数包括第一辅助参数和第二辅助参数；所述分类误差参数包括第一分类误差子参数和第二分类误差子参数；所述目标阈值包括第一阈值和第二阈值；

所述处理器1001在执行根据所述多个样本视频的分类误差参数以及所述调整辅助参数调整识别模型，当调整辅助参数和分类误差参数之和小于目标阈值时，将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型时，具体执行以下步骤：

根据所述第一辅助参数、第一分类误差子参数之和以及第二辅助参数、第二分类误差子参数之和，调整所述识别模型，当所述第一辅助参数和所述第一分类误差子参数之和小于所述第一阈值且所述第二辅助参数和所述第二分类误差子参数之和小于所述第二阈值时，将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。

在一个实施例中，所述处理器1001在执行根据所述多个样本视频和所述多个辅助数据之间的属性关联关系、多个样本时空特征信息、多个辅助时序特征信息，生成识别模型的调整辅助参数时，具体执行以下步骤：

在一个实施例中，所述处理器1001在执行所述根据属于相同对象内容的样本时空特征信息和辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数时，具体执行以下步骤：

在一个实施例中，所述处理器1001在执行所述根据属于相同属性类型的样本时空特征信息和辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数时，具体执行以下步骤：

在一个实施例中，所述处理器1001在执行所述根据所有样本时空特征信息与所有辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数时，具体执行以下步骤：

在一个实施例中，所述处理器1001还执行以下步骤：

分别识别每个第二时空特征信息与所述识别模型中多个属性类型特征之间的匹配度，将由所述每个第二时空特征信息的匹配度与所述识别模型中多个属性类型特征对应的标签信息进行关联，得到第二标签信息集合；

在一个实施例中，所述处理器1001在执行所述根据所述第一标签信息集合和所述第二标签信息集合确定所述分类误差参数时，具体执行以下步骤：

在一个实施例中，所述处理器1001还执行以下步骤：

若获取到图像识别请求，则根据所述图像识别请求获取包含所述目标对象的目标视频，在所述目标视频中提取目标视频帧图像，并生成与所述目标视频帧图像对应的目标光流图像序列；

在一个实施例中，所述处理器1001在执行所述将所述第三标签信息集合和所述第四标签信息集合进行融合，得到所述目标视频中的目标对象对应的属性类型时，具体执行以下步骤：

本发明实施例通过获取样本视频，并生成所述样本视频对应的多个样本时空特征信息；获取辅助数据，并生成所述辅助数据对应的多个辅助时序特征信息；根据所述样本视频和所述辅助数据之间的属性关联关系、所述多个样本时空特征信息、所述多个辅助时序特征信息，生成调整辅助参数；根据所述调整辅助参数、分类误差参数，调整识别模型，使基于调整后的识别模型所生成的调整辅助参数和分类误差参数之和小于目标阈值，并将所述调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。由于可以根据不同模态样本数据所生成的多种类型的特征信息调整识别模型的参数，使得调整后的检测模型兼容多种模态的数据，增强识别模型提取图像特征信息的准确性，使提取出来的特征信息更具有判别力，进而提高识别模型后续对图像识别的准确率。

应当理解，本发明实施例中所描述的终端设备1000可执行前文图2到图7所对应实施例中对所述图像识别方法的描述，也可执行前文图8所对应实施例中对所述图像识别装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且所述计算机存储介质中存储有前文提及的图像识别装置1所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图2到图7所对应实施例中对所述图像识别方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种图像识别方法，其特征在于，包括：

根据多个样本视频，生成每个样本视频分别对应的样本时空特征信息；

根据多个辅助数据，生成每个辅助数据分别对应的辅助时序特征信息；

若所述多个样本视频和所述多个辅助数据之间为样本对应关系，则根据属于相同对象内容的样本时空特征信息和辅助时序特征信息之间的特征空间距离，计算调整辅助参数；所述样本对应关系是指样本视频和辅助数据在每一帧上都一一对应；

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个样本视频，生成每个样本视频分别对应的样本时空特征信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述每个样本视频中的所述样本视频帧图像，生成所述每个样本视频分别对应的第一时空特征信息，并根据所述每个样本视频中的所述样本光流图像序列，生成所述每个样本视频分别对应的第二时空特征信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述调整辅助参数包括第一辅助参数和第二辅助参数；所述分类误差参数包括第一分类误差子参数和第二分类误差子参数；所述目标阈值包括第一阈值和第二阈值；

根据所述第一辅助参数和所述第一分类误差子参数之和、所述第二辅助参数和所述第二分类误差子参数之和，调整所述识别模型，当所述第一辅助参数和所述第一分类误差子参数之和小于所述第一阈值，且所述第二辅助参数和所述第二分类误差子参数之和小于所述第二阈值时，将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

若所述多个样本视频和所述多个辅助数据之间为类别对应关系，则根据属于相同属性类型的样本时空特征信息和辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数；所述类别对应关系是指样本视频中对象所具有的属性类型的种类和辅助数据中对象所具有的属性类型的种类相同，或者辅助数据中对象所具有的属性类型的种类包含样本视频中对象所具有的属性类型的种类；

若所述多个样本视频和所述多个辅助数据之间为模态对应关系，则根据所有样本时空特征信息与所有辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数；所述模态对应关系是样本视频中的对象具有的属性类型的种类和辅助数据中对象具有的属性类型的种类不同，或者辅助数据中对象所具有的属性类型的种类没有完全包含样本视频中对象所具有的属性类型的种类。

6.根据权利要求5所述的方法，其特征在于，所述根据属于相同对象内容的样本时空特征信息和辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据属于相同属性类型的样本时空特征信息和辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数，包括：

8.根据权利要求5所述的方法，其特征在于，所述根据所有样本时空特征信息与所有辅助时序特征信息之间的特征空间距离，计算所述调整辅助参数，包括：

9.根据权利要求3所述的方法，还包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述第一标签信息集合和所述第二标签信息集合确定所述分类误差参数，包括：

根据所述第一标签信息集合、所述多个样本视频的样本属性类型，确定第一分类误差子参数；

根据所述第二标签信息集合、所述多个样本视频的样本属性类型，确定第二分类误差子参数；

11.根据权利要求1所述的方法，其特征在于，所述根据所述多个辅助数据，生成每个辅助数据分别对应的辅助时序特征信息，包括：

12.根据权利要求1所述的方法，还包括：

13.根据权利要求12所述的方法，其特征在于，所述将所述第三标签信息集合和所述第四标签信息集合进行融合，得到所述目标视频中的目标对象对应的属性类型，包括：

14.一种图像识别装置，其特征在于，包括：

第一获取模块，用于获取多个样本视频，并生成每个样本视频分别对应的样本时空特征信息；

第二获取模块，用于获取与所述多个样本视频关联的多个辅助数据，并生成每个辅助数据分别对应的辅助时序特征信息；

第一生成模块，用于若所述多个样本视频和所述多个辅助数据之间为样本对应关系，则根据属于相同对象内容的样本时空特征信息和辅助时序特征信息之间的特征空间距离，计算调整辅助参数；所述样本对应关系是指样本视频和辅助数据在每一帧上都一一对应；

15.一种终端设备，其特征在于，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1-13任一项所述的方法。