CN112668366B

CN112668366B - 图像识别方法、装置、计算机可读存储介质及芯片

Info

Publication number: CN112668366B
Application number: CN201910980310.7A
Authority: CN
Inventors: 严锐; 谢凌曦; 田奇
Original assignee: Huawei Cloud Computing Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2024-04-26
Anticipated expiration: 2039-10-15
Also published as: WO2021073311A1; CN112668366A

Abstract

本申请提供了一种图像识别方法、装置、计算机可读存储介质及芯片，涉及人工智能领域，具体涉及计算机视觉领域。该方法包括：提取待处理图像的图像特征，确定待处理图像中的多个人物中每个人物在待处理图像中多帧图像中的每帧图像的时序特征和空间特征，根据上述时序特征和空间特征确定其动作特征，并根据上述动作特征识别该待处理图像中的多个人物的群体动作。该方法通过确定所提取的待处理图像的多个人物中每个人物的动作在时间上的关联关系，及其与其他人物的动作的关联关系，从而更好地识别出待处理图像中的多个人物的群体动作。

Description

图像识别方法、装置、计算机可读存储介质及芯片

技术领域

本申请涉及人工智能领域，尤其涉及一种图像识别方法、装置、计算机可读存储介质及芯片。

背景技术

计算机视觉是各个应用领域，如制造业、检验、文档分析、医疗诊断，和军事等领域中各种智能/自主系统中不可分割的一部分，它是一门关于如何运用照相机/摄像机和计算机来获取我们所需的，被拍摄对象的数据与信息的学问。形象地说，就是给计算机安装上眼睛(照相机/摄像机)和大脑(算法)用来代替人眼对目标进行识别、跟踪和测量等，从而使计算机能够感知环境。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。总的来说，计算机视觉就是用各种成像系统代替视觉器官获取输入信息，再由计算机来代替大脑对这些输入信息完成处理和解释。计算机视觉的最终研究目标就是使计算机能像人那样通过视觉观察和理解世界，具有自主适应环境的能力。

图像中人的行为的识别和理解是最有价值的信息之一。动作识别是计算机视觉领域的一项重要研究课题。计算机通过动作识别能够理解视频的内容。动作识别技术可以广泛应用于公共场所监控、人机交互等多种领域。特征提取是动作识别过程的关键环节，只有根据准确的特征，才能有效进行动作识别。在进行群体动作识别时，视频中的多个人物中的每个人物的动作在时间上的关系以及多个人物的动作之间的关系，均影响着群体动作识别的准确性。

现有方案一般通过长短期记忆网络(long short-term memory，LSTM)提取人物的时序特征，其中时序特征用于表示人物的动作在时间上的关联性。然后，根据每个人物的时序特征可以计算每个人物的交互动作特征，从而根据每个人物的交互动作特征确定每个人物的动作特征，以根据每个人物的动作特征推断出多个人物的群体动作。交互动作特征用于表示人物动作之间的关联性。

但是在上述方案中，每个人物的交互动作特征仅仅是基于每个人物的动作在时间上的关联性确定的，在用于群体动作的识别时，准确性有待提高。

发明内容

本申请提供一种图像识别方法、装置、计算机可读存储介质及芯片，以更好地识别出待处理图像中的多个人物的群体动作。

第一方面，提供了一种图像识别方法，该方法包括：提取待处理图像的图像特征，待处理图像包括多帧图像；确定多个人物中的每个人物在该多帧图像中的每帧图像中的时序特征；确定多个人物中的每个人物在该多帧图像中的每帧图像中的空间特征；确定多个人物中的每个人物在该多帧图像中的每帧图像中的动作特征；根据多个人物中的每个人物在该多帧图像中的每帧图像中的动作特征，识别待处理图像中的多个人物的群体动作。

可选地，上述待处理图像中多个人物的群体动作可以是某种运动或者活动，例如，上述待处理图像中多个人物的群体动作可以是打篮球、打排球、踢足球以及跳舞等等。

其中，上述待处理图像包括多个人物，上述待处理图像的图像特征包括上述多个人物在待处理图像中的多帧图像中的每帧图像中的图像特征。

本申请中，在确定多个人物的群体动作时，不仅考虑到了多个人物的时序特征，还考虑到了多个人物的空间特征，通过综合多个人物的时序特征和空间特征能够更好更准确地确定出多个人物的群体动作。

当上述图像识别方法由图像识别装置执行时，上述待处理图像可以是从该图像识别装置中获取到的图像，或者，上述待处理图像也可以是该图像识别装置从其他设备接收到的图像，或者，上述待处理图像也可以是通过该图像识别装置的摄像头拍摄得到的。

上述待处理图像，可以是一段视频中连续的多帧图像，也可以按照预设的在一段视频中按照预设规则选取的多帧图像。

应理解，在上述待处理图像中的多个人物中，该多个人物既可以只包括人，也可以只包括动物，也可以既包括人又包括动物。

在上述提取待处理图像的图像特征时，可以对图像中的人物进行识别，从而确定人物的边界框，每个边界框中的图像对应于图像中的一个人物，接下来，可以通过对每个边界框的图像进行特征的提取来获取每个人物的图像特征。

可选地，可以先识别每个人物所对应的边界框中的人物的骨骼节点，然后再根据每个人物的骨骼节点，提取该人物的图像特征向量，从而使提取的图像特征更加准确的反映人物的动作，提高提取的图像特征的准确性。

进一步，还可以根据人物结构将边界框中的骨骼节点进行连接，以得到连接图像，接下来，再对连接图像进行图像特征向量的提取。

或者，还可以将骨骼节点所在的区域和骨骼节点所在的区域之外的区域设置不同的颜色进行显示，得到处理后的图像，然后再对处理后的图像进行图像特征的提取。

进一步，可以根据上述人物的骨骼节点所在的图像区域确定对应于该边界框的局部可见图像，然后对该局部可见图像进行特征提取，以得到待处理图像的图像特征。

上述局部可见图像是由包括待处理图像中的人物的骨骼节点所在的区域组成的图像。具体地，可以将边界框中人物的骨骼节点所在区域之外的区域进行遮掩，以得到所述局部可见图像。

在确定多个人物中的某个人物的时序特征时，可以通过该人物在不同帧图像中的不同动作之间的图像特征向量之间的相似度来确定该人物的不同时刻动作之间的时间关联关系，进而得到该人物的时序特征。

假设上述待处理图像中的多帧图像具体为T帧，i为小于或等于T的正整数，则第i帧图像表示T帧图像中相应顺序的图像；假设上述待处理图像中的多个人物具体为K个，则第j个人物表示K个人物中相应顺序的人物，i和j均为正整数。

上述待处理的多帧图像中第i帧图像的第j个人物的时序特征是根据第j个人物在第i帧图像的图像特征与在多帧图像的其他帧图像的图像特征的相似度确定的。

应理解，上述第i帧图像的第j个人物的时序特征用于表示第j个人物在第i帧图像的动作与在上述多帧图像的动作的关联关系。某个人物在两帧图像中对应的图像特征之间的相似度，可以反映该人物的动作在时间上的依赖程度。

如果某个人物在两帧图像中对应的图像特征的相似度越高，则该人物在两个时间点上的动作之间的关联越紧密；反之，如果某个人物在两帧图像中对应的图像特征的相似度越低，则该人物在两个时间点上的动作之间的关联越弱。

在确定多个人物的空间特征时，通过同一帧图像中不同人物之间的图像特征之间的相似度，确定该帧图像中不同人物动作之间的空间关联关系。

上述待处理的多帧图像中第i帧图像中多个人物中的第j个人物的空间特征是根据第i帧图像中第j个人物的图像特征与第i帧图像中除第j个人物以外的其他人物的图像特征的相似度确定的。也就是说，可以根据第i帧图像中第j个人物的图像特征与第i帧图像中除第j个人物以外的其他人物的图像特征的相似度，确定上述第i帧图像中第j个人物的空间特征。

应理解，第i帧图像中第j个人物的空间特征用于表示第i帧图像中第j个人物的动作与第i帧图像中第i帧图像中除第j个人物以外的其他人物的动作的关联关系。

具体地，上述第i帧图像中第j个人物的图像特征向量与除第j个人物以外的其他人物的图像特征向量的相似度，可以反映第i帧图像中第j个人物对除第j个人物以外的其他人物的动作的依赖程度。也就是说，当两个人物对应的图像特征向量的相似度越高时，这两个人物的动作之间的关联越紧密；反之，当两个人物对应的图像特征向量的相似度越低时，这两个人物的动作之间的关联越弱。

可选地，可以通过明氏距离(Minkowski distance)(如欧氏距离、曼哈顿距离)、余弦相似度、切比雪夫距离、汉明距离等计算上述时序特征之间和空间特征之间的相似度。

不同人物动作之间的空间关联关系以及相同人物动作之间的时间关联关系都可以为图像中的多人场景的类别提供重要线索。因此，本申请在图像识别过程中，通过综合考虑不同人物动作之间的空间关联关系以及相同人物动作之间的时间关联关系，能够有效提高识别的准确性。

可选地，在确定一帧图像中某个人物的动作特征时，可以将对应于一帧图像中的该人物的时序特征、空间特征、图像特征进行融合，从而得到该帧图像中该人物的动作特征。

在对上述时序特征、空间特征、图像特征进行融合时，可以采用组合的融合方式进行融合。

例如，将对应于一帧图像中一个人物的特征进行融合，以得到该帧图像中该人物的动作特征。

进一步，在对上述多个特征进行融合时可以将待融合的特征直接相加，或者加权相加。

可选地，在对上述多个特征进行融合时，可以采用级联和通道融合的方式进行融合。具体地，可以将待融合的特征的维数直接拼接，或者乘以一定系数即权重值之后进行拼接。

可选地，可以利用池化层对上述多个特征进行处理，以实现对上述多个特征的融合。

结合第一方面，在第一方面的某些实现方式中，在根据多个人物中的每个人物在待处理图像中的每帧图像中的动作特征，识别待处理图像中的多个人物的群体动作时，可以对待处理图像中的多个人物中每个人物在每帧图像中的动作特征进行分类，得到每个人物的动作，并据此确定多个人物的群体动作。

可选地，可以将处理图像中的多个人物中每个人物在每帧图像中的动作特征输入分类模块，以得到对上述多个人物中每个人物动作特征的分类结果，即每个人物的动作，进而将对应的人物数量最多的动作作为多个人物的群体动作。

可选地，可以从多个人物中选择某一人物，将该人物在每帧图像中的动作特征输入分类模块，以得到对该人物动作特征的分类结果，即该人物的动作，进而将上述得到的该人物的动作作为待处理图像中的多个人物的群体动作。

结合第一方面，在第一方面的某些实现方式中，在根据多个人物中的每个人物在待处理图像中的每帧图像中的动作特征，识别待处理图像中的多个人物的群体动作时，还可以将每帧图像中多个人物的动作特征进行融合，以得到该帧图像的动作特征，再对每帧图像的动作特征进行分类，得到每帧图像的动作，并据此确定待处理图像中多个人物的群体动作。

可选地，可以将每帧图像中多个人物的动作特征进行融合，以得到该帧图像的动作特征，再将每帧图像的动作特征分别输入分类模块，以得到每帧图像的动作分类结果，将分类模块的输出类别中对应的上述待处理图像中图像数量最多的一个分类结果作为待处理图像中的多个人物的群体动作。

可选地，可以将每帧图像中多个人物的动作特征进行融合，以得到该帧图像的动作特征，再对上述得到的每帧图像的动作特征取平均值，以得到每帧图像的平均动作特征，然后将该每帧图像的平均动作特征输入分类模块，进而将该每帧图像的平均动作特征所对应的分类结果作为待处理图像中的多个人物的群体动作。

可选地，可以从待处理图像中选择一帧图像，将该帧图像中根据多个人物的动作特征融合得到的该帧图像的动作特征输入分类模块，以得到对该帧图像的分类结果，进而将对该帧图像的分类结果作为待处理图像中的多个人物的群体动作。

结合第一方面，在第一方面的某些实现方式中，在识别出待处理图像中的多个人物的群体动作后，根据该群体动作生成待处理图像的标签信息，该标签信息用于指示待处理图像中多个人物的群体动作。

上述方式例如可以用于对视频库进行分类，将该视频库中的不同视频根据其对应的群体动作打上标签，便于用户查看和查找。

结合第一方面，在第一方面的某些实现方式中，在识别出待处理图像中的多个人物的群体动作后，根据该群体动作确定待处理图像中的关键人物。

可选地，先确定待处理图像中多个人物中每个人物对上述群体动作的贡献度，再将贡献度最高的人物确定为关键人物。

应理解，该关键人物对多个人物的群体动作的贡献度大于多个人物中除关键人物之外的其他人物的贡献度。

上述方式例如可以用于检测视频图像中的关键人物，通常情况下，视频中包含若干人物，其中大部分人并不重要。有效地检测出关键人物有助于根据关键人物周围信息，更加快速和准确地理解视频内容。

例如假设一段视频是一场球赛，则控球的球员对在场包括球员、裁判和观众等所有人员的影响最大，对群体动作的贡献度也最高，因此可以将该控球的球员确定为关键人物，通过确定关键人物，能够帮助观看视频的人理解比赛正在和即将发生的事情。

第二方面，提供了一种图像识别方法，该方法包括：提取待处理图像的图像特征；确定多个人物在每帧待处理图像中的空间特征；确定多个人物在每帧待处理图像中的动作特征，，根据上述多个人物在每帧待处理图像中的动作特征识别待处理图像中的多个人物的群体动作。

其中，上述多个人物在待处理图像中的动作特征，是由上述多个人物在该待处理图像中的空间特征和在该待处理图像中的图像特征融合得到的。

上述待处理图像可以是一帧图像，或者，可以是多帧连续或非连续的图像。

本申请中，在确定多个人物的群体动作时，只考虑多个人物的空间特征，而无需计算每个人物的时序特征，特别适用于人物空间特征的确定不依赖于人物时序特征的情况，能够更便于确定出多个人物的群体动作。又例如，当只对一帧图像进行识别时，不存在同一人物在不同时间的时序特征，该方法也更为适用。

上述待处理图像，可以是一段视频中一帧图像或连续的多帧图像，也可以按照预设的在一段视频中按照预设规则选取的一帧或多帧图像。

在提取待处理图像的图像特征时，可以对图像中的人物进行识别，从而确定人物的边界框，每个边界框中的图像对应于图像中的一个人物，接下来，可以通过对每个边界框的图像进行特征的提取，以获取每个人物的图像特征。

可选地，可以先识别每个人物所对应的边界框中的人物的骨骼节点，然后再根据每个人物的骨骼节点，提取该人物的图像特征，从而使提取的图像特征更加准确的反映人物的动作，提高提取的图像特征的准确性。

进一步，还可以根据人物结构将边界框中的骨骼节点进行连接，以得到连接图像，接下来再对连接图像进行图像特征向量的提取。

或者，还可以将骨骼节点所在的区域和骨骼节点所在的区域之外的区域通过不同的颜色进行显示，得到处理后的图像，然后再对处理后得到的图像进行图像特征的提取。

进一步，可以根据上述人物的骨骼节点所在的图像区域确定对应于该边界框的局部可见图像，然后对所该局部可见图像进行特征提取，以得到所述待处理图像的图像特征。

上述局部可见图像是由待处理图像中的人物的骨骼节点所在的区域组成的图像。具体地，可以将边界框中人物的骨骼节点所在区域之外的区域进行遮掩，以得到该局部可见图像。

上述待处理的多帧图像中第i帧图像中多个人物中的第j个人物的空间特征是根据第i帧图像中第j个人物的图像特征与其他人物的图像特征的相似度确定的。也就是说，可以根据第i帧图像中第j个人物的图像特征与其他人物的图像特征的相似度，确定上述第i帧图像中第j个人物的空间特征。

应理解，第i帧图像中第j个人物的空间特征用于表示第i帧图像中第j个人物的动作与该第i帧图像中除第j个人物以外的其他人物的动作的关联关系。

具体地，第i帧图像中第j个人物的图像特征向量与第i帧图像中除第j个人物以外的其他人物的图像特征向量的相似度，可以反映第i帧图像中第j个人物对其他人物的动作的依赖程度。也就是说，两个人物对应的图像特征向量的相似度越高，这两个的动作之间的关联越紧密；反之，相似度越低，两个人物的动作之间的关联越弱。

可选地，可以通过明氏距离(Minkowski distance)(如欧氏距离、曼哈顿距离)、余弦相似度、切比雪夫距离、汉明距离等计算上述空间特征之间的相似度。

可选地，在确定一帧图像中某个人物的动作特征时，可以将对应于一帧图像中该人物的空间特征、图像特征进行融合，从而得到该帧图像中该人物的动作特征。

在对上述空间特征、图像特征进行融合时，可以采用组合的融合方式进行融合。

进一步，在对上述多个特征进行融合时，可以将待融合的特征直接相加，或者加权相加。

结合第二方面，在第二方面的某些实现方式中，在根据多个人物中在每帧待处理图像中的动作特征，识别待处理图像中的多个人物的群体动作时，可以对待处理图像中的多个人物中每个人物在每帧图像中的动作特征进行分类，得到每个人物的动作，并据此确定多个人物的群体动作。

结合第二方面，在第二方面的某些实现方式中，在根据多个人物中在每帧待处理图像中的动作特征，识别待处理图像中的多个人物的群体动作时，还可以将每帧图像中多个人物的动作特征进行融合，以得到该帧图像的动作特征，再对每帧图像的动作特征进行分类，得到每帧图像的动作，并据此确定待处理图像中多个人物的群体动作。

结合第二方面，在第二方面的某些实现方式中，在识别出待处理图像中的多个人物的群体动作后，根据该群体动作生成待处理图像的标签信息，该标签信息用于指示待处理图像中多个人物的群体动作。

结合第二方面，在第二方面的某些实现方式中，在识别出待处理图像中的多个人物的群体动作后，根据该群体动作确定待处理图像中的关键人物。

第三方面，提供了一种图像识别方法，该方法包括：提取待处理图像的图像特征；确定待处理图像中不同人物间的依赖关系以及相同人物不同时刻的动作间的依赖关系；将图像特征与时-空特征向量进行融合，以得到待处理图像的每帧图像的动作特征；对上述每帧图像动作特征进行分类预测，以确定上述待处理图像的群体动作类别。

在本申请中，完成了对群体动作识别的复杂推理过程，且在确定多个人物的群体动作时，不仅考虑到了多个人物的时序特征，还考虑到了多个人物的空间特征，通过综合多个人物的时序特征和空间特征能够更好更准确地确定出多个人物的群体动作。

可选地，在上述提取待处理图像的图像特征时，可以对每个人物进行目标追踪，确定每个人物在每帧图像中的边界框，每个边界框中的图像对应于一个人物，再对上述每个边界框的图像进行特征的提取，以获取每个人物的图像特征。

在上述提取待处理图像的图像特征时，还可以通过识别人物的骨骼节点，对图像特征进行提取，以减少特征提取过程中图像的冗余信息的影响，提高特征提取的准确性。具体地，可以根据骨骼节点，利用卷积网络提取图像特征。

可选地，可以根据人物结构，将边界框中的骨骼节点进行连接，以得到连接图像，然后对该连接图像进行图像特征向量的提取。或者，还可以将骨骼节点所在的区域和骨骼节点所在的区域之外的区域通过不同的颜色进行显示，然后再对处理后的图像进行图像特征的提取。

可选地，可以根据人物的图像和骨骼节点，计算人物动作遮掩矩阵。遮掩矩阵中每个点对应于一个像素。遮掩矩阵中，以骨骼点为中心，边长为l的方形区域内的值设置为1，其他位置的值设置为0。

进一步，可以采用RGB色彩模式进行遮掩。RGB色彩模式使用RGB模型为图像中每一个像素的RGB分量分配一个0至255范围内的强度值。用遮掩矩阵对原始人物动作图片进行遮掩，得到局部可见图像。

可选地，保留骨骼节点中的每个节点周围变长为l的区域，对其他区域进行遮掩。

对于每个人物，利用局部可见图像进行图像特征的提取，可以减少边界框中的冗余信息，可以根据人物的结构信息，提取图像特征，增强图像特征中对于人物动作的表现能力。

在上述确定待处理图像中不同人物间的依赖关系以及相同人物不同时刻的动作间的依赖关系时，利用十字交互模块确定多帧图像中的人物的身体姿态在时间上的相关性，和/或确定多帧图像中的人物的身体姿态在空间上的相关性。

可选地，将上述十字交互模块用于实现特征的交互，建立特征交互模型，特征交互模型用于表示人物的身体姿态在时间上和/或空间上的关联关系。

可选地，通过计算同一帧图像中不同的人物的图像特征之间的相似度，可以确定同一帧图像中不同的人物的身体姿态之间的空间依赖。所述空间依赖用于表示在某一帧图像中一人物的身体姿态对在其他人物的身体姿态的依赖，即人物动作间的空间依赖。可以通过空间特征向量表示空间依赖性。

可选地，通过计算同一人物在不同时间的图像特征之间的相似度，可以确定同一人物在不同时间的身体姿态之间的时间依赖。所述时间依赖也可以称为时序依赖，用于表示在某一帧图像中该人物的身体姿态对在其他视频帧中该人物的身体姿态的依赖，即一个动作内在的时序依赖。可以通过时序特征向量表示时间依赖性。

可以根据待处理图像中第k个人物的空间特征向量和时序特征向量，计算得到第k个人物的时-空特征向量。

在上述将图像特征与时-空特征向量进行融合，以得到待处理图像的每帧图像的动作特征的过程中，将T个时刻的图像中的K个人物的图像特征的集合中的图像特征与T个时刻的图像中的K个人物的时-空特征向量的集合/>中的时-空特征向量进行融合，以得到T个时刻的图像中每个图像的图像特征。

可选地，将t时刻第k人物的图像特征与时-空特征向量进行融合，以得到t时刻第k人物的人物特征向量；或将图像特征与时-空特征向量进行残差连接，以得到人物特征向量。根据K个人物中每人物的人物特征向量，确定在t时刻，K个人物的人物特征向量的集合。对所述人物特征向量的集合进行最大池化，以得到动作特征向量。

在上述根据动作特征进行分类预测，以确定待处理图像的群体动作类别的过程中，可以采用不同的方式得到所述群体动作的分类结果。

可选地，将t时刻的动作特征向量输入分类模块，以得到对该帧图像的分类结果。可以将分类模块对任意t时刻的所述图像特征向量的分类结果作为T帧图像中的群体动作的分类结果。T帧图像中的群体动作的分类结果也可以理解为T帧图像中的人物的群体动作的分类结果，或者T帧图像的分类结果。

可选地，将T帧图像的动作特征向量分别输入分类模块，以得到每帧图像的分类结果。T帧图像的分类结果可以属于一个或多个类别。可以将分类模块的输出类别中对应的T帧图像中图像数量最多的一个类别作为T帧图像中的群体动作的分类结果。

可选地，对T帧图像的动作特征向量取平均值，以得到平均特征向量。平均特征向量中的每一位为T帧图像的图像特征向量表示中对应位的平均值。可以将平均特征向量输入分类模块，以得到T帧图像中的群体动作的分类结果。

上述方法能够完成群体动作识别的复杂推理过程：确定多帧图像的图像特征，并根据图像中不同人物之间和不同时间的动作之间的相互依赖关系确定其时序特征和空间特征，再将其上述图像特征进行融合获得每帧图像动作特征，进而通过对每帧图像的动作特征进行分类，推断出多帧图像的群体动作。

第四方面，提供了一种图像识别装置，该图像识别装置具有实现第一方面至第三方面或其任意可能的实现方式中的方法的功能。

可选地，该图像识别装置包括实现第一方面至第三方面中的任意一种实现方式中的实现方式中的方法的各个模块或者单元。

第五方面，提供了一种神经网络的训练装置，该训练装置具有实现第一方面至第三方面中的任意一种实现方式中的方法的功能。

可选地，该训练装置包括实现第一方面至第三方面中的任意一种实现方式中的实现方式中的方法的各个模块。

可选地，该训练装置包括实现第一方面至第三方面中的任意一种实现方式中的实现方式中的方法的单元。

第六方面，提供了一种图像识别装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行上述第一方面至第三方面中的任意一种实现方式中的方法。

第七方面，提供了一种神经网络的训练装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行上述第一方面至第三方面中的任意一种实现方式中的方法。

第八方面，提供了一种电子设备，该电子设备包括第四方面或者第六方面中的图像识别装置。

上述第八方面中的电子设备具体可以是移动终端(例如，智能手机)，平板电脑，笔记本电脑，增强现实/虚拟现实设备以及车载终端设备等等。

第九方面，提供了一种计算机设备，该电子设备包括第五方面或者第七方面中的神经网络的训练装置。

该计算机设备具体可以是计算机、服务器、云端设备或者具有一定计算能力能够实现对神经网络的训练的设备。

第十方面，本申请提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机指令，当计算机指令在计算机上运行时，使得计算机执行第一方面至第三方面中的任意一种实现方式中的方法。

第十一方面，本申请提供一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行第一方面至第三方面中的任意一种实现方式中的方法。

第十二方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，以执行第一方面至第三方面中的任意一种实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第一方面至第三方面中的任意一种实现方式中的方法。

上述芯片具体可以是现场可编程门阵列FPGA或者专用集成电路ASIC。

附图说明

图1是本申请实施例提供的一种应用环境的示意图；

图2是本申请实施例提供的一种应用环境的示意图；

图3是本申请实施例提供的一种群体动作识别的方法的示意性流程图；

图4是本申请实施例提供的一种群体动作识别的方法的示意性流程图；

图5是本申请实施例提供的一种系统架构的示意图；

图6是本申请实施例提供的一种卷积神经网络结构示意图；

图7是本申请实施例提供的一种芯片硬件结构的示意图；

图8是本申请实施例提供的一种神经网络模型的训练方法的示意性流程图；

图9是本申请实施例提供的一种图像识别方法的示意性流程图；

图10是本申请实施例提供的一种图像识别方法的示意性流程图；

图11是本申请实施例提供的一种图像识别方法的示意性流程图；

图12是本申请实施例提供的一种获取局部可见图像的过程的示意图；

图13是本申请实施例提供的一种计算图像特征之间相似度的方法的示意图；

图14是本申请实施例提供的不同人物动作在空间上的关系的示意图；

图15是本申请实施例提供的不同人物动作在空间上的关系的示意图；

图16是本申请实施例提供的一个人物的动作在时间上的关系的示意图；

图17是本申请实施例提供的一个人物的动作在时间上的关系的示意图；

图18是本申请实施例提供的一种图像识别网络的系统架构的示意图；

图19是本申请实施例提供的一种图像识别装置的结构示意图；

图20是本申请实施例提供的一种图像识别装置的结构示意图；

图21是本申请实施例提供的一种神经网络训练装置的结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请的方案可以应用在视频分析、视频识别、异常或危险的行为检测等需要对多人复杂场景的视频分析的领域。该视频例如可以是体育比赛视频、日常监控视频等。下面对两种常用的应用场景进行简单的介绍。

应用场景一：视频管理系统

随着移动网速的迅速提升，用户在电子设备上存储了大量的短视频。短视频中可能包括不止一个人。对视频库中的短视频进行识别可以方便用户或者系统对视频库进行分类管理，提升用户体验。

如图1所示，利用本申请提供的群体动作识别系统，使用给定的数据库，训练适用于短视频分类的神经网络结构并部署测试，训练得到的神经网络结构可以为确定短视频对应的标签，即对短视频进行分类，得到不同的短视频对应的群体动作类别，并为不同的短视频打上不同的标签，便于用户查看和查找，可以节省人工分类和管理的时间，提高管理的效率和用户体验。

应用场景二：关键人物检测系统

通常情况下，视频中包括若干人物，其中大部分人并不重要。有效地检测出关键人物有助于快速理解场景内容。如图2所示，利用本申请提供的群体动作识别系统，可以识别出视频中关键人物，从而根据关键人物周围信息，更加准确地理解视频内容。

为了便于理解，下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x_s和截距b为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W_s为x_s的权重，b为神经单元的偏置。f()为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有很多层隐含层的神经网络，这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。例如，全连接神经网络中层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：其中，/>是输入向量，/>是输出向量，/>是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量/>经过如此简单的操作得到输出向量/>由于DNN层数多，则系数W和偏移向量/>的数量也就很多了。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为/>上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

总结就是：第L-1层的第k个神经元到第L层的第j个神经元的系数定义为需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包括了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包括若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(4)循环神经网络(recurrent neural networks，RNN)是用来处理序列数据的。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，而对于每一层层内之间的各个节点是无连接的。这种普通的神经网络虽然解决了很多难题，但是却仍然对很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐含层本层之间的节点不再无连接而是有连接的，并且隐含层的输入不仅包括输入层的输出还包括上一时刻隐含层的输出。理论上，RNN能够对任何长度的序列数据进行处理。对于RNN的训练和对传统的CNN或DNN的训练一样。同样使用误差反向传播算法，不过有一点区别：即，如果将RNN进行网络展开，那么其中的参数，如W，是共享的；而如上举例上述的传统神经网络却不是这样。并且在使用梯度下降算法中，每一步的输出不仅依赖当前步的网络，还依赖前面若干步网络的状态。该学习算法称为基于时间的反向传播算法(back propagation through time，BPTT)。

既然已经有了卷积神经网络，为什么还要循环神经网络？原因很简单，在卷积神经网络中，有一个前提假设是：元素之间是相互独立的，输入与输出也是独立的，比如猫和狗。但现实世界中，很多元素都是相互连接的，比如股票随时间的变化，再比如一个人说了：我喜欢旅游，其中最喜欢的地方是云南，以后有机会一定要去。这里填空，人类应该都知道是填“云南”。因为人类会根据上下文的内容进行推断，但如何让机器做到这一步？RNN就应运而生了。RNN旨在让机器像人一样拥有记忆的能力。因此，RNN的输出就需要依赖当前的输入信息和历史的记忆信息。

(5)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(6)残差网络

在不断加神经网络的深度时，会出现退化的问题，即随着神经网络深度的增加，准确率先上升，然后达到饱和，再持续增加深度则会导致准确率下降。普通直连的卷积神经网络和残差网络(residual network，ResNet)的最大区别在于，ResNet有很多旁路的支线将输入直接连到后面的层，通过直接将输入信息绕道传到输出，保护信息的完整性，解决退化的问题。残差网络包括卷积层和/或池化层。

残差网络可以是：深度神经网络中多个隐含层之间除了逐层相连之外，例如第1层隐含层连接第2层隐含层，第2层隐含层连接第3层隐含层，第3层隐含层连接第4层隐含层(这是一条神经网络的数据运算通路，也可以形象的称为神经网络传输)，残差网络还多了一条直连支路，这条直连支路从第1层隐含层直接连到第4层隐含层，即跳过第2层和第3层隐含层的处理，将第1层隐含层的数据直接传输给第4层隐含层进行运算。公路网络可以是：深度神经网络中除了有上面所述的运算通路和直连分支之外，还包括一条权重获取分支，这条支路引入传输门(transform gate)进行权重值的获取，并输出权重值T供上面的运算通路和直连分支后续的运算使用。

(7)反向传播算法

卷积神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的神经网络模型中参数的大小，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的参数，例如权重矩阵。

(8)像素值

图像的像素值可以是一个红绿蓝(Red-Green-Blue,RGB)颜色值，像素值可以是表示颜色的长整数。例如，像素值为255×Red+100×Green+76×Blue，其中，Blue代表蓝色分量，Green代表绿色分量，Red代表红色分量。各个颜色分量中，数值越小，亮度越低，数值越大，亮度越高。对于灰度图像来说，像素值可以是灰度值。

(9)群体动作识别

群体动作识别(group activity recognition,GAR)也可以称为群体活动识别，用于识别视频中一群人所做的事情。是计算机视觉中的一个重要课题。GAR有许多潜在的应用，包括视频监控和体育视频分析。与传统的单人动作识别相比，GAR不仅需要识别人物的行为，还需要推断人物之间的潜在关系。

群体动作识别的可以采用以下方式：

(1)从相应的边界框中提取每个人物的时序特征(又称作人物动作表示)；

(2)推断每个人物之间的空间上下文(又称作交互动作表示)；

(3)将这些表示连接为最终的组活动特性(又称作特征聚合)。

这些方法确实有效，但却忽略了多级信息的并发性，导致GAR的性能不尽人意。

一个群体动作是由该群体中若干人物的不同动作组成的，即相当于几个人物合作完成的动作，而这些人物动作又反映出身体的不同姿态。

此外，传统的模型往往忽略了不同人物之间的空间依赖关系，人物之间的空间依赖关系以及每个人物动作的时间依赖关系都可以为GAR提供重要的线索。例如，一个人在击球时，必须观察他的队友情况，同时，他必须随着时间推移不断调整自身姿态，以执行这样一个击球动作。而这样几个人互相合作完成一个群体动作。以上所有这些信息，包括每帧图像中每个人的动作特征(也可以称为人物的姿态(human parts)特征)、每个人的动作在时间上和空间上的依赖性特征(也可以称为人物动作(human actions)特征)、每帧图像的特征(也可以称为群体活动(group activity)特征)及这些特征之间的相互关系，共同构成一个实体，影响着群体动作的识别。也就是说，传统方法通过使用分步法去处理这样一个实体的复杂信息，无法充分利用其中潜在的时间和空间的依赖性。不仅如此，这些方法还极有可能会破坏空间域和时间域之间的共现关系。现有方法往往直接在提取时序依赖特征的情况下训练CNN网络，因此特征提取网络提取的特征忽略了图像中的人之间的空间依赖关系。另外，边界框中包括较多的冗余信息，这些信息可能会较低提取的人物的动作特征的准确性。

图3是一种群体动作识别的方法的示意性流程图。具体可参见《A HierarchicalDeep Temporal Model for Group Activity Recognition》(Ibrahim M S,MuralidharanS,Deng Z,et al.IEEE Conference on Computer Vision and PatternRecognition.2016:1971-1980)。

使用已有算法对多个视频帧中的若干人物进行目标跟踪，确定每个人物在多个视频帧中每个视频帧中的大小和位置。使用人物CNN提取每个视频帧中每个人物的卷积特征，并将卷积特征输入人物长短期记忆网络(long short-term memory，LSTM)提取每个人物的时序特征。将每个人物对应的卷积特征和时序特征进行拼接，作为该人物的人物动作特征。将视频中多个人物的人物动作特征进行拼接和最大池化，以得到每个视频帧的动作特征。将每个视频帧的动作特征输入群体LSTM，以获得视频帧对应的特征。将视频帧对应的特征输入群体动作分类器，从而对输入的视频进行分类，即确定视频中的群体动作所属的类别。

需要进行两步训练，以得到能够对包括该特定类型的群体动作的视频进行识别的分层深度时序模型(hierarchical deep temporal model，HDTM)。HDTM模型包括人物CNN、人物LSTM、群体LSTM和群体动作分类器。

使用已有算法对多个视频帧中的若干人物进行目标跟踪，确定每个人物在多个视频帧中每个视频帧中的大小和位置。每个人物对应于一个人物动作标签。每个输入的视频对应于一个群体动作标签。

第一步训练，根据每个人物对应于的人物动作标签，训练人物CNN、人物LSTM和人物动作分类器，从而得到训练后的人物CNN、训练后的人物LSTM。

第二步训练，根据群体动作标签训练群体LSTM和群体动作分类器的参数，从而得到训练后的群体LSTM和训练后的群体动作分类器。

根据第一步训练得到人物CNN、人物LSTM，提取输入的视频中每个人物的卷积特征、时序特征。之后，根据提取的多个人物的卷积特征、时序特征进行拼接得到的每个视频帧的特征表示，进行第二步训练。在两步训练完成之后，得到的神经网络模型能够对输入的视频进行群体动作识别。

每个人物的人物动作特征表示的确定，是由第一步训练的神经网络模型进行的。对多个人物的人物动作特征表示进行融合，从而识别群体动作，是由第二步训练的神经网络模型进行的。特征提取与群体动作分类之间存在信息隔阂，即第一步训练得到的神经网络模型能够准确提取识别人物动作的特征，但这些特征是否适用于群体动作的识别，并不能得到保证。

图4是一种群体动作识别的方法的示意性流程图。具体可参见《Social sceneunderstanding:End-to-end multi-person action localization and collectiveactivity recognition》(Bagautdinov,Timur,et al.IEEE Conference on ComputerVision and Pattern Recognition.2017:4315-4324)。

将若干视频帧中第t帧图像送入全卷积网络(fully convolutional networks，FCN)，以得到若干人物特征f^t。通过RNN对若干人物特征f^t进行时序建模以得到每个人物的时序特征，将每个人物的时序特征送入分类器以同时识别人物动作p_I ^t和群体动作p_C ^t。

需要进行一步训练，以得到能够对包括该特定类型的群体动作的视频进行识别的神经网络模型。也就是说，将训练图像输入FCN，根据训练图像中每个人物的人物动作标签和群体动作标签，对FCN、RNN的参数进行调整，以得到训练后的FCN、RNN。

FCN可以产生第t帧图像的多尺度特征图F^t。通过深度全卷积网络(deep fullyconvolutional networks，DFCN)产生若干个检测框B^t和对应的概率p^t，将B^t和p^t送入马尔可夫随机场(Markov random field，MRF)以得到可信检测框b^t，以从多尺度特征图F^t中确定可信检测框b^t对应的特征f^t。根据可信检测框b^t-1和可信检测框b^t中的人的特征，可以确定可信检测框b^t-1和b^t中是相同的人。FCN也可以通过预先训练获得。

一个群体动作是由若干人物的不同动作组成，而这些人物动作又反映在每个人物的不同身体姿态。人物的时序特征可以反映一个人物的动作的时间依赖关系。人物动作之间的空间依赖关系，也为群体动作识别提供重要的线索。未考虑人物之间的空间依赖性的群体动作识别方案，准确性受到一定影响。

另外，在神经网络的训练过程中，确定每个人物的人物动作标签通常由人工进行，工作量较大。

为了解决上述问题，本申请实施例提供了一种图像识别方法。本申请的在确定多个人物的群体动作时，不仅考虑到了多个人物的时序特征，还考虑到了多个人物的空间特征，通过综合多个人物的时序特征和空间特征能够更好更准确地确定出多个人物的群体动作。

下面先结合图5对本申请实施例的一种系统架构进行介绍。

图5是本申请实施例的一种系统架构的示意图。如图5所示，系统架构500包括执行设备510、训练设备520、数据库530、客户设备540、数据存储系统550、以及数据采集系统560。

另外，执行设备510包括计算模块511、I/O接口512、预处理模块513和预处理模块514。其中，计算模块511中可以包括目标模型/规则501，预处理模块513和预处理模块514是可选的。

数据采集设备560用于采集训练数据。针对本申请实施例的图像识别方法来说，训练数据可以包括多帧训练图像(该多帧训练图像中包括多个人物，例如多个人)以及对应的标签，其中，标签给出了训练图像中的人的群体动作类别。在采集到训练数据之后，数据采集设备560将这些训练数据存入数据库530，训练设备520基于数据库530中维护的训练数据训练得到目标模型/规则501。

下面对训练设备520基于训练数据得到目标模型/规则501进行描述，训练设备520对输入的多帧训练图像进行识别，将输出的预测类别与标签进行对比，直到训练设备520输出的预测类别与标签的结果的差异小于一定的阈值，从而完成目标模型/规则501的训练。

上述目标模型/规则501能够用于实现本申请实施例的图像识别方法，即，将一帧或多帧待处理图像(通过相关预处理后)输入该目标模型/规则501，即可得到该一帧或多帧待处理图像的中的人的群体动作类别。本申请实施例中的目标模型/规则501具体可以为神经网络。需要说明的是，在实际应用中，数据库530中维护的训练数据不一定都来自于数据采集设备560的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备520也不一定完全基于数据库530维护的训练数据进行目标模型/规则501的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备520训练得到的目标模型/规则501可以应用于不同的系统或设备中，如应用于图5所示的执行设备510，所述执行设备510可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)，车载终端等，还可以是服务器或者云端等。在图5中，执行设备510配置输入/输出(input/output，I/O)接口512，用于与外部设备进行数据交互，用户可以通过客户设备540向I/O接口512输入数据，所述输入数据在本申请实施例中可以包括：客户设备输入的待处理图像。这里的客户设备540具体可以是终端设备。

预处理模块513和预处理模块514用于根据I/O接口512接收到的输入数据(如待处理图像)进行预处理，在本申请实施例中，可以没有预处理模块513和预处理模块514或者只有的一个预处理模块。当不存在预处理模块513和预处理模块514时，可以直接采用计算模块511对输入数据进行处理。

在执行设备510对输入数据进行预处理，或者在执行设备510的计算模块511执行计算等相关的处理过程中，执行设备510可以调用数据存储系统550中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统550中。

最后，I/O接口512将处理结果，如将目标模型/规则501计算得到的群体动作类别呈现给客户设备540，从而提供给用户。

具体地，经过计算模块511中的目标模型/规则501处理得到的群体动作类别可以通过预处理模块513(也可以再加上预处理模块514的处理)的处理后将处理结果送入到I/O接口，再由I/O接口将处理结果送入到客户设备540中显示。

应理解，当上述系统架构500中不存在预处理模块513和预处理模块514时，计算模块511还可以将处理得到的群体动作类别传输到I/O接口，然后再由I/O接口将处理结果送入到客户设备540中显示。

值得说明的是，训练设备520可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则501，该相应的目标模型/规则501即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在图5中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口512提供的界面进行操作。另一种情况下，客户设备540可以自动地向I/O接口512发送输入数据，如果要求客户设备540自动发送输入数据需要获得用户的授权，则用户可以在客户设备540中设置相应权限。用户可以在客户设备540查看执行设备510输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备540也可以作为数据采集端，采集如图所示输入I/O接口512的输入数据及输出I/O接口512的输出结果作为新的样本数据，并存入数据库530。当然，也可以不经过客户设备540进行采集，而是由I/O接口512直接将如图所示输入I/O接口512的输入数据及输出I/O接口512的输出结果，作为新的样本数据存入数据库530。

值得注意的是，图5仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图5中，数据存储系统550相对执行设备510是外部存储器，在其它情况下，也可以将数据存储系统550置于执行设备510中。

如图5所示，根据训练设备520训练得到目标模型/规则501，可以是本申请实施例中的神经网络，具体的，本申请实施例提供的神经网络可以是CNN以及深度卷积神经网络(deep convolutional neural networks,DCNN)等等。

由于CNN是一种非常常见的神经网络，下面结合图6重点对CNN的结构进行介绍。如上文的基础概念介绍所述，卷积神经网络是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元可以对输入其中的图像做出响应。

图6是本申请实施例提供的一种卷积神经网络结构示意图。如图6所示，卷积神经网络(CNN)600可以包括输入层610，卷积层/池化层620(其中池化层为可选的)，以及全连接层(fully connected layer)630。下面对这些层的相关内容做详细介绍。

卷积层/池化层620：

卷积层：

如图6所示卷积层/池化层620可以包括如示例621-626层，举例来说：在一种实现中，621层为卷积层，622层为池化层，623层为卷积层，624层为池化层，625为卷积层，626为池化层；在另一种实现方式中，621、622为卷积层，623为池化层，624、625为卷积层，626为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

下面将以卷积层621为例，介绍一层卷积层的内部工作原理。

卷积层621可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用多个尺寸(行×列)相同的权重矩阵，即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度，这里的维度可以理解为由上面所述的“多个”来决定。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同，经过该多个尺寸相同的权重矩阵提取后的卷积特征图的尺寸也相同，再将提取到的多个尺寸相同的卷积特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息，从而使得卷积神经网络600进行正确的预测。

当卷积神经网络600有多个卷积层的时候，初始的卷积层(例如621)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络600深度的加深，越往后的卷积层(例如626)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，在如图6中620所示例的621-626各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

全连接层630：

在经过卷积层/池化层620的处理后，卷积神经网络600还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层620只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息)，卷积神经网络600需要利用全连接层630来生成一个或者一组所需要的类的数量的输出。因此，在全连接层630中可以包括多层隐含层(如图6所示的631、632至23n)以及输出层240，该多层隐含层中所包括的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括图像识别，图像分类，图像超分辨率重建等等。

在全连接层630中的多层隐含层之后，也就是整个卷积神经网络600的最后层为输出层240，该输出层240具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络600的前向传播(如图6由610至240方向的传播为前向传播)完成，反向传播(如图6由240至610方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络600的损失，及卷积神经网络600通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图6所示的卷积神经网络600仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在。

应理解，可以采用图6所示的卷积神经网络(CNN)600执行本申请实施例的图像识别方法，如图6所示，待处理图像经过输入层610、卷积层/池化层620和全连接层630的处理之后可以得到群体动作类别。

图7为本申请实施例提供的一种芯片硬件结构示意图。如图7所示，该芯片包括神经网络处理器700。该芯片可以被设置在如图5所示的执行设备510中，用以完成计算模块511的计算工作。该芯片也可以被设置在如图5所示的训练设备520中，用以完成训练设备520的训练工作并输出目标模型/规则501。如图6所示的卷积神经网络中各层的算法均可在如图7所示的芯片中得以实现。

神经网络处理器(neural-network processing unit，NPU)50作为协处理器挂载到主中央处理器(central processing unit，CPU)(host CPU)上，由主CPU分配任务。NPU的核心部分为运算电路703，控制器704控制运算电路703提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路703内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路703是二维脉动阵列。运算电路703还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路703是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路703从权重存储器702中取矩阵B相应的数据，并缓存在运算电路703中每一个PE上。运算电路703从输入存储器701中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)708中。

向量计算单元707可以对运算电路703的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元707可以用于神经网络中非卷积/非FC层的网络计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(local response normalization)等。

在一些实现中，向量计算单元能707将经处理的输出的向量存储到统一缓存器706。例如，向量计算单元707可以将非线性函数应用到运算电路703的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元707生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路703的激活输入，例如用于在神经网络中的后续层中的使用。

统一存储器706用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器705(direct memory accesscontroller，DMAC)将外部存储器中的输入数据搬运到输入存储器701和/或统一存储器706、将外部存储器中的权重数据存入权重存储器702，以及将统一存储器706中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)710，用于通过总线实现主CPU、DMAC和取指存储器709之间进行交互。

与控制器704连接的取指存储器(instruction fetch buffer)709，用于存储控制器704使用的指令；

控制器704，用于调用指存储器709中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器706，输入存储器701，权重存储器702以及取指存储器709均为片上(on-chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random accessmemory，简称DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

另外，在本申请中，图6所示的卷积神经网络中各层的运算可以由运算电路703或向量计算单元707执行。

图8是本申请实施例提供的一种神经网络模型的训练方法的示意性流程图。

S801、获取训练数据，训练数据包括T1帧训练图像和标注类别。

T1帧训练图像对应于一个标注类别。T1为大于1的正整数。T1帧训练图像可以是一段视频中连续的多帧图像，也可以按照预设的在一段视频中按照预设规则选取的多帧图像。例如，T1帧训练图像可以是一段视频中每经过预设的时间进行选取获得的多帧图像，或者可以是在一段视频中间隔预设数量的帧数的多帧图像。

T1帧训练图像中可以包括多个人物，该多个人物既可以只包括人，也可以只包括动物，也可以既包括人又包括动物。

上述标注类别用于指示T1帧训练图像中的人物的群体动作的类别。

S802、利用神经网络对T1帧训练图像进行处理，以得到训练类别。

利用神经网络对T1帧训练图像进行以下处理：

S802a、提取T1帧训练图像的图像特征。

从T1帧训练图像中选择出至少一帧图像，提取该至少一帧图像中每帧图像中的多个人物的图像特征。

在一帧训练图像中，某个人物的图像特征可以用于表示该人物在该帧训练图像中的身体姿态，即该人物的不同肢体之间的相对位置。上述图像特征可以通过向量表示。

S802b、确定至少一帧训练图像中每帧训练图像中的多个人物的空间特征。

其中，所述至少一帧训练图像的第i帧训练图像中的第j个人物的空间特征是根据第i帧训练图像中第j个人物的图像特征与第i帧图像中除第j个人物之外的其他人物的图像特征的相似度确定的，i和j为正整数。

所述第i帧训练图像中第j个人物的空间特征用于表示第i帧训练图像中第j个人物的动作与述第i帧训练图像中除第j个人物之外的其他人物的动作的关联关系。

不同人物在同一帧图像中对应的图像特征之间的相似度，可以反映上述不同人物的动作在空间上依赖程度。也就是说，当两个人物对应的图像特征的相似度越高时，这两个人物的动作之间的关联越紧密；反之，当两个人物对应的图像特征的相似度越低时，这两个人物的动作之间的关联越弱。

S802c、确定至少一帧训练图像中多个人物中每个人物在不同帧图像中的时序特征。

其中，所述至少一帧训练图像中的第i帧训练图像中的第j个人物的时序特征是根据该第j个人物在第i帧训练图像的图像特征与该第j个人物在除第i帧图像之外的其他帧训练图像的图像特征之间的相似度确定的，i和j为正整数。

所述第i帧训练图像中第j个人物的时序特征用于表示第j个人物在第i帧训练图像的动作与其在所述至少一帧训练图像的其他帧训练图像的动作的关联关系。

一个人物在两帧图像中对应的图像特征之间的相似度，可以反映该人物的动作在时间上的依赖程度。一个人物在两帧图像中对应的图像特征的相似度越高，则在两个时间点该人物的动作之间的关联越紧密；反之，相似度越低，该人物在这两个时间点的动作之间的关联越弱。

S802d、确定至少一帧训练图像中每帧训练图像中的多个人物的动作特征。

其中，所述第i帧训练图像中第j个人物的动作特征是对该第i帧训练图像中第j个人物的空间特征、该第i帧训练图像中第j个人物的时序特征、该第i帧训练图像中第j个人物的图像特征进行融合得到的。

S802e、根据所述至少一帧训练图像中每帧训练图像中的多个人物的动作特征，识别所述T1帧训练图像中的多个人物的群体动作，以得到所述群体动作对应的训练类别。

可以将所述至少一帧训练图像中每帧训练图像中的多个人物中每个人物的动作特征进行融合，以得到所述至少一帧训练图像中每帧训练图像的特征表示。

可以计算T1训练帧图像中每帧训练图像的训练特征表示的每一位的平均值，以得到平均特征表示。平均训练特征表示的每一位为T1帧训练图像中每帧训练图像的特征表示的对应位的平均值。可以根据平均特征表示进行分类，即识别所述T1帧训练图像中的多个人物的群体动作，以得到训练类别。

为了增加训练的数据量，可以确定所述至少一帧训练图像中每一帧训练图像的训练类别。以确定每一帧图像的训练类别为例进行说明。所述至少一帧训练图像可以是T1帧训练图像中的全部或部分训练图像。

S803、根据训练类别和标注类别，确定该神经网络的损失值。

神经网络的损失值L可以表示为：

其中，N_Y表示群体动作类别数量，即神经网络输出的类别的数量；表示标注类别，通过one-hot编码表示，/>包括N_Y位，/>用于表示其中的一位，/>p_t表示T1帧图像中第t帧图像的训练类别，p_t通过one-hot编码表示，p_t包括N_Y位，/>表示其中的一位，/>第t帧图像也可以理解为t时刻的图像。

S804、根据该损失值对神经网络通过反向传播进行调整。

在上述训练的过程中，训练数据一般包括多组训练图像和标注类别的组合，每组训练图像和标注类别的组合可以包括一帧或多帧训练图像，以及该一帧或多帧训练图像对应的一个唯一的标注类别。

在对上述神经网络进行训练的过程中，可以为神经网络设置一套初始的模型参数，然后根据训练类别与标注类别的差异来逐渐调整神经网络的模型参数，直到训练类别与标注类别之间的差异在一定的预设范围内，或者，当训练的次数达到预设次数时，将此时的神经网络的模型参数确定为该神经网络模型的最终的参数，这样就完成了对神经网络的训练了。

图9是本申请实施例提供的一种图像识别方法的示意性流程图。

S901、提取待处理图像的图像特征。

上述待处理图像中包括多个人物，上述待处理图像的图像特征包括上述多个人物中的每个人物在待处理图像中的多帧图像中的每帧中的图像特征。

在步骤S901之前，可以获取待处理图像。可以从存储器中获取待处理图像，或者，也可以接收待处理图像。

例如，当图9所示图像识别方法由图像识别装置执行时，上述待处理图像可以是从该图像识别装置中获取到的图像，或者，上述待处理图像也可以是该图像识别装置从其他设备接收到的图像，或者，上述待处理图像也可以是通过该图像识别装置的摄像头拍摄得到的。

上述待处理图像，可以是一段视频中连续的多帧图像，也可以是在一段视频中按照预设规则选取的多帧图像。例如，可以在一段视频中，根据预设的时间间隔选取多帧图像；或者，可以在一段视频中，根据预设的帧数间隔选取多帧图像。

在一帧图像中，某个人物的图像特征可以用于表示该人物在该帧图像中的身体姿态，即该人物的不同肢体之间的相对位置。上述某个人物的图像特征可以通过向量表示，该向量可以称为图像特征向量。上述图像特征的提取可以由CNN进行。

可选地，在上述提取待处理图像的图像特征时，可以对图像中的人物进行识别，从而确定人物的边界框，每个边界框中的图像对应于一个人物，再对上述每个边界框的图像进行特征的提取，以获取每个人物的图像特征。

由于边界框内的图像中包括较多的冗余信息，这些冗余信息与人物的动作无关。为了提高图像特征向量的准确性，可以通过识别每个边界框中的人物的骨骼节点，减少冗余信息的影响。

可选地，可以先识别每个人物所对应的边界框中的该人物的骨骼节点，然后再根据该人物的骨骼节点，提取该人物的图像特征向量，从而使提取的图像特征更加准确地反映人物的动作，提高提取的图像特征的准确性。

进一步，还可以根据人物结构将边界框中的骨骼节点进行连接，以得到连接图像；再对上述连接图像进行图像特征向量的提取。

或者，还可以将骨骼节点所在的区域和骨骼节点所在的区域之外的区域通过不同的颜色进行显示，得到处理后的图像，然后再对处理后的图像进行图像特征的提取。

在对骨骼节点所在区域之外的区域进行遮掩时，可以将骨骼节点所在区域之外的区域对应的像素的颜色设定为某种预设的颜色，例如黑色等。也就是说，骨骼节点所在的区域保留了与原图像相同的信息，骨骼节点所在区域之外的区域的信息则被遮掩。因此，在提取图像特征时，只需要提取上述局部可见图像的图像特征，而不需要对上述被遮掩的区域进行提取操作。

上述骨骼节点所在区域可以是以该骨骼节点为中心的正方形、圆形或其他形状。该骨骼节点所在区域的边长(或半径)、面积等可以是预设值。

上述提取待处理图像的图像特征的方法，可以根据局部可见图像进行特征的提取，以得到边界框对应的人物的图像特征向量；也可以根据骨骼节点从而确定遮掩矩阵，根据遮掩矩阵对图像进行遮掩。具体可以参见图11和图12的说明。

当获取多帧图像时，可以通过目标跟踪，确定图像中不同的人物。例如，可以通过图像中的人物的子特征，确定对图像中的人物进行区分。子特征可以是颜色、边缘、运动信息、纹理信息等。

S902、确定多个人物中的每个人物在多帧图像中的每帧图像中的空间特征。

通过同一帧图像中不同人物之间的图像特征之间的相似度，确定该帧图像中的不同人物的动作之间的空间关联关系。

上述待处理图像中第i帧图像中的第j个人物的空间特征，可以根据第i帧图像中第j个人物的图像特征与第i帧图像中除第j个人物以外的其他人物的图像特征的相似度确定，i和j为正整数。

具体地，上述第i帧图像中第j个人物的图像特征向量与除第j个人物以外的其他人物的图像特征向量的相似度，可以反映第i帧图像中第j个人物对除第j个人物以外的其他人物的动作的依赖程度。也就是说，当两个人物对应的图像特征向量的相似度越高时，这两个人物的动作之间的关联越紧密；反之，当两个人物对应的图像特征向量的相似度越低时，这两个人物的动作之间的关联越弱。一帧图像中不同人物的动作在空间上的关联关系可以参见图14和图15的说明。

S903、确定多个人物中的每个人物在多帧图像中的每帧图像中的时序特征。

通过相同人物在不同帧图像中的不同动作之间的图像特征向量之间的相似度，确定该人物的不同时刻动作之间的时间关联关系。

上述待处理图像中第i帧图像的第j个人物的时序特征，可以根据该第j个人物在第i帧图像的图像特征与其在除第i帧图像以外的其他帧图像的图像特征的相似度确定，i和j为正整数。

上述第i帧图像中第j个人物的时序特征用于表示所述第j个人物在所述第i帧图像的动作与在除第i帧图像以外的其他帧图像中的动作的关联关系。

一个人物在两帧图像中对应的图像特征之间的相似度，可以反映该人物的动作在时间上的依赖程度。一个人物在两帧图像中对应的图像特征的相似度越高，则在两个时间点该人物的动作之间的关联越紧密；反之，相似度越低，该人物在这两个时间点的动作之间的关联越弱。一个人物的动作在时间上的关联关系可以参见图16和图17的说明。

在上述过程中，均涉及到特征之间的相似度，所述相似度可以采用不用的方式获得。例如，可以通过明氏距离(Minkowski distance)(如欧氏距离、曼哈顿距离)、余弦相似度、切比雪夫距离、汉明距离等方法，计算上述特征之间的相似度。

可选地，可以通过计算经过线性变化之后的两个特征每一位的乘积之和，来计算相似度。

S904、确定多个人物中的每个人物在多帧图像中的每帧图像中的动作特征。

可选地，在确定某个人物在某一帧图像中的动作特征时，可以将对应于一帧图像中该人物的时序特征、空间特征、图像特征进行融合，从而得到该帧图像中该人物的动作特征。

例如，可以对待处理图像中第i帧图像中第j个人物的空间特征、第i帧图像中第j个人物的时序特征、第i帧图像中第j个人物的图像特征进行融合，以得到的所述第i帧图像中第j个人物的动作特征。

在对上述时序特征、空间特征、图像特征进行融合时，可以采用不同的融合方式进行融合，下面对所述融合方式举例说明。

方式一、采用组合(combine)的方式进行融合。

可以将待融合的特征直接相加，或者加权相加。

应理解，所述加权相加，即将待融合的特征乘以一定系数即权重值之后相加。

也就是说，采用组合的方式，可以将通道维度(channel wise)进行线性组合。

可以将特征提取网络的多个层输出的多个特征相加，例如，可以将特征提取网络的多个层输出的多个特征直接相加，也可以将特征提取网络的多个层输出的多个特征按照一定权重相加。T1和T2分别表示特征提取网络的两个层输出的特征，可以用T3表示融合后的特征，T3＝a×T1+b×T2，其中，a和b分别为计算T3时T1和T2乘的系数，即权重值，a≠0，且b≠0。

方式二、采用级联(concatenate)和通道融合(channel fusion)的方式进行融合。

级联和通道融合是另一种融合的方式。采用级联和通道融合的方式，可以将待融合的特征的维数直接拼接，或者乘以一定系数即权重值之后进行拼接。

方式三、利用利用池化层对上述特征进行处理，以实现对上述特征的融合。

可以对多个特征向量进行最大池化，以确定目标特征向量。通过最大池化得到的目标特征向量中，每一位均为该多个特征向量中对应位的最大值。也可以对多个特征向量进行平均池化，以确定目标特征向量。通过平均池化得到的目标特征向量中，每一位均为该多个特征向量中对应位的平均值。

可选地，可以通过组合的方式，将对应于一帧图像中一个人物的特征进行融合，以得到该帧图像中该人物的动作特征。

当获取多帧图像时，所述第i帧图像中至少一个人物对应的特征向量组还可以包括所述第i帧图像中至少一个人物对应的时序特征向量。

S905、根据多个人物中的每个人物在多帧图像中的每帧图像中的动作特征，识别待处理图像中的多个人物的群体动作。

应理解，群体动作是由群体中若干人物的动作组成的，即由多个人物共同完成的动作。

在一种实现方式中，可以根据待处理图像中每帧图像的多个人物中每个人物的动作特征，确定每帧图像的动作特征。然后，可以根据每帧图像的动作特征，识别待处理图像中的多个人物的群体动作。

可选地，可以通过最大池化的方式，对一帧图像中多个人物的动作特征进行融合，以得到该帧图像的动作特征。

在另一种实现方式中，可以对待处理图像中的多个人物中每个人物在每帧图像中的动作特征进行分类，得到每个人物的动作，并据此确定多个人物的群体动作。

步骤S901至步骤S904可以通过图8训练得到的神经网络模型实现。

应理解，上述步骤不存在顺序限定，例如也可以先确定时序特征，再确定空间特征，在此不再赘述。

图9所示方法，在确定多个人物的群体动作时，不仅考虑到了多个人物的时序特征，还考虑到了多个人物的空间特征，通过综合多个人物的时序特征和空间特征能够更好更准确地确定出多个人物的群体动作。

可选地，在图9所示方法中，在识别出待处理图像中的多个人物的群体动作后，根据该群体动作生成待处理图像的标签信息，该标签信息用于指示待处理图像中多个人物的群体动作。

可选地，在图9所示方法中，在识别出待处理图像中的多个人物的群体动作后，根据该群体动作确定待处理图像的关键人物。

可选地，在上述确定关键人物的过程中，可以先确定待处理图像中多个人物中每个人物对上述群体动作的贡献度，再将贡献度最高的人物确定为关键人物。

图10是本申请实施例提供的一种图像识别方法的示意性流程图。

S1001、提取待处理图像的图像特征。

上述待处理图像中包括至少一帧图像，上述待处理图像的图像特征包括上述待处理图像中的多个人物的图像特征。

在步骤S1001之前，可以获取待处理图像。可以从存储器中获取待处理图像，或者，也可以接收待处理图像。

例如，当图10所示图像识别方法由图像识别装置执行时，上述待处理图像可以是从该图像识别装置中获取到的图像，或者，上述待处理图像也可以是该图像识别装置从其他设备接收到的图像，或者，上述待处理图像也可以是通过该图像识别装置的摄像头拍摄得到的。

应理解，上述待处理图像可以为一帧图像，也可以为多帧图像。

当上述待处理图像为多帧时，可以是一段视频中连续的多帧图像，也可以是在一段视频中按照预设规则选取的多帧图像。例如，可以在一段视频中，根据预设的时间间隔选取多帧图像；或者，可以在一段视频中，根据预设的帧数间隔选取多帧图像。

上述待处理图像，可以包括多个人物，该多个人物既可以仅包括人，也可以仅包括动物，也可以既包括人又包括动物。

可选地，可以采用图9中步骤S901所示方法提取上述待处理图像的图像特征。

S1002、确定多个人物在每帧待处理图像中的空间特征。

上述每帧待处理图像中的多个人物中的某个人物的空间特征是根据该人物在该帧待处理图像中的图像特征与除该人物以外的其他人物在该帧待处理图像中的图像特征的相似度确定的。

可选地，可以采用图9中步骤S902所示方法，确定多个人物在每帧待处理图像中的空间特征。

S1003、确定多个人物在每帧待处理图像中的动作特征。

上述每帧待处理图像中的多个人物中的某个人物的动作特征是对该人物在该帧待处理图像中的空间特征和该人物在该帧待处理图像中的图像特征进行融合得到的。

可选地，可以采用图9中步骤S904所示的融合方法，确定所述没帧待处理图像中多个人物的动作特征。

S1004、根据多个人物在每帧待处理图像中的动作特征，识别待处理图像中的多个人物的群体动作。

可选地，可以采用图9中步骤S905所示的方法，识别待处理图像中的多个人物的群体动作。

在图10所示方法中，无需计算每个人物的时序特征，当人物空间特征的确定不依赖于人物的时序特征时，能够更便于确定出多个人物的群体动作。又例如，当只对一帧图像进行识别时，不存在同一人物在不同时间的时序特征，该方法也更为适用。

图11是本申请实施例提供的一种图像识别方法的示意性流程图。

S1101、提取待处理图像的图像特征。

上述待处理图像包括多帧图像，上述待处理图像的图像特征包括从该多帧图像中选择出的至少一帧图像中每帧图像中的多个人物的图像特征。

可选地，可以对输入的多帧图像中多个人物对应的图像进行特征的提取。

上述提取待处理图像的图像特征的方法，可以根据局部可见图像进行特征的提取，以得到边界框对应的人物的图像特征向量；也可以根据骨骼节点从而确定遮掩矩阵，根据遮掩矩阵对图像进行遮掩。

下面对上述根据骨骼节点确定遮掩矩阵的方法具体举例说明如下。

S1101a)预先确定每个人物的边界框。

对于t时刻，边界框内包括第k个人物的图像

S1101b)预先提取每个人物的骨骼节点。

在t时刻，提取第k个人物的骨骼节点

S1101c)计算人物动作的遮掩矩阵。

可以根据人物的图像和骨骼节点/>计算人物动作遮掩矩阵/>遮掩矩阵中每个点对应于一个像素。

可选地，遮掩矩阵中，以骨骼点为中心，边长为l的方形区域内的值设置为1，其他位置的值设置为0。遮掩矩阵/>的计算公式如下：

在RGB色彩模式中，使用RGB模型为图像中每一个像素的RGB分量分配一个0至255范围内的强度值。若采用RGB色彩模式，则遮掩矩阵的计算公式可以表示为：/>

用矩阵对原始人物动作图像/>进行遮掩，得到局部可见图像/>中的每一位可以表示一个像素。/>中每个像素的RGB分量取值在0-1之间。运算符/>表示中的每一位与对应的/>中的每一位相乘。

图12是本申请实施例提供的一种获取局部可见图像的过程的示意图。如图12所示，对图片进行遮掩。具体地，保留骨骼节点/>中的每个节点周围变长为l的区域，对其他区域进行遮掩。

假设T帧图像中的人物数相同，即T帧图像中均包括K个人物的图像。根据T帧图像中每帧图像中的对应于该K个人物的局部可见图像提取图像特征/>可以通过D维向量表示，即/>上述T帧图像的图像特征的提取可以由CNN进行。

在T帧图像中的K个人物的图像特征的集合可以表示为X，对于每个人物，利用局部可见图像/>进行图像特征的提取，可以减少边界框中的冗余信息，根据身体的结构信息提取图像特征，增强图像特征中对于人物动作的表现能力。

S1102、确定待处理图像中不同人物的动作间的依赖关系，以及相同人物不同时刻的动作间的依赖关系。

在该步骤中，利用十字交互模块(cross interaction module，CIM)，确定待处理图像中不同人物的动作在空间上的相关性，以及相同人物不同时间的动作在时间上的相关性。

该十字交互模块用于实现特征的交互，建立特征交互模型，特征交互模型用于表示人物的身体姿态在时间上和/或空间上的关联关系。

一个人物的身体姿态在空间上的相关性可以通过空间依赖体现。空间依赖用于表示在某一帧图像中一个人物的身体姿态对在这帧图像中其他人物的身体姿态的依赖，即人物动作间的空间依赖。可以通过空间特征向量表示上述空间依赖性。

例如，待处理图像中的一帧图像所对应的是t时刻的图像，则在t时刻，第k个人物的空间特征向量可以表示为：

其中，K表示t时刻相应帧图像中共有K个人物，表示t时刻该K个人物中第k个人物的图像特征，/>表示t时刻该K个人物中第k’个人物的图像特征，r(a,b)＝θ(a)^Tφ(b)用来计算特征a和特征b之间的相似度，θ()，φ()，g()分别表示三个线性嵌入函数，θ()，φ()，g()可以相同或不同。r(a,b)可以体现特征b对特征a的依赖性。

通过计算同一帧图像中不同的人物的图像特征之间的相似度，可以确定同一帧图像中不同的人物的身体姿态之间的空间依赖。

一个人物的身体姿态在时间上的相关性可以通过时间依赖体现。时间依赖也可以称为时序依赖，用于表示在某一帧图像中该人物的身体姿态对该人物在其他帧图像中的身体姿态的依赖，即一个人物动作内在的时序依赖。可以通过时序特征向量表示上述时间依赖性。

例如，待处理图像中的一帧图像所对应的是t时刻的图像，则在t时刻，第k个人物的时序特征向量可以表示为：

其中，T表示待处理图像中共有T个时刻的图像，即待处理图像包括T帧图像，表示t时刻第k个人物的图像特征，/>表示t’时刻第k个人物的图像特征。

通过计算同一个人物在不同时间的图像特征之间的相似度，可以确定同一个人物在不同时间的身体姿态之间的时间依赖。

可以根据待处理图像中t时刻的第k个人物的空间特征向量和时序特征向量/>计算得到t时刻的第k个人物的时-空特征向量/>时-空特征向量/>可以用于表示第k个人物的“时-空”关联信息。时-空特征向量/>可以表示为时序特征向量/>与空间特征向量/>进行“相加”/>运算的结果：

图13是本申请实施例提供的一种计算图像特征之间相似度的方法的示意图。如图13所示，计算t时刻第k个人物的图像特征与t时刻其他人物的图像特征之间的相似度的向量表示，以及t时刻第k个人物的图像特征/>与其他时刻第k个人物的图像特征之间的相似度的向量表示，取平均值(average，Avg)，从而确定t时刻第k个人物的时-空特征向量在T帧图像中的K个人物的时-空特征向量的集合可以表示为H，/>

S1103、将图像特征与时-空特征向量进行融合，得到每帧图像的动作特征。

将T个时刻的图像中的K个人物的图像特征的集合中的图像特征与T个时刻的图像中的K个人物的时-空特征向量的集合/>中的时-空特征向量进行融合，以得到T个时刻的图像中每个图像的动作特征。上述每帧图像的动作特征可以通过动作特征向量表示。

可以将t时刻第k个人物的图像特征与时-空特征向量/>进行融合，以得到t时刻第k个人物的人物特征向量/>可以将图像特征/>与时-空特征向量/>进行残差连接，以得到人物特征向量/>

根据K个人物中每个人物的人物特征向量在t时刻，K个人物的人物特征向量的集合/>可以表示为：/>

对人物特征向量的集合B_t进行最大池化，以得到动作特征向量z_t，动作特征向量z_t中的每一位为中该位的最大值。

S1104、对每帧图像的动作特征进行分类预测，以确定待处理图像的群体动作。

分类模块可以为softmax分类器。分类模块的分类结果可以采用一位有效(one-hot)编码，即输出结果中仅有一位有效。也就是说，任意图像特征向量的分类结果对应的类别是分类模块的输出类别中唯一的一个类别。

可以将t时刻的一帧图像的动作特征向量z_t输入分类模块，以得到对该帧图像的分类结果。可以将分类模块对任意t时刻的z_t的分类结果作为T帧图像中的群体动作的分类结果。T帧图像中的群体动作的分类结果也可以理解为T帧图像中的人物的群体动作的分类结果，或者T帧图像的分类结果。

可以将T帧图像的动作特征向量z₁,z₂,…,z_T分别输入分类模块，以得到每帧图像的分类结果。T帧图像的分类结果可以属于一个或多个类别。可以将分类模块的输出类别中对应的T帧图像中图像数量最多的一个类别作为T帧图像中的群体动作的分类结果。

可以对T帧图像的动作特征向量z₁,z₂,…,z_T取平均值，以得到平均动作特征向量平均动作特征向量/>中的每一位为z₁,z₂,…,z_T中该位的平均值。可以将平均动作特征向量/>输入分类模块，以得到T帧图像中的群体动作的分类结果。

上述方法能够完成群体动作识别的复杂推理过程：提取多帧图像的图像特征，并根据图像中不同人物之间和相同人物不同时刻之间的动作的相互依赖关系确定其时序特征和空间特征，再将上述时序特征、空间特征、图像特征进行融合获得每帧图像的动作特征，进而通过对每帧图像的动作特征进行分类，推断出多帧图像的群体动作。

在本申请实施例中，在确定多个人物的群体动作时，不仅考虑到了多个人物的时序特征，还考虑到了多个人物的空间特征，通过综合多个人物的时序特征和空间特征能够更好更准确地确定出多个人物的群体动作。

而针对不需要考虑时序特征的情况，即空间特征不依赖于时序特征的情况，本申请实施例在确定多个人物的群体动作时，还可以只考虑多个人物的空间特征进行识别，以更便捷地确定出多个人物的群体动作。

在流行的基准数据集上的实验证明了本申请实施例提供的图像识别方法的有效性。

将训练得到的神经网络用于图像识别，可以对准确识别群体动作。表1示出了利用训练得到的神经网络模型，采用本申请实施例提供的图像识别方法，对公开数据集进行识别的识别准确率。将公开数据集中包括群体动作的数据输入训练得到的神经网络，多类准确率(multi-class accuracy，MCA)表示神经网络对包括群体动作的数据的分类结果中分类正确的结果数量占包括群体动作的数据的比例。平均每类准确率(mean per classaccuracy，MPCA)表示神经网络对包括群体动作的数据的分类结果中，每一类分类正确的结果数量占包括群体动作的数据中该类数据数量的比例的平均值。

表1

本申请在神经网络训练过程中，不依赖于人物动作标签，即可完成神经网络的训练。

训练过程中采用端到端的训练方式，即仅根据最终的分类结果对神经网络进行调整。

采用卷积神经网络AlexNet和残差网络ResNet-18这两种简单的神经网络，采用本申请实施例提供的神经网络训练方法进行训练，并采用本申请实施例提供的图像识别方法进行群体动作识别，准确率MCA和MPCA较高，均可以达到较好的效果。

特征交互，即确定人物间的依赖关系，以及人物动作在时间上的依赖关系。通过函数r(a,b)计算两个图像特征之间的相似度，函数r(a,b)的计算结果越大，两个图像特征对应的身体姿态的依赖关系越强。

通过每帧图像中的多个人的图像特征之间的相似度，确定该帧图像中每个人的空间特征向量。一帧图像中一个人的空间特征向量用于表示该人对该帧图像中的其他的空间依赖性，即该人的身体姿态对其他人的身体姿态的依赖关系。

图14是本申请实施例提供的不同人物动作在空间上的关系的示意图。对于如图14所示的群体动作的一帧图像，通过图15的空间依赖矩阵表示群体动作中的每个人对于其他人的身体姿态的依赖性。空间依赖矩阵中的每一位通过一个方格表示，方格颜色的深浅即亮度表示两个人的图像特征的相似度，即函数r(a,b)的计算结果。函数r(a,b)的计算结果越大，格子的颜色越暗。可以将函数r(a,b)的计算结果进行标准化，即，将函数r(a,b)的计算结果映射在0和1之间，从而绘制空间依赖矩阵。

直观而言，图14中的击球者即10号球员对她的队友的后续动作有着较大的影响。通过函数r(a,b)的计算，在空间依赖矩阵中代表10号球员的第十行和第十列的颜色较深。即10号球员与群体动作最为相关。因此函数r(a,b)能够反应出一帧图像中一个人与其他人之间身体姿态的高关联度，即能够反应出依赖程度较高的情况。图14中的，1-6号球员的身体姿态之间的空间依赖(spatial dependency)较弱。在空间依赖矩阵中左上角黑色框区域内颜色较暗，左上角的区域代表1-6号球员之间的身体姿态之间的依赖性。因此，本申请实施例提供的神经网络能够较好的反映一帧图像中一个人的身体姿态与其他人的身体姿态的之间的依赖关系或者说关联关系。

通过多帧图像中一个人的图像特征之间的相似度，确定在一帧图像中该人的时序特征向量。一帧图像中一个人的时序特征向量用于表示该人的身体姿态对其他帧图像中人的身体姿态的依赖关系。

图14所示的10号球员在时间上按照先后顺序的10帧图像中的身体姿态如图16所示，通过图17的时间依赖矩阵表示10号球员的身体姿态的在时间上的依赖性。时间依赖矩阵中的每一位通过一个方格表示，方格颜色的深浅即亮度表示两个人的图像特征的相似度，即函数r(a,b)的计算结果。

10号球员在10帧图像中的身体姿态对应于起跳(第1-3帧)、悬空(第4-8帧)和落地(第9-10帧)。在人们的认知中,“起跳”和“落地”应该更具判别性。在图17所示的时间依赖矩阵中，10号球员在第2帧和第10帧图像中的图像特征与其他图像中的图像特征的相似度相对较高。图17所示的黑色框区域内，第4-8帧图像即悬空状态10号球员的图像特征与其他图像中的图像特征的相似度较低。因此，本申请实施例提供的神经网络能够较好的反映多帧图像中一个人的身体姿态在时间上的关联关系。

上文结合附图描述了本申请实施例的方法实施例，下面描述本申请实施例的装置实施例。应理解，方法实施例的描述与装置实施例的描述相互对应，因此，未描述的部分可以参见前面方法实施例。

图18是本申请实施例提供的一种图像识别装置的系统架构的示意图。图18所示的图像识别装置包括特征提取模块1801、十字交互模块1802、特征融合模块1803、分类模块1804。图18中的图像识别装置可以执行本申请实施例的图像识别方法，下面对图像识别装置对输入图片进行处理的过程进行介绍。

特征提取模块1801，也可以称为局部特征抽取模块(partial-body extractormodule)，用于根据图像中的人物的骨骼节点，提取人物的图像特征。可以采用卷积网络实现特征提取模块1801的功能。将多帧图像输入特征提取模块1801。人物的图像特征可以通过向量表示，表示人物的图像特征的向量可以称为人物的图像特征向量。

十字交互模块1802，用于将多帧图像中每帧图像的多个人物的图像特征映射为每个人物的时-空交互特征。时-空交互特征用于表示确定人物的“时-空”关联信息。一帧图像中一个人物的时-空交互特征可以是对该帧图像中该人物的时序特征和空间特征进行融合得到的。十字交互模块1802可以由卷积层和/或全连接层实现。

特征融合模块1803，用于将一帧图像中的每个人物的动作特征和时-空交互特征进行融合，以得到该帧图像的图像特征向量。该帧图像的图像特征向量可以作为该帧图像的特征表示。

分类模块1804，用于根据图像特征向量进行分类，从而确定输入特征提取模块1801的T帧图像中的人物的群体动作的类别。分类模块1804可以为分类器。

图18所示的图像识别装置可以用于执行图11所示的图像识别方法。

图19是本申请实施例提供的一种图像识别装置的结构示意图。图19所示的图像识别装置3000包括获取单元3001和处理单元3002。

获取单元3001，用于获取待处理图像；

处理单元3002，用于执行本申请实施例的各图像识别方法。

可选地，获取单元3001可以用于获取待处理图像；处理单元3002可以用于执行上述步骤S901至S904或步骤S1001至S1004，以识别所述待处理图像中的多个人物的群体动作。

可选地，获取单元3001可以用于获取待处理图像；处理单元3002可以用于执行上述步骤S1101至S1104，以对所述待处理图像中的人的群体动作进行识别。

上述处理单元3002按照处理功能的不同可以分成多个模块。

例如，处理单元3002可以分成如图18中所示提取模块1801、十字交互模块1802、特征融合模块1803、分类模块1804。所述处理的单元3002能够实现图18所示的各个模块的功能，进而可以用于实现图11所示图像识别方法。

图20是本申请实施例的图像识别装置的硬件结构示意图。图20所示的图像识别装置4000(该装置4000具体可以是一种计算机设备)包括存储器4001、处理器4002、通信接口4003以及总线4004。其中，存储器4001、处理器4002、通信接口4003通过总线4004实现彼此之间的通信连接。

存储器4001可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器4001可以存储程序，当存储器4001中存储的程序被处理器4002执行时，处理器4002用于执行本申请实施例的图像识别方法的各个步骤。

处理器4002可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请方法实施例的图像识别方法。

处理器4002还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的图像识别方法的各个步骤可以通过处理器4002中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器4002还可以是通用处理器、数字信号处理器(digital signalprocessing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器4001，处理器4002读取存储器4001中的信息，结合其硬件完成本图像识别装置中包括的单元所需执行的功能，或者执行本申请方法实施例的图像识别方法。

通信接口4003使用例如但不限于收发器一类的收发装置，来实现装置4000与其他设备或通信网络之间的通信。例如，可以通过通信接口4003获取待处理图像。

总线4004可包括在装置4000各个部件(例如，存储器4001、处理器4002、通信接口4003)之间传送信息的通路。

图21是本申请实施例的神经网络训练装置的硬件结构示意图。与上述装置4000类似，图21所示的神经网络训练装置5000包括存储器5001、处理器5002、通信接口5003以及总线5004。其中，存储器5001、处理器5002、通信接口5003通过总线5004实现彼此之间的通信连接。

存储器5001可以是ROM，静态存储设备和RAM。存储器5001可以存储程序，当存储器5001中存储的程序被处理器5002执行时，处理器5002和通信接口5003用于执行本申请实施例的神经网络的训练方法的各个步骤。

处理器5002可以采用通用的，CPU，微处理器，ASIC，GPU或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的图像处理装置中的单元所需执行的功能，或者执行本申请方法实施例的神经网络的训练方法。

处理器5002还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请实施例的神经网络的训练方法的各个步骤可以通过处理器5002中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器5002还可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器5001，处理器5002读取存储器5001中的信息，结合其硬件完成本申请实施例的图像处理装置中包括的单元所需执行的功能，或者执行本申请方法实施例的神经网络的训练方法。

通信接口5003使用例如但不限于收发器一类的收发装置，来实现装置5000与其他设备或通信网络之间的通信。例如，可以通过通信接口5003获取待处理图像。

总线5004可包括在装置5000各个部件(例如，存储器5001、处理器5002、通信接口5003)之间传送信息的通路。

应注意，尽管上述装置4000和装置5000仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置4000和装置5000还可以包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置4000和装置5000还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置4000和装置5000也可仅仅包括实现本申请实施例所必须的器件，而不必包括图20和图21中所示的全部器件。

本申请实施例还提供一种图像识别装置，包括：至少一个处理器和通信接口，所述通信接口用于所述图像识别装置与其他通信装置进行信息交互，当程序指令在所述至少一个处理器中执行时，使得所述图像识别装置执行上文中的方法。

本申请实施例还提供一种计算机程序存储介质，其特征在于，所述计算机程序存储介质具有程序指令，当所述程序指令被直接或者间接执行时，使得前文中的方法得以实现。

本申请实施例还提供一种芯片系统，其特征在于，所述芯片系统包括至少一个处理器，当程序指令在所述至少一个处理器中执行时，使得前文中的方法得以实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像识别方法，其特征在于，包括：

提取待处理图像的图像特征，所述待处理图像中包括多个人物，所述待处理图像的图像特征包括所述多个人物分别在所述待处理图像的多帧图像中的每帧图像中的图像特征；

确定所述多个人物中的每个人物在所述多帧图像中的每帧图像中的时序特征，其中，所述多个人物中的第j个人物在所述待处理图像中的第i帧图像中的时序特征是根据所述第j个人物在所述第i帧图像的图像特征与所述第j个人物在所述多帧图像中除所述第i帧图像之外的其他帧图像的图像特征之间的相似度确定的，i和j为正整数；

确定所述多个人物中的每个人物在所述多帧图像中的每帧图像中的空间特征，其中，所述多个人物中的第j个人物在所述待处理图像中的第i帧图像中的空间特征是根据所述第j个人物在所述第i帧图像的图像特征与所述多个人物中除所述第j个人物之外的其他人物在所述第i帧图像的图像特征的相似度确定的；

确定所述多个人物中的每个人物在所述多帧图像中的每帧图像中的动作特征，其中，所述多个人物中的第j个人物在所述多帧图像中的第i帧图像中的动作特征是对所述第j个人物在所述第i帧图像中的空间特征、所述第j个人物在所述第i帧图像中的时序特征、所述第j个人物在所述第i帧图像中的图像特征进行融合得到的；

根据所述多个人物在所述多帧图像中的每帧图像中的动作特征，识别所述待处理图像中的所述多个人物的群体动作。

2.根据权利要求1所述的方法，其特征在于，所述提取待处理图像的图像特征，包括：

确定所述多个人物中的每个人物的骨骼节点在所述多帧图像中的每帧图像中所在的图像区域；

对所述多个人物中的每个人物的所述骨骼节点所在的图像区域的图像进行特征提取，得到所述待处理图像的图像特征。

3.根据权利要求2所述的方法，其特征在于，所述对所述多个人物中的每个人物的所述骨骼节点所在的图像区域的图像进行特征提取，得到所述待处理图像的图像特征，包括：

在所述多帧图像中的每帧图像中，对所述多个人物中的每个人物的所述骨骼节点所在的图像区域以外的区域进行遮掩，以获得局部可见图像，所述局部可见图像是由包括所述多个人物中的每个人物的所述骨骼节点所在的图像区域组成的图像；

对所述局部可见图像进行特征提取，得到所述待处理图像的图像特征。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据所述多个人物在所述多帧图像中的每帧图像中的动作特征，识别所述待处理图像中的所述多个人物的群体动作，包括：

对所述多个人物中的每个人物在所述多帧图像中的每帧图像中的动作特征进行分类，得到所述多个人物中的每个人物的动作；

根据所述多个人物中的每个人物的动作，确定所述待处理图像中的所述多个人物的群体动作。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

生成所述待处理图像的标签信息，所述标签信息用于指示所述待处理图像中的所述多个人物的群体动作。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

根据所述待处理图像中的所述多个人物的群体动作确定所述多个人物中每个人物对所述多个人物的群体动作的贡献度；

根据所述多个人物中每个人物对所述多个人物的群体动作的贡献度确定所述多个人物中的关键人物，所述关键人物对所述多个人物的群体动作的贡献度大于所述多个人物中除所述关键人物之外的其他人物对所述多个人物的群体动作的贡献度。

7.一种图像识别装置，其特征在于，包括：

获取单元，用于获取待处理图像；

处理单元，所述处理单元用于：

8.根据权利要求7所述的装置，其特征在于，所述处理单元用于，

在所述多帧图像中的每帧图像中，确定所述多个人物中的每个人物的骨骼节点所在的图像区域；

9.根据权利要求8所述的装置，其特征在于，所述处理单元用于，

10.根据权利要求7至9中任一项所述的装置，其特征在于，所述处理单元用于，

11.根据权利要求10所述的装置，其特征在于，所述处理单元用于，

12.根据权利要求7至10中任一项所述的装置，其特征在于，所述处理单元用于，

13.一种图像识别装置，其特征在于，所述装置包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行如权利要求1至6中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读介质存储用于设备执行的程序代码，所述程序代码包括用于执行如权利要求1至6中任一项所述的方法。

15.一种芯片，其特征在于，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，以执行如权利要求1至6中任一项所述的方法。