CN110472622A

CN110472622A - 视频处理方法及相关装置，图像处理方法及相关装置

Info

Publication number: CN110472622A
Application number: CN201910848859.0A
Authority: CN
Inventors: 张凯皓; 罗文寒; 马林; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2019-11-19
Anticipated expiration: 2038-04-12
Also published as: JP7089045B2; CN110472622B; JP2021515321A; EP3779775A4; CN110378170A; CN110443232B; EP3779775B1; US20200320284A1; WO2019196626A1; EP3779775A1; CN110378170B; CN110443232A; US11335127B2

Abstract

本发明实施例提供视频处理方法及相关装置，图像处理方法及相关装置。涉及人工智能中的计算机视觉技术以及机器学习技术，获取待处理视频生成第一步态能量图，待处理视频中视频帧包括身份待识别的对象；获取身份已知的对象的视频的第二步态能量图；将第一、第二步态能量图输入深度神经网络进行第一步态识别包括提取第一、第二步态能量图各自的身份信息，第一和第二步态能量图的融合步态特征向量；至少根据提取的融合步态特征向量计算相似度；第一步态能量图的身份信息包括第一步态能量图的标识和步态特征向量，第二步态能量图的身份信息包括第二步态能量图的标识和步态特征向量；融合步态特征向量由第一、第二步态能量图的步态特征向量决定。

Description

视频处理方法及相关装置，图像处理方法及相关装置

本申请为申请日为2018年04月12日，申请号为：201810327638.4，发明名称为：视频处理方法及相关装置，图像处理方法及相关装置的分案申请。

技术领域

本发明涉及步态识别技术领域，具体涉及视频处理方法、视频处理装置、视频处理设备及存储介质，图像处理方法、图像处理装置、图像处理设备及存储介质。

背景技术

步态识别在很多场景下有应用需求。例如，公共场所的户外摄像头很多，但摄像头一般与人距离较远，所拍摄的图像或视频无法通过人脸来进行行人识别。而步态识别技术可根据人的步态特征向量进行行人识别，并不必须基于人脸进行识别，也不需要高清的画质，因此，步态识别技术己成为一个重要的研究方向。

发明内容

本发明实施例提供视频处理方法、视频处理装置、视频处理设备及存储介质，以实现步态识别；进一步的，本发明实施例提供图像处理方法、图像处理装置、图像处理设备及存储介质，以实现姿态识别。

为实现上述目的，本发明实施例提供如下技术方案：

一种视频处理方法，包括：

获取待处理视频，所述待处理视频中的视频帧包括身份待识别的对象；

根据所述待处理视频生成第一步态能量图；

获取身份已知的对象的视频的第二步态能量图；所述第一步态能量图和第二步态能量图分别对应唯一的标识；

将所述第一步态能量图和第二步态能量图输入深度神经网络，进行第一步态识别；

其中，所述第一步态识别包括：

提取所述第一、第二步态能量图对应的身份信息，以及，所述第一步态能量图和第二步态能量图的融合步态特征向量；

至少根据提取的融合步态特征向量计算所述第一、第二步态能量图的相似度；

所述第一步态能量图的身份信息包括所述第一步态能量图的标识和所述第一步态能量图的步态特征向量，所述第二步态能量图的身份信息包括所述第二步态能量图的标识和所述第二步态能量图的步态特征向量；所述融合步态特征向量由所述第一步态能量图和第二步态能量图的步态特征向量决定。

一种视频处理装置，包括第一获取单元和步态识别单元；

所述步态识别单元包括深度神经网络；

所述第一获取单元，用于获取待处理视频，所述待处理视频中的视频帧包括身份待识别的对象；根据所述待处理视频生成第一步态能量图，以及，获取身份已知的对象的视频对应的第二步态能量图；所述第一步态能量图和第二步态能量图分别对应唯一的标识；

所述深度神经网络，用于对所述获取单元获取的所述第一步态能量图和第二步态能量图进行第一步态识别；

其中，所述第一步态识别包括：

一种视频处理设备，至少包括处理器和存储器；所述处理器通过执行所述存储器中存放的程序以及调用其他设备，执行上述的视频处理方法。

本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种视频处理方法中的步骤。

本实施例中使用的深度神经网络不仅提取了身份待识别的对象和身份已知对象的融合步态特征向量，同时还提取了身份待识别的对象和身份已知对象的身份信息(包含标识和步态特征向量)，并且，融合步态特征向量由步态特征向量决定，之后，至少根据融合步态特征向量计算两步态能量图的相似度(也即，身份待识别的对象和身份已知对象的相似度)，从而实现了对身份待识别的对象的步态识别。

一种图像处理方法，包括：

获取身份待识别的对象的第一姿态能量图，以及；

获取身份已知的对象的第二姿态能量图；所述第一姿态能量图和第二姿态能量图分别对应唯一的标识；

将所述第一姿态能量图和第二姿态能量图输入深度神经网络，进行第一姿态识别；

其中，所述第一姿态识别包括：

提取所述第一、第二姿态能量图对应的身份信息，以及，所述第一姿态能量图和第二姿态能量图的融合姿态特征向量；

至少根据提取的融合姿态特征向量计算所述第一、第二姿态能量图的相似度；

所述第一姿态能量图的身份信息包括所述第一姿态能量图的标识和所述第一姿态能量图的姿态特征，所述第二姿态能量图的身份信息包括所述第二姿态能量图的标识和所述第二姿态能量图的姿态特征；所述融合步态特征向量由所述第一姿态能量图和第二姿态能量图的姿态特征决定。

一种图像处理装置，包括第二获取单元和姿态识别单元；

所述姿态识别单元包括深度神经网络；

所述第二获取单元，用于获取身份待识别的对象的第一姿态能量图，以及；

所述深度神经网络，用于对所述第一姿态能量图和第二姿态能量图进行第一姿态识别；

其中，所述第一姿态识别包括：

至少根据提取的融合姿态特征向量计算第一、第二姿态能量图的相似度；

一种图像处理设备，至少包括处理器和存储器；所述处理器通过执行所述存储器中存放的程序以及调用其他设备，执行上述的图像处理方法。

本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种图像处理方法中的步骤。

本实施例中使用的深度神经网络不仅提取了身份待识别的对象和身份已知对象的融合姿态特征向量，同时还提取了身份待识别的对象和身份已知对象的身份信息(包含标识和姿态特征向量)，并且，融合姿态特征向量由姿态特征向量决定，之后，至少根据融合姿态特征向量计算两姿态能量图的相似度(也即，身份待识别的对象和身份已知对象的相似度)，从而实现了对身份待识别的对象的姿态识别。

附图说明

图1a-1d为本发明实施例提供的视频处理应用场景的示例性结构图；

图2a-图2b为本发明实施例提供的视频处理装置的示例性结构图；

图2c为本发明实施例提供的视频处理设备的示例性结构图；

图3、6、9为本发明实施例提供的视频处理方法的示例性流程图；

图4为本发明实施例提供的步态能量图示意图；

图5a-5c为本发明实施例提供的提取步态特征向量的示意图；

图7、8为本发明实施例提供的训练过程示意图；

图10为本发明实施例提供的图像处理应用场景的示例性结构图；

图11a-图11b为本发明实施例提供的图像处理装置的示例性结构图。

具体实施方式

本申请实施例提供的视频处理方法以及图像处理方法涉及人工智能中的计算机视觉技术以及机器学习技术等，下面先对人工智能技术、计算机视觉技术和机器学习技术进行说明。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

下面结合如下具体实施例对视频处理方法以及图像处理方法涉及的人工智能的计算机视觉技术以及机器学习技术进行说明。

步态识别是一种新兴的生物特征识别技术，旨在通过人们走路的姿态进行身份识别。步态识别具有非接触远距离和不容易伪装的优点，也并不需要高清的画质，因此，可被广泛应用于安防、公安、公共交通等场景中，应用潜力巨大。

本发明实施例提供视频处理方法及相关装置(视频处理装置、视频处理设备及存储介质等)，其适用于各种需要提供实时或离线步态识别技术服务的场景(例如智能视频监控)。

先介绍核心思想：

可把步态识别理解成一个检索问题，给出待查询的人(身份待识别的对象)的视频(可称为第一视频或待处理视频，第一视频中的视频帧包括身份待识别的对象)，查询数据库里面哪一已知身份信息的人(身份已知的对象)的视频(可称为第二视频)与其相似或最相似。

本发明实施例提供的视频处理方法及相关装置基于深度神经网络实现步态识别。上述深度神经网络的生成与人工智能的计算机视觉技术以及机器学习技术有关。

上述深度神经网络是基于步态能量图进行步态识别的，因此，在经由深度神经网络进行步态识别之前，会预先从第一视频提取出第一步态能量图、从第二视频提取出第二步态能量图，然后将第一步态能量图和第二步态能量图输入该深度神经网络，由深度神经网络输出两步态能量图的相似度，作为上述待处理视频和第二视频的相似度。

更具体的，上述深度神经网络会提取所输入的两步态能量图各自的身份信息以及两步态能量图的融合步态特征向量，其中，任一步态能量图的身份信息可包括：该步态能量图的标识，以及基于该步态能量图提取的步态特征向量。而两步态能量图的融合步态特征向量由两步态能量图各自的步态特征向量决定。

之后，上述深度神经网络会至少根据提取的融合步态特征向量计算两步态能量图的相似度。

可见，上述深度神经网络不仅提取了身份待识别的对象和身份已知对象的融合步态特征向量，同时还提取了身份待识别的对象和身份已知对象的身份信息(包含标识和步态特征向量)，并且，融合步态特征向量由步态特征向量决定。之后，至少根据融合步态特征向量计算两步态能量图的相似度(也即，身份待识别的对象和身份已知对象的相似度)，从而实现了对身份待识别的对象的步态识别。

深度神经网络是由神经元按层级结构组成，每一神经元层包含多个滤波器，其间的权重和偏移量(滤波器参数)可经训练得到。

因此，在一个示例中，上述深度神经网络事先还可经过训练，对其参数进行调整。本文后续将进行介绍。

在介绍完核心思想后，下面介绍本发明实现步态识别的实施例中所涉及的视频处理装置和视频处理设备。

上述视频处理装置可以软件或硬件的形式应用于视频处理设备中。具体的，视频处理设备可为提供步态识别服务的服务器或个人电脑(PC)，也可以是诸如数码相机、移动终端(例如智能手机)、ipad等的终端。

当以软件形式应用于视频处理设备中时，上述视频处理装置可为独立的软件。当然，也可作为大型系统(例如操作系统)的子系统(子组件)，提供步态识别服务。

当以硬件形式应用于视频处理设备中时，上述视频处理装置示例性的可为终端或服务器的控制器/处理器。

上述视频处理方法的应用场景示例性得可参见图1a所示：摄像头101拍摄到移动的行人(身份待识别的对象)的视频，将视频提供给视频处理设备102，视频处理设备102基于数据库103中身份已知的对象的视频进行步态识别。在此场景下，视频处理设备102需具备可提取步态能量图的模块或装置。

上述视频处理方法的另一应用场景示例性得可参见图1b所示：视频处理设备102拍摄到移动的行人(身份待识别的对象)的视频，并基于数据库103中身份已知的对象的视频进行步态识别。在此场景下，视频处理设备102需具备拍摄装置和可提取步态能量图的模块或装置。

上述视频处理方法的又一应用场景示例性得还可参见图1c：外部设备104向视频处理设备102提供身份待识别的对象的步态能量图或视频，视频处理设备102基于数据库103中存储的各身份已知的对象的步态能量图进行步态识别。在此场景下，若外部设备提供的是视频，视频处理设备102需具备提取步态能量图的模块或装置。

此外，若上述深度神经网络需要进行训练，则上述各场景中还可包括训练设备105。当然，训练设备105的功能也可由视频处理设备102实现。训练设备105可用于训练深度神经网络，或者，提供训练用的样本。

在一个更具体的场景下(客户端-服务器场景)，请参见图1d，可包括web服务器106、视频处理服务器107(即视频处理设备)、数据库103，此外，还可包括训练服务器108(训练设备)。

其中，web服务器106为前端(前台)，负责与客户端浏览器(前述的外部设备)通信，视频处理服务器107、数据库103、训练服务器108等为后端，视频处理服务器107可为客户端浏览器提供视频处理(步态识别)服务。训练服务器108可用于训练视频处理服务器107使用的视频处理算法(即对深度神经网络进行训练)，或者，提供训练用的样本。

下面介绍视频处理装置的内部结构，视频处理装置的一种示例性结构如图2a所示，包括：第一获取单元11和步态识别单元12。

其中，第一获取单元11用于：

获取待处理视频，根据该待处理视频生成第一步态能量图，以及；

获取身份已知对象的视频的第二步态能量图；

步态识别单元12包括深度神经网络，该深度神经网络可用于对获取单元12提供的第一步态能量图和第二步态能量图进行第一步态识别。

在本发明其他实施例中，请参见图2b，上述视频处理装置还可进一步包括：训练单元13，用于执行训练过程。

本文后续将结合视频处理方法介绍上述各单元的功能。

图2c示出了上述实施例中视频处理设备的一种可能的结构示意图，包括：

总线、处理器1、存储器2、通信接口3、输入设备4和输出设备5。处理器1、存储器2、通信接口3、输入设备4和输出设备5通过总线相互连接。

其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器1可以是通用处理器，例如通用中央处理器(CPU)、网络处理器(NetworkProcessor，简称NP)、微处理器等，也可以是特定应用集成电路(application-specificintegrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器2中保存有执行本发明技术方案的程序或脚本，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。脚本则通常以文本(如ASCII)保存，只在被调用时进行解释或编译。

更具体的，存储器2可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备4可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、语音输入装置、触摸屏等。

输出设备5可包括允许输出信息给用户的装置，例如显示屏、扬声器等。

通信接口3可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

可以理解的是，图2c仅仅示出了视频处理设备的简化设计。在实际应用中，上述视频处理设备可以包含任意数量的发射器，接收器，处理器，控制器，存储器，通信接口等，而所有可以实现本发明的服务器/智能终端都在本发明的保护范围之内。

处理器1通过执行存储器2中所存放的程序以及调用其他设备，可实现下述实施例提供的视频处理方法。

此外，图1a-1d所示的视频处理装置各单元的功能，可由前述的处理器1执行存储器2中所存放的程序以及调用其他设备实现。

下面将基于上面所述的本发明涉及的共性方面，对本发明实现步态识别的实施例进行进一步详细说明。

图3示出了由上述视频处理装置/设备执行的视频处理方法的一种示例性流程，至少可包括如下步骤：

300部分：获取待处理视频，根据该待处理视频生成第一步态能量图，以及获取第二步态能量图。

其中，待处理视频(第一视频)中的视频帧包括身份待识别的对象，而第二步态能量图是根据身份已知的对象的视频(第二视频)生成的。

第一步态能量图和第二步态能量图分别对应唯一的标识(ID)。

步态能量图的示意图可参见图4，可根据视频帧得到多帧步态剪影，再对多帧步态剪影叠加并进行归一化处理得到步态能量图。

获取第一步态能量图和第二步态能量图的方式有多种：

以图1a所示应用场景为例，摄像头101拍摄到待处理视频后，可将待处理视频提供给视频处理设备102，由视频处理设备102从待处理视频中提取第一步态能量图，并从数据库103处获取第二视频，从中提取得到第二步态能量图(或者从数据库103处获取第二步态能量图)。

以图1b所示应用场景为例，则可由视频处理设备102的摄像头拍摄到待处理视频后，由视频处理设备102从待处理视频中提取第一步态能量图，并从数据库103处获取第二视频，从中提取得到第二步态能量图(或者从数据库103处获取第二步态能量图)。

以图1c所示应用场景为例，可由外部设备104向视频处理设备102提供待处理视频后，由视频处理设备102从待处理视频中提取第一步态能量图，并从数据库103处获取第二视频，从中提取得到第二步态能量图；或者，由外部设备104向视频处理设备102提供第一步态能量图，由视频处理设备102从数据库103处获取第二视频，从中提取得到第二步态能量图；或者，由外部设备104向视频处理设备102提供第一步态能量图，由视频处理设备102从数据库103处第二步态能量图。

以图1d所示应用场景为例，可由客户端向视频处理服务器107提供待处理视频后，由视频处理服务器107从待处理视频中提取第一步态能量图，并从数据库103处获取第二视频，从中提取得到第二步态能量图；或者，由客户端向视频处理服务器107提供第一步态能量图，由视频处理服务器107从数据库103处获取第二视频，从中提取得到第二步态能量图；或者，由客户端向视频处理服务器107提供第一步态能量图，由视频处理服务器107从数据库103处第二步态能量图。

在一个示例中，可由前述视频处理装置的第一获取单元11执行300部分，或由前述视频处理设备的通信接口3接收外部设备或客户端提供的待处理视频，或输入设备4(例如摄像头)拍摄待处理视频，或由处理器1从存储器2的图库中获取待处理视频等。

上述标识可由前述的第一获取单元11或处理器1分配。

301部分：将第一和第二步态能量图输入深度神经网络，由该深度神经网络进行第一步态识别。

在一个示例中，可由前述视频处理装置的第一获取单元11执行301部分的输入，或由处理器1执行。

302A部分：提取第一、第二步态能量图各自的身份信息，以及第一步态能量图和第二步态能量图的融合步态特征向量。

其中，任一步态能量图的身份信息可包括：该步态能量图的标识，以及该步态能量图的步态特征向量。

举例来讲，第一步态能量图的身份信息可包括：第一步态能量图的标识和第一步态能量图对应的步态特征向量；第二步态能量图的身份信息可包括：第二步态能量图的标识和第二步态能量图对应的步态特征向量。

而融合步态特征向量则由第一和第二步态能量图各自的步态特征向量共同决定。本文后续还将介绍如何得到融合步态特征向量。

更具体的，上述深度神经网络可包括身份信息提取层和融合步态特征向量提取层。

其中，上述身份信息提取层可至少包括第一提取层和第二提取层。

在一个示例中，请参见图5a，可由第一提取层提取输入的各步态能量图的第一级步态特征向量，并将第一级步态特征向量输入第二提取层，由第二提取层提取两步态能量图(例如第一步态能量图和第二步态能量图)各自的第二级步态特征向量。

而上述融合步态特征向量提取层则可将两步态能量图的第二级步态特征向量进行融合，得到第二级融合步态特征向量。

在另一个示例中，请参见图5b，可由融合步态特征向量提取层将输入的深度神经网络的两步态能量图(例如第一步态能量图和第二步态能量图)的第一级步态特征向量进行融合，得到第一级融合步态特征向量，并根据第一级融合步态特征向量提取得到第二级融合步态特征向量。

在此示例中，融合步态特征向量提取层可进一步包括融合层(用于将第一级步态特征向量融合得到第一级融合步态特征向量)和提取层(用于根据第一级融合步态特征向量提取得到第二级融合步态特征向量)。

在一个示例中，上述第一提取层和第二提取层可为逻辑分层，其进一步可包括多个特征向量提取层以提取图像特征向量，其中，越靠近输入的特征向量提取层，提取出的特征向量级别越低，越靠近输出的特征向量提取层提取出的特征向量级别越高。

例如，请参见图5c，身份提取层可分别包含两个通道(每一通道均包含第一提取层和第二提取层)，用于分别提取两步态能量图的步态特征向量，在任一通道中，可先提取低级步态特征向量，再通过对低级步态特征向量的组合，提取出更高层次的步态特征向量。因为需要对两步态能量图做相同的操作，所以第一提取层中的两个通道可共享权重。

举例来讲，通道中的第一个特征向量提取层提取出的步态特征向量级别最低，一般为边、角、曲线等(对应cov-16，其中“cov”表示卷积，16表示滤波器的个数，滤波器的个数决定提取出的步态特征向量的维度)，第二个特征向量提取层用来提取第一提取层输出的步态特征向量的组合特征向量(对应cov-64)，以此类推。则提取出的步态特征向量的级别可从低级到中级再到高级/抽象(语义级别)，其中，图5c中的“FC”表示连接层，“FC-2048”表示一个有2048个神经元的连接层，其提取出的特征向量为2048维。当然，也可将低级和中级统称为低级。

至于，融合步态特征向量提取层(也可认为是独立于身份提取层两个通道之外的另一个通道)，其可将低级步态特征向量串在一起得到低级融合步态特征向量，再进一步的提取出更高层次的融合步态特征向量(中级融合步态特征向量)，直至得到高级融合步态特征向量。

或者，融合步态特征向量提取层也可将中级步态特征向量串在一起得到中级融合步态特征向量，再进一步的提取出更高层次的融合步态特征向量。

或者，融合步态特征向量提取层也可直接将高级步态特征向量串在一起得到高级融合步态特征向量。

在图5c所示中，可将低级步态特征向量和中级步态特征向量统称为第一级步态特征向量。当然，也可认为第一级步态特征向量包含最终的中级步态特征向量。

当然，若在融合步态特征向量提取层将低级步态特征向量串在一起得到低级融合步态特征向量的场景下，第一级步态特征向量可仅包含低级步态特征向量。

本领域技术人员可根据需要进行灵活设计，在此不作赘述。

此外，需要说明的是，图5c所示的示例也可理解为：前6层网络结构分别提取了一对步态能量图各自的步态特征向量，之后分成两部分独立的操作，第一部分的操作包括：在第7层网络结构中，将各自的步态特征向量进行融合，得到融合步态特征向量，并进一步的可对融合步态特征向量进行更高层次的提取；第二部分的操作包括：继续提取一对步态能量图各自的步态特征向量，得到最终的高级步态特征向量。

在本实施例中，上述深度神经网络事先可经过训练，对其参数进行调整。

并且，本实施例的深度神经网络在训练过程中进行参数调整时，不仅考虑了不同步态能量图的融合步态特征向量，同时考虑了步态能量图隐含的身份信息，这样训练出的深度神经网络可以更加有效得提取出更具区分性的步态特征向量，同时，由于融合步态特征向量由两步态能量图的步态特征向量共同决定，则融合步态特征向量相应也更具区分性，进而可得到更为准确的相似度。

302B部分：至少根据提取的融合步态特征向量计算相似度。

相似度具体可为百分比，表征二者有百分之多少的机率对应同一对象。例如，若相似度为60％，表征二者有百分之六十的机率是同一人。

在一个示例中，可只根据融合步态特征向量计算相似度。

在另一个示例中，也可以根据上述融合步态特征向量计算得到第一相似度，根据两步态能量图的身份信息计算得到第二相似度，然后求二者的加权和(最简单的是相加再除以2，取平均值)，得到最终的相似度。

例如，假定根据融合步态特征向量计算得到第一相似度为80％，根据身份信息计算得到第二相似度为60％，则最终的相似度则为(80％+60％)/2＝70％。

如何计算相似度有多种方式，在此不作赘述。

上述302A和302B部分即为由深度神经网络执行的第一步态识别，在一个示例中，可由前述视频处理装置的步态识别单元12执行302A和302B部分，或由处理器1执行。

在另一个示例中，请参见图5a和图5b，上述深度神经网络可包括相似度计算层，可由相似度计算层执行302B部分。

303部分：深度神经网络输出识别结果。

在一个示例中，识别结果可包括上述相似度。

此外，识别结果也可包括标识输入的两幅步态能量图是否属于同一对象的信息。举例来讲，可以数值“1”表示二者属于同一对象，以“0”表示二者属于不同的对象。

更具体的，深度神经网络可每对一组(两幅)步态能量图进行第一步态识别后，即输出一次识别结果。

或者，深度神经网络可在完成一批第一步态识别后，输出一次识别结果。

举例来讲，假定对象A的身份待识别，数据库中有10个身份已知对象的视频，从而可得到10个第二步态能量图。则按照某一顺序，深度神经网络可逐个计算对象A的第一步态能量图与10个第二步态能量图的相似度，在计算完成后，深度神经网络才输出识别结果。则上述识别结果可包括10个相似度。当然，上述识别结果还可包括标识两步态能量图是否属于同一对象的信息。

在另一个示例中，上述识别结果还可包括第一、第二步态能量图属于不同对象的概率。该概率可通过“1-相似度”来计算得到。举例来讲，第一和第二步态能量图的相似度为80％，则第一和第二步态能量图属于不同对象的概率为20％。

至于如何确定第一和第二步态能量图是否属于同一对象，可进行如下操作：

若相似度满足识别条件，确定第一步态能量图和第二步态能量图对应同一对象，否则，确定对应不同的对象。

上述识别条件包括：相似度不小于相似度阈值或者相似度大于所述相似度阈值。

举例来讲，假定相似度阈值为80％，若两步态能量图的相似度为70％，则认为二者并非同一人，而如果两步态能量图的相似度大于(或等于)80％，则认为二者是同一人。

前已述及，数据库存储有身份已知的对象的视频或步态能量图，则在本发明另一实施例中，可逐个计算数据库中身份已知对象的第二步态能量图与第一步态能量图的相似度，直至某身份已知对象的第二步态能量图与第一步态能量图的相似度满足识别条件或计算完所有身份已知对象的第二步态能量图与第一步态能量图的相似度。

举例来讲，对象A的身份待识别，数据库中有10个身份已知对象的视频。则按照某一顺序，逐个计算对象A的第一步态能量图与10个身份已知的对象的第二步态能量图的相似度，直到有相似度满足上述识别条件或计算出10个相似度。

当然，在本发明其他实施例中，也可计算完所有身份已知对象的第二步态能量图与第一步态能量图的相似度，再根据识别条件去判定两步态能量图是否属于同一对象。

此外，根据需要，深度神经网络还可输出两步态能量图各自的步态特征向量。例如，在训练过程中，深度神经网络可输出步态能量图各自的步态特征向量，以便进行损失值的计算。

综上，本实施例中的深度神经网络在训练过程中是根据身份信息和相似度进行了滤波器参数调整，也即，在参数调整时，不仅考虑了不同步态能量图的融合步态特征向量，同时考虑了步态能量图隐含的身份信息，这样可以更加有效得提取出更具区分性的步态特征向量。而由于融合步态特征向量由两步态能量图的步态特征向量决定，则融合步态特征向量相应也更具区分性，进而可得到更为准确的相似度。

下面，将介绍如何训练深度神经网络。

需要说明的是，深度神经网络中有多个滤波器，训练的主要目的是对滤波器参数进行调整。因此，神经网络训练或者优化的过程也可理解为调整滤波器参数以最小化损失函数的损失值的过程(损失值小了，对应预测/输出结果和真实结果就越接近)。

在现有训练过程中，采用的损失函数多体现的是分类损失，即判断两步态能量图的类别(此处类别指的是区别不同的人)，无法确保提取的对应同一个人的步态特征向量尽可能相似，而提取的来自不同人的步态特征向量尽可能远离，因此无法保证提取的步态特征向量有很好的区分性。

为解决上述问题，本申请实施例提供的训练过程的训练目标包括:令从同一对象的不同步态能量图中提取的步态特征向量相似，从不同对象的步态能量图中提取的步态特征向量相远离。

同时，本申请实施例还提供了新的损失函数，以通过训练达到上述训练目标。

上述新的损失函数包括身份信息损失函数和融合步态特征向量损失函数。

图6和图7示出了基于上述新的损失函数的一种示例性训练过程，其至少可包括如下步骤：

S600：获取训练样本。

其中，每一训练样本可包括n个训练子样本，任一训练子样本可包括两幅(一对)身份已知的对象的步态能量图。上述n可为正整数。

具体的，可由前述的获取单元11或训练单元13或处理器1执行600部分。

S601：由深度神经网络对训练样本中的每一训练子样本执行第二步态识别。

第二步态识别可包括：提取训练子样本中两幅步态能量图各自的身份信息以及上述两幅步态能量图的融合步态特征向量，并至少根据提取的融合步态特征向量计算上述两幅步态能量图的相似度。

第二步态识别与前述的第一步态识别相类似，具体细节可参见前述302A和302B部分的介绍，在此不作赘述。

可由前述的步态识别单元12或训练单元13或处理器1执行601部分。

S602：根据在步态识别中提取的身份信息，使用身份信息损失函数计算训练样本的身份损失值。

其中，身份损失值越小，表征从同一对象不同步态能量图中提取的步态特征向量越相似，而从不同对象的步态能量图中提取的步态特征向量越远离。

S603：计算训练样本的融合损失值。

602部分和603部分的执行顺序可调换，也可并列执行。

S604：对融合损失值和身份损失值求加权和，得到训练样本的最终损失值；

举例来讲，假定以a表示融合损失值，以b表示身份损失值，以c表示最终损失值，则三者之间的关系可为：

C＝a+η_u·b,或c＝η_c·a+b,或c＝η_c·a+η_u·b。

本领域技术人员可根据需要灵活设计η_u、η_c的取值，在此不作赘述。

S605：根据至少一个训练样本的最终损失值调整深度神经网络的滤波器参数。

在实际上，为节约时间提高效率，一般是训练多个训练样本(例如64个样本)后，统一调整一次滤波器参数。则可分别计算各训练样本的最终损失值后，根据各最终损失值调整滤波器参数。

可由前述的训练单元13或处理器1执行602-605部分。

在本实施例中，以从同一对象的不同步态能量图中提取的步态特征向量相似，从不同对象的步态能量图中提取的步态特征向量相远离的训练目标去训练深度神经网络，可以使提取的同一个人的步态特征向量尽可能相似，而提取的来自不同人的步态特征向量尽可能远离，从而可令提取出的步态特征向量有很好的区分性，进而可得到更为准确的相似度。

前述提及了，训练样本可包括n个训练子样本，下面以一个训练样本包括3个子样本(即包含3对步态能量图)为例，对训练过程进行更为详细的记载。

针对一个训练样本包含3个子样本的情况，图8示出了训练构架。图9则示出了基于上述新的损失函数的一种示例性训练过程，其至少可包括如下步骤：

S900：获取训练样本。

在本实施例中，每一训练样本包括第一至第三训练子样本(第一、第二、第三只用于区分，并不表征输入深度神经网络的顺序)，第一至第三训练子样本的组合方式可包括：

第一组合方式：第一训练子样本中的两幅步态能量图对应同一对象；第二训练子样本中的两幅步态能量图对应不同的对象；第三训练子样本中的两幅步态能量图对应不同的对象；

第二组合方式：第一训练子样本中的两幅步态能量图对应同一对象；第二训练子样本的两幅步态能量图对应同一对象；第三训练子样本中的两幅步态能量图对应不同对象。

具体的，可由前述的第一获取单元11或训练单元13或处理器1执行900部分。

S901：由深度神经网络对训练样本中的每一训练子样本执行第二步态识别。

如何进行第二步态识别，可参见前述302A和302B部分的介绍，在此不作赘述。

可由前述的步态识别单元12或训练单元13或处理器1执行901部分。

S902部分：当训练样本中第一至第三训练子样本的组合方式为上述第一种组合方式时，采用第一身份损失函数计算该训练样本的身份损失值。

第一身份损失函数为：

其中，Lu表示身份损失值，η表示系数(取值范围为0-1)，表示欧氏距离；

p、g、p′、g′、p″和g″表示步态能量图的标识，Xp和Xg表示第一训练子样本中的一对步态能量图(也可将Xp称为第一步态能量图，将Xg称为第二步态能量图)，Xp′和Xg′表示第二训练子样本中的一对步态能量图(也可将Xp′称为第三步态能量图，将Xg′称为第四步态能量图)，Xp″和Xg″表示第三训练子样本的一对步态能量图(也可将Xp″称为第五步态能量图，将Xg″称为第六步态能量图)，并且，Xp与Xp′对应同一对象，Xp与Xp″对应不同对象；

U(Xp)至U(Xg″)表示各步态能量图的步态特征向量。

需要说明的是：

第一身份损失函数中的表示第一训练子样本中两步态特征向量的欧氏距离。由于Xp和Xg对应同一对象，为了令从同一对象的不同步态能量图中提取的步态特征向量相似，则通过调整滤波器参数，应使尽可能小(趋近于0)。

而Xp′和Xg′对应不同的对象，为了令从不同对象的步态能量图中提取的步态特征向量相远离，则通过调整滤波器参数，应使尽可能大(趋近于1)。

进一步的，在尽可能小，尽可能大时，第一身份损失函数中的也会尽可能小。

同理，在尽可能小，尽可能大时，第一身份损失函数中的也会尽可能小。

可见，上述第一身份损失函数体现了训练目标：从同一对象的不同步态能量图中提取的步态特征向量相似，从不同对象的步态能量图中提取的步态特征向量相远离。

S903部分：当训练样本中第一至第三训练子样本的组合方式为上述第二种组合方式时，采用第二身份损失函数计算该训练样本的身份损失值。

第二身份损失函数可为：

其中，Xp与Xp′对应同一对象，Xp与Xp″对应不同对象。

在第二种组合中，Xp和Xg对应同一对象，Xp′和Xg′对应同一对象，Xp与Xp″对应不同对象，所以希望其尽可能大，应作为被减数。

第二身份损失函数同样也体现了训练目标：从同一对象的不同步态能量图中提取的步态特征向量相似，从不同对象的步态能量图中提取的步态特征向量相远离。

S904部分：使用融合步态特征向量损失函数计算训练样本的融合损失值。

在一个示例中，可计算每一训练子样本对应的融合损失子值，然后累加各训练子样本的融合损失子值，得到融合损失值。

融合步态特征向量损失函数可有多种表现形式。

若计算交叉熵作为融合损失值，则在一个示例中，计算某训练子样本的融合损失子值(交叉熵)的融合步态特征向量损失函数可为：

Lc＝-P(x_ab)logQ(x_ab)。

其中，a,b表示任一训练子样本中的一对步态能量图的标识，x_ab表示该训练子样本中的一对步态能量图对，P(x_ab)表示该对步态能量图所对应的标签的分布情况(真实结果/真实标签分布)，Q(x_ab)表示待训练的深度神经网络的预测结果(预测的识别结果)。

举例来讲，若两步态能量图a和b对应同一对象，则其真实的标签分布为“1，0”，其中的“1”表示两步态能量图来自同一对象的概率为100％，“0”表示两步态能量图来自不同对象的概率为0％。

假定预测的识别结果为“0.7,0.3”，则可求“1，0”与“0.7,0.3”的交叉熵。

而若两步态能量图a和b对应不同的对象，则其标签的真实分布为“0，1”，其中的“0”表示两步态能量图来自同一对象的概率为0％，“1”表示两步态能量图来自不同对象的概率为100％。

假定预测的识别结果为“0.7,0.3”，则可求“0，1”与“0.7,0.3”的交叉熵。

而在另一个示例中，融合步态特征向量损失函数可依据前述不同的组合包含第一融合步态特征向量损失函数和第二融合步态特征向量损失函数。

对应前述第一种组合，第一融合步态特征向量损失函数为：

其中，Lc表示融合损失值，μ和η_c表示加权系数，其取值可为0-1之间，δ表示松弛因子，其取值范围是0-1，||*||₊表示将值与0比较，取二者中的较大值，也即，max(*，0)；

x_pg表示步态能量图p、g组成的步态能量图对，以此类推，x_pg至x_gp′表示步态能量图对，C(*)为概率计算函数，用于计算两步态能量图对之间标签分布相同的概率；

以C(x_pg,x_p″g″)为例，其计算的是步态能量图对x_pg与步态能量图对x_p″g″标签分布相同的概率；而以C(x_pg,x_pg″)为例，其计算的是步态能量图对x_pg与步态能量图对x_pg″标签分布相同的概率。

前述提及了若两幅步态能量图对应同一对象，则其标签分布为“1，0”，否则，其标签分布为“0，1”。

以步态能量图对x_pg为例，若步态能量图p、g对应同一对象，则x_pg的标签真实分布为“1,0”，而若步态能量图p、g对应不同对象，则x_pg标签分布为“0,1”，同理可推知其他步态能量图对的标签真实分布。

D[*]表示欧氏距离，以D[C(x_pg,x_p″g″),C(x_pg,x_pg″)]为例，其计算的是概率a与概率b的距离，其中，概率a为x_pg与x_p″g″标签分布相同的概率，概率b为x_pg与x_pg″标签分布相同的概率。

理论上，如果x_pg与x_p″g″的标签分布相同(例如均为“1,0”或“0,1”)，并且，x_pg与x_pg″的标签分布相同，则D[C(x_pg,x_p″g″),C(x_pg,x_pg″)]应为0。

或者，如果x_pg与x_p″g″的标签分布不相同，并且x_pg与x_p″g″的标签分布也不相同，则D[C(x_pg,x_p″g″),C(x_pg,x_pg″))]应为0。

而如果x_pg与x_p″g″的标签分布相同(例如均为“1,0”或“0,1”)，但x_pg与x_pg″的标签分布不同，或者，x_pg与x_p″g″的标签分布不相同，但x_pg与x_pg″的标签分布相同，则D[C(x_pg,x_p″g″),C(x_pg,x_pg″)]越大越好。

实际上，在上述第一组合中，p、g、p′对应同一对象；而“p、g′、p″、g″”、“g、g′、p″、g″”或“g′、p″、g″”对应不同的对象。则可在p、g、p′中任选两个步态能量图进行组合，得到标签为“1,0”的步态能量图对，同理，可从“p、g′、p″、g″”、“g、g′、p″、g″”或“g′、p″、g″”中任选两个步态能量图进行组合，得到标签为“0,1”的步态能量图对。根据步态能量对之间标签相同或不同的关系，填入C函数中的不同位置，可获得另外的第一融合步态特征向量损失函数。

综上，如果将C函数中的两步态能量图对视为一个计算样本，则D[*]计算的是两个计算样本之间标签分布相同的概率的距离。

则在训练中，通过调整滤波器参数应使其达到如下训练目标：

对于两计算样本，若第一计算样本中的两步态能量图对的标签真实分布相同，而第二计算样本中的两步态能量图的标签真实分布不相同，则第一计算样本对应的第一概率与第二计算样本对应的第二概率相远离，否则，第一概率与第二概率相近。其中，第一概率为：第一计算样本中两步态能量图对之间标签分布相同的概率，第二概率为第二计算样本中两步态能量图对之间标签分布相同的概率。

对应第二种组合，满足上训练目标的第二融合步态特征向量损失函数为：

在第二种组合中，p、g、p′、g′来自同一对象，而“p、p″、g″”或“g、p″、g″”对应不同的对象。则可在p、g、p′、g′中任选两个步态能量图进行组合，得到标签为“1,0”的步态能量图对，同理，可从“p、p″、g″”或“g、p″、g″”中任选两个步态能量图进行组合，得到标签为“0,1”的步态能量图对。根据步态能量对之间标签相同或不同的关系，填入C函数的不同位置，可获得另外的第二融合步态特征向量损失函数。

上述融合步态特征向量损失函数一方面可对每组步态能量图进行分类，另一方面根据每两组步态能量图的特点，如果来自同一类，则尽可能拉近，如果来自不同的类，则尽可能推远。

S905：对融合损失值和身份损失值求加权和，得到训练样本的最终损失值。

905与前述604部分相类似，在此不作赘述。

S906：根据至少一个训练样本的最终损失值调整深度神经网络中的滤波器参数。

906与前述605部分相类似，在此不作赘述。

可由前述的训练单元13或处理器1执行902-905部分。

需要说明的是，在图8中，F1-F3表示步态能量图对，D(C(F1),C(F2))中的D(*)表示距离，C表示概率计算函数，ID(＝)表示来自同一对象的概率，ID(≠)来自不同对象的概率。

在本实施例中，各训练子样本送入之后，可利用深度神经网络提取各步态能量图的步态特征向量，然后融合起来，之后使用损失函数进行调节待训练的深度神经网络：一方面对每组步态能量图进行分类，另一方面根据每两组的特点，如果来自同一类，则将特征向量尽可能拉近，如果来自不同的类，则将特征向量尽可能推远。等到网络训练完毕之后，我们即可以使用训练好的深度神经网络，对步态进行识别。

本发明实施例还要求保护视频处理设备，其至少包括处理器和存储器，该处理器通过执行存储器中存放的程序以及调用其他设备，执行上述的视频处理方法。

本发明实施例还要求保护一种存储介质，该存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明任一实施例所提供的视频处理方法中的步骤。

步态属于姿态的一种，因此，本发明实施例还要求保护图像处理方法、图像处理装置、图像处理设备及存储介质，以实现姿态识别。

上述图像处理方法包括：

获取身份待识别的对象的第一姿态能量图(或第一姿态图)，以及；

获取身份已知的对象的第二姿态能量图(或第二姿态图)；

将第一姿态能量图和第二姿态能量图输入深度神经网络，进行第一姿态识别；

其中，第一姿态识别包括：

提取第一、第二姿态能量图对应的身份信息，以及，融合姿态特征向量；

至少根据提取的融合姿态特征向量，计算第一和第二姿态能量图的相似度。

本实施例中的身份信息、融合姿态特征向量与前述的身份信息和融合步态特征向量相类似，在此不作赘述。

需要说明的是，身份待识别的对象可为人类，也可为动物甚至不具有生命的移动或静止的事物。

上述图像处理装置可以软件或硬件的形式应用于图像处理设备中。具体的，图像处理设备可为提供步态识别服务的服务器或个人电脑(PC)，也可以是诸如数码相机、移动终端(例如智能手机)、ipad等的终端。

当以软件形式应用于图像处理设备中时，上述图像处理装置可为独立的软件。当然，也可作为大型系统(例如操作系统)的子系统(子组件)，提供步态识别服务。

当以硬件形式应用于图像处理设备中时，上述图像处理装置示例性的可为终端或服务器的控制器/处理器。

上述视频处理方法的另一应用场景示例性得可参见图10所示：图像处理设备1001获取身份待识别的第一姿态能量图，并基于数据库1002中身份已知的对象的第二姿态能量图进行第一姿态识别。

此外，若深度神经网络需要进行训练，则上述场景中还可包括训练设备1003。当然，训练设备1003的功能也可由图像处理设备1001实现。训练设备1003可用于训练深度神经网络，或者，提供训练用的样本。

图像处理装置的一种示例性结构如图11所示，包括：第二获取单元111和姿态识别单元112。

其中，第二获取单元111用于：

获取身份待识别的对象的第一姿态能量图，以及；

获取身份已知的对象的第二姿态能量图；

姿态识别单元112包括深度神经网络，该深度神经网络可用于对第二获取单元111提供的第一姿态能量图和第二姿态能量图进行第一姿态识别。

第一姿态识别请参见前述介绍，在此不作赘述。

在本发明其他实施例中，请参见图11b，上述图像处理装置还可进一步包括：训练单元113，用于执行训练过程。

训练过程会涉及到第二姿态识别，第二姿态识别与第一姿态识别类似，在此不作赘述。

另外，本实施例中的训练过程与前述实施例的训练过程相类似、训练目标与前述实施例的训练目标相类似，公式也相类似，在此不作赘述。

图像处理设备的另一种可能的结构示意图可参见图2c，在此不作赘述。

本发明实施例还要求保护视频处理设备，其至少包括处理器和存储器，该处理器通过执行存储器中存放的程序以及调用其他设备，执行上述的图像处理方法。

本发明实施例还要求保护一种存储介质，该存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的图像处理方法中的步骤。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的视频处理方法以及图像处理技术可以应用于以上任意领域。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频处理方法，其特征在于，包括：

根据所述待处理视频生成第一步态能量图；

其中，所述第一步态识别包括：

提取所述第一、第二步态能量图对应的身份信息，以及，所述第一步态能量图和第二步态能量图的融合步态特征向量；至少根据提取的融合步态特征向量计算所述第一、第二步态能量图的相似度；

所述第一步态能量图的身份信息包括所述第一步态能量图的标识和所述第一步态能量图的步态特征向量，所述第二步态能量图的身份信息包括所述第二步态能量图的标识和所述第二步态能量图的步态特征向量；所述融合步态特征向量由所述第一步态能量图和第二步态能量图的步态特征向量决定；

所述深度神经网络在训练过程中根据身份信息和融合步态特征向量进行了滤波器参数调整；所述训练过程的训练目标包括：从同一对象的不同步态能量图中提取的步态特征向量相似，从不同对象的步态能量图中提取的步态特征向量相远离；所述训练过程中使用的每一训练样本包括n个训练子样本，任一所述训练子样本包括两幅身份已知的对象的步态能量图，所述n为正整数；

所述深度神经网络的训练过程包括：

使用所述深度神经网络对所述训练样本中的每一训练子样本执行第二步态识别；其中，所述第二步态识别包括：提取所述训练子样本中两幅步态能量图各自的身份信息以及所述两幅步态能量图的融合步态特征向量，并至少根据提取的融合步态特征向量计算所述两幅步态能量图的相似度；

根据在所述第二步态识别中提取的身份信息，使用身份信息损失函数计算所述训练样本的身份损失值；所述身份损失值越小，表征从同一对象不同步态能量图中提取的步态特征向量越相似，而从不同对象的步态能量图中提取的步态特征向量越远离；

使用融合步态特征向量损失函数计算所述训练样本的融合损失值；

对所述融合损失值和身份损失值求加权和，得到所述训练样本的最终损失值；

根据至少一个训练样本的最终损失值调整所述深度神经网络的滤波器参数。

2.如权利要求1所述的方法，其特征在于，

所述n＝3，所述训练样本包括第一至第三训练子样本，所述第一至第三训练子样本的组合方式包括：

第一组合方式：所述第一训练子样本中的两幅步态能量图对应同一对象；所述第二训练子样本中的两幅步态能量图对应不同的对象；所述第三训练子样本中的两幅步态能量图对应不同的对象；

或者，

第二组合方式：所述第一训练子样本中的两幅步态能量图对应同一对象；所述第二训练子样本的两幅步态能量图对应所述同一对象；所述第三训练子样本中的两幅步态能量图对应不同的对象。

3.如权利要求2所述的方法，其特征在于，当所述第一至第三训练子样本为所述第一种组合方式时，所述身份损失函数包括：

其中，Lu表示身份损失值，η表示系数，表示欧氏距离；

p、g、p′、g′、p″和g″表示步态能量图的标识，Xp和Xg表示第一训练子样本中的一对步态能量图，Xp′和Xg′表示第二训练子样本中的一对步态能量图，Xp″和Xg″表示第三训练子样本的一对步态能量图，并且，Xp与Xp′对应同一对象，Xp与Xp″对应不同对象；

U(Xp)至U(Xg″)表示各步态能量图的步态特征向量。

4.如权利要求2所述的方法，其特征在于，当所述第一至第三训练子样本为所述第二种组合方式时，所述身份损失函数包括：

其中，Lu表示身份损失值，η表示系数，表示欧氏距离；

U(Xp)至U(Xg″)表示各步态能量图的步态特征向量。

5.如权利要求3或4所述的方法，其特征在于，所述训练目标还包括：

若第一计算样本中两对步态能量图对的真实标签分布相同，而第二计算样本中两对步态能量图对的真实标签分布不相同，令所述第一计算样本对应的第一概率与第二计算样本对应的第二概率相远离，否则，令所述第一概率与所述第二概率相接近；

其中，所述第一计算样本和第二计算样本分别包括两对步态能量图对；

所述第一概率为所述第一计算样本中两对步态能量图对之间标签分布相同的预测概率，所述第二概率为所述第二计算样本中两对步态能量图对之间标签分布相同的预测概率。

6.如权利要求5所述的方法，其特征在于，当所述第一至第三训练子样本为所述第一种组合方式时，所述融合损失函数包括：

Lc＝-[(P(x_pg)log Q(x_pg)+P(x_p′g′)log Q(x_p′g′))+μg(P(x_pg)log Q(x_pg)+P(x_p″g″)log Q(x_p″g″))+η_cg{||δ-D[C(x_pg,x_pp′),C(x_pg,x_pg″)]+D[C(x_pg,x_pp′),C(x_pg,x_gp′)]||₊+μg||δ-D[C(x_pg,x_pp′),C(x_pg,x_pg′)]+D[C(x_pg,x_pp′),C(x_pg,x_gp′)]||₊}

其中，Lc表示融合损失值；μ和η_c表示加权系数，δ表示松弛因子；x_pg至x_gp′表示各步态能量图对；P(*)表示一步态能量图对所对应的真实标签分布；Q(*)表示所述深度神经网络对所述步态能量图对的预测结果；P(*)logQ(*)表示对真实标签分布和预测结果求交叉熵；||*||₊表示将值与0比较，取二者中的较大值；C(*)为概率计算函数，用于计算第一计算样本或第二计算样本中两步态能量图对之间标签分布相同的预测概率；D[*]函数用于计算第一计算样本和第二计算样本的欧氏距离。

7.如权利要求5所述的方法，其特征在于，当所述第一至第三训练子样本为所述第二种组合方式时，所述融合损失函数包括：

Lc＝-[(P(x_pg)log Q(x_pg)+P(x_p′g′)logQ(x_p′g′))+μg(P(x_pg)log Q(x_pg)+P(x_p″g″)log Q(x_p″g″))+η_cg{||δ-D[C(x_pg,x_pp′),C(x_pg,x_pg″)]+D[C(x_pg,x_pp′),C(x_pg,x_gp′)]||₊+μg||δ-D[C(x_pg,x_pp′),C(x_pg,x_pg′)]+D[C(x_pg,x_pp′),C(x_pg,x_gp′)]||₊}

8.一种视频处理装置，其特征在于，包括第一获取单元和步态识别单元；

所述步态识别单元包括深度神经网络；

所述第一获取单元，用于获取待处理视频，所述待处理视频中的视频帧包括身份待识别的对象；根据所述待处理视频生成第一步态能量图，以及，获取身份已知的对象的视频的第二步态能量图；所述第一步态能量图和第二步态能量图分别对应唯一的标识；

其中，所述第一步态识别包括：

所述深度神经网络的训练过程包括：

9.一种视频处理设备，其特征在于，至少包括处理器和存储器；所述处理器通过执行所述存储器中存放的程序以及调用其他设备，执行如权利要求1-7任一项所述的视频处理方法。

10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1-7任一项所述的视频处理方法中的步骤。

11.一种图像处理方法，其特征在于，包括：

获取身份待识别的对象的第一姿态能量图，以及；

其中，所述第一姿态识别包括：

所述第一姿态能量图的身份信息包括所述第一姿态能量图的标识和所述第一姿态能量图的姿态特征，所述第二姿态能量图的身份信息包括所述第二姿态能量图的标识和所述第二姿态能量图的姿态特征；所述融合步态特征向量由所述第一姿态能量图和第二姿态能量图的姿态特征决定；

所述深度神经网络在训练过程中根据身份信息和融合姿态特征向量进行了滤波器参数调整；所述训练过程的训练目标包括：从同一对象的不同姿态能量图中提取的姿态特征向量相似，从不同对象的姿态能量图中提取的姿态特征向量相远离；所述训练过程中使用的每一训练样本包括n个训练子样本，任一所述训练子样本包括两幅身份已知的对象的姿态能量图，所述n为正整数；

所述深度神经网络的训练过程包括：

使用所述深度神经网络对所述训练样本中的每一训练子样本执行第二姿态识别；其中，所述第二姿态识别包括：提取所述训练子样本中两幅姿态能量图各自的身份信息以及所述两幅姿态能量图的融合姿态特征向量，并至少根据提取的融合姿态特征向量计算所述两幅姿态能量图的相似度；

根据在所述第二姿态识别中提取的身份信息，使用身份信息损失函数计算所述训练样本的身份损失值；所述身份损失值越小，表征从同一对象不同姿态能量图中提取的姿态特征向量越相似，而从不同对象的姿态能量图中提取的步态特征向量越远离；

使用融合姿态特征向量损失函数计算所述训练样本的融合损失值；

12.一种图像处理装置，其特征在于，包括第二获取单元和姿态识别单元；

所述姿态识别单元包括深度神经网络；

其中，所述第一姿态识别包括：

所述第一姿态能量图的身份信息包括所述第一姿态能量图的标识和所述第一姿态能量图的姿态特征，所述第二姿态能量图的身份信息包括所述第二姿态能量图的标识和所述第二姿态能量图的姿态特征；所述融合姿态特征向量由所述第一姿态能量图和第二姿态能量图的姿态特征决定；

所述深度神经网络的训练过程包括：

13.一种图像处理设备，其特征在于，至少包括处理器和存储器；所述处理器通过执行所述存储器中存放的程序以及调用其他设备，执行如权利要求12所述的图像处理方法。