CN110414348A

CN110414348A - 一种视频处理方法及装置

Info

Publication number: CN110414348A
Application number: CN201910559324.1A
Authority: CN
Inventors: 王强
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-11-05

Abstract

本发明实施例提供一种视频处理方法及装置，该方法包括：获取待识别行人视频，待识别行人视频包括多帧图像；将多帧图像输入OpenPose网络，得到多张待识别矢量特征图，多张待识别矢量特征图为人体关节点的矢量特征图；将多张待识别矢量特征图输入LSTM网络，得到第一步态周期特征；计算第一步态周期特征与第二步态周期特征的匹配度，第二步态周期特征为根据存储的行人视频包括的图像得到的步态周期特征；当匹配度大于阈值时，确定多帧图像中的行人与存储的行人视频包括的图像中的行人为同一行人。实施本发明实施例，可以提高普适性和准确性。

Description

一种视频处理方法及装置

技术领域

本发明涉及图像识别技术领域，具体涉及一种视频处理方法及装置。

背景技术

步态识别是通过获取一段待检测行人正常行走的视频与已经存储好的行人行走视频作对比，找出待检测行人对应于数据库中人物的身份，具有检测过程无感和非接触等优点，能解决人脸识别在大角度和有遮挡等情况下身份识别受限等问题。目前，步态识别可以基于特征建模联合机器学习识别，即从轮廓图序列中手工提取与步态相关的静态或动态特征，然后使用机器学习的方法对特征进行降维或匹配。上述方法对手工提取的特征准确度要求很高，诸如步态能量图类的动态特征要求行人必须处于视频中间，提取要求苛刻，以致降低了普适性和准确性。

发明内容

本发明实施例提供一种视频处理方法及装置，可以提高普适性和准确性。

第一方面提供一种视频处理方法，包括：

获取待识别行人视频，所述待识别行人视频包括多帧图像；

将所述多帧图像输入OpenPose网络，得到多张待识别矢量特征图，所述多张待识别矢量特征图为人体关节点的矢量特征图；

将所述多张待识别矢量特征图输入长短期记忆LSTM网络，得到第一步态周期特征；

计算所述第一步态周期特征与第二步态周期特征的匹配度，所述第二步态周期特征为根据存储的行人视频包括的图像得到的步态周期特征；

当所述匹配度大于阈值时，确定所述多帧图像中的行人与所述存储的行人视频包括的图像中的行人为同一行人。

由于不需要手工提取与步态相关的静态或动态特征，因此，可以提高普适性以及视频处理效率。此外，由于LSTM网络是一种能处理时序信息的网络，因此，可以较好地处理视频中不同帧之间的信息，从而可以提高步态识别准确性。

作为一种可能的实施方式，所述方法还包括：

获取训练行人视频；

将所述训练行人视频包括的图像输入所述OpenPose网络，得到多张训练矢量特征图，所述多张训练矢量特征图为人体关节点的矢量特征图；

将所述多张训练矢量特征图中的M张连续训练矢量特征图输入初始LSTM网络，得到所述训练行人视频包括的图像中的行人属于训练行人中每个行人的概率，所述M为大于1的整数；

根据所述概率计算第一损失；

根据所述第一损失优化所述初始LSTM网络的参数，得到所述LSTM网络。

可见，在训练LSTM网络时考虑了视频中不同帧之间的时序信息，因此，可以提高LSTM网络步态识别准确性。

作为一种可能的实施方式，所述将所述多张待识别矢量特征图输入LSTM网络，得到第一步态周期特征包括：

将所述多张待识别矢量特征图中的M张连续待识别矢量特征图输入LSTM网络，得到第一步态周期特征；

所述确定所述多帧图像中的行人与所述存储的行人视频包括的图像中的行人为同一行人包括：

确定所述多帧图像包括的所述M张连续待识别矢量特征图对应的图像中的行人与所述存储的行人视频包括的图像中的行人为同一行人。

可见，在进行步态识别时，是按照M张图像为周期进行识别的，相对于针对单张图像的识别，可以提高识别准确性。

作为一种可能的实施方式，所述计算所述第一步态周期特征与第二步态周期特征的匹配度包括：

使用所述第一步态周期特征的向量点乘第二步态周期特征的向量，得到所述第一步态周期特征与所述第二步态周期特征的匹配度。

作为一种可能的实施方式，所述OpenPose网络包括MobileNet网络和第一分支；

所述将所述多帧图像输入OpenPose网络，得到多张待识别矢量特征图包括：

将所述多帧图像输入所述MobileNet网络，得到多个待识别人体关节点特征，所述多个待识别人体关节点特征中每个待识别人体关节点特征对应一帧图像；

将所述多个待识别人体关节点特征输入所述第一分支，得到多张待识别矢量特征图。

可见，与现有的OpenPose网络相比，将OpenPose网络中的超分辨率测试序列(visual geometry group，VGG)19替换为MobileNet网络，可以提高OpenPose网络的处理速度，从而可以提高步态识别效率。

作为一种可能的实施方式，所述OpenPose网络还包括第二分支，所述方法还包括：

获取训练图像；

将第一图像输入初始OpenPose网络中的MobileNet网络，得到训练人体关节点特征，所述第一图像为所述训练图像中的任一图像；

将所述训练人体关节点特征输入所述初始OpenPose网络中的第一分支，得到人体关节点的热度图；

将所述训练人体关节点特征输入所述初始OpenPose网络中的第二分支，得到第一人体关节点的矢量特征图；

根据所述人体关节点的热度图和所述第一人体关节点的矢量特征图计算第二损失；

根据所述第二损失优化所述初始OpenPose网络中的MobileNet网络、第一分支和第二分支的参数，得到所述OpenPose网络。

作为一种可能的实施方式，所述第一分支和所述第二分支可以分别包括三个阶段。

可见，与现有的OpenPose网络相比，每个分支由七个阶段减少为三个阶段，可以提高OpenPose网络的处理速度，从而可以提高步态识别效率。

作为一种可能的实施方式，所述三个阶段中每个阶段的卷积结构为3*3的卷积结构。

可见，与现有的OpenPose网络相比，每个分支中的第二阶段和第二阶段的7×7替换为两个3×3，可以提高OpenPose网络的处理速度，从而可以提高步态识别效率。

第二方面提供一种视频处理装置，包括用于执行第一方面或第一方面的任一实施方式提供的视频处理方法的单元。

第三方面提供一种视频处理装置，包括处理器和存储器，所述处理器和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于调用所述程序指令执行第一方面或第一方面的任一实施方式提供的视频处理方法。

第四方面提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行第一方面或第一方面的任一实施方式提供的视频处理方法。

第五方面提供了一种应用程序，该应用程序用于在运行时执行第一方面或第一方面的任一实施发送提供的视频处理方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频处理方法的流程示意图；

图2是本发明实施例提供的一种OpenPose网络的示意图；

图3是本发明实施例提供的一种OpenPose网络的可视化示意图；

图4是本发明实施例提供的另一种视频处理方法的流程示意图；

图5是本发明实施例提供的一种视频处理装置的结构示意图；

图6是本发明实施例提供的另一种视频处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种视频处理方法及装置，可以提高普适性和准确性。以下分别进行详细说明。

请参阅图1，图1是本发明实施例提供的一种视频处理方法的流程示意图。根据不同的需求，图1所示的流程图中的某些步骤可以拆分为几个步骤，某几个步骤可以合为一个步骤。如图1所示，该视频处理方法可以包括以下步骤。

101、获取待识别行人视频。

当需要识别视频中的步态时，获取待识别行人视频。待识别行人视频可以是本地存储的视频，也可以是从网络或服务器获取的视频，还可以是通过视频采集装置采集的视频。其中，待识别行人视频可以是需要识别的所有视频，也可以是需要识别的视频中的部分视频。待识别行人视频包括多帧图像，待识别行人视频包括的帧数大于或等于LSTM网络单个步态识别周期能够识别的图像数量。

102、将多帧图像输入OpenPose网络，得到多张待识别矢量特征图。

获取到待识别行人视频之后，可以将待识别行人视频包括的多帧图像输入OpenPose网络得到多张待识别矢量特征图，即将待识别行人视频包括的每帧图像按照顺序依次输入OpenPose网络，输出每帧图像的人体关节点的矢量特征图。多张待识别矢量特征图为人体关节点的矢量特征图。其中，OpenPose是基于卷积神经网络和监督学习的开源库，是世界上第一个基于深度学习的实时多人二维姿态估计。人体关节点可以包括鼻子、脖子、左肩膀、右肩膀、左手腕、右手腕、左胳膊肘、右胳膊肘、左臀、右臀、左膝盖、右膝盖、左脚踝、右脚踝、左眼、右眼、左耳、右耳等。

OpenPose网络可以包括MobileNet网络和第一分支，可以将多帧图像输入MobileNet网络得到多个待识别人体关节点特征，将多个待识别人体关节点特征输入第一分支得到多张待识别矢量特征图。其中，多个待识别人体关节点特征中每个待识别人体关节点特征对应一帧图像。

在一个实施例中，可以先训练初始OpenPose网络，得到OpenPose网络。OpenPose网络包括MobileNet网络、第一分支和第二分支。可以获取训练图像，将第一图像输入初始OpenPose网络中的MobileNet网络得到训练人体关节点特征，将训练人体关节点特征输入初始OpenPose网络中的第一分支得到人体关节点的热度图，将训练人体关节点特征输入初始OpenPose网络中的第二分支得到第一人体关节点的矢量特征图，根据人体关节点的热度图和第一人体关节点的矢量特征图计算第二损失，根据第二损失优化初始OpenPose网络中的MobileNet网络、第一分支和第二分支的参数得到OpenPose网络，即不断地重复上述操作直到第二损失达到要求为止。其中，第一图像为训练图像中的任一图像。

请参阅图2，图2是本发明实施例提供的一种OpenPose网络的示意图。如图2所示，现有的OpenPose网络包括VGG19和2个分支，2个分支分别包括7个阶段，第1阶段包括3个3×3的卷积结构和2个1×1的卷积结构，第2阶段到第7阶段包括5个7×7的卷积结构和2个1×1的卷积结构。本发明使用的OpenPose网络将VGG19替换为MobileNet网络，由于MobileNet网络本身的分组卷积结构计算量较小，因此，可以提高OpenPose网络的处理速度，从而可以提高步态识别效率。此外，两个分支由7个阶段降为3个阶段，可以减少OpenPose网络的复杂度，可以进一步提高OpenPose网络的处理速度，从而可以进一步提高步态识别效率。进一步地，第二阶段和第三阶段中的每个7×7的卷积结构替换为2个3×3的卷积结构，7×7的卷积一次需要进行49次乘法，2个3×3的卷积只需要进行2×3×3＝18次乘法，减少了乘法次数，即减少了阶段上的计算量，从而可以进一步提高步态识别效率。

请参阅图3，图3是本发明实施例提供的一种OpenPose网络的可视化示意图。图像输入OpenPose网络，分支1得到人体关节点的热度图(heatmap)，分支2得到人体关节点的矢量特征图(vectormap)。热度图和矢量特征图经可视化处理之后的图如图3所示。矢量特征图1和矢量特征图2是由分支2输出的，能较好地表征人体各关节点连接的方向信息，而步态识别的关键之处在于分析人体步行时肢体间的运动关联性，因此，使用这里的矢量特征图进行步态识别具有重要意义。

103、将多张待识别矢量特征图输入LSTM网络，得到第一步态周期特征。

将多帧图像输入OpenPose网络得到多张待识别矢量特征图之后，可以将多张待识别矢量特征图输入LSTM网络得到第一步态周期特征，即将多张待识别矢量特征图中的M张连续待识别矢量特征图输入LSTM网络得到第一步态周期特征，也即先将多张待识别矢量特征图中最前面的M张连续待识别矢量特征图输入LSTM网络得到第一个第一步态周期特征，之后将多张待识别矢量特征图中下M帧连续待识别矢量特征图输入LSTM网络得到第二个第一步态周期特征，直到将多张待识别矢量特征图中所有图像输入LSTM网络，或者多张待识别矢量特征图中剩余的待识别矢量特征图的数量小于M。其中，M为大于1的整数。M帧连续待识别矢量特征图是同时输入LSTM网络的。

104、计算第一步态周期特征与第二步态周期特征的匹配度。

将多张待识别矢量特征图输入LSTM网络得到第一步态周期特征之后，计算第一步态周期特征与第二步态周期特征的匹配度。可以使用第一步态周期特征的向量点乘第二步态周期特征的向量得到第一步态周期特征与第二步态周期特征的匹配度。第二步态周期特征为根据存储的行人视频包括的图像得到的步态周期特征，第二步态周期特征也是根据步骤101与步骤103得到的，第二步态周期特征为根据存储的行人视频包括的图像中的M帧图像得到的步态周期特征。

105、当匹配度大于阈值时，确定多帧图像中的行人与存储的行人视频包括的图像中的行人为同一行人。

计算出第一步态周期特征与第二步态周期特征的匹配度之后，可以判断匹配是否大于阈值，当判断出匹配度大于阈值时，可以确定待识别行人视频包括的多帧图像中的行人与存储的行人视频包括的图像中的行人为同一行人。当判断出匹配度小于阈值时，可以确定待识别行人视频包括的多帧图像中的行人与存储的行人视频包括的图像中的行人不是同一行人。

进一步地，可以确定待识别行人视频包括的多帧图像中的M张连续待识别矢量特征图对应的图像中的行人与存储的行人视频包括的图像中的行人为同一行人。假设M为30，待识别行人视频包括60帧图像。可以根据第二步态周期特征与这60帧图像中的前30帧图像得到的步态周期特征的匹配度，确定前30帧图像中的行人与存储的行人视频包括的图像中的行人是否为同一行人；可以根据第二步态周期特征与这60帧图像中的后30帧图像得到的步态周期特征的匹配度，确定后30帧图像中的行人与存储的行人视频包括的图像中的行人是否为同一行人。

在图1所描述的视频处理方法中，由于不需要手工提取与步态相关的静态或动态特征，因此，可以提高普适性以及视频处理效率。此外，由于LSTM网络是一种能处理时序信息的网络，因此，可以较好地处理视频中不同帧之间的信息，从而可以提高步态识别准确性。

请参阅图4，图4是本发明实施例提供的另一种视频处理方法的流程示意图。根据不同的需求，图4所示的流程图中的某些步骤可以拆分为几个步骤，某几个步骤可以合为一个步骤。如图4所示，该视频处理方法可以包括以下步骤。

401、训练初始LSTM网络，得到LSTM网络。

识别视频中的步态之前，可以先训练好OpenPose网络，OpenPose网络的训练方法在此不再赘述。训练好OpenPose网络之后，可以基于OpenPose网络训练初始LSTM网络得到LSTM网络。可以先获取训练行人视频。之后将训练行人视频包括的图像输入OpenPose网络得到多张训练矢量特征图，所述多张训练矢量特征图为人体关节点的矢量特征图。之后将多张训练矢量特征图中的M张连续训练矢量特征图输入初始LSTM网络得到训练行人视频包括的图像中的行人属于训练行人中每个行人的概率，M为大于1的整数。假设需要对100个行人进行训练，则训练行人为100，得到的概率也为100个，在针对第10个行人进行训练时，训练行人向量中的第10个值为1，其它值为0，表明是对第10个行人进行训练。之后根据概率计算第一损失，可以根据训练行人向量与概率向量计算损失，概率向量即的得到的概率组成的向量，在对100个行人进行训练的情况下，概率向量包括100个值，概率向量中第10个值即这M帧连续图像中的行人为第10个人的概率，第一损失可以为训练行人向量与概率向量的交叉熵。之后根据第一损失优化初始LSTM网络的参数得到LSTM网络，即根据第一损失优化初始LSTM网络的参数，不断地重复上述操作直到损失达到要求为止。

402、获取待识别行人视频。

其中，步骤402与步骤101相同，详细描述请参考步骤101，在此不再赘述。

403、将多帧图像输入OpenPose网络，得到多张待识别矢量特征图。

其中，步骤403与步骤102相同，详细描述请参考步骤102，在此不再赘述

404、对多张待识别矢量特征图进行降维处理。

将多帧图像输入OpenPose网络得到多张待识别矢量特征图之后，可以对多张待识别矢量特征图进行降维处理，可以通过Inception对多张待识别矢量特征图进行降维处理。即从OpenPose网络输出一个待识别矢量特征图就对一个待识别矢量特征图进行降维处理，即降维是一个一个进行的。

405、将降维后的多张待识别矢量特征图输入LSTM网络，得到第一步态周期特征。

对多张待识别矢量特征图进行降维处理之后，可以将降维后的多张待识别矢量特征图输入LSTM网络得到第一步态周期特征。对一个待识别矢量特征图进行降维处理之后，可以先判断降维处理后的矢量特征图的数量是否等于一个步态周期的数量，例如，是否等于M，也可以判断是否达到一个步态周期。在判断出降维处理后的矢量特征图的数量等于一个步态周期的数量，或者达到一个步态周期的情况下，将降维处理后的待识别矢量特征图输入LSTM网络得到一个第一步态周期特征。M个降维处理后的矢量特征图是同时输入LSTM网络的。

406、计算第一步态周期特征与第二步态周期特征的匹配度。

将降维后的第一矢量特征图视频输入LSTM网络得到第一步态周期特征之后，计算第一步态周期特征与第二步态周期特征的匹配度。其它描述可以参考步骤104的描述。

407、当匹配度大于阈值时，确定多帧图像中的行人与存储的行人视频包括的图像中的行人为同一行人。

其中，步骤407与步骤105相同，详细描述请参考步骤105，在此不再赘述。

具体地，训练时可以将视频中连续30帧的图像(约1秒视频时长，也约等于一个步态周期)输入OpenPose网络进行前向计算，保存每一帧图像的矢量特征图，可以得到30个大小为(46,46,38)的矢量特征图，对这30个特征进行堆叠，得到1个大小为(30,46,46,38)的特征图，这个特征图即作为一个步态周期的特征。接下来的任务就是将多个这样的特征图作为样本用于训练和分类，主要流程如下：(1)取一个batch大小的特征图，其大小为(batch,30,46,46,38)，由于卷积神经网络的输入是(batch,c,h,w)的格式，所以需将维度变换为(batch*30,46,46,38)的形式然后输入；(2)后续网络选取的是Inception连接LSTM的形式，Inception用于降低矢量特征图的维度，LSTM用于时序信息的特征提取，输入数据经过Inception后矢量特征图大小变为(batch*30,c,m,n)，将其沿后3个维度展开，并接上一个输出为512维度的全连接层，则Inception最后的输出为(batch*30,512)；(3)将(2)中的输出变换为(batch,30,512)的形式输入LSTM，此时LSTM中的time_steps参数为30，即将连续30帧的特征图作为LSTM的输入进行训练，以提取各个矢量特征间的时序信息，最终完成整个分类识别。

具体地，训练完之后，可以对待识别行人视频进行识别，待识别行人视频中同一行人的视频可以包括不同穿着和不同角度情况下行走的图像。不同穿着包括穿衬衫、穿外套、背挎包等，角度可以从0度开始以18度的角度差递增到180度，每种情况下的行走视频时长可以约为20秒左右。可以使用步态识别算法每隔一秒(即一个步态周期)对视频做一次分类，无论穿着和角度是否一致，若将同一身份的人识别为一类，则代表识别正确，否则就算识别错误。使用不同识别方法针对0度穿衬衫(即0度角度拍摄的情况下穿衬衫的人)、45度穿外套和90度带包的行人进行识别，识别结果如表1所示：

表1识别结果

在图4所描述的视频处理方法中，由于不需要手工提取与步态相关的静态或动态特征，因此，可以提高普适性以及视频处理效率。此外，由于LSTM网络是一种能处理时序信息的网络，因此，可以较好地处理视频中不同帧之间的信息，从而可以提高步态识别准确性。

请参阅图5，图5是本发明实施例提供的一种视频处理装置的结构示意图。如图5所示，该视频处理装置可以包括：

获取单元501，用于获取待识别行人视频，待识别行人视频包括多帧图像；

第一识别单元502，用于将多帧图像输入OpenPose网络，得到多张待识别矢量特征图，该多张待识别矢量特征图为人体关节点的矢量特征图；

第二识别单元503，用于将多张待识别矢量特征图输入LSTM网络，得到第一步态周期特征；

计算单元504，用于计算第一步态周期特征与第二步态周期特征的匹配度，第二步态周期特征为根据存储的行人视频包括的图像得到的步态周期特征；

确定单元505，用于当匹配度大于阈值时，确定多帧图像中的行人与存储的行人视频包括的图像中的行人为同一行人。

作为一种可能的实施方式，获取单元501，还用于获取训练行人视频；

第一识别单元502，还用于将训练行人视频包括的图像输入OpenPose网络，得到多张训练矢量特征图，该多张训练矢量特征图为人体关节点的矢量特征图；

第二识别单元503，还用于将该多张训练矢量特征图中的M张连续训练矢量特征图输入初始LSTM网络，得到训练行人视频包括的图像中的行人属于训练行人中每个行人的概率，M为大于1的整数；

计算单元504，还用于根据该概率计算第一损失；

该视频处理装置还可以包括：

优化单元506，用于根据第一损失优化初始LSTM网络的参数，得到LSTM网络。

在一个实施例中，第二识别单元503将多张待识别矢量特征图输入LSTM网络，得到第一步态周期特征包括：

将多张待识别矢量特征图中的M张连续待识别矢量特征图输入LSTM网络，得到第一步态周期特征；

确定单元505确定多帧图像中的行人与所述存储的行人视频包括的图像中的行人为同一行人包括：

确定多帧图像包括的M张连续待识别矢量特征图对应的图像中的行人与存储的行人视频包括的图像中的行人为同一行人。

在一个实施例中，计算单元504计算第一步态周期特征与第二步态周期特征的匹配度包括：

使用第一步态周期特征的向量点乘第二步态周期特征的向量，得到第一步态周期特征与第二步态周期特征的匹配度。

在一个实施例中，OpenPose网络包括MobileNet网络和第一分支；

第一识别单元502将多帧图像输入OpenPose网络，得到多张待识别矢量特征图包括：

将多帧图像输入MobileNet网络，得到多个待识别人体关节点特征，多个待识别人体关节点特征中每个待识别人体关节点特征对应一帧图像；

将多个待识别人体关节点特征输入第一分支，得到多张待识别矢量特征图。

在一个实施例中，OpenPose网络还可以包括第二分支；

获取单元501，还用于获取训练图像；

第一识别单元502，还用于将第一图像输入初始OpenPose网络中的MobileNet网络，得到训练人体关节点特征，第一图像为训练图像中的任一图像；

第一识别单元502，还用于将训练人体关节点特征输入初始OpenPose网络中的第一分支，得到人体关节点的热度图；

第一识别单元502，还用于将训练人体关节点特征输入初始OpenPose网络中的第二分支，得到第一人体关节点的矢量特征图；

计算单元504，还用于根据人体关节点的热度图和第一人体关节点的矢量特征图计算第二损失；

优化单元506，还用于根据第二损失优化初始OpenPose网络中的MobileNet网络、第一分支和第二分支的参数，得到OpenPose网络。

在一个实施例中，该视频处理装置还可以包括：

降维单元507，用于对多张待识别矢量特征图进行降维处理；

第二识别单元503将多张待识别矢量特征图输入LSTM，得到第一步态周期特征包括：

将降维后的多张待识别矢量特征图输入LSTM，得到第一步态周期特征。

有关上述获取单元501、第一识别单元502、第二识别单元503、计算单元504、确定单元505、优化单元506和降维单元507更详细的描述可以直接参考上述图1-图2所示的方法实施例中的相关描述直接得到，这里不加赘述。

请参阅图6，图6是本发明实施例提供的另一种视频处理装置的结构示意图。如图6所示，该视频处理装置可以包括处理器601、存储器602和总线603。存储器602可以是独立存在，也可以和处理器601集成在一起。总线603与处理器601相连接。总线603在上述组件之间传送信息。其中：

存储器602中存储有一组程序代码，处理器601用于调用存储器602中存储的程序代码执行以下操作：

获取待识别行人视频，待识别行人视频包括多帧图像；

将多帧图像输入OpenPose网络，得到多张待识别矢量特征图，多张待识别矢量特征图为人体关节点的矢量特征图；

将多张待识别矢量特征图输入LSTM网络，得到第一步态周期特征；

计算第一步态周期特征与第二步态周期特征的匹配度，第二步态周期特征为根据存储的行人视频包括的图像得到的步态周期特征；

当匹配度大于阈值时，确定多帧图像中的行人与存储的行人视频包括的图像中的行人为同一行人。

在一个实施例中，处理器601还用于调用存储器602中存储的程序代码执行以下操作：

获取训练行人视频；

将训练行人视频包括的图像输入OpenPose网络，得到多张训练矢量特征图，多张训练矢量特征图为人体关节点的矢量特征图；

将多张训练矢量特征图中的M张连续训练矢量特征图输入初始LSTM网络，得到训练行人视频包括的图像中的行人属于训练行人的概率，M为大于1的整数；

根据概率计算第一损失；

根据第一损失优化初始LSTM网络的参数，得到LSTM网络。

在一个实施例中，处理器601将多张待识别矢量特征图输入LSTM网络，得到第一步态周期特征包括：

处理器601确定多帧图像中的行人与存储的行人视频包括的图像中的行人为同一行人包括：

在一个实施例中，处理器601计算第一步态周期特征与第二步态周期特征的匹配度包括：

在一个实施例中，OpenPose网络包括MobileNet网络和第一分支；

处理器601将多帧图像输入OpenPose网络，得到多张待识别矢量特征图包括：

在一个实施例中，OpenPose网络还包括第二分支，处理器601还用于调用存储器602中存储的程序代码执行以下操作：

获取训练图像；

将第一图像输入初始OpenPose网络中的MobileNet网络，得到训练人体关节点特征，第一图像为训练图像中的任一图像；

将训练人体关节点特征输入初始OpenPose网络中的第一分支，得到人体关节点的热度图；

将训练人体关节点特征输入初始OpenPose网络中的第二分支，得到第一人体关节点的矢量特征图；

根据人体关节点的热度图和第一人体关节点的矢量特征图计算第二损失；

根据第二损失优化初始OpenPose网络中的MobileNet网络、第一分支和第二分支的参数，得到OpenPose网络。

对多张待识别矢量特征图进行降维处理；

处理器601将多张待识别矢量特征图输入LSTM，得到第一步态周期特征包括：

其中，步骤101-步骤105以及步骤201-步骤207可以由视频处理装置中的处理器601和存储器602来执行。

其中，获取单元501、第一识别单元502、第二识别单元503、计算单元504、确定单元505、优化单元506和降维单元507可以由视频处理装置中的处理器601和存储器602来实现。

在一个实施例中提供了一种可读存储介质，该可读存储介质用于存储应用程序，应用程序用于在运行时执行图1或图2的视频处理方法。

在一个实施例中提供了一种应用程序，该应用程序用于在运行时执行图1或图2的视频处理方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random AccessMemory，RAM)、磁盘或光盘等。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待识别行人视频，所述待识别行人视频包括多帧图像；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取训练行人视频；

根据所述概率计算第一损失；

3.根据权利要求2所述的方法，其特征在于，所述将所述多张待识别矢量特征图输入LSTM网络，得到第一步态周期特征包括：

4.根据权利要求3所述的方法，其特征在于，所述计算所述第一步态周期特征与第二步态周期特征的匹配度包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述OpenPose网络包括MobileNet网络和第一分支；

6.根据权利要求5所述的方法，其特征在于，所述OpenPose网络还包括第二分支，所述方法还包括：

获取训练图像；

7.一种视频处理装置，其特征在于，包括：

获取单元，用于获取待识别行人视频，所述待识别行人视频包括多帧图像；

第一识别单元，用于将所述多帧图像输入OpenPose网络，得到多张待识别矢量特征图，所述多张待识别矢量特征图为人体关节点的矢量特征图；

第二识别单元，用于将所述多张待识别矢量特征图输入LSTM网络，得到第一步态周期特征；

计算单元，用于计算所述第一步态周期特征与第二步态周期特征的匹配度，所述第二步态周期特征为根据存储的行人视频包括的图像得到的步态周期特征；

确定单元，用于当所述匹配度大于阈值时，确定所述多帧图像中的行人与所述存储的行人视频包括的图像中的行人为同一行人。

8.根据权利要求7所述的装置，其特征在于，所述获取单元，还用于获取训练行人视频；

所述第一识别单元，还用于将所述训练行人视频包括的图像输入所述OpenPose网络，得到多张训练矢量特征图，所述多张训练矢量特征图为人体关节点的矢量特征图；

所述第二识别单元，还用于将所述多张训练矢量特征图中的M张连续训练矢量特征图输入初始LSTM网络，得到所述训练行人视频包括的图像中的行人属于训练行人中每个行人的概率，所述M为大于1的整数；

所述计算单元，还用于根据所述概率计算第一损失；

所述装置还包括：

优化单元，用于根据所述第一损失优化所述初始LSTM网络的参数，得到所述LSTM网络。

9.一种视频处理装置，其特征在于，包括处理器和存储器，所述处理器和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于调用所述程序指令执行如权利要求1-6任一项所述的视频处理方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的视频处理方法。