CN109829435B

CN109829435B - 一种视频图像处理方法、装置及计算机可读介质

Info

Publication number: CN109829435B
Application number: CN201910101908.4A
Authority: CN
Inventors: 杨佳杰
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2023-04-25
Anticipated expiration: 2039-01-31
Also published as: CN109829435A

Abstract

本申请实施例公开了一种视频图像处理方法、装置及计算机可读介质，其中方法包括：对视频图像中的图像帧进行目标对象检测，得到包含所述目标对象的检测信息；响应于依据所述检测信息确定所述目标对象为已存在的对象，则为所述目标对象分配所述目标对象已有的跟踪标识；基于所述跟踪标识查询所述目标对象的身份信息。通过本申请实施例，可以快速的获得图像帧中的目标对象的身份信息，提升目标对象的身份识别效率。

Description

一种视频图像处理方法、装置及计算机可读介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种视频图像处理方法、装置及计算机可读介质。

背景技术

视频目标身份识别技术在各个领域得到了广泛的应用，例如对课堂视频图像中学生的身份识别，智能会议室的视频图像中会议人员的身份识别等。传统的视频图像目标身份识别是通过对每一帧视频图像中目标的人脸进行人脸识别来确定目标的身份信息。

但是，通过人脸识别技术来识别视频图像中目标的身份信息的计算量较大，识别效率低。

发明内容

本申请实施例提供一种视频图像处理方法，可快速准确的确定视频图像中人脸目标对象和人体目标对象的身份信息。

第一方面，本申请实施例提供了一种视频图像处理方法，该方法包括：

对视频图像中的图像帧进行目标对象检测，得到包含所述目标对象的检测信息；

响应于依据所述检测信息确定所述目标对象为已存在的对象，则为所述目标对象分配所述目标对象已有的跟踪标识；

基于所述跟踪标识查询所述目标对象的身份信息。

作为一种可选的实施方式，所述方法还包括：

响应于依据所述检测信息确定所述目标对象为新对象，则为所述目标对象分配新的跟踪标识，存储所述目标对象与所述新的跟踪标识之间的对应关系。

作为一种可选的实施方式，在所述为所述目标对象分配新的跟踪标识之后，所述方法还包括：

对所述目标对象进行图像识别获得所述目标对象的身份信息；

存储所述身份信息与所述目标对象的新的跟踪标识之间的对应关系。

作为一种可选的实施方式，所述方法还包括：

若未查询到所述目标对象的身份信息，则对所述目标对象进行图像识别获得所述目标对象的身份信息；存储所述身份信息与所述目标对象的跟踪标识之间的对应关系。

作为一种可选的实施方式，所述方法还包括：

查询所述目标对象的匹配跟踪标识，所述匹配跟踪标识为与所述目标对象匹配的匹配对象的跟踪标识，所述匹配对象为和所述目标对象具有相同的身份信息的对象；

在未查询到所述目标对象的匹配跟踪标识的情况下，将上述目标对象确定为所述图像帧中的一个未匹配对象，所述未匹配对象为所述视频图像中还没匹配到匹配对象的对象；

对所述图像帧中的未匹配对象进行匹配；

在匹配到所述目标对象的匹配对象的情况下，存储所述目标对象的跟踪标识和所述匹配对象的匹配跟踪标识之间的对应关系。

作为一种可选的实施方式，所述检测信息包括所述目标对象在所述图像帧中所在的位置区域信息；

在所述对所述图像帧中的未匹配对象进行匹配之前，所述方法还包括：

提取所述未匹配对象的关键点信息；

所述对所述图像帧中的未匹配对象进行匹配，包括

基于所述未匹配对象的关键点信息和所述未匹配对象的位置区域信息，计算所述未匹配对象中各个对象之间的距离；

基于所述各个未匹配对象之间的距离构建网络流图，所述未匹配对象为所述网络流图中的节点，所述各个对象之间的距离为所述网络流图中节点与节点之间的边的权重；

使用最小费用最大流算法计算所述网络流图的最大流下的最小距离代价，得到所述未匹配对象的匹配结果。

作为一种可选的实施方式，所述图像帧中的对象包括人脸对象和人体对象；

所述计算所述未匹配对象中各个对象之间的距离，包括：

计算所述未匹配对象中所述人脸对象和所述人体对象之间的距离。

作为一种可选的实施方式，所述方法还包括：

若使用所述跟踪标识未查询到所述目标对象的身份信息，则查询所述跟踪标识的匹配跟踪标识；

若查询到所述匹配跟踪标识，则使用所述匹配跟踪标识查询所述目标对象的身份信息。

作为一种可选的实施方式，所述方法还包括：

若使用所述匹配跟踪标识查询到所述目标对象的身份信息，则存储所述跟踪标识与所述目标对象的所述身份信息之间的对应关系。

作为一种可选的实施方式，所述方法还包括：

在所述目标对象为人脸目标对象的情况下，对所述人脸目标对象进行表情分析得到表情分析结果；

在所述目标对象为人体目标对象的情况下，对所述人体目标对象进行行为分析得到行为分析结果；

将所述表情分析结果或所述行为分析结果与所述目标对象的身份信息关联后存储到数据库中。

作为一种可选的实施方式，所述依据所述检测信息确定所述目标对象为已存在的对象包括：

在确定检测到与所述检测信息匹配的检测信息的情况下，确定所述目标对象为已存在的对象。

作为一种可选的实施方式，所述检测信息包含所述目标对象在图像帧中的位置区域信息；

所述在确定检测到与所述检测信息匹配的检测信息的情况下，确定所述目标对象为已存在的对象，包括：

在确定存在与所述检测信息对应的位置区域信息的交并比大于阈值的缓存位置区域信息的情况下，确定所述缓存位置区域信息对应的对象与所述目标对象相同，则所述目标对象为已经存在的对象；

或者，计算缓存位置区域信息对应对象的位置变换后的变更位置区域信息，在确定存在与所述检测信息对应的位置区域信息的交并比大于阈值的变更位置区域信息的情况下，确定所述变更位置区域信息对应的对象与所述目标对象相同，则所述目标对象为已经存在的对象。

作为一种可选的实施方式，所述计算缓存位置区域信息对应对象位置变换后的变更位置区域信息包括：

通过卡尔曼滤波算法预测缓存位置区域信息对应对象在视频位置变换后的变更位置区域信息。

作为一种可选的实施方式，所述方法还包括：

将所述目标对象的缓存位置区域信息更新为所述检测信息包含的位置区域信息。

第二方面，本申请实施例提供了一种视频图像处理装置，该装置包括：

目标检测单元，用于对视频图像中的图像帧进行目标对象检测，得到包含所述目标对象的检测信息；

判断单元，用于依据所述检测信息判断所述目标对象为是否为已存在的对象，

分配单元，在所述判断单元判断为是的情况下，用于为所述目标对象分配所述目标对象已有的跟踪标识；

查询单元，用于基于所述跟踪标识查询所述目标对象的身份信息。

作为一种可选的实施方式，所述分配单元，在所述判断单元判断为否的情况下，用于为所述目标对象分配新的跟踪标识；

所述装置还包括：

存储单元，存储所述目标对象与分配的所述新的跟踪标识之间的对应关系。

作为一种可选的实施方式，所述装置还包括：

图像识别单元，用于则对所述目标对象进行图像识别获得所述目标对象的身份信息；

所述存储单元，用于存储所述身份信息与所述目标对象的新的跟踪标识之间的对应关系。

作为一种可选的实施方式，所述装置还包括：

图像识别单元，用于若未查询到所述目标对象的身份信息，则对所述目标对象进行图像识别获得所述目标对象的身份信息；

存储单元，用于存储所述身份信息与所述目标对象的跟踪标识之间的对应关系。

作为一种可选的实施方式，所述查询单元，用于查询所述目标对象的匹配跟踪标识，所述匹配跟踪标识为与所述目标对象匹配的匹配对象的跟踪标识，所述匹配对象为和所述目标对象具有相同的身份信息的对象；

所述装置还包括：

确定单元，用于在未查询到所述目标对象的匹配跟踪标识的情况下，将上述目标对象确定为所述图像帧中的一个未匹配对象，所述未匹配对象为所述视频图像中还没匹配到匹配对象的对象；

匹配单元，用于对所述图像帧中的未匹配对象进行匹配；

所述存储单元，用于在匹配到所述目标对象的匹配对象的情况下，存储所述目标对象的跟踪标识和所述匹配对象的匹配跟踪标识之间的对应关系。

所述装置还包括：

提取单元，用于提取所述未匹配对象的关键点信息；

所述匹配单元，包括

第一计算子单元，用于基于所述未匹配对象的关键点信息和所述未匹配对象的位置区域信息，计算所述未匹配对象中各个对象之间的距离；

构建子单元，用于基于所述各个未匹配对象之间的距离构建网络流图，所述未匹配对象为所述网络流图中的节点，所述各个对象之间的距离为所述网络流图中节点与节点之间的边的权重；

输出子单元，用于使用最小费用最大流算法计算所述网络流图的最大流下的最小距离代价，输出所述未匹配对象的匹配结果。

所述第一计算子单元，用于计算所述未匹配对象中所述人脸对象和所述人体对象之间的距离。

作为一种可选的实施方式，所述查询单元，用于若使用所述跟踪标识未查询到所述目标对象的身份信息，则查询所述跟踪标识的匹配跟踪标识；

所述查询单元，还用于若查询到所述匹配跟踪标识，则使用所述匹配跟踪标识查询所述目标对象的身份信息。

作为一种可选的实施方式，所述存储单元，用于若使用所述匹配跟踪标识查询到所述目标对象的身份信息，则存储所述跟踪标识与所述目标对象的所述身份信息之间的对应关系。

作为一种可选的实施方式，所述装置还包括：

分析单元，用于在所述目标对象为人脸目标对象的情况下，对所述人脸目标对象进行表情分析得到表情分析结果；在所述目标对象为人体目标对象的情况下，对所述人体目标对象进行行为分析得到行为分析结果；

所述存储单元，用于将所述表情分析结果或所述行为分析结果与所述目标对象的身份信息关联后存储到数据库中。

作为一种可选的实施方式，所述判断单元，用于在确定检测到与所述检测信息匹配的检测信息的情况下，确定所述目标对象为已存在的对象。

所述判断单元，具体用于第二确定子单元，在确定存在与所述检测信息对应的位置区域信息的交并比大于阈值的缓存位置区域信息的情况下，确定所述缓存位置区域信息对应的对象与所述目标对象相同，则所述目标对象为已经存在的对象；

或者，所述判断单元包括：

第二计算子单元，用于计算缓存位置区域信息对应对象的位置变换后的变更位置区域信息；

所述判断单元，用于在确定存在与所述检测信息对应的位置区域信息的交并比大于阈值的变更位置区域信息的情况下，确定所述变更位置区域信息对应的对象与所述目标对象相同，则所述目标对象为已经存在的对象。

作为一种可选的实施方式，所述第二计算子单元，用于通过卡尔曼滤波算法预测缓存位置区域信息对应对象在视频位置变换后的变更区域信息。

作为一种可选的实施方式，所述装置还包括：

更新单元，用于将所述目标对象的缓存区域信息更新为所述检测信息包含的区域信息。

第三方面，提供了一种视频图像处理装置，包括：包括处理器、存储器；所述处理器被配置为支持所述装置执行上述第一方面及其任一种可能的实现方式的方法中相应的功能。存储器用于与处理器耦合，其保存所述装置必要的程序(指令)和数据。可选的，所述装置还可以包括输入/输出接口，用于支持所述装置与其他装置之间的通信。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面及其任一种可能的实现方式的方法。

本申请实施例通过对视频图像中的图像帧进行目标对象检测，得到包含所述目标对象的检测信息；响应于依据所述检测信息确定所述目标对象为已存在的对象，则为所述目标对象分配所述目标对象已有的跟踪标识；使用所述跟踪标识查询所述目标对象的身份信息。由于本申请实施例中在确定图像帧中的目标对象进行身份信息的时候，首先判断目标对象是否为已经在之前的图像帧中出现过的目标对象，若是已经出现过的目标对象，则根据之前为所述目标对象分配的跟踪标识获取该目标对象的身份信息，从而不用对该目标对象进行特征提取，然后根据提取的特征来确定身份信息等计算量大的操作步骤，从而提升了身份识别的效率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频图像处理方法的示意流程图；

图2是本申请另一实施例提供的目标对象检测显示示意图；

图3是本申请实施例提供的另一种视频图像处理方法的示意流程图；

图4是本申请实施例提供的又一种视频图像处理方法的示意流程图；

图5是本申请实施例提供的又一种视频图像处理方法的示意流程图；

图6是本申请另一实施例提供的目标对象关键点提取显示示意图；

图7是本申请实施例提供的一种视频图像处理装置的示意框图；

图8为本申请实施例提供的一种视频图像处理装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

参见图1，图1是本申请实施例提供的一种视频图像处理方法的示意流程图，如图所示，该方法可包括：

101：对视频图像中的图像帧进行目标对象检测，得到包含上述目标对象的检测信息。

本申请主要应用于需要对图像帧中的目标对象进行身份识别的视频图像处理，例如，对课堂监控空视频图形中每个学生进行人脸表情和人体行为分析后，需要确认学生的身份信息，将人脸表情或人体行为分析的结果与学生的身份信息绑定，以便对学生的课堂表现进行分析等。

在本申请实施例中，上述目标对象可以是图像帧中可以通过图像识别技术识别的对象，例如图像中的人脸目标对象、人体目标对象等。上述检测信息可以包括目标对象的目标类别(例如人脸、人体)、目标对象在图像中的区域信息、置信度等。

在本申请实施例中，上述对上述图像进行图像检测获得目标对象的检测信息具体可以包括：采用目标对象定位分类模型来定位和分类目标，以得出目标的类别、区域信息以及置信度等信息，例如目标对象的检测信息的示例可以为(label,x,y,width,height,confidence)，其中label为目标对象的类别标签，在这里为人脸或人体，(x,y,width,height)为目标的位置区域的起点坐标X、Y和宽、高，confidence为目标的置信度，为0到1的浮点数，值越大代表目标的可信度越高。如图2的图a和图b所示，分别为检测到人脸目标对象和人体目标对象的示意图，图中使用矩形框表示目标对象在视频图像中的区域。

作为一种可选的实施方式，上述目标对象定位分类模型可以为已经训练好的能够对人脸目标对象和人体目标对象进行定位和分类的卷积神经网络。

102：响应于依据上述检测信息确定上述目标对象为已存在的对象，则为上述目标对象分配上述目标对象已有的跟踪标识。

在本申请实施例中，存储有在上述图像帧之前的图像帧中的目标对象的检测信息和目标对象的跟踪标识的映射关系。例如，(track-id,label,x,y,width,height,confidence)为目标对象的跟踪标识和检测信息映射关系的一个示例，其中track-id为目标跟踪标识，(label,x,y,width,height,confidence)为目标对象的检测信息。

具体的，在采集到的第一帧图像帧中的目标对象进行目标检测，并得上述第一帧图像帧中的目标对象的检测信息之后，对检测到的每一个目标对象都分配一个跟踪标识，用于对目标对象进行跟踪。然后目标对象的跟踪标识和检测信息进行关联后形成跟踪标识和检测信息的映射关系，并存储上述跟踪标识和检测信息的映射关系。

在采集到后续的图像帧时，首先检测图像帧中的目标对象，得到目标对象的检测信息，然后根据检测信息判断检测到的目标对象是否为之前的图像帧中已经存在的目标对象，即对目标对象进行跟踪，若是之前图像中已经出现的目标对象者为其分配该目标对象已经存储的跟踪标识。

作为一种可选的实施方式，上述根据检测信息判断检测到的目标对象是否为之前的图像帧中已经存在的目标对象具体可以包括：使用当前视频图像中目标对象的检测信息依次和已经存储的之前的视频图像中的目标的缓存检测信息进行比较，判断已经存储的缓存检测信息中是否存在与上述检测信息匹配的缓存检测信息，若存在则确定上述目标对象为已经存在的目标对象，若不存在，则确定上述目标对象为新对象。

作为一种可选的实施方式，上述判断已经存储的缓存检测信息中是否存在与上述检测信息匹配的缓存检测信息具体可以包括：计算上述检测信息中目标对象的位置区域信息对应的位置区域与缓存检测信息中包括的位置区域信息对应的缓存位置区域的第一交并比，若上述交并比大于第一阈值，则确定上述缓存检测信息中存在与上述检测信息匹配的缓存检测信息。其中上述第一交并比具体指：上述目标对象在图像中对应的位置区域与缓存检测信息中的缓存位置区域信息对应的位置区域的交集面积和并集面积之比。若第一交并比大于第一阈值，则上述目标对象为已存在的对象。否则为新对象。

作为另一种可选的实施方式，上述判断已经存储的缓存检测信息中是否存在与上述检测信息匹配的缓存检测信息具体可以包括：首先，预测存储的缓存检测信息中缓存位置区域信息在当前视频图像中对应的预测位置区域，然后计算目标对象的位置区域信息在当前图像帧中对应的位置区域，最后，计算预测位置区域和目标对象对应的位置区域的第二交并比，当第二交并比大于第二阈值时，确定上述目标对象为已存在的对象。其中，上述第二交并比具体指上述目标对象在图像帧中对应的位置区域与缓存检测信息中的缓存位置区域信息对应的预测位置区域的交集面积和并集面积之比。若第二交并比大于第二阈值，则上述目标对象为已存在的对象。否者为新对象。

其中，上述缓存检测信息和缓存位置区域信息为存储在上述跟踪标识和检测信息映射关系中的检测信息以及检测信息中的位置区域信息。

可选的，可以采用卡尔曼滤波算法来预测存储的缓存检测信息中缓存位置区域信息在当前图像帧中对应的预测位置区域。

103：基于上述跟踪标识查询上述目标对象的身份信息。

在本申请实施例中，除了存储有目标对象的跟踪标识的映射关系，还存储有在上述图像帧之前的图像帧中的目标对象的跟踪标识和目标对象的身份信息的映射关系。例如，(track-id,ID)标识存储的一个目标对象的跟踪标识和身份信息示例，其中，track-id为跟踪标识，ID为身份信息。

具体的，在采集到的第一帧图像帧中的目标对象进行目标检测，并为目标对象分配跟踪标识之后，对目标对象进行图像识别，以得到目标对象的身份信息。然后目标对象的跟踪标识和身份信息进行关联后形成跟踪标识和身份信息的映射关系，并存储上述跟踪标识和身份信息的映射关系。

在本申请实施例中，对于每一个目标对象都分配了一个跟踪标识，并且建立了跟踪标识和检测信息的映射关系，以及跟踪标识和身份信息的映射关系，且在对每一帧视频图像进行处理时都会根据当前图像帧中的目标对象的信息对两种映射关系进行更新。两种映射关系中都存在目标对象的跟踪标识，因此，可以通过目标的跟踪标识将两种映射关系联系起来。另外每一帧图像帧中的目标对象的检测信息均和前一帧视频图像的检测信息有关联性，也就是说，可以通过检测信息来判断当前图像帧中的目标对象是否为前一帧中已检测到的某一个目标对象，从而根据每一帧视频图像中目标对象的检测信息和存储的检测信息来达到对目标对象的跟踪。

综上，可以通过检测当前图像帧中的目标对象，得到目标对象的检测信息，然后通过检测信息判断目标对象是否为已存在的对象，若是已存在的对象，则可通过上述跟踪标识和检测信息的映射关系来获取目标对象的跟踪标识。从而进一步的通过跟踪标识获取目标对象的身份信息。

因此，在本申请实施例中，当确定目标对象为已经存在的目标对象，且被分配了已存储的跟踪标识之后，可以通过跟踪标识从上述跟踪标识和身份信息的映射关系中查询该目标对象的身份信息。

可以看出，在本申请实施例中，在确定视频图像中的目标对象进行身份信息的时候，首先判断目标对象是否为已经在之前的图像帧中出现过的目标对象，若是已经出现过的目标对象，则根据之前为上述目标对象分配的跟踪标识获取该目标对象的身份信息，从而不用对该目标对象进行特征提取，然后根据提取的特征来确定身份信息等计算量大的操作步骤，从而提升了身份识别的效率。

在上述图1所示的实施例1的基础上述，参见图3，图3是本申请实施例提供的另一种视频图像处理方法的示意流程图，如图所示，该方法可包括：

301：对视频图像中的图像帧进行目标对象检测，得到包含上述目标对象的检测信息。

在本申请实施中，上述目标对象的检测信息可以包括目标对象的目标类别(例如人脸、人体)、目标对象在图像中的位置区域信息、置信度等。

可以理解的是，在上述图像帧中可能包括一个被检测的对象，也可能包括多个被检测的对象，例如只检测到一个人脸目标对象或一个人体目标对象，或检测到多个人脸目标对象和/或多个人体目标对象。因此在本申请实施例中，上述目标对象是泛指从上述图像帧中能够检测到的对象，该目标对象可以只包括单个对象，也可以包括多个对象。当上述目标对象为单个对象时，上述检测信息则为单个对象的检测信息，当上述目标对象包括多个对象时，则上述检测信息也包括多个对象的检测信息。

其中上述检测信息可以包括目标的目标类型、目标对象在图像帧中的位置区域信息、置信度等。另外，上述检测信息是指在对视频图像中的目标进行跟踪时，在上述检测信息中能够用于判定当前图像帧中的目标和迁移视频帧中的目标为同一个目标的信息。

在本申请实施例中，上述对上述图像进行图像检测获得目标对象的检测信息具体可以包括：采用定位分类模型来对目标对象进行定位和分类目标，以得出目标的类别、位置区域信息以及置信度等信息。

302：依据上述检测信息判断上述目标对象是否为已存在的对象。

在本申请实施例中，在得到上述目标对象的检测信息之后，判断上述目标对象是否为已经存在的对象，若上述目标对象是已经存在的目标对象，则执行步骤303；若上述目标对象不是已经存在的目标对象，即该目标对象为新对象时，则执行步骤307。

其中上述已经存在的目标对象具体是指，在上述图像帧之前的图像帧中被检测到的目标对象。

作为一种可选的实施方式，上述依据上述检测信息判断上述目标对象是否为已存在的对象具体可以通过在上述图像帧中检测到的目标对象的检测信息依次和已经存储的缓存检测信息进行比较，若已经存储的缓存检测信息中存在上述目标对象的检测信息匹配的缓存检测信息，则确定上述目标对象为已存在的对象；若已经存储的缓存检测信息中不存在上述目标对象的检测信息匹配的缓存检测信息，则确定上述目标对象为新对象。

作为一种可选的实施方式，上述检测信息为上述目标对象在上述图像帧中所在位置的位置区域信息。上述判断上述目标对象是否已存在的对象可以包括：根据上述目标对象的位置区域信息和存储的缓存位置区域信息计算上述目标对象在上述图像帧中的位置区域与上述缓存位置区域信息对应的位置区域的面积的第一交并比，其中，上述交并比值得是两个位置区域的交集位置区域的面积与合并位置区域的面积之比。若第一交并比大于第一阈值，则上述目标对象为已存在的对象。否者为新对象。

其中，上述缓存检测信息为存储在上述跟踪标识和检测信息映射关系中的检测信息，上述缓存位置区域信息为上述缓存检测信息中的位置区域信息。

303：在上述目标对象为已存在的对象的情况下，为上述目标对象分配上述目标对象已有的跟踪标识。

在本申请实施例中，存储有在上述图像帧之前的图像帧中的目标对象的检测信息和目标对象的跟踪标识的映射关系。例如，(track-id,label,x,y,width,height,confidence)为目标对象的跟踪标识和检测信息映射关系的一个示例，其中track-id为目标跟踪标识，(label,x,y,width,height,confidence)为目标对象的检测信息。对于根据上述目标对象的检测信息确定上述目标对象为已存在的对象，则将在该视频图像之前已经分配给该目标对象的跟踪标识分配给上述目标对象。

具体的，由于在每一帧图像帧中每个目标对象的检测信息都是唯一的。因此，可已用目标对象的检测信息来代表该目标对象。从而上述将在该视频图像之前已经分配给该目标对象的跟踪标识分配给上述目标对象，具体可以包括：将该目标对象在存储中的缓存检测信息更新为上述在视频图像中检测到的检测信息。

304：基于上述跟踪标识查询上述目标对象的身份信息。

在本申请实施例中，除了存储有目标对象的跟踪标识的映射关系，还存储有在上述图像帧之前的图像帧中的目标对象的跟踪标识和目标对象的身份信息的映射关系。

305：在基于上述已有的跟踪标识未查询到上述目标的身份信息的情况下，对上述目标对象进行图像识别，以获得上述目标对象的身份信息。

在本申请实施例中，在确定上述目标对象为已存在的对象，为其分配已有的跟踪标识之后，在通过上述已有的跟踪标识查询上述目标对象的身份信息时，由于某些原因(例如，在之前的图像帧中，对目标对象进行图像识别失败，未能确定上述目标的身份信息)有可能查询不到上述目标对象的身份信息时，对上述目标对象进行图像是别，以获得上述目标对象的身份信息。

作为一种可选的实施方式，当上述目标对象为人脸目标对象时，上述对上述目标对象进行图像识别具体可以包括：首先，根据上述目标对象的检测信息判断上述目标对是否为人脸目标对象。若上述目标对象是人脸目标对象，则提取上述人目标对象的人脸特征，然后，在人脸特征库中搜索上述人脸特征，以得到上述人脸特征对应的身份信息。

具体的，上述人脸特征提取过程可以是使用卷及神经网络的深度学习方式提取，其中输出的人脸特征F为一个N维浮点型向量。然后，在人脸特征库L中搜索上述人脸特征F，其中L为键值对列表，键为身份ID，而值为人脸特征向量。而搜索过程为特征向量的匹配过程，主要是计算向量的余弦距离，暴力搜索人脸特征库中与F向量距离最小并且距离小于某个阈值的人脸。

作为一种可选的实施方式，上述搜索匹配身份的过程可采用KNN匹配和比率测试算法来提升精度，或使用FLNN搜索匹配算法来加快匹配速度。

作为另一种可选的实施方式，当上述目标对象为人体目标对象时，上述对上述目标对象进行图像识别具体可以包括：判断上述人体目标对象是否包括人脸部分，若是者对上述人脸部分进行人脸识别，以得到上述人体目标的身份信息。或者判断上述人体目标对象是否有匹配的人脸目标对象，若有，则将上述人脸目标对象的身份信息确定为上述人体目标对象的身份信息。

306：若通过图像识别得到上述目标对象的身份信息，则存储上述身份信息与上述目标对象的已有的跟踪标识之间的对应关系。

在本申请实施例中，在通过目标对象已有的跟踪标识未查询到上述目标对象的身份信息时，通过图像识别得到上述目标对象的身份信息，则存储上述身份信息与上述目标对象的已有的跟踪标识之间的对应关系。

其中，上述存储上述身份信息与上述目标对象的已有的跟踪标识之间的对应关系具体指：将上述目标对象已有的跟踪标识和通过图像识别得到的身份信息关联得到上述目标对象的跟踪标识和身份信息的映射关系，然后将上述目标对象的跟踪标识和身份信息的映射关系进行存储，例如可以存储在缓存中，以便之后可以快速获取上述目标对象的跟踪标识和身份信息的映射关系。

307：在上述目标对象为新对象的情况下，为上述目标对象分配新的跟踪标识，存储上述目标对象与分配的上述新的跟踪标识之间的对应关系。

在本申请实施例中，当根据上述目标对象的检测信息确定上述目标对象不是已存在的对象时，即上述目标对象为新对象，则为上述目标对象分配新的跟踪标识，以便在之后的视频图像中出现该目标对象时，可以直接获得跟踪标识。

在本申请实施例中，由于存储了目标对象的检测信息和跟踪标识的映射关系，因此，在图像帧中出现新对象之后需要将新出现的目标对象的检测信息和跟踪标识的对应关系跟新到上述检测信息和跟踪标识的映射关系中。

具体的，在给上述目标对象分配了新的跟踪标识之后，将上述新的跟中标识和上述目标对象(即新对象)的检测信息关联，得到上述目标对象的检测信息和跟踪标识的对应关系，最后将该对应关系更新到检测信息和跟踪标识的映射关系中。

308：对上述新对象进行图像识别获得上述目标对象的身份信息，存储上述身份信息与上述新对象的新的跟踪标识之间的对应关系。

在本申请实施例中，为了在之后的图像帧中能够通过该新对象的跟踪标识查询到该新对象的身份信息，当给新对象分配新的跟踪标识后，对上述新对象进行图像识别获得上述目标对象的身份信息，并存储上述身份信息与上述新对象的新的跟踪标识之间的对应关系。

其中，上述对新对象进行图像识别以得到身份信息的步骤可参考上述步骤305，因此不再赘述。

在通过对上述新对象进行图像识别得到身份信息后，将上述新对象的身份信息和上述新的跟踪标识关联得到该新对象的跟踪标识和身份信息的对应关系，并将该对应关系存储到上述跟踪标识和身份信息的映射关系中。

参见图4，图4是本申请实施例提供的又一种视频图像处理方法的示意流程图，如图所示，该方法可包括：

401：对视频图像中的图像帧进行目标对象检测，得到包含上述目标对象的检测信息。

在本申请实施中，上述目标对象的检测信息可以包括目标对象的目标类别(例如人脸、人体)、目标对象在图像中的区域信息、置信度等。

其中上述检测信息可以包括目标的目标类型、目标对象在图像帧中的位置区域信息以及置信度等。另外，上述检测信息是指在对视频图像中的目标进行跟踪是，在上述检测信息中能够用于判定当前图像帧中的目标和迁移视频帧中的目标为同一个目标的信息。

在本申请实施例中，上述对上述图像进行图像检测获得目标对象的检测信息具体可以包括：采用目标对象定位分类模型来定位和分类目标，以得出目标的类别、区域信息以及置信度等信息。

402：依据上述检测信息判断上述目标对象是否为已存在的对象。

在本申请实施例中，在得到上述目标对象的检测信息之后，判断上述目标对象是否为已经存在的对象，若上述目标对象是已经存在的目标对象，则执行步骤403；若上述目标对象不是已经存在的目标对象，即该目标对象为新对象时，则执行步骤404。

作为一种可选的实施方式，上述依据上述检测信息判断上述目标对象是否为已存在的对象具体可以通过在上述图像帧中检测到的目标对象的检测信息依次和已经存储的缓存检测信息进行比较，若已经存储的缓存检测信息中存在上述目标对象的检测信息匹配的缓存检测信息，则确定上述目标对象为已存在的对象；已经存储的缓存检测信息中不存在上述目标对象的检测信息匹配的缓存检测信息，则确定上述目标对象为新对象。

其中，上述已经存在的目标对象具体是指，在上述图像帧之前的图像帧中被检测到的目标对象。

作为一种可选的实施方式，上述检测信息为上述目标对象在上述图像帧中所在位置的区域信息。上述判断上述目标对象是否已存在的对象可以包括：根据上述目标对象的区域信息和存储的缓存区域信息计算上述目标对象在上述图像帧中的区域与上述缓存区域信息对应的区域的面积的第一交并比，其中，上述交并比值得是两个区域的交集区域的面积与合并区域的面积之比。

作为另一种可选的实施方式，上述预测存储的缓存检测信息中缓存区域信息在当前视频图像中对应的预测区域，然后计算目标对象的区域信息在当前图像帧中对应的区域，最后，计算预测区域和目标对象对应的区域的第二交并比，当第二交并比大于第二阈值时，确定上述目标对象为已存在的对象。其中，上述第二交并比具体指上述目标对象在图像帧中对应的区域与缓存检测信息中的缓存区域信息对应的预测区域的交集面积和并集面积之比。

其中，上述缓存检测信息和缓存区域信息标识为存储在上述跟踪标识和检测信息映射关系中的检测信息以及检测信息中的区域信息。

可选的，可以采用卡尔曼滤波算法来预测存储的缓存检测信息中缓存区域信息在当前图像帧中对应的预测区域。

403：在上述目标对象为已存在的对象的情况下，为上述目标对象分配上述目标对象已有的跟踪标识。

404：在上述目标对象为新对象的情况下，为上述目标对象分配新的跟踪标识，存储上述目标对象与分配的上述新的跟踪标识之间的对应关系。

405：根据上述目标对象的跟踪标识查询目标对象的匹配跟踪标识。

其中，上述匹配跟踪标识为与上述目标对象匹配的匹配对象的跟踪标识，上述匹配对象为和上述目标对象具有相同的身份信息的对象。

在本申请实施中，上述目标对象具有与其匹配的匹配对象，上述匹配对象为与上述目标对象具有相同身份信息的对象，一个目标对象可以包括一个或多个与其匹配的匹配对象。例如，属于同一个人的人脸目标对象和人体目标对象互为对方的匹配对象。可以理解的是，与上述目标对象匹配的匹配对象可能存在于同一图像帧中，也可能不在同一图像帧中。以人脸和人体为例，在当前图像帧中会同时检测到属于同一个人的人脸目标和人体目标，也可能只是单独检测到人脸目标对象(例如人体被遮挡只有头部被拍摄到)或只检测到人体目标对象(例如低头时，不能拍摄到脸部)。因此，在上述目标对象标识上述图像帧中的多个被检测对象时，上述目标对象中可能包括相互匹配的对象。

在本申请实施例中，为了进一步提高确定目标对象的身份信息的效率，除了存储有上述跟踪标识和检测信息的映射关系以及跟踪标识和身份信息的跟踪标识之外，还存储有相互匹配的目标对象的跟踪标识的映射关系，以便在获取身份信息时，若根据目标对象的跟踪标识查询不到目标对象的身份信息，则还可以根据匹配对象的匹配跟踪标识来获取目标对象的身份信息。

具体的，在采集到的第一帧图像帧中的目标对象进行目标检测，并为目标对象分配跟踪标识之后，根据上述第一帧视频图像帧中目标对象的检测信息对上述第一帧图像帧中的目标对象进行匹配，以得到上述视频图像中目标对象的跟踪标识之间的映射关系。

在本申请实施例中，当为上述目标对象分配跟踪标识之后(包括分配已有的跟踪标识和新的跟踪标识)，根据目标对象的跟踪标识查询是否存在上述目标对象的匹配跟踪标识，即查询是否存在上述目标对象的匹配对象；若查询到上述匹配跟踪标识则执行407；若未查询到上述目标对象的匹配跟踪标识则执行步骤406。

406：在未查询到上述目标对象的匹配跟踪标识的情况下，将上述目标对象确定为上述图像帧中的一个未匹配对象，对上述图像帧中的未匹配对象进行匹配。

其中，上述未匹配对象为上述视频图像中还没匹配到匹配对象的对象。

在本申请实施例中，若根据上述目标对象的跟踪标识未查询到上述目标对象的匹配跟踪标识，则将上述目标对象确定为未匹配对象。然后，对上述图像帧中的未匹配对象进行匹配，以得到上述目标对象的匹配对象，从而进一步得到上述目标对象的匹配跟踪标识。在匹配到上述目标对象的匹配对象的情况下，存储上述目标对象的跟踪标识和上述匹配对象的匹配跟踪标识之间的对应关系，然后执行步骤407。

进一步的，上述对上述视屏图像中的未匹配对象进行匹配具体可以包括：提取上述图像帧中未匹配对象的关键点信息。然后基于上述未匹配对象的关键点信息和上述未匹配对象的位置区域信息，计算上述未匹配对象中各个对象之间的距离；接着基于上述各个未匹配对象之间的距离构建网络流图，其中，在上述网络流图中上述未匹配对象为上述网络流图中的节点，上述各个对象之间的距离为上述网络流图中节点与节点之间的边的权重。最后，使用最小费用最大流算法计算上述网络流图的最大流下的最小距离代价，得到上述未匹配对象的匹配结果。

进一步的，上述提取上述图像帧中未匹配对象的关键点信息具体可以包括：使用卷积神经网络模型来提取上述未匹配对象的关键点信息。其中对于不同类型的目标对象，可以采用不同的卷积神经网络关键点提取模型来提取目标对象的关键点信息。对于人脸目标对象，主要提取眉毛、眼睛、鼻子嘴巴等位置的关键点，例如可以使用人脸21关键点模型；而对于人体则主要提取耳朵、脖子、肩部、手臂、和腿上的关键点，例如可以使用人体12关键点模型。如图6的a图所示；而对于人体则主要提取耳朵、脖子、肩部、手臂、和腿上的关键点，例如可以使用人体12关键点模型如图6的b图所示。

作为一种可选的实施方式，上述图像帧中的对象包括人脸对象和人体对象。上述计算上述未匹配对象中各个对象之间的距离包括：通过人脸和人体的距离公式计算上述未匹配对象中人脸对象和人体对象之间的距离。

其中，上述人脸和人体距离计算公式如下：

weight＝((1-score)*threshlod+0.5)；

其中，weight表示人脸和人体距离，score表示人脸与人体距离的评分，且score>0.5否则在建立网络流图时不取该人脸和人体之间的距离，threshlod表示阈值；

score＝sigmoid(p1*λ[0]²+p2*λ[1]²+bias)；

其中，λ[0]和λ[1]均为经验参数，在本申请实施例中可以分别取值8.75和0.087，blas为偏置，在本申请实施例中，可以取值-3.27；

p2＝gaussian2d((fx,fy),μ,σ)；

其中，gaussian2d表示二维高斯分布，μ为经验参数，在本申请实施例中，可以取值(0.055，0.17)，σ为经验参数，在本申请实施例中，可以取值(0.0072，0.0098)；

fy＝(facey-bodyy)/bodyh；

fx＝(facex-bodyx)/bodyw；

p1＝p[0]*p[1]；

p[1]＝gaussian1d(dis[1],μ,σ)；

其中，gaussian1d表示一维高斯分布，μ为经验参数，在本申请实施例中，可以取值0，σ为经验参数，在本申请实施例中，可以取值1；

cy[1]＝facey+θy*faceh；

cx[1]＝facex+θx*facew；

p[0]＝gaussian1d(dis[0],μ,σ)；

cy[0]＝facey-θy*faceh；

cx[0]＝facex-θx*facew；

其中，θx为经验参数，在本申请实施例中，可以取值-0.0076；θy为经验参数，在本申请实施例中，可以取值0.081；facex和facey分别表示人脸目标对象在图像帧中所在区域的左上起始点X，Y坐标，facew和faceh分别表示人脸目标对象在上述图像帧中所在区域的宽和高；bodyx和bodyy分别表示人体目标对象在图像帧中所在区域的左上起始点X，Y坐标，bodyw和bodyh分别表示人体目标对象在上述图像帧中所在区域的宽和高；kpx[0]和kpy[0]分别表示人体目标对对象头部左耳朵关键点的X，Y坐标；kpx[1]和kpy[1]分别表示人体目标对对象头部又耳朵关键点的X，Y坐标。

407：基于上述目标对象的跟踪标识查询上述目标对象的身份信息。

在本申请实施例中，除了保存有目标对象的跟踪标识的映射关系，还保存有之前的图像帧中的目标对象的跟踪标识和目标对象的身份信息的映射关系。

408：若使用上述跟踪标识未查询到上述目标对象的身份信息，则查询上述跟踪标识的匹配跟踪标识。

在本申请实施例中，若使用上述跟踪标识未查询到上述目标对象的身份信息，则查询是否存在上述跟踪标识的匹配跟踪标识，若存在匹配跟踪标识，则执行步骤409；若不存在上述匹配跟踪标识，则执行步骤410。

409：使用上述匹配跟踪标识查询到上述目标对象的身份信息，存储上述跟踪标识与上述目标对象的上述身份信息之间的对应关系。

在本申请实施例中，在使用上述匹配跟踪标识查询到上述目标对象的身份信息的情况下，存储上述跟踪标识与上述目标对象的上述身份信息之间的对应关系。

其中，上述存储上述跟踪标识与上述目标对象的上述身份信息之间的对应关系具体指：将上述目标对象已有的跟踪标识和通过匹配跟踪标识得到的身份信息关联得到上述目标对象的跟踪标识和身份信息的映射关系，然后将上述目标对象的跟踪标识和身份信息的映射关系进行存储，例如可以存储在缓存中，以便之后可以快速获取上述目标对象的跟踪标识和身份信息的映射关系。

410：在通过上述匹配跟踪标识未查询到上述目标对象的身份信息的情况下，对上述目标对象进行图像识别，以获得上述目标对象的身份信息。

在本申请实施例中，在通过上述匹配跟踪标识未查询到上述目标对象的身份信息的情况下，对上述目标对象进行图像识别，以获得上述目标对象的身份信息。

具体的，对上述目标对象进行图像识别，以获得上述目标对象的身份信息具体包括：首先，根据上述目标对象的检测信息判断上述目标对是否为人脸目标对象。若上述目标对象是人脸目标对象，则提取上述人目标对象的人脸特征，然后，在人脸特征库中搜索上述人脸特征，以得到上述人脸特征对应的身份信息。

411：若通过图像识别得到上述目标对象的身份信息，则存储上述身份信息与上述目标对象的已有的跟踪标识之间的对应关系。

在本申请实施例中，若通过图像识别得到上述目标对象的身份信息，则存储上述身份信息与上述目标对象的已有的跟踪标识之间的对应关系。

412：对上述人脸目标对象进行表情分析得到表情分析结果，对上述人体目标对象进行行为分析得到行为分析结果，将上述表情分析结果和上述行为分析结果与上述目标对象的身份信息关联后存储到上述目标对象对应的数据库中。

在本申请实施例中，在获取到上述图像帧后，判断上述图像帧是否达到帧间间隔时间，若是，则获取上述目标对象，判断上述目标对象的检测信息中的置信度是否大于第四阈值，若是，则确定目标对象的目标类型。在上述目标对象为人脸目标的情况下，对上述人脸目标对象进行人脸表情分析，得到人脸表情分析结果。在上述目标对象为人体目标对象的情况下，对上述目标对象进行人体行为分析，得到人体行为分析结果。在确定上述目标对象的身份信息的情况下，则存储有身份的人脸表情分析结果或人体行为分析结果。在不能确定上述目标对象的身份信息的情况下，则存储无身份信息的人脸表情分析结果或人体行为分析结果。

可以看出，在本申请实施例中，在确定视频图像中的目标对象进行身份信息的时候，首先判断目标对象是否为已经在之前的图像帧中出现过的目标对象，若是已经出现过的目标对象，则根据之前为上述目标对象分配的跟踪标识获取该目标对象的身份信息，或根据与上述目标对象匹配的匹配对象来确定上述目标对象的身份信息，从而不用对该目标对象进行特征提取，然后根据提取的特征来确定身份信息等计算量大的操作步骤，从而提升了身份识别的效率。

参见图5，图5是本申请实施例提供的又一种视频图像处理方法的示意流程图，如图所示，该方法可包括：

501：采集图像帧。

本申请主要应用于对课堂监控空视频图像中每个学生进行身份确认以及人脸表情和人体行为分析。在图像帧中包括至少一个人脸目标对象和/或人体目标对象。

在本申请实施例中，存储有目标跟踪缓存表TT、目标匹配缓存表M、目标身份缓存表。

其中，目标跟踪缓存表表示缓存在内存中的目标对象的检测信息键值对列表，键为目标跟踪标识，值为目标对象(人脸或人体)检测信息。目标匹配缓存表表示缓存在内存中的匹配关系键值对列表，键为目标跟踪标识，值为另一目标的跟踪标识，表示此为一对匹配的目标对象(人脸和人体)。目标身份缓存表表示缓存在内存中的身份键值对列表，键为目标跟踪标识，值为目标的身份信息(学生唯一编号之类的信息)。

502：检测跟踪上述目标对象，得到目标对象的检测信息。

其中，上述目标对象包括人脸目标对象和人体目标对象。

在本申请实施例中，在采集到上述图像帧后，检测上述图像帧中的目标对象，得到包括人脸目标对象和人体目标对象的目标列表T:[t1,t2...tn]，目标列表中包括上述图像帧中的目标对象的检测信息。其中，检测信息包括目标类别、位置区域信息、置信度信息。

具体的，主要采用卷积神经网络来定位和分类目标对象，得出上述目标列表T中目标对象t的类别、位置区域信息形及置信度(label,x,y,width,height,confidence)信息，其中label为目标对象的类别标签，在这里为人脸或人体，(x,y,width,height)为目标对象在图像帧中的位置区域的起点坐标X、Y和宽、高，confidence为目标的置信度，为0到1的浮点数，值越大代表目标的可信度越高。

503：根据目标对象的检测信息更新目标跟踪缓存表。

在本申请实施例中，在检测跟踪上述图像帧，得到目标对象的检测信息后，根据上述检测信息和上述跟踪缓存表给上述目标对象分配跟踪标识，然后根据目标对象的跟踪标识和检测信息更新上述目标跟踪缓存表。

具体的，根据上述目标对象的检测信息判断上述目标对象是否为上述跟踪缓存表中已存在的对象；若是，则为上述目标对象分配上述目标跟踪缓存表中上述目标对象已有的跟踪标识，并将目标跟踪缓存表中该目标对象原有的缓存检测信息更新为上述检测信息；若不是，则为上述目标对象分配新的跟踪标识，并将目标对象的跟踪标识和检测信息添加到上述目标跟踪缓存表中。

作为一种可选的实施方式，在第一帧处理时:创建一个空的目标跟踪缓存表TT，并把上述目标列表T中的目标对象全部放进TT中去，并为其中每一个目标添加一个唯一的track-id字段，作为目标跟踪标识。TT中的单个目标对象tt的结构则为(track-id,label,x,y,width,height,confidence,key-points)，其中，track-id为跟踪标识。

进一步的，在处理当前图像帧时，把目标列表T中的每个目标对象t与TT中的每个已跟踪的目标对象tt进行比较，判定t是否和tt为同一目标对象，即t是否为新对象。若TT中存在和t为同一目标对象的tt，则为t设定与tt相同的目标跟踪标识，若TT中不存在与t为同一目标的跟踪目标，则为t分配一个新的唯一的目标跟踪标识。在确定t的跟踪标识之后，当t和tt为同一目标对象时，tt的检测信息更新为t的检测信息；当t和tt为不同一目标对象时，将t的检测信息和t的跟踪标识添加到上述目标跟踪缓存表TT中。

作为一种可选的实施方式，判定t是否和tt为同一目标对象具体可以包括：计算t和tt的位置区域的的第一交并比，若上述交并比大于第一阈值，则确定t是否和tt为同一目标对象。若第一交并比大于第一阈值，则上述目标对象为已存在的对象。否者为新对象。

作为一种可选的实施方式，判定t是否和tt为同一目标对象具体可以包括：通过卡尔曼滤波算法预测tt在上述图像帧中的预测位置区域；计算t的位置区域和tt的预测位置区域的第二交并比，若上述第二交并比大于第二阈值，则确定t是否和tt为同一目标对象。若第二交并比大于第二阈值，则上述目标对象为已存在的对象。否者为新对象。

504：查询是否存在目标对象的匹配跟踪标识。

在本申请实施例中，当更新完上述目标匹配缓存表之后，即为上述目标列表T中的目标对象t分配跟踪标识后，根据上述目标对象t的跟踪标识查询上述目标匹配缓存表M中是否存在与上述目标跟踪标识匹配的匹配跟踪标识；若不存在，则将上述目标对象确定为上述图像帧中的未匹配对象，然后执行步骤505；若存在，则执行步骤507。其中，上述未匹配对象表示还没确定匹配对象的目标对象。

505：对上述图像帧中的未匹配对象进行人脸人体匹配。

在为查询到上述目标对象的匹配跟踪标识之后，即确定上述目标对象为未匹配对象之后，利用人脸人体匹配算法，外加参考目标匹配缓存表M中缓存的跟踪标识匹配对，来匹配当前帧中目标列表T中的人脸目标对象和人体目标对象，并更新匹配缓存表M。而M是一个键值对列表，其中键为目标对象的跟踪标识，值为另一个匹配目标对象的跟踪标识，M形式如下：

[m1:<track-id,track-id>,m2:<track-id,track-id>...mn:<track-id,track-id>]；

人脸位置区域的面积区域相对较小，一般都在人体位置区域范围内，而身体头部的关键点相对稳定，所以人脸和人体匹配关联的过程主要是采用人脸目标对象的位置区域、人体目标的位置区域和人体目标对象头部关键点的相对位置关系来判定是否为同一个学生的人脸和人体。具体匹配算法如下：

5051：首先设计人脸和人体的距离算法，计算上述图像帧中未匹配对象中人脸和人体之间的距离，距离越小代表人脸和人体属于同一个人的概率越高，距离算法使用人脸目标对象的位置区域与人体目标对象的位置区域交集区域重合度，结合人脸框中心与人体头部关键点距离的加权和来确定人脸目标对象和人体目标对象之间的距离。

5052：然后构建一幅网络流图中，把人脸目标对象和人体目标对象作为图中的节点，而把人脸和人体的距离作为网络流图中节点的边的权重。

5053：最后使用最小费用最大流(Min Cost Max Flow)算法来计算网络流图的最大流量下最小的距离代价，来达到匹配人脸和人体的目的，最终输出一个人脸-人体的匹配对列表。

506：根据上述对图像帧中人脸和人体的匹配结果更新目标匹配缓存表。

在本申请实施例中，当通过人脸人体匹配算法对上述未匹配对象进行匹配，得到匹配结果后，将上述匹配结果中相互匹配的人脸目标对象和人体目标对象的跟踪标识对更新到上述目标匹配缓存表中。

507：判断是否达到帧间间隔时间。

当确定达到帧间间隔时间时，则执行步骤508；否者返回步骤501。

508：提取上述视频帧中的目标对象。

在本申请实施例中，当更新上述目标匹配缓存表之后，提取上述图像帧中已检测的目标对象，并判断上述目标对象的置信度是否大于阈值，若是，执行步骤509。

509：确定目标对象是否为人脸目标对象。

若为人脸目标对象，则执行步骤510，否者执行步骤519。

510：在上述目标对象为人脸目标对象时，判断人脸身份缓存表中是否存在上述人脸目标对象的身份信息。

若人脸身份缓存表中存在上述人脸目标对象的身份信息，则获取身份信息并执行步骤515，否者执行步骤511。

511：判断是否存在与上述人脸目标对象匹配的匹配人体对象。

若存在与上述人脸目标对象匹配的匹配人体对象，者执行步骤512，否者执行步骤513。

512：判断人体身份缓存表中是否存在上述人体匹配对象的身份信息。

若人体身份缓存表中存在上述匹配人体对象的身份信息，则执行步骤511，否者执行步骤510。

513：对上述人脸目标对象进行人脸识别得到上述人脸目标对象的身份信息。

514：在上述目标身份缓存表中不存在上述人脸目标对象的跟踪标识时，根据上述人脸目标对象的身份信息更新上述人脸身份缓存表。

515：对上述人脸目标对象进行人脸表型分析，得到人脸表情分析结果。

516：判断上述人脸目标对象是存在身份信息。

若存在人脸目标的身份信息，则执行步骤517，否则执行步骤518。

517：存储有身份信息的人脸表情分析结果。

518：存储无身份信息的人脸表情分析结果。

519：在上述目标对象为人体目标对象时，判断人体身份缓存表中是否存在上述人体目标对象的身份信息。

若人体身份缓存表中存在上述人体目标对象的身份信息，则执行步骤523，否者，执行步骤520。

520：判断是否存在与上述人体目标对象匹配的匹配人脸对象。

若存在与上述人体目标对象匹配的匹配人脸对象，则执行步骤521，否者执行步骤523。

521：判断人脸身份缓存表中是否存在上述人脸匹配对象的身份信息。

若人脸身份缓存表中存在上述人脸匹配对象的身份信息，则执行步骤522。

522：根据上述人体目标对象的身份信息更新上述人体身份缓存表。

523：对上述人体目标对象进行人体行为分析，得到行人体为分析结果。

524：判断上述人体目标对象是存在身份信息。

若存在人脸目标的身份信息，则执行步骤525，否则执行步骤526。

525：存储有身份信息的人体行为分析结果。

524：存储无身份信息的人体行为分析结果。

本申请实施例还提供一种装置，该装置用于执行前述任一项上述的方法的单元。具体地，参见图7，是本申请实施例提供的一种视频图像处理装置的示意框图。本实施例的装置包括：目标检测单元701、判断单元702、分配单元703以及查询单元704。

目标检测单元701，用于获得视频图像中的图像帧，对上述图像帧进行图像检测获得目标对象的检测信息，上述检测信息包含上述目标对象的检测信息；

判断单元702，用于依据上述检测信息判断上述目标对象为是否为已存在的对象；

分配单元703，在上述判断单元判断为是的情况下，用于为上述目标对象分配上述目标对象已有的跟踪标识；

查询单元704，用于使用上述跟踪标识查询上述目标对象的身份信息。

作为一种可选的实施方式，上述分配单元，在上述判断单元判断为否的情况下，用于为上述目标对象分配新的跟踪标识；

上述装置还包括：

存储单元，存储上述目标对象与分配的上述新的跟踪标识之间的对应关系。

作为一种可选的实施方式，上述装置还包括：

图像识别单元，用于则对上述目标对象进行图像识别获得上述目标对象的身份信息；

上述存储单元，用于存储上述身份信息与上述目标对象的新的跟踪标识之间的对应关系。

作为一种可选的实施方式，上述装置还包括：

图像识别单元，用于若未查询到上述目标对象的身份信息，则对上述目标对象进行图像识别获得上述目标对象的身份信息；

存储单元，用于存储上述身份信息与上述目标对象的跟踪标识之间的对应关系。

作为一种可选的实施方式，上述查询单元，用于查询上述目标对象的匹配跟踪标识，上述匹配跟踪标识为与上述目标对象匹配的匹配对象的跟踪标识，上述匹配对象为和上述目标对象具有相同的身份信息的对象；

上述装置还包括：

确定单元，用于在未查询到上述目标对象的匹配跟踪标识的情况下，将上述目标对象确定为上述图像帧中的一个未匹配对象，上述未匹配对象为上述视频图像中还没匹配到匹配对象的对象；

匹配单元，用于对上述图像帧中的未匹配对象进行匹配；

上述存储单元，用于在匹配到上述目标对象的匹配对象的情况下，存储上述目标对象的跟踪标识和上述匹配对象的匹配跟踪标识之间的对应关系。

作为一种可选的实施方式，上述检测信息包括上述目标对象在上述图像帧中所在的位置区域信息；

上述装置还包括：

提取单元，用于提取上述未匹配对象的关键点信息；

上述匹配单元，包括：

第一计算子单元，用于基于上述未匹配对象的关键点信息和上述未匹配对象的位置区域信息，计算上述未匹配对象中各个对象之间的距离；

构建子单元，用于基于上述各个未匹配对象之间的距离构建网络流图，上述未匹配对象为上述网络流图中的节点，上述各个对象之间的距离为上述网络流图中节点与节点之间的边的权重；

输出子单元，用于使用最小费用最大流算法计算上述网络流图的最大流下的最小距离代价，输出上述未匹配对象的匹配结果。

作为一种可选的实施方式，上述图像帧中的对象包括人脸对象和人体对象；

上述第一计算子单元，用于计算上述未匹配对象中上述人脸对象和上述人体对象之间的距离。

作为一种可选的实施方式，上述查询单元，用于若使用上述跟踪标识未查询到上述目标对象的身份信息，则查询上述跟踪标识的匹配跟踪标识；

上述查询单元，还用于若查询到上述匹配跟踪标识，则使用上述匹配跟踪标识查询上述目标对象的身份信息。

作为一种可选的实施方式，上述存储单元，用于若使用上述匹配跟踪标识查询到上述目标对象的身份信息，则存储上述跟踪标识与上述目标对象的上述身份信息之间的对应关系。

作为一种可选的实施方式，上述装置还包括：

分析单元，用于在上述目标对象为人脸目标对象的情况下，对上述人脸目标对象进行表情分析得到表情分析结果；在上述目标对象为人体目标对象的情况下，对上述人体目标对象进行行为分析得到行为分析结果；

上述存储单元，用于将上述表情分析结果或上述行为分析结果与上述目标对象的身份信息关联后存储到数据库中。

作为一种可选的实施方式，上述判断单元，用于在确定检测到与上述检测信息匹配的检测信息的情况下，确定上述目标对象为已存在的对象。

作为一种可选的实施方式，上述检测信息包含上述目标对象在图像帧中的位置区域信息；

上述判断单元，具体用于第二确定子单元，在确定存在与上述检测信息对应的位置区域信息的交并比大于阈值的缓存位置区域信息的情况下，确定上述缓存位置区域信息对应的对象与上述目标对象相同，则上述目标对象为已经存在的对象；

或者，上述判断单元包括：

上述判断单元，用于在确定存在与上述检测信息对应的位置区域信息的交并比大于阈值的变更位置区域信息的情况下，确定上述变更位置区域信息对应的对象与上述目标对象相同，则上述目标对象为已经存在的对象。

作为一种可选的实施方式，上述第二计算子单元，用于通过卡尔曼滤波算法预测缓存位置区域信息对应对象在视频位置变换后的变更区域信息。

作为一种可选的实施方式，上述装置还包括：

更新单元，用于将上述目标对象的缓存区域信息更新为上述检测信息包含的区域信息。

在一些实施例中，本申请实施提供的装置具有的功能或包含的单元可以用于执行上文方法实施例描述的方法，器具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

图8为本申请实施例提供的一种视频图像处理装置的结构示意图。该视频图像处理装置4000包括处理器41，还可以包括输入装置42、输出装置43和存储器44。该输入装置42、输出装置43、存储器44和处理器41之间通过总线相互连接。

存储器包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read至only memory，ROM)、可擦除可编程只读存储器(erasable programmable readonly memory，EPROM)、或便携式只读存储器(compact disc read至only memory，CD至ROM)，该存储器用于相关指令及数据。

输入装置用于输入数据和/或信号，以及输出装置用于输出数据和/或信号。输出装置和输入装置可以是独立的器件，也可以是一个整体的器件。

处理器可以包括是一个或多个处理器，例如包括一个或多个中央处理器(centralprocessing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。处理器还可以包括一个或多个专用处理器，专用处理器可以包括GPU、FPGA等，用于进行加速处理。

存储器用于存储网络设备的程序代码和数据。

处理器用于调用该存储器中的程序代码和数据，执行上述方法实施例中的步骤。具体可参见方法实施例中的描述，在此不再赘述。

可以理解的是，图8仅仅示出了动作识别装置的简化设计。在实际应用中，动作识别装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等，而所有可以实现本申请实施例的动作识别装置都在本申请的保护范围之内。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read至onlymemory，ROM)，或随机存储存储器(random access memory，RAM)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质，例如，固态硬盘(solid state disk，SSD)等。

以上上述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频图像处理方法，其特征在于，包括：

基于所述跟踪标识查询所述目标对象的身份信息；

对所述图像帧中的未匹配对象进行匹配；

2.根据权利要求1所述方法，其特征在于，所述方法还包括：

3.根据权利要求2所述方法，其特征在于，在所述为所述目标对象分配新的跟踪标识之后，所述方法还包括：

4.根据权利要求1所述方法，其特征在于，所述方法还包括：

5.根据权利要求1所述方法，其特征在于，所述检测信息包括所述目标对象在所述图像帧中所在的位置区域信息；

提取所述未匹配对象的关键点信息；

所述对所述图像帧中的未匹配对象进行匹配，包括：

6.根据权利要求5所述方法，其特征在于，所述图像帧中的对象包括人脸对象和人体对象；

所述计算所述未匹配对象中各个对象之间的距离，包括：

7.根据权利要求1所述方法，其特征在于，所述方法还包括：

8.根据权利要求7所述方法，其特征在于，所述方法还包括：

9.根据权利要求6所述方法，其特征在于，所述方法还包括：

10.根据权利要求1-4任一项所述方法，其特征在于，所述依据所述检测信息确定所述目标对象为已存在的对象包括：

11.根据权利要求10所述方法，其特征在于，所述检测信息包含所述目标对象在图像帧中的位置区域信息；

12.根据权利要求11所述方法，其特征在于，所述计算缓存位置区域信息对应对象位置变换后的变更位置区域信息包括：

13.根据权利要求11所述方法，其特征在于，所述方法还包括：

14.一种视频图像处理装置，其特征在于，包括：

判断单元，用于依据所述检测信息判断所述目标对象为是否为已存在的对象；

查询单元，用于基于所述跟踪标识查询所述目标对象的身份信息；

所述查询单元，用于查询所述目标对象的匹配跟踪标识，所述匹配跟踪标识为与所述目标对象匹配的匹配对象的跟踪标识，所述匹配对象为和所述目标对象具有相同的身份信息的对象；

匹配单元，用于对所述图像帧中的未匹配对象进行匹配；

存储单元，用于在匹配到所述目标对象的匹配对象的情况下，存储所述目标对象的跟踪标识和所述匹配对象的匹配跟踪标识之间的对应关系。

15.根据权利要求14所述装置，其特征在于，

所述分配单元，在所述判断单元判断为否的情况下，用于为所述目标对象分配新的跟踪标识；

所述存储单元，存储所述目标对象与所述新的跟踪标识之间的对应关系。

16.根据权利要求15所述装置，其特征在于，所述装置还包括：

17.根据权利要求14所述装置，其特征在于，所述装置还包括：

所述存储单元，用于存储所述身份信息与所述目标对象的跟踪标识之间的对应关系。

18.根据权利要求14所述装置，其特征在于，所述检测信息包括所述目标对象在所述图像帧中所在的位置区域信息；

所述装置还包括：

提取单元，用于提取所述未匹配对象的关键点信息；

所述匹配单元，包括：

19.根据权利要求18所述装置，其特征在于，所述图像帧中的对象包括人脸对象和人体对象；

20.根据权利要求14所述装置，其特征在于，

所述查询单元，用于若使用所述跟踪标识未查询到所述目标对象的身份信息，则查询所述跟踪标识的匹配跟踪标识；

21.根据权利要求20所述装置，其特征在于，

所述存储单元，用于若使用所述匹配跟踪标识查询到所述目标对象的身份信息，则存储所述跟踪标识与所述目标对象的所述身份信息之间的对应关系。

22.根据权利要求19所述装置，其特征在于，所述装置还包括：

23.根据权利要求14至17任意一项所述装置，其特征在于，所述判断单元，用于在确定检测到与所述检测信息匹配的检测信息的情况下，确定所述目标对象为已存在的对象。

24.根据权利要求23所述装置，其特征在于，所述检测信息包含所述目标对象在图像帧中的位置区域信息；

或者，所述判断单元包括：

25.根据权利要求24所述装置，其特征在于，所述第二计算子单元，用于通过卡尔曼滤波算法预测缓存位置区域信息对应对象在视频位置变换后的变更区域信息。

26.根据权利要求24所述装置，其特征在于，所述装置还包括：

27.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现权利要求1至13任一项所述的方法。

28.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现权利要求1至13任一项所述的方法。