CN109308463B

CN109308463B - 一种视频目标识别方法、装置及设备

Info

Publication number: CN109308463B
Application number: CN201811061036.5A
Authority: CN
Inventors: 阳群益; 宇哲伦; 冯巍
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2021-08-13
Anticipated expiration: 2038-09-12
Also published as: CN109308463A

Abstract

本发明实施例提供了一种视频目标识别方法、装置及设备，其中，该方法包括：确定待识别视频帧；提取待识别视频帧对应的图像特征；获取预先保存的多个历史图像对应的特征信息；基于图像特征和多个历史图像对应的特征信息，确定多个历史图像中与待识别视频帧匹配的目标历史图像；获取预先保存的目标历史图像的识别结果，并将该识别结果作为待识别视频帧对应的识别结果。通过本发明实施例提供的视频目标识别方法、装置及设备，能够提升视频目标识别的效率。

Description

一种视频目标识别方法、装置及设备

技术领域

本发明涉及视频图像处理技术领域，特别是涉及一种视频目标识别方法、装置及设备。

背景技术

随着手机、监控摄像头等移动端视频采集设备的发展和普及，视频目标识别的应用场景越来越广泛。例如，直播视频中主播背景替换需要用到人像分割技术；场景中的人物特写处理需要用到人物识别技术，等等。

目前的技术中大多采用卷积神经网络实现视频目标识别。例如，通过deeplabV3+实现人像分割，通过pvanet实现目标定位等。具体地，针对视频中的每个视频帧，通过卷积神经网络实现视频目标识别。

然而，发明人在实现本发明的过程中发现，现有技术至少存在如下问题：

一般情况下，卷积神经网络是需要经过很复杂的多层运算才能得到计算结果，且视频中的视频帧数量也比较多。如此，现有技术针对每个视频帧都进行卷积神经网络的运算，会使得视频目标识别过程的效率较低。

发明内容

本发明实施例的目的在于提供一种视频目标识别方法、装置及设备，以提升视频目标识别的效率。具体技术方案如下：

第一方面，本发明实施例提供了一种视频目标识别方法，包括：

确定待识别视频帧；

提取所述待识别视频帧对应的图像特征；

获取预先保存的多个历史图像对应的特征信息；

基于所述图像特征和所述多个历史图像对应的特征信息，确定所述多个历史图像中与所述待识别视频帧匹配的目标历史图像；

获取预先保存的所述目标历史图像的识别结果，并将该识别结果作为所述待识别视频帧对应的识别结果。

可选的，所述方法还包括：

获取所述待识别视频帧的图像特征在所述待识别视频帧中的第一位置；

获取所述目标历史图像的特征信息在所述目标历史图像中对应的第二位置；

判断所述第一位置与所述第二位置是否小于预设差值；

如果所述第一位置与所述第二位置小于预设差值，执行所述获取预先保存的所述目标历史图像的识别结果，并将该识别结果作为所述待识别视频帧对应的识别结果的步骤。

可选的，所述基于所述图像特征和所述多个历史图像对应的特征信息，确定所述多个历史图像中与所述待识别视频帧匹配的目标历史图像，包括：

针对每个历史图像，计算所述图像特征与该历史图像对应的特征信息之间的匹配度；当所述匹配度大于等于预设匹配度阈值时，确定该历史图像为所述目标历史图像。

可选的，所述特征信息包括一层特征信息和二层特征信息；

所述提取所述待识别视频帧对应的图像特征，包括：

提取所述待识别视频帧对应的一层图像特征和二层图像特征；

所述计算所述图像特征与该历史图像对应的特征信息之间的匹配度，包括：

计算所述待识别视频帧对应的一层图像特征与该历史图像对应的一层特征信息的第一相似度；

在所述第一相似度满足第一预设阈值时，计算所述待识别视频帧对应的二层图像特征与该历史图像对应的二层特征信息的第二相似度；

在所述第一相似度不满足第一预设阈值时，停止计算所述图像特征与该历史图像对应的特征信息之间的所述匹配度；

所述当所述匹配度大于等于预设匹配度阈值时，确定该历史图像为所述目标历史图像，包括：

当所述第一相似度满足所述第一预设阈值、且所述第二相似度满足第二预设阈值时，确定该历史图像为所述目标历史图像。

可选的，所述提取所述待识别视频帧对应的一层图像特征和二层图像特征，包括：

提取所述待识别视频帧的边缘特征、形状特征、和/或颜色特征，作为表示所述待识别视频帧宏观信息的图像宏观特征，并将所述图像宏观特征作为所述一层图像特征；

将所述待识别视频帧分割成预设个矩形小块，针对每一矩形小块，计算该矩形小块中像素的标准差；

将所述预设个矩形小块分别对应的标准差形成的向量，作为表示所述待识别视频帧细节信息的图像细节特征，并将所述图像细节特征作为所述二层图像特征。

可选的，通过包括多个元素的队列保存所述多个历史图像对应的特征信息和识别结果，其中，一个元素对应一个历史图像；所述元素中包括优先级参数、所述元素对应的历史图像对应的特征信息和识别结果；

所述针对每个历史图像，计算所述图像特征与该历史图像对应的特征信息之间的匹配度，包括：

按照优先级参数从高到低的顺序，依次计算所述图像特征与所述队列中元素包括的特征信息的匹配度；

当所述图像特征与所述队列中元素包括的特征信息的匹配度大于等于预设匹配度阈值时，确定对应的该元素为目标元素；

将所述目标元素对应的历史图像作为所述目标历史图像；

所述获取预先保存的所述目标历史图像的识别结果，并将该识别结果作为所述待识别视频帧对应的识别结果，包括：

获取所述目标元素中包括的识别结果，并将该识别结果作为所述待识别视频帧对应的识别结果。

第二方面，本发明实施例提供了一种视频目标识别装置，包括：

第一确定模块，用于确定待识别视频帧；

提取模块，用于提取所述待识别视频帧对应的图像特征；

第一获取模块，用于获取预先保存的多个历史图像对应的特征信息；

第二确定模块，用于基于所述图像特征和所述多个历史图像对应的特征信息，确定所述多个历史图像中与所述待识别视频帧匹配的目标历史图像；

第二获取模块，用于获取预先保存的所述目标历史图像的识别结果，并将该识别结果作为所述待识别视频帧对应的识别结果。

可选的，所述装置还包括：

第三获取模块，用于获取所述待识别视频帧的图像特征在所述待识别视频帧中的第一位置；

第四获取模块，用于获取所述目标历史图像的特征信息在所述目标历史图像中对应的第二位置；

判断模块，用于判断所述第一位置与所述第二位置是否小于预设差值；

执行模块，用于如果所述第一位置与所述第二位置小于预设差值，执行所述获取预先保存的所述目标历史图像的识别结果，并将该识别结果作为所述待识别视频帧对应的识别结果的步骤。

可选的，所述第二确定模块，包括：

计算子模块，用于针对每个历史图像，计算所述图像特征与该历史图像对应的特征信息之间的匹配度；

确定子模块，用于当所述匹配度大于等于预设匹配度阈值时，确定该历史图像为所述目标历史图像。

可选的，所述特征信息包括一层特征信息和二层特征信息；

所述提取模块，具体用于提取所述待识别视频帧对应的一层图像特征和二层图像特征；

所述计算子模块，包括：

第一计算单元，用于计算所述待识别视频帧对应的一层图像特征与该历史图像对应的一层特征信息的第一相似度；

第二计算单元，用于在所述第一相似度满足第一预设阈值时，计算所述待识别视频帧对应的二层图像特征与该历史图像对应的二层特征信息的第二相似度；

停止单元，用于在所述第一相似度不满足第一预设阈值时，停止计算所述图像特征与该历史图像对应的特征信息之间的所述匹配度；

所述确定子模块，具体用于当所述第一相似度满足所述第一预设阈值、且所述第二相似度满足第二预设阈值时，确定该历史图像为所述目标历史图像。

可选的，所述提取模块，包括：

第一提取子模块，用于提取所述待识别视频帧的边缘特征、形状特征、和/或颜色特征，作为表示所述待识别视频帧宏观信息的图像宏观特征，并将所述图像宏观特征作为所述一层图像特征；

第二提取子模块，用于将所述待识别视频帧分割成预设个矩形小块，针对每一矩形小块，计算该矩形小块中像素的标准差；将所述预设个矩形小块分别对应的标准差形成的向量，作为表示所述待识别视频帧细节信息的图像细节特征，并将所述图像细节特征作为所述二层图像特征。

所述计算子模块，具体用于按照优先级参数从高到低的顺序，依次计算所述图像特征与所述队列中元素包括的特征信息的匹配度；

所述确定子模块，具体用于当所述图像特征与所述队列中元素包括的特征信息的匹配度大于等于预设匹配度阈值时，确定对应的该元素为目标元素；将所述目标元素对应的历史图像作为所述目标历史图像；

所述第二获取模块，具体用于获取所述目标元素中包括的识别结果，并将该识别结果作为所述待识别视频帧对应的识别结果。

第三方面，本发明实施例提供了一种视频目标识别设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现第一方面所述的方法步骤。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行第一方面所述的方法步骤。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行第一方面所述的方法步骤。

本发明实施例提供的视频目标识别方法、装置及设备，可以确定待识别视频帧；提取待识别视频帧对应的图像特征；获取预先保存的多个历史图像对应的特征信息；基于图像特征和多个历史图像对应的特征信息，确定多个历史图像中与待识别视频帧匹配的目标历史图像；获取预先保存的目标历史图像的识别结果，并将该识别结果作为待识别视频帧对应的识别结果。通过将待识别视频帧与历史图像进行比对，当存在与待识别视频帧匹配的历史图像时，直接获取已保存的该历史图像对应的识别结果作为待识别视频帧的识别结果。如此能够充分利用历史数据，提升视频目标识别的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的视频目标识别方法的一种流程图；

图2(a)为本发明实施例中确定目标历史图像的流程图；

图2(b)为本发明实施例提供的视频目标识别方法的另一种流程图；

图2(c)为本发明实施例中识别结果的示意图；

图3为本发明实施例中级联匹配的流程图；

图4为本发明实施例提供的视频目标识别方法的另一种流程图；

图5为本发明实施例提供的具体实施例的流程图；

图6为本发明实施例提供的视频目标识别装置的结构示意图；

图7为本发明实施例提供的视频目标识别设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

视频目标识别的应用场景越来越广泛。如，直播视频中主播背景替换需要用到人像分割技术；场景中的人物特写处理需要用到人物识别技术，等等。

目前的技术中大多采用卷积神经网络实现高精度的视频目标识别。具体地，针对视频中的每个视频帧，通过卷积神经网络实现视频目标识别。但是，一般情况下，卷积神经网络是需要经过很复杂的多层运算才能得到计算结果，且视频中的视频帧数量也比较多。如此，现有技术针对每个视频帧都经过卷积神经网络的运算，会使得视频目标识别过程的效率较低。且因为卷积神经网络运算复杂，计算量比较大，对计算能力要求比较高，使得现有的视频目标识别过程通常在个人计算机(personal computer，简称pc)端的GPU图形处理器(Graphics Processing Unit，简称GPU)上运行。而移动端如手机的视频采集设备，运算能力有限，严重制约了现有的视频目标识别算法在移动端设备上的应用。

因为视频信息量丰富，容易出现相似度高的图片，具备较强的时间局部性，即类似的图像信息可能在不同的时间段出现重复，而同一目标在重复的两帧上位置是一样的。如此，为了避免现有技术中针对视频中的每个视频帧都经过复杂的卷积神经网络运算进行识别，出现重复识别的情况。本发明实施例提供了一种视频目标识别方法，通过预先保存历史图像对应的历史识别结果，在对待识别视频帧进行识别之前，先将待识别视频帧与已保存的历史图像进行比对，当查找到与该待识别视频帧匹配的历史图像时，直接将该历史图像对应的识别结果作为该待识别视频帧的识别结果，无需对该待识别视频帧进行具体的识别；当未查找到与该待识别视频帧匹配的历史图像时，通过视频目标识别算法针对该待识别视频帧进行具体的识别，例如，通过卷积神经网络识别确定识别结果。

因为视频中的视频帧具有连续性，视频帧之间具有相似性，如此使得只需要对部分视频帧进行具体识别，并保存识别结果，其他视频帧可以与已保存的视频帧进行匹配，当匹配成功时，直接获取已保存的识别结果作为该其他视频帧的视频结果，无需再进行具体的识别过程。如此，避免了重复识别的情况，节省了识别的开销，能够提升视频目标识别的效率。

下面对本发明实施例提供的视频目标识别方法进行详细说明。

其中，本发明实施例提供的视频目标识别方法可以应用于电子设备。具体地，电子设备可以为智能手机、平板电脑、笔记本电脑或台式电脑等，也可以为图像处理设备等。

本发明实施例提供了一种视频目标识别方法，如图1所示，包括：

S101，确定待识别视频帧。

待识别视频帧可以是视频中的任一帧。或者也可以是具有相似性的多张图像中的一张图像等。

本发明实施例中电子设备可以从保存视频资源的位置处，如服务器等，获取视频，依次将视频中包括的各个视频帧确定为待识别视频帧，以通过后续过程实现视频目标识别。

S102，提取待识别视频帧对应的图像特征。

图像特征可以是表示视频帧信息的特征。可以是一种图像特征，或者也可以是多种图像特征的结合等。具体地，图像特征可以是表示图像宏观信息的宏观特征，也可以简单理解为表示粗略信息的特征，如边缘特征、形状特征、和/或颜色特征等；或者也可以是表示图像细节信息的细节特征，如各个位置处的像素值；或者也可以是宏观特征与细节特征的结合，如颜色特征与像素值的结合，等等。

具体地，提取待识别视频帧对应的图像特征的过程可以采用已有的提取图像特征的方式，这里就不再赘述。

S103，获取预先保存的多个历史图像对应的特征信息。

为了在视频目标识别的过程中，可以利用历史数据，本发明实施例中预先保存多个历史图像对应的特征信息，且为了保证匹配的有效性、准确性等，预先保存的多个历史图像对应的特征信息与提取的视频帧的图像特征是对应的，即预先保存的特征信息与图像特征属于同一种特征，例如，均是表示宏观信息的宏观特征、均是表示细节信息的图像细节特征，等等。

具体地，可以通过多种形式保存历史图像对应的特征信息，例如，可以通过表格的形式、队列的形式等等。如此，可以从表格、队列中获取预先保存的多个历史图像对应的特征信息。

S104，基于图像特征和多个历史图像对应的特征信息，确定多个历史图像中与待识别视频帧匹配的目标历史图像。

具体地，如图2(a)所示，可以包括：

S1041，针对每个历史图像，计算图像特征与该历史图像对应的特征信息之间的匹配度。

S1042，当匹配度大于等于预设匹配度阈值时，确定该历史图像为目标历史图像。

预设匹配度阈值可以根据实际需要确定。如，图像特征与特征信息完全相同时匹配度是100％，则预设匹配度阈值可以是90％、95％；或者图像特征与特征信息完全相同时匹配度是1，则预设匹配度阈值可以是0.8、0.9等等。

将待识别视频帧的图像特征分别与已保存的各个历史图像对应的特征信息进行比对，当历史图像对应的特征信息与待识别视频帧的图像特征匹配时。即匹配度大于等于预设匹配度阈值时，可以确定多个历史图像中与待识别视频帧匹配的目标历史图像，且可以确定该历史图像为目标历史图像。

S105，获取预先保存的目标历史图像的识别结果，并将该识别结果作为待识别视频帧对应的识别结果。

如此，直接获取目标历史图像的识别结果，作为待识别视频帧对应的识别结果。

具体地，同保存历史图像对应的特征信息类似，可以通过表格、或队列等形式保存历史图像对应的识别结果。如此，可以从表格或者队列中获取目标历史图像的识别结果。

其中，识别结果可以是进行视频人像分割得到的结果，可以是进行人物跟踪的结果，可以是进行视频目标定位的结果，等等。

本发明实施例一种可选的实现方式中，可以将历史图像对应的识别结果与历史图像对应的特征信息分开保存，分开保存的特征信息与识别结果建立对应关系。如此，通过特征信息查找到匹配的目标历史图像，进而查找到目标历史图像对应的识别结果。

另一种可选的实现方式中，可以将历史图像对应的识别结果与特征信息保存在一起，如此在查找的过程中，可以在历史图像的特征信息与待识别视频帧的图像特征匹配时，快速、方便地获取到目标历史图像对应的识别结果。

本发明实施例中，通过将待识别视频帧与历史图像进行比对，当存在与待识别视频帧匹配的历史图像时，直接获取已保存的该历史图像对应的识别结果作为待识别视频帧的识别结果。如此能够充分利用历史数据，提升视频目标识别的效率。

在上述实施例的基础上，本发明一种可选的实施例中，如图2(b)所示，还可以包括：

S201，获取待识别视频帧的图像特征在待识别视频帧中的第一位置。

第一位置可以是待识别视频帧中目标人物所在的像素点位置等，如第5行第5列至第10行第5列的所有像素点所在的位置。

S202，获取目标历史图像的特征信息在目标历史图像中对应的第二位置。

第二位置可以是目标历史图像中目标人物所在的像素点位置等，如第5行第6列至第10行第6列的所有像素点所在的位置。

S203，判断第一位置与第二位置是否小于预设差值。

预设差值可以根据实际情况确定，如可以是1个像素点、2个像素点等等。

简单地也可以理解为：判断待识别视频帧与目标历史图像之间的差异是否足够小。

S204，如果第一位置与第二位置小于预设差值，执行获取预先保存的目标历史图像的识别结果，并将该识别结果作为待识别视频帧对应的识别结果的步骤。

即当待识别视频帧的图像特征在待识别视频帧中的第一位置，小于目标历史图像的特征信息在历史图像中对应的第二位置时，执行上述步骤S105。

如此使得，待识别视频帧中图像特征与目标历史图像中特征信息之间的位置差异比较小时，甚至位置相同时，可以将目标历史图像对应的识别结果作为待识别视频帧的识别结果。如，将目标历史图像对应的图像分割的结果，作为待识别视频帧对应的图像分割的结果。如此能够保证待识别视频帧识别的准确度。

具体地，如图2(c)所示，目标历史图像对应的视频人物识别结果如矩形框2010所示。如果第一位置相比较于第二位置仅是相差很小的值时，如1个像素点时，则实际上待识别视频帧的视频人物识别结果相比较于目标历史图像对应的视频人物识别结果相差很小，如待识别视频帧对应的矩形框相比较于目标历史图像对应的该矩形框2010，仅是有很小的移动。如此，则可以直接将目标历史图像对应的视频人物识别结果作为该待识别视频帧的视频人物识别结果，而不影响对待识别视频帧中人物的识别效果。

在上述图1所示实施例的基础上，本发明一种可选的实施例中，可以通过级联匹配实现待识别视频帧与历史图像的匹配。

具体地，特征信息包括一层特征信息和二层特征信息。

步骤S102：提取待识别视频帧对应的图像特征，可以包括：

提取待识别视频帧对应的一层图像特征和二层图像特征。

具体地，提取待识别视频帧的边缘特征、形状特征、和/或颜色特征，作为表示待识别视频帧宏观信息的图像宏观特征，并将图像宏观特征作为一层图像特征。

将待识别视频帧分割成预设个矩形小块，针对每一矩形小块，计算该矩形小块中像素的标准差；将预设个矩形小块分别对应的标准差形成的向量，作为表示待识别视频帧细节信息的图像细节特征，并将图像细节特征作为二层图像特征。

且在实际应用过程中，在提取图像宏观特征过程中，为了计算简便，可以先将待识别视频帧转换为灰度图。

如上述实施例中描述，特征信息与图像特征是对应的，则一层特征信息为表示历史图像宏观信息的图像宏观特征，二层特征信息为表示历史图像细节信息的图像细节特征。

如此通过待识别视频帧的双层特征以及历史图像的双层特征信息实现级联匹配。具体地，如图3所示。

步骤S1041：计算图像特征与该历史图像对应的特征信息之间的匹配度，可以包括：

S10411，计算待识别视频帧对应的一层图像特征与该历史图像对应的一层特征信息的第一相似度。

一层图像特征和一层特征信息可以是表示图像宏观信息的颜色直方图。

计算待识别视频帧的颜色直方图与该历史图像的颜色直方图的相似度作为第一相似度，具体地可以计算待识别视频帧的颜色直方图与该历史图像的颜色直方图之间的欧氏距离。

可以认为计算第一相似度的过程是级联匹配中的第一层匹配。

S10412，在第一相似度满足第一预设阈值时，计算待识别视频帧对应的二层图像特征与该历史图像对应的二层特征信息的第二相似度。

当用于评价第一相似度的指标越小表示待识别视频帧与历史图像越相似，如欧氏距离，则第一相似度满足第一预设阈值可以是第一相似度小于等于第一预设阈值；当用于评价第一相似度的指标越大表示待识别视频帧与历史图像越相似，则第一相似度满足第一预设阈值可以是第一相似度大于等于第一预设阈值，其中，第一预设阈值可以根据实际情况确定。

二层特征信息和二层图像特征可以是表示图像的细节信息，例如，将图像分割成多个矩形小块，如将图像分割成64×64共4096个矩形小块；针对不同位置的每一个小块，计算小块中像素的标准差，组成包括小块位置的多维向量。

计算待识别视频帧对应的二层图像特征与该历史图像对应的二层特征信息的第二相似度，可以是计算待识别视频帧对应的多维向量与历史图像对应的多维向量之间的欧氏距离。

可以认为计算第二相似度的过程是级联匹配中的第二层匹配。

S10413，在第一相似度不满足第一预设阈值时，停止计算图像特征与该历史图像对应的特征信息之间的匹配度。

只有当第一相似度满足第一预设阈值时，才进行后续的计算，即计算待识别视频帧对应的二层图像特征与该历史图像对应的二层特征信息的第二相似度。而当第一相似度不满足第一预设阈值时，停止计算图像特征与该历史图像对应的特征信息之间的匹配度，即认为该历史图像与待识别视频帧不匹配，继续进行其他历史图像与待识别视频帧的匹配过程。

步骤S1042：当匹配度大于等于预设匹配度阈值时，确定该历史图像为目标历史图像，包括：

S10421，当第一相似度满足第一预设阈值、且第二相似度满足第二预设阈值时，确定该历史图像为目标历史图像。

类似地，当用于评价第二相似度的指标越小表示待识别视频帧与历史图像越相似，则第二相似度满足第二预设阈值可以是第二相似度小于等于第二预设阈值；当用于评价第二相似度的指标越大表示待识别视频帧与历史图像越相似，则第二相似度满足第二预设阈值可以是第二相似度大于等于第二预设阈值，同理，第二预设阈值可以根据实际情况确定。

通过级联匹配中第一层匹配先进行宏观匹配，当第一层匹配不成功时，直接停止匹配，只有在第一层匹配成功时才会进行第二层匹配。通过第一层匹配进行快速地筛选，排除误匹配，节省第二层匹配的时间，如此能够提升匹配速率。且根据多层图像特征，从整体到局部对图像进行有效地描述，以使可以高效准确地确定图像之间的相似度等，进一步高效、准确地判断待识别视频帧与历史图像之间是否匹配。

本发明另一种可选的实施例中，如图4所示，还可以包括：

S401，基于图像特征和多个历史图像对应的特征信息，判断多个历史图像中是否存在与待识别视频帧匹配的目标历史图像。

具体地，基于图像特征和多个历史图像对应的特征信息，计算图像特征与该历史图像对应的特征信息之间的匹配度，当多个历史图像对应的匹配度中存在匹配度大于等于预设匹配度阈值时，则认为多个历史图像中存在与待识别视频帧匹配的目标历史图像；当多个历史图像对应的匹配度均小于预设匹配度阈值，则认为多个历史图像中不存在与待识别视频帧匹配的目标历史图像。

具体地，基于图像特征和多个历史图像对应的特征信息，判断多个历史图像中是否存在与待识别视频帧匹配的目标历史图像的过程参照上述实施例的过程即可。

S402，当不存在目标历史图像时，通过预设识别算法确定待识别视频帧对应的识别结果。

预设识别算法可以是已有的视频目标视频算法。如通过卷积神经网络实现识别的算法等等，这里就不再赘述。

如此，只有在查找不到与待识别视频帧匹配的历史图像时，才针对该待识别视频帧进行具体的匹配，能够节省识别消耗，提升视频目标识别的整体效率。

在上述实施例的基础上，本发明另一种可选的实施例中，通过包括多个元素的队列保存多个历史图像对应的特征信息和识别结果，其中，一个元素对应一个历史图像；元素中包括优先级参数、元素对应的历史图像对应的特征信息和识别结果。

步骤S1041：针对每个历史图像，计算图像特征与该历史图像对应的特征信息之间的匹配度，包括：

按照优先级参数从高到低的顺序，依次计算图像特征与队列中元素包括的特征信息的匹配度。

具体地，优先级参数可以通过表示该优先级参数对应的识别结果被引用的次数的计数器counter表示，counter越大表示该优先级参数对应的识别结果被引用的次数越多，优先级越高。

当图像特征与队列中元素包括的特征信息的匹配度大于等于预设匹配度阈值时，确定对应的该元素为目标元素；将目标元素对应的历史图像作为目标历史图像。

其中，匹配度大于等于预设匹配度阈值可以是待识别视频帧的图像特征与历史图像的特征信息之间的相似度大于等于预设阈值等。

且这里将待识别视频帧的图像特征与队列中元素进行匹配时，可以通过上述实施例中级联匹配的过程进行匹配。具体地，队列中元素包括历史图像对应的一层特征信息和二层特征信息。具体地匹配过程参照上述图3实施例，这里就不再赘述。

步骤105：获取预先保存的目标历史图像的识别结果，并将该识别结果作为待识别视频帧对应的识别结果，包括：

获取目标元素中包括的识别结果，并将该识别结果作为待识别视频帧对应的识别结果。

队列元素中保存历史图像对应的特征信息以及识别结果。如此，在根据特征信息确定目标历史图像，即确定目标历史图像对应的队列元素后，获取队列元素中保存的识别结果，即为目标历史图像对应的识别结果，并将该识别结果作为待识别视频帧对应的识别结果。

如此，在实现匹配的过程中，考虑队列元素的优先级，使得优先级高的元素优先进行匹配运算，即优先匹配最有可能的历史数据，能够进一步节省匹配的时间，进而提升视频目标识别的效率。本发明中通过双层图像特征，使用级联匹配的策略，并结合优先级队列，极大的避免了视频目标识别中出现重复识别的情况，提升了视频目标识别的效率。

在一种可选的实现方式中，在所通过预设识别算法确定待识别视频帧对应的识别结果之后，还可以包括：

通过队列中的元素，保存通过预设识别算法确定的待识别视频帧对应的识别结果；在队列的元素个数大于预设个数时，删除队列中优先级参数最低的元素。

在进行视频目标识别的过程中，从队列对应元素中获取历史图像对应的特征信息，将待识别视频帧的图像特征与历史图像的特征信息进行匹配，当匹配成功时，则从该元素中获取保存的历史图像对应的识别结果，直接将保存的历史图像对应的识别结果作为该待识别视频帧的识别结果。且还可以将匹配的历史图像对应的元素的优先级参数加1。

而当未匹配成功时，则通过预设识别算法确定待识别视频帧对应的识别结果，并将该待识别视频帧作为历史图像，将待识别视频帧对应的图像特征作为特征信息，以及确定得到的识别结果对应保存至队列中。另外，还可以对保存至队列中元素的优先级参数进行初始化，如初始化为1。其中，未匹配成功包括队列为空的情况。

且在实际应用过程中，为了能够充分利用视频目标识别过程中的历史数据，且又不占用过多的内存空间，本发明实施例中可以通过固定长度的队列保存历史数据，即通过固定长度的队列中的元素保存多个历史图像对应的特征信息以及识别结果。当队列的元素个数大于预设个数时，删除队列中优先级参数最低的元素。

本发明还提供了一种具体的实施例，如图5所示。

S501，确定当前待识别视频帧。

在进行视频目标识别的过程中，对视频中的每一帧进行识别，具体地可以确定视频中的任一帧为当前待识别视频帧。

S502，提取该当前待识别视频帧对应的多层图像特征。

如上述实施例中，提取表示该当前待识别视频帧宏观信息的一层图像特征和表示该当前待识别视频帧细节信息的二层图像特征。

通过多层图像特征对当前待识别视频帧进行高效、准确地描述，以使后续级联匹配的过程中，可以高效、准确地与历史图像对应的特征信息进行匹配。

S503，级联匹配。

按照表示队列头到队列尾箭头所示的方向，依次通过多层图像特征与队列中的元素进行级联匹配。其中，队列中的元素包括元素1，元素2，…，元素n，等n个元素。

具体地匹配过程在上述实施例中已经进行了详细地描述，这里就不再赘述。

当匹配成功时，执行S504；当匹配失败时，执行S505。

S504，获取队列元素中匹配成功时对应的识别结果。

本实施例中，通过队列元素保存历史图像的特征信息以及识别结果。另外，为了可以按照元素的优先级进行匹配，元素中还可以包括表示元素优先级的优先级参数。具体地，元素中包括元素标识(identification，简称ID)，历史图像对应的特征信息feature，识别结果info，优先级参数counter。如元素1：(元素ID，counter，feature，info)，其中，元素ID可以是元素编号，如1，2，…，n等。

S505，通过预设识别算法对该当前待识别视频帧进行识别。

具体地，预设识别算法可以是已知的识别算法，如通过卷积神经网络进行视频目标识别的算法，在执行该步骤时参照已有算法的过程即可，这里就不再赘述。

S506，识别结果。

在匹配成功时，将通过S504获取到的队列元素中的识别结果作为该当前待识别视频帧的识别结果。

并将该元素对应的优先级参数加1。如此，与待识别视频帧匹配的次数越多，则对应的识别结果被引用的次数越多，则元素对应的优先级参数越高。

当匹配失败时，将通过S505确定识别结果。

且将得到的识别结果保存至队列中，并初始化保存到的队列元素的优先级参数为1。同时，判断队列当前的长度是否超过预设阈值，当超过预设阈值时，删除优先级较低的元素。如队列长度为n，当队列当前的长度超过n时，则删除优先级较低的元素。

或者，可以先判断队列的长度，在未将通过S505确定的识别结果保存至队列中之前，队列当前的长度已经达到预设阈值，如为n，则不将确定的该识别结果保存至队列中。

本发明实施例中充分利用视频中数据重复性的特点，预先保存历史数据，在针对当前待识别视频帧通过已知算法进行识别之前，先与历史数据进行匹配，在匹配成功时，可以直接利用历史数据中的识别结果，节省了后续进行具体识别算法的开销。且通过元素存在优先级的固定长度的队列保存历史数据，使得能够通过尽量少的内存空间保存比较重要的历史数据，在保存历史数据的过程中，节省内存空间。

且相对于传统的通过压缩输入数据等压缩具体识别算法本身执行时间的过程，本发明实施例在执行具体识别算法之间通过有效利用历史数据，建立了加速机制，在提升视频目标识别效率的同时，避免了对识别准确度的影响。且在进行匹配的过程中，通过多层图像特征进行级联匹配，同时，考虑队列中元素的优先级，有效地避免了冗余判断，能够高效地进行匹配，进一步提升视频目标识别的效率。

本发明实施例提供了一种视频目标识别装置，如图6所示，包括：

第一确定模块601，用于确定待识别视频帧；

提取模块602，用于提取待识别视频帧对应的图像特征；

第一获取模块603，用于获取预先保存的多个历史图像对应的特征信息；

第二确定模块604，用于基于图像特征和多个历史图像对应的特征信息，确定多个历史图像中与待识别视频帧匹配的目标历史图像；

第二获取模块605，用于获取预先保存的目标历史图像的识别结果，并将该识别结果作为待识别视频帧对应的识别结果。

可选的，该装置还包括：

第三获取模块，用于获取待识别视频帧的图像特征在待识别视频帧中的第一位置；

第四获取模块，用于获取目标历史图像的特征信息在目标历史图像中对应的第二位置；

判断模块，用于判断第一位置与第二位置是否小于预设差值；

执行模块，用于如果第一位置与第二位置小于预设差值，执行获取预先保存的目标历史图像的识别结果，并将该识别结果作为待识别视频帧对应的识别结果的步骤。

可选的，第二确定模块604，包括：

计算子模块，用于针对每个历史图像，计算图像特征与该历史图像对应的特征信息之间的匹配度；

确定子模块，用于当匹配度大于等于预设匹配度阈值时，确定该历史图像为目标历史图像。

可选的，特征信息包括一层特征信息和二层特征信息；

提取模块602，具体用于提取待识别视频帧对应的一层图像特征和二层图像特征；

计算子模块，包括：

第一计算单元，用于计算待识别视频帧对应的一层图像特征与该历史图像对应的一层特征信息的第一相似度；

第二计算单元，用于在第一相似度满足第一预设阈值时，计算待识别视频帧对应的二层图像特征与该历史图像对应的二层特征信息的第二相似度；

停止单元，用于在第一相似度不满足第一预设阈值时，停止计算图像特征与该历史图像对应的特征信息之间的匹配度；

确定子模块，具体用于当第一相似度满足第一预设阈值、且第二相似度满足第二预设阈值时，确定该历史图像为目标历史图像。

可选的，提取模块602，包括：

第一提取子模块，用于提取待识别视频帧的边缘特征、形状特征、和/或颜色特征，作为表示待识别视频帧宏观信息的图像宏观特征，并将图像宏观特征作为一层图像特征；

第二提取子模块，用于将待识别视频帧分割成预设个矩形小块，针对每一矩形小块，计算该矩形小块中像素的标准差；将预设个矩形小块分别对应的标准差形成的向量，作为表示待识别视频帧细节信息的图像细节特征，并将图像细节特征作为二层图像特征。

可选的，通过包括多个元素的队列保存多个历史图像对应的特征信息和识别结果，其中，一个元素对应一个历史图像；元素中包括优先级参数、元素对应的历史图像对应的特征信息和识别结果；

计算子模块，具体用于按照优先级参数从高到低的顺序，依次计算图像特征与队列中元素包括的特征信息的匹配度；

确定子模块，具体用于当图像特征与队列中元素包括的特征信息的匹配度大于等于预设匹配度阈值时，确定对应的该元素为目标元素；将目标元素对应的历史图像作为目标历史图像；

第二获取模块605，具体用于获取目标元素中包括的识别结果，并将该识别结果作为待识别视频帧对应的识别结果。

需要说明的是，本发明实施例提供的视频目标识别装置是应用上述视频目标识别方法的装置，则上述视频目标识别方法的所有实施例均适用于该装置，且均能达到相同或相似的有益效果。

本发明实施例还提供了一种视频目标识别设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信。

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现上述视频目标识别方法的方法步骤。

上述视频目标识别设备提到的通信总线可以是外设部件互连标准(PeripheralComponent Interconnect，简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述视频目标识别设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述视频目标识别方法的方法步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述视频目标识别方法的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、存储介质及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频目标识别方法，其特征在于，包括：

确定待识别视频帧；

提取所述待识别视频帧对应的图像特征；

获取预先保存的多个历史图像对应的特征信息；

获取预先保存的所述目标历史图像的识别结果，并将该识别结果作为所述待识别视频帧对应的识别结果；

所述基于所述图像特征和所述多个历史图像对应的特征信息，确定所述多个历史图像中与所述待识别视频帧匹配的目标历史图像，包括：

针对每个历史图像，计算所述图像特征与该历史图像对应的特征信息之间的匹配度；当所述匹配度大于等于预设匹配度阈值时，确定该历史图像为所述目标历史图像；

通过包括多个元素的队列保存所述多个历史图像对应的特征信息和识别结果，其中，一个元素对应一个历史图像；所述元素中包括优先级参数、所述元素对应的历史图像对应的特征信息和识别结果；且在队列的元素个数大于预设个数时，删除队列中优先级参数最低的元素；

当所述图像特征与所述队列中元素包括的特征信息的匹配度大于等于所述预设匹配度阈值时，确定对应的该元素为目标元素；

将所述目标元素对应的历史图像作为所述目标历史图像；

2.根据权利要求1所述的方法，其特征在于，还包括：

判断所述第一位置与所述第二位置是否小于预设差值；

3.根据权利要求1所述的方法，其特征在于，所述特征信息包括一层特征信息和二层特征信息；

所述提取所述待识别视频帧对应的图像特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述提取所述待识别视频帧对应的一层图像特征和二层图像特征，包括：

5.一种视频目标识别装置，其特征在于，包括：

第一确定模块，用于确定待识别视频帧；

提取模块，用于提取所述待识别视频帧对应的图像特征；

第二获取模块，用于获取预先保存的所述目标历史图像的识别结果，并将该识别结果作为所述待识别视频帧对应的识别结果；

所述第二确定模块，包括：

确定子模块，用于当所述匹配度大于等于预设匹配度阈值时，确定该历史图像为所述目标历史图像；

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.根据权利要求5所述的装置，其特征在于，所述特征信息包括一层特征信息和二层特征信息；

所述计算子模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述提取模块，包括：

9.一种视频目标识别设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-4任一所述的方法步骤。