CN110781711A

CN110781711A - 目标对象识别方法、装置、电子设备及存储介质

Info

Publication number: CN110781711A
Application number: CN201910055418.5A
Authority: CN
Inventors: 郭晶博; 张修宝; 沈海峰
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2020-02-11

Abstract

本申请实施例提供了一种目标对象识别方法、装置、电子设备及存储介质，其中，该方法包括：获取包含待识别目标对象的视频图像；根据所述视频图像对应的多个视频帧中，不同视频帧之间的图像相似度，在所述多个视频帧中提取关键视频帧；基于预先训练的目标对象检测模型，检测所述关键视频帧中的目标对象信息。本申请实施例通过获取视频图像的多个视频帧，再基于视频帧之间的图像相似度提取出关键视频帧后进行目标对象信息的检测，保障了视频帧的数量，提高了对视频帧中目标对象进行检测的速度和准确性。

Description

目标对象识别方法、装置、电子设备及存储介质

技术领域

本申请涉及图像识别技术领域，具体而言，涉及一种目标对象识别方法、装置、电子设备及存储介质。

背景技术

随着经济的快速发展和人口的流动，特别是在大城市，出现较多的人口密集区域，对这些区域进行监控和安全防护有着重大意义，而对区域进行监控和安全防护依赖行人识别技术。行人识别是利用计算机视觉技术判断图像或者视频序列中是否存在行人的技术。

目前，行人识别主要依赖人工标注方法，即将不同图像中的行人进行分类标注，建立行人数据集，然后再基于该行人数据集对行人进行识别，然而目前的行人数据集的标注数据量较少，导致行人识别效果较差，而如果进行大量的标注，又会导致工作量太大，人力成本太高。

发明内容

有鉴于此，本申请的目的在于提供一种目标对象识别方法、装置、电子设备及存储介质，以提高行人识别准确度。

第一方面，本申请实施例提供了一种目标对象识别方法，包括：

获取包含待识别目标对象的视频图像；

根据所述视频图像对应的多个视频帧中，不同视频帧之间的图像相似度，在所述多个视频帧中提取关键视频帧；

基于预先训练的目标对象检测模型，检测所述关键视频帧中的目标对象信息。

在一种实施方式中，根据以下步骤确定所述视频图像对应的多个视频帧：

获取多个设置于不同位置的视频采集部件分别采集的视频图像；

对多个所述视频图像进行解码，得到所述多个视频帧。

在一种实施方式中，所述根据所述视频图像对应的多个视频帧中，不同视频帧之间的图像相似度，在所述多个视频帧中提取关键视频帧，包括：

按照每个视频图像对应的视频采集部件的位置，将多个所述视频图像进行分类；其中，每类视频图像位于同一位置区域；

针对每类视频图像，根据该类视频图像对应的多个视频帧中，不同视频帧之间的图像相似度，在所述多个视频帧中提取关键视频帧。

在一种实施方式中，根据以下步骤确定不同视频帧之间的图像相似度：

确定每个视频帧对应的图像特征向量；

计算不同视频帧对应的图像特征向量之间的余弦相似度，将该余弦相似度作为所述图像相似度。

在一种实施方式中，确定每个视频帧对应的图像特征向量，包括：

对每个视频帧按照图像坐标系划分成多个连通区域；

提取每个视频帧的多个连通区域的方向梯度直方图特征；

基于每个视频帧的所述方向梯度直方图特征，得到该视频帧的图像特征向量。

在一种实施方式中，根据不同视频帧之间的图像相似度，在所述多个视频帧中提取关键视频帧，包括：

针对同一视频图像，将该视频图像的第一个视频帧作为第一视频帧，执行以下步骤：

依次比较所述第一视频帧后续的每一个视频帧与该第一视频帧之间的图像相似度，直到查找到与该第一视频帧之间的图像相似度低于设定阈值的第二视频帧；

将该第一视频帧和第二视频帧作为关键视频帧，并将该第二视频帧作为下一个第一视频帧，返回所述依次比较所述第一视频帧后续的每一个视频帧与该第一视频帧之间的图像相似度的步骤，直到提取到该视频图像的所有关键视频帧。

在一种实施方式中，所述基于预先训练的目标对象检测模型，检测所述关键视频帧中的目标对象信息，包括：

将所述关键视频帧输入预先训练的目标对象检测模型进行目标对象识别，得到所述关键视频帧中的目标对象位置标注结果；

基于目标对象位置标注结果，将未标有目标对象位置的关键视频帧删除，得到具有目标对象信息的关键视频帧。

在一种实施方式中，根据以下方式训练得到所述目标对象检测模型：

获取训练样本集，所述训练样本集中包括标注目标对象位置的视频帧样本、所述标注目标对象位置的视频帧样本分别对应的未标注目标对象位置的视频帧样本、以及没有目标对象的视频帧样本；

将所述训练样本集中的所述未标注目标对象位置的视频帧样本和所述没有目标对象的视频帧样本作为模型输入样本，将所述标注目标对象位置的视频帧样本作为模型输出样本，训练得到所述目标对象检测模型。

在一种实施方式中，所述目标对象为行人；检测出所述关键视频帧中的目标对象信息之后，还包括：

对具有目标对象信息的关键视频帧进行身份信息标注后，建立行人图像库。

第二方面，本申请实施例提供了一种目标对象识别装置，包括：

获取模块，用于获取包含待识别目标对象的视频图像；

提取模块，用于根据所述视频图像对应的多个视频帧中，不同视频帧之间的图像相似度，在所述多个视频帧中提取关键视频帧；

检测模块，用于基于预先训练的目标对象检测模型，检测所述关键视频帧中的目标对象信息。

在一种实施方式中，所述获取模块，具体用于：

对多个所述视频图像进行解码，得到所述多个视频帧。

在一种实施方式中，所述提取模块，具体用于：

在一种实施方式中，所述提取模块，还用于：

确定每个视频帧对应的图像特征向量；

在一种实施方式中，所述提取模型，具体用于：

对每个视频帧按照图像坐标系划分成多个连通区域；

提取每个视频帧的多个连通区域的方向梯度直方图特征；

在一种实施方式中，所述提取模块，具体用于：

针对同一视频图像，将该视频图像的第一个视频帧作为第一视频帧，依次比较所述第一视频帧后续的每一个视频帧与该第一视频帧之间的图像相似度，直到查找到与该第一视频帧之间的图像相似度低于设定阈值的第二视频帧；

在一种实施方式中，所述检测模块，具体用于：

在一种实施方式中，还包括模型训练模块，所述模型训练模块用于：

在一种实施方式中，所述目标对象为行人；还包括图像库建立模块，所述图像库建立模块用于：

检测出所述关键视频帧中的目标对象信息之后，对具有目标对象信息的关键视频帧进行身份信息标注后，建立行人图像库。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如第一方面所述的目标对象识别方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面所述的目标对象识别方法的步骤。

本申请实施例提供的目标对象识别方法、装置、电子设备及存储介质，通过获取包含待识别目标对象的视频图像；根据视频图像对应的多个视频帧中，不同视频帧之间的图像相似度，在多个视频帧中提取关键视频帧；基于预先训练的目标对象检测模型，检测关键视频帧中的目标对象信息。

可见本申请实施例通过获取包含待识别目标对象的视频图像，来增大图像的数据来源，当基于视频图像得到多个视频帧后，考虑到来自于视频图像中不同视频帧之间冗余性，比如不同视频帧中的目标对象信息相同，为了减少后期对具有相同目标对象信息的重复检测，基于不同视频帧之间的图像相似度，提取出关键视频帧，最后再通过预先训练的目标对象检测模型，检测关键视频帧中的目标对象信息，这样借助目标对象检测模型，不再需要通过人工来检测，从而加快了对目标对象的检测速度。也即，本申请实施例不仅提高了初始用于检测目标对象的视频帧的数据量，而且通过提取关键视频帧的方式减少了视频帧的冗余性，从而提高了对视频帧中目标对象进行检测的速度和准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种目标对象识别方法流程图；

图2示出了本申请实施例所提供的一种关键视频帧的提取方法流程图；

图3示出了本申请实施例所提供的不同视频帧之间的图像相似度的确定方法流程图；

图4示出了本申请实施例所提供的一种关键视频帧的具体提取方法流程图；

图5示出了本申请实施例所提供的一种检测关键视频帧中的目标对象信息的方法流程图；

图6示出了本申请实施例所提供的一种目标对象检测模型的训练方法流程图；

图7示出了本申请实施例所提供的一种目标对象识别装置结构示意图；

图8示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中的附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中的目标对象识别方法可以是针对各种类型的目标对象的识别，比如在针对动物界各种物种类别的识别，目标对象可以为各种具体的动物类别；还可以是针对行人的识别，比如可以在建立的行人数据集(数据集指的是指包括多个图像，每个图像中具有行人的具体信息，比如行人的特征信息和身份信息)中，查找是否存在某个特定的行人，本申请实施例将以对行人的识别为例进行说明，引入行人检测技术和行人重识别技术，行人检测(Pedestrian Detection)是利用计算机视觉技术判断图像或者视频序列中是否存在行人并给予精确定位，行人重识别(Person re-identification)也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术，在进行行人识别之前，可以通过行人检测技术先确定图像或者视频序列中是否包含特定行人，然后通过人工标注的方式给特定行人标注身份信息后，建立包含特定行人的数据集，然后再基于该数据集和行人重识别技术对待识别的行人进行识别，数据集的建立速度以及数据集中数据量的大小，对后期基于该数据集进行行人识别有着关键性影响，基于此，本申请实施例提供了一种目标对象识别方法、装置、电子设备和存储介质，将在本申请实施例中进行具体阐述。

如图1所示，为本申请实施例提供的一种目标对象识别方法，包括以下具体步骤S101～S103：

S101，获取包含待识别目标对象的视频图像。

在本申请实施例中，这里的待识别目标对象为行人，即获取包含行人的视频图像，为了获取到各种不同场景的视频图像，可以通过获取多个设置于不同位置的视频采集部件分别采集的视频图像。

比如针对同一个城市，可以获取设置于该城市不同的人群密集区域的视频采集部件采集的视频图像，比如获取设置于大型超市、购物商场、各个交通枢纽区域比如地铁口、火车站、十字路口等区域的视频采集部件采集的视频图像。

获取到不同位置的视频采集部件采集的视频图像后，可以对这些视频图像进行解码，得到多个视频帧，具体在对视频图像进行解码时，可以按照不同的视频采集部件的采集频率解码成与采集频率对应帧数的视频帧。

比如某个大型超市设置了3个视频采集部件，可以为监控摄像头，如果它们的采集频率为50帧/秒，则每台监控摄像头1分钟采集的视频图像，就可以被解码成3000帧视频帧。这样该大型超市的3个监控摄像头在设定时间段，比如1小时内就可以提供大量的视频帧，这样所有的不同位置的视频采集部件在1小时内可提供的视频帧的数量就更多。

比如以北京市为例，可以获取设置在北京市的不同人群密集区域的视频采集部件在设定时长内采集到的视频图像，比如获取设置在北京市的地铁站、各类大型超市、重要道路的十字路口和火车站的视频采集部件采集到的视频图像，然后按照这些视频采集部件各自的采集频率进行解密，得到超大数量的视频帧，通过这些视频帧中能够得到大量的包括行人的视频帧。

由于这些视频帧来源于不同的位置区域，故包括大量不同场景下的行人图像，对后期在进行行人检测时提供充足的行人图像样本，这样基于这些行人图像样本生成的行人数据集因为包括大量不同场景的行人图像，且数据量足够大，故在通过该行人数据集进行行人识别时，就能够加快对行人的重识别速度和准确度。

比如，生成的行人数据集包括了多种不同的场景下的行人数据集，如地铁A行人数据集、地铁B行人数据集、学校A行人数据集、学校B行人数据集和十字路口A行人数据集，当待识别的行人图像的场景属于地铁B时，可以优先基于地铁B行人数据集对该待识别的行人图像进行识别。

S102，根据视频图像对应的多个视频帧中，不同视频帧之间的图像相似度，在多个视频帧中提取关键视频帧。

根据上述过程，不同位置的每个视频采集部件采集的视频图像都包括多个视频帧，比如以采集频率为50帧/秒的视频采集部件为例，其1分钟内采集的视频图像可以解码得到3000帧视频帧，如果要获取24小时内的视频图像，则得到的不同位置的视频图像对应的视频帧数量巨大，考虑到相邻帧之间的重复性，比如同一个视频采集部件采集的相邻两帧视频帧，其内容可能完全一致，或者差别很小，在大量的视频帧中，这样相似的视频帧可能会很多，这样致使得到的多个视频帧存在一定的冗余性，为了减少冗余性，这里可以基于不同视频帧之间的图像相似度，在多个视频帧中进行筛选，从而筛选出关键视频帧。

具体在从多个视频帧中筛选关键视频帧的过程，如图2所示，具体可以包括以下步骤S201～S202：

S201，按照每个视频图像对应的视频采集部件的位置，将多个视频图像进行分类；其中，每类视频图像位于同一位置区域。

获取到的视频图像可能是由设置于不同位置的不同视频采集部件采集到的，比如由设置在某市的地铁站A进站口和地铁站B进站口的视频采集部件采集到的；获取到的视频图像也可能是由位于同一位置的不同视频采集部件采集的，比如由设置在某市的地铁站A进站口的两台视频采集部件采集到的。

因为设置在相同位置的视频采集部件在相同的时间段或者间隔设定时间段内采集到的视频图像中包含的行人为相同行人的概率比较大，故将位于同一位置区域的视频采集部件采集到的视频图像划分为一类，这样可以将同一类的视频图像解码得到的视频帧也划分为同一类，这样在后期进行关键视频帧的提取时，较为方便，比如某个地铁站的进站口包括4个视频采集部件，每个视频采集部件1分钟采集的视频图像可以分为3000帧视频帧，可以对这四个视频采集部件采集的视频图像中的视频帧分别提取关键视频帧，也可以将这四个视频采集部件采集的视频帧分为一类后，一起进行提取关键视频帧，同一类视频帧中提取出的关键视频帧中包含相同行人的概率较高，可以提高后期对这些关键视频帧进行人工标注身份信息的速度。

另外，位于同一位置区域的视频图像解码后得到的多个视频帧，属于同一个应用场景，针对多个位置区域的视频图像，将属于同一位置区域的视频图像对应的视频帧划分到同一类，便于后期形成多种对应不同场景的关键视频帧，进而生成不同场景的行人数据集。

S202，针对每类视频图像，根据该类视频图像对应的多个视频帧中，不同视频帧之间的图像相似度，在多个视频帧中提取关键视频帧。

这里针对每类视频图像对应的视频帧，可以基于不同视频帧之间的图像相似度，提取出关键的视频帧，比如获取到的设置在某地铁站A的进站口的4个视频采集部件采集到的视频图像对应的多个视频帧，可以根据每两个视频帧之间的图像相似度，筛选出关键视频帧。

上述提到的图像相似度，能够用来筛选多个视频帧中内容相似的视频帧，在一种实施方式中，如图3所示，可以根据以下步骤确定不同视频帧之间的图像相似度，具体包括S301～S302：

S301，确定每个视频帧对应的图像特征向量。

具体地，本申请实施例中确定每个视频帧对应的图像特征向量，包括以下步骤：

(1)对每个视频帧按照图像坐标系划分成多个连通区域。

比如将每个视频帧按照图像坐标系划分为4*4的连通区域，这样每个视频帧就被划分为16个连通区域。

(2)提取每个视频帧的多个连通区域的方向梯度直方图特征。

针对每个视频帧的每个连通区域均进行获取方向梯度直方图特征，上述被划分为16个连通区域的视频帧就对应16个方向特度直方图特征。

(3)基于每个视频帧的方向梯度直方图特征，得到该视频帧的图像特征向量。

按照任一视频帧的多个连通区域的方向梯度直方图特征，可以按照一定的顺序组成该任一视频帧的图像特征向量，这样按照同样的方式可以得到每个视频帧的图像特征向量。

以上是通过提取视频帧的方向梯度直方图特征来确定的图像特征向量，方向梯度直方图特征可以保留视频帧中的轮廓、纹理等信息，并弱化图像光照的影响，同时提取容易，这样通过方向梯度直方图特征来确定每个视频帧的图像特征向量的速度就较快，基于图像特征向量来确定不同的视频帧之间的图像相似度的过程也就较快，从而能够快速的找到相同或者相似的视频帧并进行过滤，就快速地降低了视频帧的冗余性。

S302，计算不同视频帧对应的图像特征向量之间的余弦相似度，将该余弦相似度作为图像相似度。

具体地，在每个视频帧的图像特征向量确定后，可以通过该图像特征向量来计算不同视频帧之间的余弦相似度，具体可以通过余弦相似度计算公式进行计算，在这里不再赘述，得到不同视频帧之间的余弦相似度后，可以通过该余弦相似度作为图像相似度，比如两个不同的视频帧之间的余弦相似度为0.8，则可以认为这两个不同的视频帧之间的图像相似度为0.8。

根据不同视频帧之间的图像相似度，在多个视频帧中提取关键视频帧的过程，可以包括多种，以一种实施方式为例，比如针对同一视频图像，将该视频图像的第一个视频帧作为第一视频帧，如图4所示，提取该视频图像中的关键视频帧具体包括以下步骤：S401～S402：

S401，依次比较第一视频帧后续的每一个视频帧与该第一视频帧之间的图像相似度，直到查找到与该第一视频帧之间的图像相似度低于设定阈值的第二视频帧。

比如某个视频图像L1包括1000个视频帧，针对该1000个视频帧进行提取关键视频帧的过程可以如下：

从第一个视频帧开始，将第一个视频帧作为第一视频帧，比较第二个视频帧与第一视频帧的图像相似度，若第二个视频帧与第一视频帧的图像相似度不低于设定阈值，比如设定阈值为0.7，若第二个视频帧与第一视频帧的图像相似度为0.75，则继续比较第三个视频帧与第一视频帧之间的图像相似度，若第三个视频帧与第一视频帧之间的相似度仍然不低于0.7，则继续比较第四个视频帧与第一视频帧之间的相似度，按照这样的顺序直到找到与第一视频帧的图像相似度小于0.7的视频帧，将与第一视频帧的图像相似度小于0.7的视频帧称为第二视频帧，即直到找到第二视频帧位置为止，就可以找到该视频图像L1中的部分关键视频帧(第一视频帧和第二视频帧)，然后开始执行步骤S402，继续找该视频图像中的其他关键视频帧。

S402，将该第一视频帧和第二视频帧作为关键视频帧，并将该第二视频帧作为下一个第一视频帧，返回依次比较第一视频帧后续的每一个视频帧与该第一视频帧之间的图像相似度的步骤，直到提取到该视频图像的所有关键视频帧。

将步骤S401中找到第二视频帧和第一视频帧作为关键视频帧提取出来后，可以将第二视频帧和第一视频帧之间的视频帧都删除掉，只保留第一视频帧和第二视频帧，然后从第二视频帧的下一个视频帧开始，将第二视频帧的下一个视频帧开始作为第一视频帧，重新开始依次比较第一视频帧后续的每一个视频帧与该第一视频帧之间的图像相似度的步骤，按照这样的过程，提取出上述视频图像LI中的1000个视频帧中的所有关键视频帧，即完成对该视频图像LI的关键视频帧提取。

具体地，当获取到所有不同位置区域的视频图像对应的视频帧后，在提取关键视频帧过程中，可以按照上述视频图像因位置区域的不同划分好的类别，来提取视频关键帧，按照顺序依次将属于同一类的视频图像对应的视频帧中的全部关键视频帧均提取完毕后，再提取下一同一类的视频图像对应的视频帧中的全部关键视频帧，比如获取到的五类视频图像，第一类视频图像为来自北京市的超市A的5个视频图像，第二类视频图像为来自北京市地铁站B的3个视频图像，第三类视频图像为来自北京市来自地铁站C的3个视频图像，第四类视频图像为来自北京市来自十字路口D的3个视频图像，第五类视频图像为来自北京市来自火车站E的5个视频图像，则可以按照设定的类别顺序，依次提取每一类视频图像对应的视频帧中的关键视频帧，具体在提取同一类视频图像对应的视频帧中的关键视频帧时，可以按照该同一类视频图像中提前确定好的每个视频图像的顺序，依次提取关键视频帧，比如针对第一类视频图像中的5个视频图像，可以先提取第1个视频图像中的关键视频帧，然后再提取第2个视频图像中的关键视频帧，这样依次提取完第一类视频图像中的所有关键视频帧，当提取完第一类视频图像中的所有关键视频帧后，再提取第二类视频图像中的第1个视频图像至第3个视频图像中的所有关键视频帧，依次下去直到提取完这五类视频图像中的所有关键视频帧。

提取出来的关键视频帧排除了相似度很高的视频帧，大大减少了视频帧的冗余性，同时又因为关键视频帧来自于不同的场景，因而又保证了视频帧的多样性，接下来需要对每个关键视频帧进行目标对象检测，以找到包含目标对象的关键视频帧，在本申请实施例中，即找到包含行人的关键视频帧。

S103，基于预先训练的目标对象检测模型，检测关键视频帧中的目标对象信息。

当本申请实施例中的目标对象为行人时，这里的目标对象检测模型可以为行人检测模型，该行人检测模型能够检测出一张视频帧中是否包含行人信息，若通过行人检测模型检测视频帧中包括出行人信息，则可以确定该视频帧中包括行人。

具体地，这里的行人信息可以包括行人的位置信息。

具体地，步骤S103中，基于预先训练的目标对象检测模型，检测关键视频帧中的目标对象信息，如图5所示，包括以下具体步骤S501～S502：

S501，将关键视频帧输入预先训练的目标对象检测模型进行目标对象识别，得到关键视频帧中的目标对象位置标注结果。

在本申请实施例中，可以将得到每个关键视频帧输入预先训练的好的行人检测模型，得到关键视频帧中行人位置标注结果，这里的标注结果可以是视频帧中包括行人，或者视频帧中不包括行人，包括行人的要标注出行人在视频帧中位置。

具体地，当一个关键视频帧中包括多个行人时，行人检测模型可以标出与多个行人对应的多个标注结果，比如一个关键视频帧中包含5个行人，则行人检测模型会标注出这5个行人对应的位置，对应地还会标注出这5个行人对应的置信度，置信度最高的行人的位置可以在后期进行行人数据集建立时，作为该关键视频帧要保留的行人信息，其他行人信息则可以删除。

S502，基于目标对象位置标注结果，将未标有目标对象位置的关键视频帧删除，得到具有目标对象信息的关键视频帧。

这里的目标对象信息即指行人的位置信息，比如一个视频帧中出现了1个行人，目标对象信息就是标出的1个行人的位置信息。

根据对每个关键视频帧的行人位置标注结果，将未标有行人位置的关键视频帧删除掉，剩下的视频帧都是标注了行人位置的关键视频帧。

具体地，上文多次提到的目标对象检测模型，如图6所示，根据以下方式训练得到，具体包括步骤S601～S602：

S601，获取训练样本集，训练样本集中包括标注目标对象位置的视频帧样本、标注目标对象位置的视频帧样本分别对应的未标注目标对象位置的视频帧样本、以及没有目标对象的视频帧样本。

当目标对象为行人时，即这里的训练样本集中包括标注行人位置的视频帧样本、标注行人位置的视频帧样本分别对应的未标志行人位置的视频帧样本和没有行人的视频帧样本。

这里未标注行人位置的视频帧样本指的是视频帧中存在行人但是未进行标注出来的视频帧，这里未标注行人位置的视频帧样本的数量与没有目标对象的视频帧样本的数量应该接近，可以提高目标对象检测模型的检测准确度。

S602，将训练样本集中的未标注目标对象位置的视频帧样本和没有目标对象的视频帧样本作为模型输入样本，将标注目标对象位置的视频帧样本作为模型输出样本，训练得到目标对象检测模型。

将这些未标注行人位置的视频帧样本和没有行人的视频帧样本作为模型输入特征，将标注行人位置的视频帧样本作为模型输出特征，输入到预设的学习模型中进行训练，得到目标对象检测模型。

这里的学习模型可以分类树模型、逻辑回归模型、神经网络模型中的一种或者几种的结合，在此不做具体阐述。

在一种实施方式中，以目标对象为行人为例；检测出关键视频帧中的目标对象信息之后，还包括：

这里的行人图像库即可以为包括上文提到的行人数据集的图像库，比如检测出关键视频帧中的包含行人信息后，可以对这些关键视频帧中的行人进行识别后标注其身份信息，然后将每个关键视频帧中的行人信息和其对应的身份信息关联后进行存储，再具体地，可以将每个关键视频帧中的行人信息、方向梯度直方图特征信息以及对应的身份信息进行关联存储，得到行人数据集，以使后期可以通过该行人数据集对行人进行再识别。

本申请实施例提供的目标对象识别方法，通过获取包含待识别目标对象的视频图像；根据视频图像对应的多个视频帧中，不同视频帧之间的图像相似度，在多个视频帧中提取关键视频帧；基于预先训练的目标对象检测模型，检测关键视频帧中的目标对象信息。

可见本申请实施例通过获取包含待识别目标对象的视频图像，来增大图像的数据来源，当基于视频图像得到多个视频帧后，考虑到来自于视频图像中不同视频帧之间冗余性，比如不同视频帧中的目标对象信息相同，为了减少后期对具有相同目标对象信息的重复检测，基于不同视频帧之间的图像相似度，提取出关键视频帧，最后再通过预先训练的目标对象检测模型，检测关键视频帧中的目标对象信息，这样借助目标对象检测模型，不再需要通过人工来检测，从而加快了检测速度。也即，本申请实施例不仅提高了初始用于检测目标对象的视频帧的数据量，而且通过提取关键视频帧的方式减少了视频帧的冗余性，从而提高了对视频帧中目标对象进行检测的速度和准确性。

基于上述实施例，本申请还提供了目标对象识别装置，下述各种装置的实施可以参见方法的实施，重复之处不再赘述。

本申请实施例提供了一种目标对象识别装置700，如图7所示，包括：

获取模块701，用于获取包含待识别目标对象的视频图像。

提取模块702，用于根据视频图像对应的多个视频帧中，不同视频帧之间的图像相似度，在多个视频帧中提取关键视频帧。

检测模块703，用于基于预先训练的目标对象检测模型，检测关键视频帧中的目标对象信息。

在一种实施方式中，获取模块701，具体用于：

获取多个设置于不同位置的视频采集部件分别采集的视频图像。

对多个视频图像进行解码，得到多个视频帧。

在一种实施方式中，提取模块702，具体用于：

按照每个视频图像对应的视频采集部件的位置，将多个视频图像进行分类；其中，每类视频图像位于同一位置区域。

针对每类视频图像，根据该类视频图像对应的多个视频帧中，不同视频帧之间的图像相似度，在多个视频帧中提取关键视频帧。

在一种实施方式中，提取模块702，还用于：

确定每个视频帧对应的图像特征向量。

计算不同视频帧对应的图像特征向量之间的余弦相似度，将该余弦相似度作为图像相似度。

在一种实施方式中，提取模型702，具体用于：

对每个视频帧按照图像坐标系划分成多个连通区域。

提取每个视频帧的多个连通区域的方向梯度直方图特征。

在一种实施方式中，提取模块702，具体用于：

针对同一视频图像，将该视频图像的第一个视频帧作为第一视频帧，依次比较第一视频帧后续的每一个视频帧与该第一视频帧之间的图像相似度，直到查找到与该第一视频帧之间的图像相似度低于设定阈值的第二视频帧。

将该第一视频帧和第二视频帧作为关键视频帧，并将该第二视频帧作为下一个第一视频帧，返回依次比较第一视频帧后续的每一个视频帧与该第一视频帧之间的图像相似度的步骤，直到提取到该视频图像的所有关键视频帧。

在一种实施方式中，检测模块703，具体用于：

将关键视频帧输入预先训练的目标对象检测模型进行目标对象识别，得到关键视频帧中的目标对象位置标注结果。

在一种实施方式中，还包括模型训练模块704，模型训练模块704用于：

获取训练样本集，训练样本集中包括标注目标对象位置的视频帧样本、标注目标对象位置的视频帧样本分别对应的未标注目标对象位置的视频帧样本、以及没有目标对象的视频帧样本。

将训练样本集中的未标注目标对象位置的视频帧样本和没有目标对象的视频帧样本作为模型输入样本，将标注目标对象位置的视频帧样本作为模型输出样本，训练得到目标对象检测模型。

在一种实施方式中，目标对象为行人；还包括图像库建立模块705，图像库建立模块705用于：

检测出关键视频帧中的目标对象信息之后，对具有目标对象信息的关键视频帧进行身份信息标注后，建立行人图像库。

上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任何一个模块可以分成两个或更多个单元。

本申请实施例提供的目标对象识别装置，包括获取模块，用于获取包含待识别目标对象的视频图像；提取模块，用于根据视频图像对应的多个视频帧中，不同视频帧之间的图像相似度，在多个视频帧中提取关键视频帧；检测模块，用于基于预先训练的目标对象检测模型，检测关键视频帧中的目标对象信息。

本申请实施例还提供了一种电子设备800，电子设备800可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的服务选择预测方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

如图8所示，电子设备800可以包括连接到网络的网络端口801、用于执行程序指令的一个或多个处理器802、通信总线803、和不同形式的存储介质804，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备800还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口805。

为了便于说明，在电子设备800中仅描述了一个处理器。然而，应当注意，本申请中的电子设备800还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备800的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

下面以一个处理器为例，处理器802执行存储介质804中存储的如下程序指令：

获取包含待识别目标对象的视频图像。

根据视频图像对应的多个视频帧中，不同视频帧之间的图像相似度，在多个视频帧中提取关键视频帧。

基于预先训练的目标对象检测模型，检测关键视频帧中的目标对象信息。

在一种实施方式中，处理器802执行的程序指令具体包括：

对多个视频图像进行解码，得到多个视频帧。

在一种实施方式中，处理器802执行的程序指令具体包括：

确定每个视频帧对应的图像特征向量。

在一种实施方式中，处理器802执行的程序指令具体包括：

对每个视频帧按照图像坐标系划分成多个连通区域。

提取每个视频帧的多个连通区域的方向梯度直方图特征。

基于每个视频帧的方向梯度直方图特征，得到该视频帧的图像特征向量。

在一种实施方式中，处理器802执行的程序指令具体包括：

依次比较第一视频帧后续的每一个视频帧与该第一视频帧之间的图像相似度，直到查找到与该第一视频帧之间的图像相似度低于设定阈值的第二视频帧。

在一种实施方式中，处理器802执行的程序指令具体包括：

目标对象为行人；在一种实施方式中，处理器802执行的程序指令具体还包括：

对应于图1至图6中的目标对象识别方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述目标对象识别方法的步骤。

具体地，该计算机可读存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述目标对象识别方法，从而解决目前建立的行人数据集的标注数量较少，导致行人重识别效果较差的问题。

基于相同的技术构思，本申请实施例还提供了一种计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行上述目标对象识别方法的步骤，具体实现可参见上述方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种目标对象识别方法，其特征在于，包括：

获取包含待识别目标对象的视频图像；

2.根据权利要求1所述的方法，其特征在于，根据以下步骤确定所述视频图像对应的多个视频帧：

对多个所述视频图像进行解码，得到所述多个视频帧。

3.根据权利要求2所述的方法，其特征在于，所述根据所述视频图像对应的多个视频帧中，不同视频帧之间的图像相似度，在所述多个视频帧中提取关键视频帧，包括：

4.根据权利要求1所述的方法，其特征在于，根据以下步骤确定不同视频帧之间的图像相似度：

确定每个视频帧对应的图像特征向量；

5.根据权利要求4所述的方法，其特征在于，确定每个视频帧对应的图像特征向量，包括：

对每个视频帧按照图像坐标系划分成多个连通区域；

提取每个视频帧的多个连通区域的方向梯度直方图特征；

6.根据权利要求1所述的方法，其特征在于，根据不同视频帧之间的图像相似度，在所述多个视频帧中提取关键视频帧，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于预先训练的目标对象检测模型，检测所述关键视频帧中的目标对象信息，包括：

8.根据权利要求7所述的方法，其特征在于，根据以下方式训练得到所述目标对象检测模型：

9.根据权利要求1所述的方法，其特征在于，所述目标对象为行人；检测出所述关键视频帧中的目标对象信息之后，还包括：

10.一种目标对象识别装置，其特征在于，包括：

获取模块，用于获取包含待识别目标对象的视频图像；

11.根据权利要求10所述的装置，其特征在于，所述获取模块，具体用于：

对多个所述视频图像进行解码，得到所述多个视频帧。

12.根据权利要求11所述的装置，其特征在于，所述提取模块，具体用于：

13.根据权利要求10所述的装置，其特征在于，所述提取模块，还用于：

确定每个视频帧对应的图像特征向量；

14.根据权利要求13所述的装置，其特征在于，所述提取模型，具体用于：

对每个视频帧按照图像坐标系划分成多个连通区域；

提取每个视频帧的多个连通区域的方向梯度直方图特征；

15.根据权利要求10所述的装置，其特征在于，所述提取模块，具体用于：

16.根据权利要求10所述的装置，其特征在于，所述检测模块，具体用于：

17.根据权利要求16所述的装置，其特征在于，还包括模型训练模块，所述模型训练模块用于：

18.根据权利要求10所述的装置，其特征在于，所述目标对象为行人；还包括图像库建立模块，所述图像库建立模块用于：

19.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至9任一所述的目标对象识别方法的步骤。

20.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至9任一所述的目标对象识别方法的步骤。