CN108985131B

CN108985131B - 一种目标识别方法及图像处理设备

Info

Publication number: CN108985131B
Application number: CN201710400035.8A
Authority: CN
Inventors: 马良; 谢迪; 浦世亮
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2017-05-31
Filing date: 2017-05-31
Publication date: 2021-02-05
Anticipated expiration: 2037-05-31
Also published as: CN108985131A

Abstract

本发明实施例公开了一种目标识别方法及图像处理设备，在本方案中，将多张图像输入至深度卷积神经网络，通过训练得到深度特征网络，利用该深度特征网络，识别视频帧图像中目标的特征，再结合预先存储的特征与身份的对应关系，识别该目标的身份；由此可见，一方面，本方案中，并不需要利用各台摄像机之间的标定信息，即使摄像机的位置发生变化，也不会影响目标识别的准确度，另一方面，本方案中，基于深度特征网络进行目标识别，深度特征网络基于大量图像训练得到，携带的信息更丰富，识别准确度更高。

Description

一种目标识别方法及图像处理设备

技术领域

本发明涉及机器视觉技术领域，特别涉及一种目标识别方法及图像处理设备。

背景技术

目前，许多场景中都设置有监控设备，比如，商场、学校、写字楼等场景中，通常设置有多台摄像机对场景进行监控。与摄像机相连的图像处理设备对摄像机采集到的图像进行分析，根据分析结果，可以识别图像中的目标。

现有的识别方案一般包括：人工对一台摄像机采集的图像中的目标进行身份标记，利用该身份标记、以及各台摄像机之间的标定信息，便可以在各台摄像机采集的图像中，识别出目标的身份。

上述方案中，如果摄像机的位置发生变化，则需要重新标定，否则会导致目标识别不准确。

发明内容

本发明实施例的目的在于提供一种目标识别方法及图像处理设备，提高识别准确度。

为达到上述目的，本发明实施例公开了一种目标识别方法，包括：

检测视频帧图像中的目标；

将所述目标所在的图像区域输入至深度特征网络中，得到所述目标的特征；其中，所述深度特征网络为：将多张图像输入至深度卷积神经网络训练得到；

在预先存储的特征与身份的对应关系中，查找与所述特征相匹配的身份；

将查找到的身份确定为目标识别结果。

可选的，所述检测视频帧图像中的目标，可以包括：

利用图像检测算法，检测视频帧图像中的目标；

或者，将视频帧图像与预先设定的目标模型进行匹配，将匹配成功的图像区域确定为目标所在的图像区域；

或者，将视频帧图像输入至检测器，根据输出结果，确定目标所在的图像区域。

可选的，所述检测视频帧图像中的目标，可以包括：

检测当前视频帧图像中的第一目标；

将所述第一目标与所述当前视频帧图像之前的视频帧图像中的第二目标进行匹配；

根据匹配结果，确定所述当前视频帧图像中的目标。

可选的，所述将所述第一目标与所述当前视频帧图像之前的视频帧图像中的第二目标进行匹配，可以包括：

计算所述第一目标对应的第一矩形框与所述第二目标对应的第二矩形框的重叠率；

利用预设关联算法及所述重叠率，对每个第一目标及每个第二目标进行数据关联；

所述根据匹配结果，确定所述当前视频帧图像中的目标，可以包括：

将与第二目标存在关联关系的第一目标确定为匹配成功的第一目标；

将与第二目标不存在关联关系的第一目标确定为未匹配成功的第一目标；

将所述匹配成功的第一目标确定为所述当前视频帧图像中的目标；

确定所述未匹配成功的第一目标的置信度；

在所述置信度大于第一预设阈值的情况下，将所述未匹配成功的第一目标确定为所述当前视频帧图像中的目标。

可选的，所述将所述匹配成功的第一目标确定为所述当前视频帧图像中的目标，可以包括：

利用卡尔曼滤波算法，对所述匹配成功的第一目标进行校正；

将校正后的目标确定为所述当前视频帧图像中的目标。

可选的，所述根据匹配结果，确定所述当前视频帧图像中的目标，还包括：

将与第一目标不存在关联关系的第二目标确定为未匹配成功的第二目标；

判断所述未匹配成功的第二目标是否与所述当前视频帧图像之前的预设数量帧图像中的目标均未匹配成功；

如果否，将所述匹配成功的第二目标确定为所述当前视频帧图像中的目标。

可选的，训练得到所述深度特征网络的过程包括：

获取多张图像，所述多张图像中包含多角度下的同一目标；

将所述多张图像中的目标所在区域输入至深度卷积神经网络；

利用随机梯度下降算法，对所述多角度下的同一目标进行分类训练，反向传播计算所述深度卷积神经网络中各层参数；

根据所述各层参数，构建所述深度特征网络。

可选的，所述特征与身份的对应关系以数据表的形式存储，在所述数据表中，身份用键表示、特征用值表示；

所述在预先存储的特征与身份的对应关系中，查找与所述特征相匹配的身份，可以包括：

采用倒排索引的方式，在所述数据表中，查找与所述特征的相似度满足预设规则的目标值；

计算所述特征与每个目标值的距离；

将最小距离对应的目标键确定为与所述特征相匹配的身份。

可选的，在所述将最小距离对应的目标键确定为与所述特征相匹配的身份之前，还可以包括：

判断最小距离是否小于第二预设阈值；

如果是，将最小距离对应的目标键确定为与所述特征相匹配的身份。

可选的，在所述将最小距离对应的目标键确定为与所述特征相匹配的身份之后，还可以包括：

将所述特征确定为新增值；

在所述数据表中，存储所述新增值与所述目标键的对应关系。

可选的，所述视频帧图像包括至少两台图像采集设备所采集的图像；在所述将查找到的身份确定为目标识别结果之后，还可以包括：

利用各台图像采集设备对应的目标识别结果，对所述各台图像采集设备所采集的图像中的目标进行跟踪。

为达到上述目的，本发明实施例还公开了一种图像处理设备，包括：处理器和存储器，其中，存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：

检测视频帧图像中的目标；

将查找到的身份确定为目标识别结果。

可选的，所述处理器还可以用于执行如下步骤：

利用图像检测算法，检测视频帧图像中的目标；

可选的，所述处理器还可以用于执行如下步骤：

检测当前视频帧图像中的第一目标；

根据匹配结果，确定所述当前视频帧图像中的目标。

可选的，所述处理器还可以用于执行如下步骤：

确定所述未匹配成功的第一目标的置信度；

可选的，所述处理器还可以用于执行如下步骤：

将校正后的目标确定为所述当前视频帧图像中的目标。

可选的，所述处理器还可以用于执行如下步骤：

获取多张图像，所述多张图像中包含多角度下的同一目标；

根据所述各层参数，构建所述深度特征网络。

可选的，所述特征与身份的对应关系以数据表的形式存储，在所述数据表中，用键表示、特征用值表示；

所述处理器还可以用于执行如下步骤：

计算所述特征与每个目标值的距离；

将最小距离对应的目标键确定为与所述特征相匹配的身份。

可选的，所述处理器还可以用于执行如下步骤：

在所述将最小距离对应的目标键确定为与所述特征相匹配的身份之前，判断最小距离是否小于第二预设阈值；

可选的，所述处理器还可以用于执行如下步骤：

在所述将最小距离对应的目标键确定为与所述特征相匹配的身份之后，将所述特征确定为新增值；

可选的，所述视频帧图像包括至少两台图像采集设备所采集的图像；所述处理器还可以用于执行如下步骤：

在所述将查找到的身份确定为目标识别结果之后，利用各台图像采集设备对应的目标识别结果，对所述各台图像采集设备所采集的图像中的目标进行跟踪。

应用本发明实施例，将多张图像输入至深度卷积神经网络，通过训练得到深度特征网络，利用该深度特征网络，识别视频帧图像中目标的特征，再结合预先存储的特征与身份的对应关系，识别该目标的身份；由此可见，一方面，本方案中，并不需要利用各台摄像机之间的标定信息，即使摄像机的位置发生变化，也不会影响目标识别的准确度，另一方面，本方案中，基于深度特征网络进行目标识别，深度特征网络基于大量图像训练得到，携带的信息更丰富，识别准确度更高。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种目标识别方法的流程示意图；

图2为本发明实施例中的深度卷积神经网络的结构示意图；

图3为本发明实施例中的一种应用场景示意图；

图4为本发明实施例中的另一种应用场景示意图；

图5为本发明实施例提供的一种图像处理设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决上述技术问题，本发明实施例提供了一种目标识别方法及图像处理设备。该方法可以应用于图像处理设备，或者也可以应用于具有图像处理功能的图像采集设备，或者也可以应用于其他具有图像处理功能的电子设备，具体不做限定。

下面首先对本发明实施例提供的一种目标识别方法进行详细说明。

图1为本发明实施例提供的一种目标识别方法的流程示意图，包括：

S101：检测视频帧图像中的目标。

如果执行本方案的设备(以下简称本设备)为图像处理设备，该图像处理设备与图像采集设备通信连接，本设备可以获取图像采集设备采集的视频帧图像，针对获取的每一视频帧图像，都可以利用本方案进行目标识别。

如果本设备为具有图像处理功能的图像采集设备，针对自身采集的每一视频帧图像，都可以利用本方案进行目标识别。

第一种实施方式，可以利用图像检测算法，检测视频帧图像中的目标。该图像检测算法有多种，比如，基于Canny算子的边缘检测算法、基于Sobel算子的边缘检测算法等等，具体不做限定。通过这些图像检测算法，可以确定出图像中的目标，本发明实施例中的“目标”可以为人体，也可以为其他物体，具体不做限定。

第二种实施方式，可以预先设定目标模型，将视频帧图像与该目标模型进行匹配，将匹配成功的图像区域确定为目标所在的图像区域。

以“目标”为人体为例来说，可以预先学习人体特征，基于学习结果设定人体模型，将视频帧图像与该人体模型进行匹配，匹配成功的图像区域即为人体所在的图像区域。具体的，可以匹配出目标矩形框，框内即为人体所在的图像区域。

或者，当目标为其他物体时，也可以针对该其他物体设定其对应的目标模型，将视频帧图像与该目标模型进行匹配，匹配成功的图像区域即为目标所在的图像区域。

第三种实施方式，可以将视频帧图像输入至检测器，根据输出结果，确定目标所在的图像区域。

该检测器可以为CNN(Convolutional Neural Network，卷积神经网络)检测器、RCNN(Region-based Convolutional Network)检测器，或者Faster RCNN(Faster Region-based Convolutional Network)检测器等，具体不做限定。Faster RCNN检测器受外部环境影响(比如，光照、摄像机运动等)较小，检测精度较高。

将视频帧图像输入至检测器，可以得到目标矩形框，框内即为目标所在的图像区域。如果该“目标”为人体，则可以得到人体矩形框。

作为一种实施方式，S101可以包括：检测当前视频帧图像中的第一目标；将所述第一目标与所述当前视频帧图像之前的视频帧图像中的第二目标进行匹配；根据匹配结果，确定所述当前视频帧图像中的目标。

假设当前处理的为视频中第t帧图像(当前视频帧图像为第t帧图像)，可以结合第t帧之前的视频帧图像中的目标，确定第t帧图像中的目标。具体的，可以结合第t帧之前的预设数量帧图像中的目标，为了简化说明，下面以“结合第t-1帧图像中的目标，确定第t帧图像中的目标”为例进行说明：

为了方便描述，这里将第t帧图像中的目标称为第一目标，将第t-1帧图像中的目标称为第二目标。将第一目标与第二目标进行匹配的过程可以包括：

计算所述第一目标对应的第一矩形框与所述第二目标对应的第二矩形框的重叠率；利用预设关联算法及所述重叠率，对每个第一目标及每个第二目标进行数据关联。

根据上面内容描述，利用目标模型、检测器等方式，可以在图像中确定出目标矩形框，第t帧图像及第t-1帧图像中都存在目标矩形框，为了方便描述，这里将第t帧图像中的矩形框称为第一矩形框，将第t-1帧图像中的矩形框称为第二矩形框。

计算第一矩形框与第二矩形框的重叠率：举个简单的例子，可以将两个矩形框的交集面积与并集面积的比值作为该重叠率。或者，也可以采用其他方式，比如，将第一矩形框中像素点与第二矩形框中像素点进行对比，得到该重叠率，等等，具体不做限定。

然后利用关联算法，对该重叠率进行数据关联运算。具体的，该关联算法可以为Kuhn-Munkres算法，进行数据关联运算后，可以得到第一目标与第二目标的关联关系。在本实施方式中，将与第二目标存在关联关系的第一目标确定为匹配成功的第一目标；将与第二目标不存在关联关系的第一目标确定为未匹配成功的第一目标。

对于匹配成功的第一目标，可以直接将其确定为第t帧图像中的目标。对于未匹配成功的第一目标，可以确定其置信度，具体的，以“目标”为人体为例来说，该置信度表示第一目标为人体的概率，可以针对该置信度设定阈值(第一预设阈值)，仅在该未匹配成功的第一目标的置信度大于第一预设阈值的情况下，将该未匹配成功的第一目标确定为第t帧图像中的目标。

本领域技术人员可以理解，对于匹配成功的目标，表示该目标持续存在于第t-1帧图像、第t帧图像中，这种情况，误检测的概率较低，可以直接认为该目标的确存在于第t帧图像中；而未匹配成功的目标，可能为第t帧图像中新出现的目标，也可能为误检测出的目标，这种情况下，需要确定该目标的置信度，置信度大于阈值，表示该目标为新出现的目标，将其确定为第t帧图像中的目标。

作为一种实施方式，在将匹配成功的第一目标确定为所述当前视频帧图像中的目标之前，可以先利用卡尔曼滤波算法，对该匹配成功的第一目标进行校正；然后将校正后的目标确定为所述当前视频帧图像中的目标。

本领域技术人员可以理解，确定单张图像中的目标时，可能会出现误差，比如，确定出的目标的位置、或者目标的大小会出现误差，而结合多张图像，对各张图像中目标的位置或者大小进行校正，可以提高确定目标的准确度。因此，在本实施方式中，可以利用卡尔曼滤波算法，结合所关联的第二目标，对该匹配成功的第一目标的位置或者大小进行校正，以提高确定第一目标的准确度。

另外，作为一种实施方式，对于存在于第t-1帧图像而不存于第t帧图像中的目标，并不立即将其去除。具体的，将与第一目标不存在关联关系的第二目标确定为未匹配成功的第二目标；判断所述未匹配成功的第二目标是否与所述当前视频帧图像之前的预设数量帧图像中的目标均未匹配成功；如果否，将所述匹配成功的第二目标确定为所述当前视频帧图像中的目标。

与第一目标不存在关联关系的第二目标即为上述“存在于第t-1帧图像而不存于第t帧图像中的目标”，将这种目标称为“未匹配成功的第二目标”。判断这种目标是否与当前视频帧图像之前的预设数量帧图像中的目标均未匹配成功，也就是判断这种目标是否已经连续N(预设数量)帧未出现过，如果是，不再保留该目标，如果不是，则继续保留该目标(将其确定为当前视频帧图像中的目标)。

S102：将所述目标所在的图像区域输入至深度特征网络中，得到所述目标的特征。其中，所述深度特征网络为：将多张图像输入至深度卷积神经网络训练得到。

具体的，训练得到所述深度特征网络的过程可以包括：

获取多张图像，所述多张图像中包含多角度下的同一目标；

根据所述各层参数，构建所述深度特征网络。

需要说明的是，上述多张图像中包含多角度下的同一目标，并不限定图像中仅包含一个目标。举个简单的例子，图像1中包含正脸的人员A、左侧脸的人员B和右侧脸的人员C，图像2中包含左侧脸的人员A、右侧脸的人员B和正脸的人员C，图像3中包含右侧脸的人员A、正脸的人员B和左侧脸的人员C；这样，获取这三张图像，每张图像中包含三个目标，这三张图像中包含不同角度的三个目标。

需要说明的是，获取的图像数量越多，所构建的深度特征网络精度越高，上述三张图像仅为举例说明，并不对本方案构成限定。

与S101中确定目标矩形框的过程类似，可以在所获取的多张图像中检测出目标所在区域(目标矩形框)，并将目标所在区域输入深度卷积神经网络。

需要说明的是，训练深度特征网络时的目标矩形框尺寸与S101中确定出的目标矩形框尺寸一致，因此，将目标矩形框中的图像区域(目标所在区域)输入至深度卷积神经网络之前，可以先对图像区域进行尺寸调整，比如，将其调整至56*144(宽*高)，然后再将调整后的图像区域输入深度卷积神经网络。这样，S101中确定出目标矩形框后，也将尺寸调整为56*144(宽*高)，然后再将调整后的图像区域输入深度特征网络。

本领域技术人员可以理解，深度卷积神经网络包括很多层级，比如图2中所示，深度卷积神经网络包括多个卷积块，每个卷积块包括卷积层、激活层、池化层，该网络还包括全连接层，并通过Softmax Loss函数进行分类输出。其中，网络中的层级、以及层级中的参数可以根据实际情况进行设定。

假设获取到人员A的多角度图像，比如，正脸、左侧脸、右侧脸、抬头、低头等等，利用随机梯度下降算法，对多角度下的人员A的图像区域进行分类训练，反向传播计算所述深度卷积神经网络中各层参数。

具体的，可以先对各层参数进行初始化，比如随机初始化，或者，初始化化为设定值，或者也可以基于预训练的模型初始化各层参数，等等，初始化的具体方式不做限定，作为一种实施方式，卷积层参数可以基于预训练的模型进行初始化，具体的，可以基于ImageNet数据库中的数据进行训练，得到该模型；全连接层参数可以采用随机初始化；然后迭代求解，并采用Softmax Loss函数计算分类误差，由底层至顶层反向传播，依次确定各层参数；当平均误差不再下降，或者停留在一个范围内时，停止迭代，得到各层参数，便构建出深度特征网络。

需要说明的是，将多张图像中的目标矩形框输入至深度卷积神经网络时，可以基于同一目标(比如同一人员)分配一个标签id，这样，训练得到的深度特征网络可以确定出属于同一目标的多个特征。另外，该标签id与后面内容中的目标身份可以相同或不同，该标签id可以仅用来标识同一个目标，而不携带该目标的身份信息。

可以理解，该深度特征网络对人员A的多角度图像进行学习，因此，当S101中的目标为人员A时，通过S102可以得到人员A的特征。

S103：在预先存储的特征与身份的对应关系中，查找与所述特征相匹配的身份。

本方案中可以预先存储目标特征与目标身份的对应关系，身份可以包含人员的名称、职业、工号等，具体不做限定。

作为一种实施方式，该对应关系可以以数据表的形式存储，在数据表中，身份用key(键)表示，特征用value(值)表示。该数据表可以存储于本设备中，也可以存储于与本设备相连的其他设备中，具体不做限定。

具体的查找过程可以包括：

采用倒排索引的方式，在所述数据表中，查找与所述特征的相似度满足预设规则的目标值；计算所述特征与每个目标值的距离；将最小距离对应的目标键确定为与所述特征相匹配的身份。

在本实施方式中，确定相似度可以采用粗略的计算。该预设规则可以有多种，比如，对计算得到的相似度由大到小进行排序，取前预设数量个相似度对应的value作为目标value，或者，将相似度大于预设阈值的value作为目标value，等等，具体不做限定。

计算每个目标value与S102得到的特征的距离，计算距离相较于计算相似度，可以采用较精细的算法，具体的，该距离可以为余弦距离，或者，也可以为其他，具体不做限定。

第一种方案，可以直接将计算得到的最小距离对应的key(目标key)确定为与S102得到的特征相匹配的身份。

第二种方案，可以先判断该最小距离是否小于第二预设阈值；如果是，再将该最小距离对应的key(目标key)确定为与S102得到的特征相匹配的身份；如果否，则查找失败。

在本实施方式中，在将最小距离对应的目标key确定为与所述特征相匹配的身份之后，也就是查找成功之后，还可以将S102得到的特征确定为新增value；在该数据表中，存储新增value与目标key的对应关系。

可以理解，即使在数据表中查找到了与S102得到的特征相匹配的身份，S102得到的特征与数据表中存在的value也并不是完全相同，将S102得到的特征添加至数据表中，可以使该数据表更完善，提高目标识别过程中的匹配成功率。

S104：将查找到的身份确定为目标识别结果。

可以理解，确定出目标身份，便完成了目标识别。

应用本发明图1实施例，将多张图像输入至深度卷积神经网络，通过训练得到深度特征网络，利用该深度特征网络，识别视频帧图像中目标的特征，再结合预先存储的特征与身份的对应关系，识别该目标的身份；由此可见，一方面，本方案中，并不需要利用各台摄像机之间的标定信息，即使摄像机的位置发生变化，也不会影响目标识别的准确度，另一方面，本方案中，基于深度特征网络进行目标识别，深度特征网络基于大量图像训练得到，携带的信息更丰富，识别准确度更高。

作为一种实施方式，本设备可以利用目标识别结果，对目标进行跟踪。可以理解，在同一台设备中，利用图1所示实施例识别出目标的身份后，可以基于目标的身份，对该目标进行跟踪。

或者，作为另一种实施方式，本设备可以与多台图像采集设备通信连接，S101中的视频帧图像包括多台(至少两台)图像采集设备所采集的图像；本设备利用图1所示实施例识别出各台图像采集设备所采集图像中的目标后，利用各台图像采集设备对应的目标识别结果，对所述各台图像采集设备所采集的图像中的目标进行跟踪；这样，便可以实现基于多台摄像机的目标连续跟踪。

举例来说，可以如图3所示，在同一场景(场景X)中，设置多台摄像机构成监控网络，该监控网络中还包括图像处理设备，图像处理设备利用本发明实施例进行目标识别。

或者，也可以如图4所示，在同一场景(场景X)中，设置多台摄像机构成监控网络，摄像机本身具有图像处理功能，摄像机利用本发明实施例进行目标识别，该监控网络中还包括服务器，服务器与各台摄像机相连。

在本实施方式中，可以针对该监控网络存储一份数据表，表中的key为目标的身份，value为目标的特征。可以理解，出入于同一场景的人员通常是固定的，因此，可以针对这些人员，存储其身份与特征的对应关系。

该数据表可以存储于监控网络中的任意设备，或者与该监控网络通信连接的任意设备，具体不做限定。图3中，图像处理设备可以利用本发明实施例处理各台摄像机采集的图像，识别图像中目标的特征及身份；图像处理设备还可以对数据表进行维护更新，将识别出的目标的特征及身份存储到数据表中。

图4中，摄像机可以利用本发明实施例，识别所采集图像中目标的特征及身份，摄像机将识别出的目标的特征及身份发送给服务器；服务器对数据表进行维护更新，将各台摄像机发送的目标的特征及身份存储到数据表中；服务器还可以实时、或者周期地向各台摄像机发送最新的数据表，以使摄像机利用本地存储的数据表查找与特征匹配的身份；或者，摄像机中也可以不存储数据表，摄像机利用服务器的数据表查找与特征匹配的身份，这都是合理的。

在图3中，假设人员A在场景X中行走，在不同的摄像机前移动，图像处理设备利用本发明实施例，可以确定出各台摄像机所采集图像中目标的身份为“人员A”，这样，图像处理设备在各台摄像机采集的图像中都能识别出人员A，可以实现对人员A的连续跟踪。

或者，在图4中，假设人员A在场景X中行走，在不同的摄像机前移动，摄像机利用本发明实施例，可以确定出图像中移动目标的身份为“人员A”，摄像机将识别出的特征及身份发送给服务器，这样，在服务器中可以实现对人员A的连续跟踪。

现有方案中，在多台摄像机中对目标进行跟踪时，通常需要利用这多台摄像机之间的标定信息，如果摄像机的位置发生变化，则需要重新标定，操作不方便；而上述实施方式中，在各台摄像机采集的图像中都可以识别出目标的身份，根据目标的身份，可以实现基于多台摄像机的目标连续跟踪，不需要利用摄像机之间的标定信息，操作方便。

与上述方法实施例相对应，本发明实施例还提供一种图像处理设备。

图5为本发明实施例提供的一种图像处理设备的结构示意图，包括：处理器501和存储器502，其中，存储器502用于存储可执行程序代码；处理器501通过读取存储器502中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：

检测视频帧图像中的目标；

将查找到的身份确定为目标识别结果。

作为一种实施方式，处理器501还用于执行如下步骤：

利用图像检测算法，检测视频帧图像中的目标；

作为一种实施方式，处理器501还用于执行如下步骤：

检测当前视频帧图像中的第一目标；

根据匹配结果，确定所述当前视频帧图像中的目标。

作为一种实施方式，处理器501还用于执行如下步骤：

确定所述未匹配成功的第一目标的置信度；

作为一种实施方式，处理器501还用于执行如下步骤：

将校正后的目标确定为所述当前视频帧图像中的目标。

作为一种实施方式，处理器501还用于执行如下步骤：

获取多张图像，所述多张图像中包含多角度下的同一目标；

根据所述各层参数，构建所述深度特征网络。

作为一种实施方式，所述特征与身份的对应关系以数据表的形式存储，在所述数据表中，身份用键表示、特征用值表示；

处理器501还用于执行如下步骤：

计算所述特征与每个目标值的距离；

将最小距离对应的目标键确定为与所述特征相匹配的身份。

作为一种实施方式，处理器501还用于执行如下步骤：

作为一种实施方式，所述视频帧图像包括至少两台图像采集设备所采集的图像；处理器501还用于执行如下步骤：

应用本发明图5实施例，将多张图像输入至深度卷积神经网络，通过训练得到深度特征网络，利用该深度特征网络，识别视频帧图像中目标的特征，再结合预先存储的特征与身份的对应关系，识别该目标的身份；由此可见，一方面，本方案中，并不需要利用各台摄像机之间的标定信息，即使摄像机的位置发生变化，也不会影响目标识别的准确度，另一方面，本方案中，基于深度特征网络进行目标识别，深度特征网络基于大量图像训练得到，携带的信息更丰富，识别准确度更高。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种目标识别方法，其特征在于，包括：

检测视频帧图像中的目标；

将查找到的身份确定为目标识别结果；

所述检测视频帧图像中的目标，包括：

检测当前视频帧图像中的第一目标；

根据匹配结果，确定所述当前视频帧图像中的目标。

2.根据权利要求1所述的方法，其特征在于，所述检测视频帧图像中的目标，包括：

利用图像检测算法，检测视频帧图像中的目标；

3.根据权利要求1所述的方法，其特征在于，所述将所述第一目标与所述当前视频帧图像之前的视频帧图像中的第二目标进行匹配，包括：

所述根据匹配结果，确定所述当前视频帧图像中的目标，包括：

确定所述未匹配成功的第一目标的置信度；

4.根据权利要求3所述的方法，其特征在于，所述将所述匹配成功的第一目标确定为所述当前视频帧图像中的目标，包括：

将校正后的目标确定为所述当前视频帧图像中的目标。

5.根据权利要求4所述的方法，其特征在于，所述根据匹配结果，确定所述当前视频帧图像中的目标，还包括：

6.根据权利要求1所述的方法，其特征在于，训练得到所述深度特征网络的过程包括：

获取多张图像，所述多张图像中包含多角度下的同一目标；

根据所述各层参数，构建所述深度特征网络。

7.根据权利要求1所述的方法，其特征在于，所述特征与身份的对应关系以数据表的形式存储，在所述数据表中，身份用键表示、特征用值表示；

所述在预先存储的特征与身份的对应关系中，查找与所述特征相匹配的身份，包括：

计算所述特征与每个目标值的距离；

将最小距离对应的目标键确定为与所述特征相匹配的身份。

8.根据权利要求7所述的方法，其特征在于，在所述将最小距离对应的目标键确定为与所述特征相匹配的身份之前，还包括：

判断最小距离是否小于第二预设阈值；

9.根据权利要求8所述的方法，其特征在于，在所述将最小距离对应的目标键确定为与所述特征相匹配的身份之后，还包括：

将所述特征确定为新增值；

10.根据权利要求1所述的方法，其特征在于，所述视频帧图像包括至少两台图像采集设备所采集的图像；在所述将查找到的身份确定为目标识别结果之后，还包括：

11.一种图像处理设备，其特征在于，包括：处理器和存储器，其中，存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：

检测视频帧图像中的目标；

将查找到的身份确定为目标识别结果；

所述处理器还用于执行如下步骤：

检测当前视频帧图像中的第一目标；

根据匹配结果，确定所述当前视频帧图像中的目标。

12.根据权利要求11所述的图像处理设备，其特征在于，所述处理器还用于执行如下步骤：

利用图像检测算法，检测视频帧图像中的目标；

13.根据权利要求11所述的图像处理设备，其特征在于，所述处理器还用于执行如下步骤：

确定所述未匹配成功的第一目标的置信度；

14.根据权利要求13所述的图像处理设备，其特征在于，所述处理器还用于执行如下步骤：

将校正后的目标确定为所述当前视频帧图像中的目标。

15.根据权利要求14所述的图像处理设备，其特征在于，所述处理器还用于执行如下步骤：

16.根据权利要求11所述的图像处理设备，其特征在于，所述处理器还用于执行如下步骤：

获取多张图像，所述多张图像中包含多角度下的同一目标；

根据所述各层参数，构建所述深度特征网络。

17.根据权利要求11所述的图像处理设备，其特征在于，所述特征与身份的对应关系以数据表的形式存储，在所述数据表中，身份用键表示、特征用值表示；

所述处理器还用于执行如下步骤：

计算所述特征与每个目标值的距离；

将最小距离对应的目标键确定为与所述特征相匹配的身份。

18.根据权利要求17所述的图像处理设备，其特征在于，所述处理器还用于执行如下步骤：

19.根据权利要求18所述的图像处理设备，其特征在于，所述处理器还用于执行如下步骤：

20.根据权利要求11所述的图像处理设备，其特征在于，所述视频帧图像包括至少两台图像采集设备所采集的图像；所述处理器还用于执行如下步骤：