CN110059617A

CN110059617A - 一种目标物体的识别方法及装置

Info

Publication number: CN110059617A
Application number: CN201910308713.7A
Authority: CN
Inventors: 袁飞; 华仁红; 马向军; 孙文凤
Original assignee: Beijing Yida Turing Technology Co Ltd
Current assignee: Beijing Yida Turing Technology Co Ltd
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2019-07-26

Abstract

本发明实施例提供一种目标物体的识别方法及装置。其中，方法包括：将待识别图片输入至第一神经网络模型，输出所述待识别图片中每一目标物体对应的位置框坐标；将所述位置框坐标输入至云台摄像机，获取所述云台摄像机拍摄到的对应目标物体的图片，并基于所述图片对所述目标物体进行识别。本发明实施例提供的方法及装置，通过将待识别图片输入至第一神经网络模型，根据该模型的输出结果控制云台摄像机拍摄到放大的且更加清晰的包含目标物体的图片，基于该图片进行目标物体的识别，可提高识别的准确率，并且，通过神经网络获取输出结果的过程较快，因此整体降低了识别过程所耗费的时长。

Description

一种目标物体的识别方法及装置

技术领域

本发明实施例涉及图像识别技术领域，尤其涉及一种目标物体的识别方法及装置。

背景技术

在变电站等场景中，通常需要对标识牌和表计等物体进行识别，将这些需要进行识别的物体均称为目标物体，现有技术中，通常通过以下方法进行目标物体识别：

方法一，获取云台摄像机拍摄到的包含目标物体的图片，根据计算得到的目标物体在图片中的位置调整云台，使得目标物体处于云台摄像机视野的中央，从而拍摄到比较清晰的包含目标物体的图片，并基于该图片进行目标物体识别。

方法二，预先存储云台摄像机在指定到达位置拍摄到的图片，获取云台摄像机拍摄到的包含目标物体的图片，对图片进行分块，将分块得到的子图与预先存储的图片进行直方图匹配，从而确定云台摄像机需转动到达的位置，并在该位置处进行拍摄，得到比较清晰的包含目标物体的图片，并基于该图片进行目标物体识别。

然而现有技术中也存在一定缺陷：

对于方法一，仅将目标物体矫正到视野中央，对于较小的目标物体，其像素通常在30*30以下，容易出现误识别的问题，并且，计算目标物体在图片中的位置以及调整云台这整个过程耗时较长。

对于方法二，直方图匹配的错误率较高，对光照污点鲁棒性较差，容易出现误识别的问题，并且，直方图匹配的过程耗时较长。

发明内容

本发明实施例提供一种目标物体的识别方法及装置，用以解决现有的目标物体识别准确率低且耗时较长的问题。

第一方面，本发明实施例提供一种目标物体的识别方法，包括：

将待识别图片输入至第一神经网络模型，输出所述待识别图片中每一目标物体对应的位置框坐标；

将所述位置框坐标输入至云台摄像机，获取所述云台摄像机拍摄到的对应目标物体的图片，并基于所述图片对所述目标物体进行识别；

其中，所述第一神经网络模型基于第一训练集训练得到，所述第一训练集包括多张样本图片以及每一样本图片中每一目标物体对应的位置框坐标。

第二方面，本发明实施例提供一种目标物体的识别装置，包括：

位置框坐标获取模块，用于将待识别图片输入至第一神经网络模型，输出所述待识别图片中每一目标物体对应的位置框坐标；

识别模块，用于将所述位置框坐标输入至云台摄像机，获取所述云台摄像机拍摄到的对应目标物体的图片，并基于所述图片对所述目标物体进行识别；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种目标物体的识别方法及装置，通过将待识别图片输入至第一神经网络模型，根据该模型的输出结果控制云台摄像机拍摄到放大的且更加清晰的包含目标物体的图片，基于该图片进行目标物体的识别，可提高识别的准确率，并且，通过神经网络获取输出结果的过程较快，因此整体降低了识别过程所耗费的时长。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种目标物体的识别方法流程图；

图2为本发明实施例提供的一种目标物体的识别装置的结构示意图；

图3为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的对目标物体进行识别的方法均存在识别准确率低且耗时较长的问题，为了解决该问题，本发明实施例提供了一种目标物体的识别方法。图1为本发明实施例提供的一种目标物体的识别方法流程图，如图1所示，该方法包括：

步骤101，将待识别图片输入至第一神经网络模型，输出所述待识别图片中每一目标物体对应的位置框坐标。

具体地，将本发明实施例应用在变电站领域进行说明。为了对变电站中标识牌和表计等物体(目标物体)进行识别，在变电站的墙壁等支撑物上布置有云台摄像机，需要说明的是，云台摄像机为带有云台的摄像机，云台是用于承载摄像机进行水平和垂直两个方向转动的装置，通过将摄像机安装于云台上能够使摄像机从多个角度进行拍摄。通过云台摄像机可拍摄到包含有目标物体的图片，进而根据拍摄到的图片对图片中包含的目标物体进行识别。其中，对目标物体进行识别指的是获知该目标物体的种类、名称及其用途等。

因此，本发明实施例中的待识别图片可以是云台摄像机拍摄到的包含有若干个目标物体的图片。例如，待识别图片A为包含有一个标识牌的图片，待识别图片B为包含有一个表计的图片，待识别图片C为包含有一个标识牌和一个表计的图片。

第一神经网络模型用于基于待识别图片对待识别图片进行分析处理，得到待识别图片中每一目标物体对应的位置框坐标。例如，将待识别图片A输入至第一神经网络模型，该模型输出标识牌对应的位置框坐标，又例如，将待识别图片C输入至第一神经网络模型，该模型输出标识牌对应的位置框坐标和表计对应的位置框坐标。即，若待识别图片中包括n(n为正整数)个目标物体，则第一神经网络模型可基于该待识别图片输出n个位置框坐标，其中，目标物体和位置框坐标一一对应。

此处，目标物体对应的位置框指的是：待识别图片中包含有该目标物体的由若干个连续且相邻的像素组成的子图。即，该子图由待识别图片中若干个连续且相邻的像素组成，且该子图包含有该目标物体。通常，位置框为矩形，即子图为矩形。目标物体对应的位置框坐标指的是：构成子图最外围的像素坐标组成的序列。当子图为矩形时，位置框坐标通常为处于子图四个顶点的像素坐标组成的序列。

步骤102，将所述位置框坐标输入至云台摄像机，获取所述云台摄像机拍摄到的对应目标物体的图片，并基于所述图片对所述目标物体进行识别；其中，所述第一神经网络模型基于第一训练集训练得到，所述第一训练集包括多张样本图片以及每一样本图片中每一目标物体对应的位置框坐标。

具体地，对于待识别图片C，通过步骤101可得到标识牌对应的位置框坐标和表计对应的位置框坐标。

首先，将标识牌对应的位置框坐标输入至云台摄像机，云台摄像机可根据该坐标调整云台的转动角度，使得标识牌处于云台摄像机的视野中央，并根据位置框和待识别图片的像素比，调整云台摄像机的焦距，使得云台摄像机拍摄到放大的且更加清晰的包含有标识牌的图片。从而，通过该图片对标识牌进行识别，从而获得该标识牌的种类、名称和用途。

然后，将表计对应的位置框坐标输入至云台摄像机，云台摄像机可根据该坐标调整云台的转动角度，使得表计处于云台摄像机的视野中央，并根据位置框和待识别图片的像素比，调整云台摄像机的焦距，使得云台摄像机拍摄到放大的且更加清晰的包含有表计的图片。从而，通过该图片对表计进行识别，从而获得该表计的种类、名称和用途。

可以理解的是，当位置框和待识别图片的像素比越小，则代表目标物体在待识别图片中占比越小，因此，越需要将焦距调高，使得对于调焦后的云台摄像机拍摄到的图片，目标物体在该图片中占比变大从而更加清晰。

另外，在执行步骤101之前，还可预先训练得到第一神经网络模型，具体可通过如下方式训练得到：

首先，收集多张样本图片，需要说明的是，多张样本图片可通过云台摄像机拍摄得到。

然后，获取每一张样本图片中每一目标物体对应的位置框坐标。将每一张样本图片和该图片中包含的每一目标物体对应的位置框坐标，作为一个训练样本，例如，若样本图片中包括一个标识牌和一个表计，则将该样本图片、标识牌对应的位置框坐标和表计对应的位置框坐标作为一个训练样本。

随后，将得到的多个训练样本组成第一训练集，通过第一训练集对第一初始模型训练得到第一神经网络模型，使得该模型可根据输入的任何待识别图片，输出该图片中每一目标物体对应的位置框坐标。需要说明的是，第一初始模型可以是单一神经网络模型，也可以是多个神经网络模型的组合，本发明实施例不对第一初始模型的类型和结构作具体限定。

本发明实施例提供的方法，通过将待识别图片输入至第一神经网络模型，根据该模型的输出结果控制云台摄像机拍摄到放大的且更加清晰的包含目标物体的图片，基于该图片进行目标物体的识别，可提高识别的准确率，并且，通过神经网络获取输出结果的过程较快，因此整体降低了识别过程所耗费的时长。

在上述各实施例的基础上，本发明实施例对第一神经网络模型的获取过程进行说明，即，将待识别图片输入至第一神经网络模型，之前还包括：

步骤001，基于所述第一训练集，分别对若干个第一初始模型进行训练。

具体地，为了获取第一神经网络模型，可以预先设置若干个第一初始模型。不同的第一初始模型可以是相同结构下的相同类型的神经网络模型，也可以具备不同的结构，还可以是不同类型的神经网络模型，本发明实施例对此不作具体限定。

优选地，若干个第一初始模型均为卷积神经网络，且这若干个卷积神经网络的区别仅在于各卷积神经网络的卷积层的个数不同，例如，这若干个卷积神经网络包括：网络A、网络B和网络C，网络A的卷积层为2个，网络B的卷积层为4个，网络C的卷积层为6个。

步骤002，从所有训练后的第一初始模型中选择一个，作为所述第一神经网络模型。

具体地，在得到若干个训练后的第一初始模型后，从中选择一个作为第一神经网络模型。此处，第一神经网络模型的选取依据可以是每一训练后的第一初始模型的准确率，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过从若干个训练后的第一初始模型中选择一个作为第一神经网络模型，保证了第一神经网络模型的准确率，为实现准确识别目标物体奠定了基础。

在上述各实施例的基础上，本发明实施例对第一神经网络模型的获取过程进行进一步说明，即，从所有训练后的第一初始模型中选择一个，作为所述第一神经网络模型，包括：

步骤0021，获取测试图片以及所述测试图片中每一目标物体对应的位置框坐标。

具体地，测试图片的获取过程可与样本图片的获取过程类似，此处不再赘述，测试图片用于对训练后的第一初始模型进行测试。测试图片中也包括若干个目标物体，并且，每一个目标物体对应的位置框坐标已预先获知。

步骤0022，将所述测试图片输入至任一训练后的第一初始模型，输出所述测试图片中每一目标物体对应的预测位置框坐标。

步骤0023，基于得到的所有预测位置框坐标和所有位置框坐标，获取所述训练后的第一初始模型的测试结果。

具体地，在得到训练后的第一初始模型输出的所有预测位置框坐标后，将其与步骤0021中的所有位置框坐标进行比较，从而获取训练后的第一初始模型的测试结果，此处测试结果用于表征训练后的第一初始模型的准确率。例如，当预测位置框坐标和位置框坐标相一致的比率越高，则训练后的第一初始模型的准确率越高，测试结果越好。

步骤0024，基于每一训练后的第一初始模型的测试结果，从所有训练后的第一初始模型中选择一个，作为所述第一神经网络模型。

具体地，在得到每一训练后的第一初始模型的测试结果后，从所有训练后的第一初始模型中选取测试结果最好的训练后的第一初始模型作为第一神经网络模型。

本发明实施例提供的方法，基于每一训练后的第一初始模型的测试结果选取第一神经网络模型，能够有效提高第一神经网络模型的准确率。

在上述各实施例的基础上，本发明实施例在基于所述第一训练集，分别对若干个第一初始模型进行训练，之前还包括：

对所述第一训练集中的所有样本图片进行预处理；所述预处理包括去均值。

具体地，在将样本图片应用于第一初始模型的训练之前，需要对样本图片进行预处理。此处，预处理包括去均值，还可以包括归一化、主成分分析(principal componentsanalysis，PCA)降维等。其中，通过对样本图片进行去均值，即对样本图片中的每一像素移除像素均值，从而凸显个体差异，加速模型收敛。

本发明实施例提供的方法，在训练得到第一初始模型之前，对第一训练集中的样本图片进行包括去均值的预处理，能够在训练过程中，加速第一初始模型收敛，使得训练过程所耗费的时长大大缩短。

需要说明的是，在上述实施例中，提供了一种获取待识别图片的优选方式，即，直接将云台摄像机拍摄到的包含有若干个目标物体的图片作为待识别图片。在上述各实施例的基础上，本发明实施例提供另一种获取待识别图片的方式，即，将待识别图片输入至第一神经网络模型，之前还包括：

获取所述云台摄像机拍摄到的原始图片。

需要说明的是，本发明实施例也首先获取云台摄像机拍摄到的原始图片，原始图片也包含有若干个目标物体，例如，原始图片A为包括有一个标识牌的图片，原始图片B为包括有一个表计的图片，原始图片C为包括有一个标识牌和一个表计的图片。不同于上述实施例的是，上述实施例中直接将获取到的云台摄像机拍摄到的原始图片作为待识别图片，而本发明实施例还需对原始图片进行一系列处理以获取到待识别图片。

将所述原始图片输入至第二神经网络模型，输出所述原始图片中所有目标物体对应的位置框坐标。

具体地，第二神经网络模型用于基于原始图片对原始图片进行分析处理，得到原始图片中所有目标物体对应的一个位置框坐标。例如，将原始图片A输入至第二神经网络模型，该模型输出标识牌对应的位置框坐标，又例如，将原始图片C输入至第二神经网络模型，该模型输出标识牌和表计对应的一个位置框坐标。即，若待识别图片中包括n(n为正整数)个目标物体，则第二神经网络模型可基于该原始图片输出1个位置框坐标，其中，n个目标物体对应一个位置框坐标。

将所述位置框坐标输入至所述云台摄像机，获取所述云台摄像机拍摄到对应所有目标物体的图片，并将所述图片作为所述待识别图片；其中，所述第二神经网络模型基于第二训练集训练得到，所述第二训练集包括多张样本原始图片以及每一样本原始图片中所有目标物体对应的位置框坐标。

具体地，对于原始图片C，通过上述步骤可得到标识牌和表计对应的一个位置框坐标。将该位置框坐标输入至云台摄像机，云台摄像机可根据该坐标调整云台的转动角度，使得标识牌和表计作为一个整体处于云台摄像机的视野中央，并根据位置框和待识别图片的像素比，调整云台摄像机的焦距，使得云台摄像机拍摄到放大的且更加清晰的包含有标识牌和表计的图片，并将该图片作为待识别图片。

另外，对第二神经网络模型的训练过程进行简要说明：

首先，收集多张样本原始图片，需要说明的是，多张样本原始图片可通过云台摄像机拍摄得到。

然后，获取每一张样本原始图片中所有目标物体对应的一个位置框坐标。将每一张样本原始图片和该图片中包含的所有目标物体对应的一个位置框坐标，作为一个训练样本，例如，若样本原始图片中包括一个标识牌和一个表计，则将该样本图片、标识牌和表计对应的一个位置框坐标作为一个训练样本。

随后，将得到的多个训练样本组成第二训练集，通过第二训练集对第二初始模型训练得到第二神经网络模型，使得该模型可根据输入的任何原始图片，输出该图片中所有目标物体对应的一个位置框坐标。需要说明的是，第二初始模型可以是单一神经网络模型，也可以是多个神经网络模型的组合，本发明实施例不对第二初始模型的类型和结构作具体限定。

本发明实施例提供的方法，通过将云台摄像机拍摄到的原始图片进行一次处理生成放大的且更加清晰的图片作为待识别图片，进而将待识别图片进行二次处理，生成进一步放大且进一步清晰的图片，相当于对原始图片进行了二次放大和二次清晰化，从而进一步提高了识别的准确率。

在上述各实施例的基础上，本发明实施例对第二神经网络模型的获取过程进行说明，即，将所述原始图片输入至第二神经网络模型，之前还包括：

基于所述第二训练集，分别对若干个第二初始模型进行训练。

具体地，为了获取第二神经网络模型，可以预先设置若干个第二初始模型。不同的第二初始模型可以是相同结构下的相同类型的神经网络模型，也可以具备不同的结构，还可以是不同类型的神经网络模型，本发明实施例对此不作具体限定。

优选地，若干个第二初始模型均为卷积神经网络，且这若干个卷积神经网络的区别仅在于各卷积神经网络的卷积层的个数不同，例如，这若干个卷积神经网络包括：网络D、网络E和网络F，网络D的卷积层为2个，网络E的卷积层为4个，网络F的卷积层为6个。

从所有训练后的第二初始模型中选择一个，作为所述第二神经网络模型。

具体地，在得到若干个训练后的第二初始模型后，从中选择一个作为第二神经网络模型。此处，第二神经网络模型的选取依据可以是每一训练后的第二初始模型的准确率，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过从若干个训练后的第二初始模型中选择一个作为第二神经网络模型，保证了第二神经网络模型的准确率，为实现准确识别目标物体奠定了基础。

在上述各实施例的基础上，本发明实施例对第二神经网络模型的获取过程进行进一步说明，即，从所有训练后的第二初始模型中选择一个，作为所述第二神经网络模型，包括：

获取测试图片以及所述测试图片中所有目标物体对应的位置框坐标。

具体地，测试图片的获取过程可与样本原始图片的获取过程类似，此处不再赘述，测试图片用于对训练后的第二初始模型进行测试。测试图片中也包括若干个目标物体，并且，所有目标物体对应的一个位置框坐标已预先获知。

将所述测试图片输入至任一训练后的第二初始模型，输出所述测试图片中所有目标物体对应的预测位置框坐标。

基于所述预测位置框坐标和所述位置框坐标，获取所述训练后的第二初始模型的测试结果。

具体地，在得到训练后的第二初始模型输出的预测位置框坐标后，将其与位置框坐标进行比较，从而获取训练后的第二初始模型的测试结果，此处测试结果用于表征训练后的第二初始模型的准确率。例如，当预测位置框坐标和位置框坐标相一致的比率越高，则训练后的第二初始模型的准确率越高，测试结果越好。

基于每一训练后的第二初始模型的测试结果，从所有训练后的第二初始模型中选择一个，作为所述第二神经网络模型。

具体地，在得到每一训练后的第二初始模型的测试结果后，从所有训练后的第二初始模型中选取测试结果最好的训练后的第二初始模型作为第二神经网络模型。

本发明实施例提供的方法，基于每一训练后的第二初始模型的测试结果选取第二神经网络模型，能够有效提高第二神经网络模型的准确率。

在上述各实施例的基础上，图2为本发明实施例提供的一种目标物体的识别装置的结构示意图，如图2所示，该装置包括：

位置框坐标获取模块201，用于将待识别图片输入至第一神经网络模型，输出所述待识别图片中每一目标物体对应的位置框坐标。

其中，待识别图片可以是云台摄像机拍摄到的包含有若干个目标物体的图片。例如，识别图片C为包含有一个标识牌和一个表计的图片。第一神经网络模型用于基于待识别图片对待识别图片进行分析处理，得到待识别图片中每一目标物体对应的位置框坐标。例如，将待识别图片C输入至第一神经网络模型，该模型输出标识牌对应的位置框坐标和表计对应的位置框坐标。即，若待识别图片中包括n(n为正整数)个目标物体，则第一神经网络模型可基于该待识别图片输出n个位置框坐标，其中，目标物体和位置框坐标一一对应。

识别模块202，用于将所述位置框坐标输入至云台摄像机，获取所述云台摄像机拍摄到的对应目标物体的图片，并基于所述图片对所述目标物体进行识别；其中，所述第一神经网络模型基于第一训练集训练得到，所述第一训练集包括多张样本图片以及每一样本图片中每一目标物体对应的位置框坐标。

具体地，对于待识别图片C，通过位置框坐标获取模块201可得到标识牌对应的位置框坐标和表计对应的位置框坐标。

首先，识别模块202将标识牌对应的位置框坐标输入至云台摄像机，云台摄像机可根据该坐标调整云台的转动角度，使得标识牌处于云台摄像机的视野中央，并根据位置框和待识别图片的像素比，调整云台摄像机的焦距，使得云台摄像机拍摄到放大的且更加清晰的包含有标识牌的图片。从而，通过该图片对标识牌进行识别，从而获得该标识牌的种类、名称和用途。

然后，识别模块202将表计对应的位置框坐标输入至云台摄像机，云台摄像机可根据该坐标调整云台的转动角度，使得表计处于云台摄像机的视野中央，并根据位置框和待识别图片的像素比，调整云台摄像机的焦距，使得云台摄像机拍摄到放大的且更加清晰的包含有表计的图片。从而，通过该图片对表计进行识别，从而获得该表计的种类、名称和用途。

可以理解的是，当位置框和待识别图片的像素比越小，则代表目标物体在待识别图片中占比越小，因此，识别模块202越需要将焦距调高，使得对于调焦后的云台摄像机拍摄到的图片，目标物体在该图片中占比变大从而更加清晰。

本发明实施例提供的装置，具体执行上述各方法实施例流程，具体请详见上述各方法实施例的内容，此处不再赘述。本发明实施例提供的装置，通过将待识别图片输入至第一神经网络模型，根据该模型的输出结果控制云台摄像机拍摄到放大的且更加清晰的包含目标物体的图片，基于该图片进行目标物体的识别，可提高识别的准确率，并且，通过神经网络获取输出结果的过程较快，因此整体降低了识别过程所耗费的时长。

图3为本发明实施例提供的一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储在存储器303上并可在处理器301上运行的计算机程序，以执行上述各实施例提供的方法，例如包括：将待识别图片输入至第一神经网络模型，输出所述待识别图片中每一目标物体对应的位置框坐标；将所述位置框坐标输入至云台摄像机，获取所述云台摄像机拍摄到的对应目标物体的图片，并基于所述图片对所述目标物体进行识别；其中，所述第一神经网络模型基于第一训练集训练得到，所述第一训练集包括多张样本图片以及每一样本图片中每一目标物体对应的位置框坐标。

此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：将待识别图片输入至第一神经网络模型，输出所述待识别图片中每一目标物体对应的位置框坐标；将所述位置框坐标输入至云台摄像机，获取所述云台摄像机拍摄到的对应目标物体的图片，并基于所述图片对所述目标物体进行识别；其中，所述第一神经网络模型基于第一训练集训练得到，所述第一训练集包括多张样本图片以及每一样本图片中每一目标物体对应的位置框坐标。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种目标物体的识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将待识别图片输入至第一神经网络模型，之前还包括：

基于所述第一训练集，分别对若干个第一初始模型进行训练；

从所有训练后的第一初始模型中选择一个，作为所述第一神经网络模型。

3.根据权利要求2所述的方法，其特征在于，从所有训练后的第一初始模型中选择一个，作为所述第一神经网络模型，包括：

获取测试图片以及所述测试图片中每一目标物体对应的位置框坐标；

将所述测试图片输入至任一训练后的第一初始模型，输出所述测试图片中每一目标物体对应的预测位置框坐标；

基于得到的所有预测位置框坐标和所有位置框坐标，获取所述训练后的第一初始模型的测试结果；

基于每一训练后的第一初始模型的测试结果，从所有训练后的第一初始模型中选择一个，作为所述第一神经网络模型。

4.根据权利要求2所述的方法，其特征在于，基于所述第一训练集，分别对若干个第一初始模型进行训练，之前还包括：

5.根据权利要求1所述的方法，其特征在于，将待识别图片输入至第一神经网络模型，之前还包括：

获取所述云台摄像机拍摄到的原始图片；

将所述原始图片输入至第二神经网络模型，输出所述原始图片中所有目标物体对应的位置框坐标；

将所述位置框坐标输入至所述云台摄像机，获取所述云台摄像机拍摄到对应所有目标物体的图片，并将所述图片作为所述待识别图片；

其中，所述第二神经网络模型基于第二训练集训练得到，所述第二训练集包括多张样本原始图片以及每一样本原始图片中所有目标物体对应的位置框坐标。

6.根据权利要求5所述的方法，其特征在于，将所述原始图片输入至第二神经网络模型，之前还包括：

基于所述第二训练集，分别对若干个第二初始模型进行训练；

7.根据权利要求6所述的方法，其特征在于，从所有训练后的第二初始模型中选择一个，作为所述第二神经网络模型，包括：

获取测试图片以及所述测试图片中所有目标物体对应的位置框坐标；

将所述测试图片输入至任一训练后的第二初始模型，输出所述测试图片中所有目标物体对应的预测位置框坐标；

基于所述预测位置框坐标和所述位置框坐标，获取所述训练后的第二初始模型的测试结果；

8.一种目标物体的识别装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。