CN113095445B

CN113095445B - 一种目标识别方法及装置

Info

Publication number: CN113095445B
Application number: CN202110637351.3A
Authority: CN
Inventors: 曹晟; 华斌; 郭星; 贾全; 张韬
Original assignee: China Tower Co ltd Hubei Branch
Current assignee: China Tower Co ltd Hubei Branch
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2021-10-19
Anticipated expiration: 2041-06-08
Also published as: CN113095445A

Abstract

本申请涉及一种目标识别方法及装置，涉及图像识别技术领域，该方法包括以下步骤：获取以第一缩放比例拍摄的第一图像，并以第一查全率确定待识别目标，得到各待识别目标的第一目标信息；获取以第二缩放比例对待识别目标拍摄的第二图像，以查全最优阈值识别第二图像，得到第二目标信息；获取以第三缩放比例对待识别目标拍摄的第三图像，以查准最优阈值识别第三图像，得到第三目标信息；根据第一目标信息、第二目标信息和第三目标信息获得最终识别信息。本申请通过对目标检测的倍数进行调整，在不同倍数的采集图像中结合不同的查全率和查准率，利用神经网络模型进行图像分析，从而在保证查全率的前提下保障查准率，提高目标检测的准确度。

Description

一种目标识别方法及装置

技术领域

本申请涉及图像识别技术领域，具体涉及一种目标识别方法及装置。

背景技术

随着图像识别技术的发展，工业界的目标检测技术已经普遍采用基于人工智能的目标检测方法，经实践可得知，基于人工智能的目标检测方法需要权衡查全率和查准率，原因在于输入人工智能神经网络一张图像，给出的目标检测结果是目标所在图像中的坐标、目标类型以及对应的可信度。

通常会设定一个阈值来区分可信度的是与非，然而实际上会存在目标检测结论为是但可信度低，目标检测结论为非而可信度略高的问题，这样必然存在着权衡查全率和查准率的问题。

因此，如何在保证查全率的前提下保障查准率，从而提高目标检测的准确度是目前急需解决的技术问题。

发明内容

本申请提供一种目标识别方法及装置，通过对目标检测的倍数进行调整，在不同倍数的采集图像中结合不同的查全率和查准率，利用神经网络模型进行图像分析，从而在保证查全率的前提下保障查准率，提高目标检测的准确度。

第一方面，本申请提供了一种目标识别方法，所述方法包括以下步骤：

获取以第一缩放比例拍摄的第一图像，并以高于预设值的第一查全率确定待识别目标，得到各待识别目标的第一目标信息；

获取以第二缩放比例对待识别目标拍摄的第二图像，以预设的查全最优阈值识别所述第二图像，得到第二目标信息，所述第一查全率高于所述查全最优阈值；

获取以第三缩放比例对待识别目标拍摄的第三图像，以预设的查准最优阈值识别所述第三图像，得到第三目标信息；

根据所述第一目标信息、所述第二目标信息和所述第三目标信息获得最终识别信息。

进一步的，所述方法还包括以下步骤：

根据预设的查全率以及对应的查准率设定所述查全最优阈值；其中，

所述查全最优阈值为所述查全率和所述查准率的乘积的最大值所对应查全率。

进一步的，所述方法还包括以下步骤：

根据预设的查全率以及对应的查准率对应的最大置信度阈值设定所述查准最优阈值；其中，

所述查准最优阈值为所述查全率以及其对应的查准率对应的最大置信度阈值的乘积的最大值所对应的查准率。

进一步的，所述方法还包括以下步骤：

当未识别出所述第一拍摄图像中的待识别目标或所述第二识别信息或所述第三识别信息时，进行错误警报。

具体的，对所述待识别目标进行中心对准时，所述待识别目标位于对应图像的中心区域。

进一步的，所述方法利用预设的神经网络模型识别图像获得对应的所述第二识别信息以及所述第三识别信息，所述方法还包括神经网络模型构建流程，所述神经网络模型构建流程包括以下步骤：

采集图像样本，提取至少三种不同尺寸的特征图，并矫正图像畸变、降噪，获得对应的样本图像集；

针对不同尺寸的特征图，根据含有目标物的图像得到有标签正样本图像集，并将没有目标物的图像及有相似物的图像合并成无标签负样本图像集；

针对不同尺寸的特征图，对所述有标签正样本图像集和所述无标签负样本图像集进行顺序打乱，取一部分作为训练数据集，取一部分作为测试数据集，分别对应生成训练数据集标签文件及测试数据集标签文件；

基于针对不同尺寸的特征图的所述训练数据集标签文件和所述测试数据集进行神经网络训练和测试，获得神经网络模型。

第二方面，本申请提供了一种目标识别装置，所述装置包括：

拍摄识别模块，其用于获取以第一缩放比例拍摄的第一图像，并以高于预设值的第一查全率确定待识别目标，得到各待识别目标的第一目标信息；

所述拍摄识别模块还用于获取以第二缩放比例对待识别目标拍摄的第二图像，以预设的查全最优阈值识别所述第二图像，得到第二目标信息，所述第一查全率高于所述查全最优阈值；

所述拍摄识别模块还用于获取以第三缩放比例对待识别目标拍摄的第三图像，以预设的查准最优阈值识别所述第三图像，得到第三目标信息；

信息比对分析模块，其用于根据所述第一目标信息、所述第二目标信息和所述第三目标信息获得最终识别信息。

进一步的，根据预设的查全率以及对应的查准率设定所述查全最优阈值；其中，

进一步的，所述拍摄识别模块还用于根据预设的查全率以及对应的查准率对应的最大置信度阈值设定所述查准最优阈值；其中，

进一步的，所述装置还包括：

错误警报模块，其用于当未识别出所述第一拍摄图像中的待识别目标或所述第二识别信息或所述第三识别信息时，进行错误警报。

本申请提供的技术方案带来的有益效果包括：

本申请通过对目标检测的倍数进行调整，在不同倍数的采集图像中结合不同的查全率和查准率，利用神经网络模型进行图像分析，从而在保证查全率的前提下保障查准率，提高目标检测的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中提供的目标识别方法的步骤流程图；

图2为本申请实施例中提供的目标识别装置的结构框图。

具体实施方式

术语解释：

BCE，Binary Cross Entropy，二分类交叉熵。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图对本申请的实施例作进一步详细说明。

本申请实施例提供一种目标识别方法及装置，通过对目标检测的倍数进行调整，在不同倍数的采集图像中结合不同的查全率和查准率，利用神经网络模型进行图像分析，从而在保证查全率的前提下保障查准率，提高目标检测的准确度。

为达到上述技术效果，本申请的总体思路如下：

一种目标识别方法，该方法包括以下步骤：

S1、获取以第一缩放比例拍摄的第一图像，并以高于预设值的第一查全率确定待识别目标，得到各待识别目标的第一目标信息；

S2、获取以第二缩放比例对待识别目标拍摄的第二图像，以预设的查全最优阈值识别第二图像，得到第二目标信息，第一查全率高于查全最优阈值；

S3、获取以第三缩放比例对待识别目标拍摄的第三图像，以预设的查准最优阈值识别第三图像，得到第三目标信息；

S4、根据第一目标信息、第二目标信息和第三目标信息获得最终识别信息。

以下结合附图对本申请的实施例作进一步详细说明。

第一方面，参见图1所示，本申请实施例提供一种目标识别方法，该方法包括以下步骤：

需要说明的是，获取以第一缩放比例拍摄的第一图像时，为了尽可能获得多的信息，以便确定待识别目标，故而第一查全率需要尽量选取较高的数值，此时可以设置一个第一图像对应的查全率的预设值，第一查全率应当高于该预设值。

本申请实施例中，通过对目标检测的倍数进行调整，在不同倍数的采集图像中结合不同的查全率和查准率，利用神经网络模型进行图像分析，从而在保证查全率的前提下保障查准率，提高目标检测的准确度。

进一步的，该方法还包括以下步骤：

根据预设的查全率以及对应的查准率设定查全最优阈值；其中，

查全最优阈值为查全率和查准率的乘积的最大值所对应查全率。

进一步的，该方法还包括以下步骤：

根据预设的查全率以及对应的查准率对应的最大置信度阈值设定查准最优阈值；其中，

查准最优阈值为查全率以及其对应的查准率对应的最大置信度阈值的乘积的最大值所对应的查准率。

进一步的，该方法还包括以下步骤：

当未识别出第一拍摄图像中的待识别目标或第二识别信息或第三识别信息时，进行错误警报。

具体的，本申请实施例中，对待识别目标进行中心对准时，待识别目标位于对应图像的中心区域。

具体的，本申请实施例中，该方法利用预设的神经网络模型识别图像获得对应的第二识别信息以及第三识别信息，该方法还包括神经网络模型构建流程，神经网络模型构建流程包括以下步骤：

针对不同尺寸的特征图，对有标签正样本图像集和无标签负样本图像集进行顺序打乱，取一部分作为训练数据集，取一部分作为测试数据集，分别对应生成训练数据集标签文件及测试数据集标签文件；

基于针对不同尺寸的特征图的训练数据集标签文件和测试数据集进行神经网络训练和测试，获得神经网络模型。

本申请在具体实施时，具体的操作流程如下：

首先进行人工神经网络训练，神经网络训练流程包括以下步骤：

第一步、采集图像样本，矫正图像畸变、降噪，得到样本图像集；其中，

图像畸变矫正采用已有的成熟方法，具体为根据摄像头内参计算图像的畸变矩阵，补偿图像畸变，将畸变图像校正，

图像降噪方法同样采用已有的成熟方法，对图像有噪点的情况进行高斯降噪等处理。

第二步、分类标记含有目标物图像，得到有标签正样本图像集，并且将没有目标物图像及有相似物的图像合并成无标签负样本图像集；

分类标记具体为记录图像上目标物的目标类型、中心坐标点以及宽高。

第三步、将有标签正样本图像集和无标签负样本图像集打乱顺序，取其中一部分作为训练数据集，另一部分作为测试数据集，同时得到训练数据集标签文件及测试数据集标签文件。

第四步、不断从训练数据集中取一个采集批次的图片，输入进行人工神经网络训练；其中，

本申请的神经网络训练工作中，具体可以采用现有的技术手段，实施时，主要是建立一个卷积核堆叠的集合体（神经网络），设定一个初始激活参数和步进距离，将输入数据输入神经网络会得到一个初始结果，根据初始结果和期望结果求导，初始参数按导数方向修改一个步进距离，再次输入，再次求导，多次来回则可使神经网络根据图片的标签修正自身参数。

本申请进行目标检测时所用的神经网络时，原始输入图片大小为608*608*3，经过Backbone网络提取76*76、38*38、19*19三种大小的特征图，再经Neck网络做特征融合，输出预测结果；

预测结果为(index，obj，cls，cx，cy，w，h)；其中，

index代表特征网格序号，obj代表存在目标的概率(0-1)，cls代表目标类别，cx代表x中心点相对特征网格的x的偏移量，cy代表中心点y坐标相对特征网格的y的偏移量，w、h代表目标物的宽和高；

用求导的损失函数来衡量预测结果，即GIOU衡量目标框的偏移量，BCE WithLogits Loss衡量含有物体的概率以及物体类别的概率，再设置学习步长，神经网络通过预测->计算损失loss->向loss变低的梯度方向变化一个步长的参数->预测->计算loss->.....不断的推导，即可根据图片的标签修正自身参数，最终学习到如何检测到图片中目标的位置。

第五步、存下已训练好的神经网络参数，获得神经网络模型，后续检测工作中，将图片输入神经网络即可得到图片中可能存在的目标的矩形框、目标类型、可信度。

需要说明的是，本申请实施例中的神经网络模型在训练时采集的目标有极远的也有极近的，由于近大远小的关系，在图中目标物的大小有的可以很小，甚至小到几个像素点，有点可以很大，大到仅能显现目标物的一部分；

神经网络模型内部采用多层级联结构，保证不同大小的目标识别的一致性；

本申请实施例需要结合摄像头，当神经网络模型训练好后（即平均准确率达到最大，平均准确率指的是对不同查全率的准确率进行平均），使用神经网络模型时，采用结合摄像头的多次识别手段。

本申请实施例中的目标识别方法，在具体实施时，包括以下流程：

第一步、利用摄像头进行第一次拍摄，此次采用最大查全率，获得第一图像，收集到所有识别出的目标信息，即得到各待识别目标的第一目标信息；其中，

基于可信度的解释，最大查全率是取包含了所有可信度的目标集合，当采用最大查全率时，可信度低的目标也会包含在第一图像中。

第二步、对于单个目标（即单个待识别目标），摄像头根据调校好的参数，对识别到待识别目标的位置做中心对准以及变倍操作，将待识别目标放置到图像的中心位置，并缩放到约占图像九分之一的大小，即缩放比例为9倍，而本流程的第一步的缩放比例为1倍；其中，

摄像头的参数是指摄像头各个倍率下，云台移动角度与拍摄画面的对应关系，预先标定即可进行此操作。

第三步、利用摄像头对缩放后的图像进行抓图识别，采用查全最优阈值进行识别，若中心未检测出对应目标类型的待识别目标，则该次识别为误报，否则走下一步流程；

其中，预先会对需要进行检测的目标进行分类，一个目标对应有一种目标类型；

计算各查全率以及各自对应的查准率的乘积的最大值，该最大值对应的查全率为查全最优阈值，如果存在至少两个查全率以及其对应的查准率的乘积均为最大值，则将这些查全率进行比较，选取查全率最大的一个作为查全最优阈值，查全最优阈值是为了在保证查全的情况下尽量查准；

查全率是指目标物真实检出数量除以目标物总数；

查准率是指模型检出正确数量除以模型检出总数。

对查全最优阈值进行具体说明，比如图像上存在可信度为70%的勺子和50%的叉子和30%的刀子，其中勺子和刀是正确的，叉子是反光造成的误报；

当可信度阈值设为40%时，叉子的可能性就会被滤除，此时查全率为1/2 ，查准率也为1/2；

当可信度阈值设为20% 时，查全率 2/2 查准率 2/3；

当可信度阈值设为60%时，查全率1/2 ，查准率 1/1；

实际场景会采用大量的图片来计算各个可信度下的查全率和查准率，所以最优阈值通常会有几个，此时需要选择各查全最优阈值中查全率最大的查全率。

第四步、摄像头再次进行中心对准以及变倍操作，将待识别目标放大到约占图像四分之一的位置，即此时缩放比例为4倍，再次图像识别，采用查准最优阈值，若未检测出对应目标物则判定该次识别为误报，否则为正确识别；

其中，计算各查全率以及其对应的查准率对应的最大置信度阈值的乘积，该乘积最大值对应的查准率则为查准最优阈值；

若存在至少两个查全率以及其对应的查准率对应的最大置信度阈值的乘积相等且均为最大值，那么进一步选取曲中查准率最高的值作为查准最优阈值；

另外，在同一批图像下，同一置信度对应一个查全率和一个查准率；

查全率和查准率是根据置信度波动的，所以会出现同一个查全率会对应多个查准率或者同一个查准率对应多个查全率的群殴买回来，两个值是根据置信度算出来的；

对所有置信度的情况进行演算，即可得出查全率查准率之间的分布关系。

本申请实施例的操作流程利用了目标检测在近距离目标较大时识别效果较好的特性，同时保障了查全率与查准率，使识别准确率远超过了单一图像识别的效果。

第二方面，参见图2所示，本申请实施例提供一种目标识别装置，其基于第一方面提及的目标识别方法，该装置实际工作时可配合摄像头进行工作，该装置包括：

拍摄识别模块还用于获取以第二缩放比例对待识别目标拍摄的第二图像，以预设的查全最优阈值识别第二图像，得到第二目标信息，第一查全率高于查全最优阈值，第一缩放比例小于第二缩放比例；

拍摄识别模块还用于获取以第三缩放比例对待识别目标拍摄的第三图像，以预设的查准最优阈值识别第三图像，得到第三目标信息，第二缩放比例大于第三缩放比例；

信息比对分析模块，其用于根据第一目标信息、第二目标信息和第三目标信息获得最终识别信息。

进一步的，该拍摄识别模块还用于根据预设的查全率以及对应的查准率设定查全最优阈值；其中，

进一步的，拍摄识别模块还用于根据预设的查全率以及对应的查准率对应的最大置信度阈值设定查准最优阈值；其中，

进一步的，该装置还包括：

错误警报模块，其用于当未识别出第一拍摄图像中的待识别目标或第二识别信息或第三识别信息时，进行错误警报。

具体的，本申请实施例中，该装置利用预设的神经网络模型识别图像获得对应的第二识别信息以及第三识别信息，该装置还包括神经网络构建模块，神经网络构建模块的神经网络模型构建流程包括以下步骤：

需要说明的是，在本申请中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种目标识别方法，其特征在于，所述方法包括以下步骤：

获取以第二缩放比例对待识别目标拍摄的第二图像，以预设的查全最优阈值识别所述第二图像，得到第二目标信息，所述第一查全率高于所述查全最优阈值，所述第一缩放比例小于第二缩放比例；

获取以第三缩放比例对待识别目标拍摄的第三图像，以预设的查准最优阈值识别所述第三图像，得到第三目标信息，所述第二缩放比例大于第三缩放比例；

根据所述第一目标信息、所述第二目标信息和所述第三目标信息获得最终识别信息；

所述方法还包括以下步骤：

所述查全最优阈值为所述预设的查全率以及对应的查准率的乘积的最大值所对应查全率。

2.如权利要求1所述的目标识别方法，其特征在于，所述方法还包括以下步骤：

所述查准最优阈值为所述预设的查全率以及其对应的查准率对应的最大置信度阈值的乘积的最大值所对应的查准率。

3.如权利要求1所述的目标识别方法，其特征在于，所述方法还包括以下步骤：

当未识别出所述第一图像中的待识别目标或所述第二目标信息或所述第三目标信息时，进行错误警报。

4.如权利要求1所述的目标识别方法，其特征在于：

对所述待识别目标进行中心对准时，所述待识别目标位于对应图像的中心区域。

5.如权利要求1所述的目标识别方法，其特征在于，所述方法利用预设的神经网络模型识别图像获得对应的所述第二目标信息以及所述第三目标信息，所述方法还包括神经网络模型构建流程，所述神经网络模型构建流程包括以下步骤：

6.一种目标识别装置，其特征在于，所述装置包括：

所述拍摄识别模块还用于获取以第二缩放比例对待识别目标拍摄的第二图像，以预设的查全最优阈值识别所述第二图像，得到第二目标信息，所述第一查全率高于所述查全最优阈值，所述第一缩放比例小于第二缩放比例；

所述拍摄识别模块还用于获取以第三缩放比例对待识别目标拍摄的第三图像，以预设的查准最优阈值识别所述第三图像，得到第三目标信息，所述第二缩放比例大于第三缩放比例；

信息比对分析模块，其用于根据所述第一目标信息、所述第二目标信息和所述第三目标信息获得最终识别信息；

所述拍摄识别模块还用于根据预设的查全率以及对应的查准率设定所述查全最优阈值；其中，

7.如权利要求6所述的目标识别装置，其特征在于：

所述拍摄识别模块还用于根据预设的查全率以及对应的查准率对应的最大置信度阈值设定所述查准最优阈值；其中，

8.如权利要求6所述的目标识别装置，其特征在于，所述装置还包括：

错误警报模块，其用于当未识别出所述第一图像中的待识别目标或所述第二目标信息或所述第三目标信息时，进行错误警报。