CN109146967A

CN109146967A - 图像中目标对象的定位方法和装置

Info

Publication number: CN109146967A
Application number: CN201810745187.6A
Authority: CN
Inventors: 罗培元
Original assignee: Shanghai Feixun Data Communication Technology Co Ltd
Current assignee: Hangzhou Jiji Intellectual Property Operation Co., Ltd
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2019-01-04

Abstract

本申请实施例提供了一种图像中目标对象的定位方法和装置，其中，该方法包括：获取待检测图像；根据待检测图像得到第一处理图像和第二处理图像；叠加第一处理图像和第二处理图像，得到叠加结果图像；利用改进的神经网络模型对叠加结果图像进行检测，以确定待检测图像的目标定位框，由于该方案通过先对待检测图像进行前置处理，分别得到图像特征较丰富的第一处理图像、第二处理图像；再通过叠加上述两种图像，以综合两种图像的不同的图像特征优势，进一步增强并丰富了输入神经网络模型的图像的特征信息；进而通过改进的神经网络模型可以更加有效地利用上述图像特征信息，确定目标定位框，从而解决了现有方法存在的定位速度慢、准确度差的技术问题。

Description

图像中目标对象的定位方法和装置

技术领域

本申请涉及图像处理技术领域，特别涉及一种图像中目标对象的定位方法和装置。

背景技术

在利用神经网络对图像数据进行处理时，通常会先寻找、确定出定位框，利用定位框对图像中的目标对象(或者图像中的主要内容)进行定位，以确定并标识出图像中的目标对象所在位置，进而可以对该位置处的图像数据进行进一步的处理，例如，识别该位置处的图像内容，或者提取该位置处的图像的特征数据等等。

目前，为了确定出用于标识目标对象所处图像中的位置区域的目标定位框，大多是利用基于SSD(Single Shot MultiBox Detector)的目标检测模型对待检测图像进行检测处理，以识别并确定出图像中的目标定位框。但是，上述目标检测模型受限于实现机理，其模型结构较为复杂。导致利用上述目标检测模型进行图像定位时，实施效率相对较低，准确度也相对较差，不适合部署应用于嵌入式移动设备等硬件条件较低的设备。综上可知，现有的图像中目标对象的定位方法具体实施时，往往存在定位速度慢、准确度差的技术问题。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种图像中目标对象的定位方法和装置，以解决现有方法存在的定位速度慢、准确度差的技术问题，达到能够适合部署并应用于嵌入式移动设备等运行环境，高效地自动识别、确定出图像中的目标定位框的技术效果。

本申请实施例提供了一种图像中目标对象的定位方法，包括：

获取待检测图像；

根据所述待检测图像得到第一处理图像和第二处理图像，其中，所述第一处理图像为边界增强的灰度图像，所述第二处理图像为对比度增强的RGB图像；

叠加所述第一处理图像和所述第二处理图像，得到叠加结果图像；

利用改进的神经网络模型对所述叠加结果图像进行检测，以确定所述待检测图像的目标定位框，其中，所述目标定位框用于标识出所述待检测图像中的目标对象所处的图像区域。

在一个实施方式中，根据所述待检测图像得到第一处理图像，包括：

根据所述待检测图像得到灰度图像和边界图像；

将所述灰度图像和所述边界图像相加，得到所述第一处理图像。

在一个实施方式中，根据所述待检测图像得到第二处理图像，包括：

确定图像卷积核；

利用所述图像卷积核对所述待检测图像进行卷积核滤波，得到所述第二处理图像。

在一个实施方式中，叠加所述第一处理图像和所述第二处理图像，得到叠加结果图像，包括：

利用预设的连接方式，对所述第一处理图像和所述第二处理图像进行图像卷积叠加，以得到所述叠加结果图像。

在一个实施方式中，所述预设的连接方式包括route连接方式。

在一个实施方式中，利用改进的神经网络模型对所述叠加结果图像进行检测，以确定所述待检测图像的目标定位框，其中，所述目标定位框用于标识出所述待检测图像中的目标对象所处的图像区域，包括：

根据所述叠加结果图像，利用所述改进的神经网络模型生成多个的特征图，其中，所述特征图用于检测目标对象；

根据所述特征图，利用所述改进的神经网络模型生成多个候选框；

从所述多个候选框中筛选出所述目标定位框。

在一个实施方式中，所述改进的神经网络模型为基于mobilenet v2结构的，且所生成的特征图的数量、所述生成的候选框的数量被调整后的模型。

在一个实施方式中，所述改进的神经网络模型按照以下方式获取：

对神经网络模型中的feature map进行修改，以将所述神经网络模型生成的多个特征图的数量调整为8。

在一个实施方式中，利用所述改进的神经网络模型生成多个的特征图，包括：

利用所述改进的神经网络模型，通过反向传播训练，生成8个卷积核；其中，所述卷积核分别对应一个维度特征；

利用所述8个卷积核，获取对应的8个特征图。

修改神经网络模型中的设置参数，以将所述神经网络模型生成的多个候选框的数量调整为3。

在一个实施方式中，利用所述改进的神经网络模型生成多个候选框，包括：

利用所述改进的神经网络模型，通过回归处理，得到3个候选框；其中，所述候选框分别携带有候选框的位置参数和置信度概率，所述置信度概率用于表征所述候选框中存在目标对象的概率。

在一个实施方式中，从所述多个候选框中筛选出所述目标定位框，包括：

从所述3个候选框中，筛选出置信度概率最高的后选框作为所述目标定位框。

本申请实施例还提供了一种图像中目标对象的定位装置，包括：

获取模块，用于获取待检测图像；

前置处理模块，用于根据所述待检测图像得到第一处理图像和第二处理图像，其中，所述第一处理图像为边界增强的灰度图像，所述第二处理图像为对比度增强的 RGB图像；

叠加模块，用于叠加所述第一处理图像和所述第二处理图像，得到叠加结果图像；

确定模块，用于利用改进的神经网络模型对所述叠加结果图像进行检测，以确定所述待检测图像的目标定位框，其中，所述目标定位框用于标识出所述待检测图像中的目标对象所处的图像区域。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现获取待检测图像；根据所述待检测图像得到第一处理图像和第二处理图像，其中，所述第一处理图像为边界增强的灰度图像，所述第二处理图像为对比度增强的RGB图像；叠加所述第一处理图像和所述第二处理图像，得到叠加结果图像；利用改进的神经网络模型对所述叠加结果图像进行检测，以确定所述待检测图像的目标定位框，其中，所述目标定位框用于标识出所述待检测图像中的目标对象所处的图像区域。

在本申请实施例中，通过先对待检测图像进行前置处理，分别得到图像特征较丰富、维度较多的第一处理图像、第二处理图像；再通过叠加上述两种图像，以综合利用两种图像的不同的图像特征优势，进一步增强并丰富了输入神经网络模型的图像的特征信息；进而通过改进的神经网络模型可以更加有效地利用上述图像特征信息，确定目标定位框，从而解决了现有方法存在的定位速度慢、准确度差的技术问题，达到能够适合部署并应用于嵌入式移动设备等运行环境，高效地自动识别、确定出图像中的目标定位框的技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施方式提供的图像中目标对象的定位方法的处理流程图；

图2是根据本申请实施方式提供的图像中目标对象的定位装置的组成结构图；

图3是基于本申请实施例提供的图像中目标对象的定位方法的电子设备组成结构示意图；

图4是在一个场景示例中应用本申请实施例提供的图像中目标对象的定位方法和装置获得的3个候选框的示意图；

图5是在一个场景示例中应用本申请实施例提供的图像中目标对象的定位方法和装置确定的目标定位框的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

考虑到现有图像定位方法，往往没有事先对待检测图像进行前置处理，而是直接将待检测图像作为输入数据输入已经训练好的神经网络模型(例如基于SSD的目标检测模型)进行检测识别，以确定出能够表征出待检测图像的目标对象的所在区域位置信息的目标定位框。上述方法在实现时没有考虑到对待检测图像的特征信息进行有针对性的强化处理，而是全部依赖神经网络模型自行对待检测图像中的特征信息进行提取、处理，导致所训练、使用的神经网络模型的结构相对较为复杂，在利用上述神经网络模型进行图像定位时速度相对较慢、准确度也相对较差。并且由于所依赖的神经网络模型结构较为复杂，在实施时，势必会占用较多的计算资源，对硬件设备的要求相对较高，导致并不适合布设、应用于硬件条件相对较低的嵌入式移动设备等运行环境。综上可知，现有方法具体实施时往往存在定位速度慢、准度差的技术问题。

针对产生上述技术问题的根本原因，本申请考虑可以先对待检测图像进行前置处理，以丰富、强化输入神经网络模型的图像数据中特征信息，基于输入神经网络模型的图像数据具有更丰富、明显的特征信息的情况下，可以对神经网络模型的结构和设置进行相应简化和改进，进而可以利用改进后的神经网络模型更加有效地利用丰富、强化了的图像特征信息，以快速、准确地确定出目标定位框，从而解决了现有方法存在的定位速度慢、准确度差的技术问题，达到能够适合部署并应用于嵌入式移动设备等硬件低的运行环境，高效地自动识别、确定出图像中的目标定位框的技术效果。

基于上述思考思路，本申请实施例提供了一种图像中目标对象的定位方法。具体请参阅图1所示的根据本申请实施方式提供的图像中目标对象的定位方法的处理流程图。本申请实施例提供的图像中目标对象的定位方法，具体实施时，可以包括以下步骤。

S11：获取待检测图像。

在本实施方式中，所述待检测图像具体可以是一种三通道的RGB图像。其中，上述待检测图像上包含有待识别的图像内容或目标对象的图像数据。

上述待识别的图像内容或目标对象可以理解为基于某种具体的应用场景和实施要求，需要从待检测图像中检测识别出的内容对象。例如，对于人脸识别，待检测图像可以是包含有人脸的图像，相应的目标对象可以是图像中的人脸。又例如，对于车牌识别，待检测图像可以是包含有车牌的图像，相应的目标对象可以是图像中的车牌。当然上述所列举的待检测图像以及需要检测识别的目标对象只是为了更好地说明本申请实施方式。具体实施时，也可以根据具体情况和施工要求，选择其他类型的图像作为待检测图像，选择其他类型的内容对象，作为目标对象。对此，本申请不作限定。

S12：根据所述待检测图像得到第一处理图像和第二处理图像，其中，所述第一处理图像为边界增强的灰度图像，所述第二处理图像为对比度增强的RGB图像。

在一个实施方式中，考虑到现有方法往往对所获取的待检测图像不作前置处理，而是作为输入数据，直接输入至神经网络模型中进行图像目标的定位。导致神经网络模型在提取图像特征以便后续分析处理时需要占用更多的资源成本和时间成本，增加了神经网络模型的负担，导致现有方法所设计、使用的神经网络模型较为复杂，运行是定位速度相对较慢。基于上述情况，本实施方式先对待检测图像进行前置处理，以分别得到具备不同的图像特征优势的第一处理图像和第二处理图像，进而可以综合利用上述第一处理图像和第二处理图像替换未做处理的待检测图像以丰富并强化后续输入至神经网络模型中的图像特征信息。

在本实施方式中，考虑到边界增强的灰度图像相对于未处理的图像通常具有更好的边界特征信息，而这种更好的边界特征信息又有助于后续神经网络模型对图像的检测处理，可以提高神经网络模型的检测精度，进而更好地提取图像特征。因此，可以将边界增强的灰度图像作为上述第一处理图像，以便后续通过神经网络模型可以提取到更加准确的图像特征。

在本实施方式中，考虑到对比度增强的RGB图像相对于未处理的图像通常具有更强的颜色对比度，而神经网络模型又对于颜色的色差较为敏感。例如，在神经网络模型的回归过程中会参考色差饱和信息。因此，可以将对比对增强的RGB图像作为上述第二处理图像，以便后续通过神经网络模型可以提取到更加丰富(维度更多的)、更加准确的图像特征。

在一个实施方式中，根据所述待检测图像得到第一处理图像，具体实施时，可以包括以下内容：

S1：根据所述待检测图像得到灰度图像和边界图像；

S2：将所述灰度图像和所述边界图像相加，得到所述第一处理图像。

在一个实施方式中，具体实施时，可以按照以下公式对上述待检测图像进行灰度处理，以得到灰度图像：

Gray＝0.30*R+0.59*G+0.11*B

其中，Gray具体可以表示为灰度值，R具体可以表示为红色通道的数值，G具体可以表示为绿色通道的数值，B具体可以表示为蓝色通道的数值。

在一个实施方式中，具体实施时，可以按照以下公式对待检测图像进行边界加强，以得到边界图像：

其中，G_x具体可以表示待检测图像在x上的边界，G_y具体可以表示待检测图像在y上的边界。

在本实施方式中，通过将上述灰度图像和边界图像进行相加得到边界加强的灰度图像作为第一处理图像，从而可以达到强化图像边界的特征信息的效果。

在一个实施方式中，上述根据所述待检测图像得到第二处理图像，具体实施时可以包括以下内容：

S1：确定图像卷积核；

S2：利用所述图像卷积核对所述待检测图像进行卷积核滤波，得到所述第二处理图像。

在一个实施方式中，为了强化图像的对比度，使得图像中颜色落差更为明显，具体实施时，可以将上述图像卷积核确定表示为以下形式：

当然，需要说明的是，上述所列举的图像卷积核只是一种示意性说明。具体实施时，可以根据具体情况和精度要求确定其他的算子作为上述图像卷积核。对此，本申请不作限定。

在本实施方式中，可以利用上述图像卷积核对所述待检测图像进行卷积核滤波处理，强化图像的对比度，得到对比度增强的RGB图像作为第二处理图像，从而达到增强图像的对比度，以便后续神经网络模型能够提取得到更多维度的图像特征信息。

S13：叠加所述第一处理图像和所述第二处理图像，得到叠加结果图像。

在一个实施方式中，为了能够同时综合地利用第一处理图像和第二处理图像各自的图像特征的不同优势，可以先将第一处理图像和第二处理图像进行叠加，得到叠加结果图像。其中，上述叠加结果图像具备有第一处理图像基于图像边界强化的图像特征优势，又同时具备有第二处理图像基于对比度增强带来的图像特征优势。进而可以将叠加结果图像作为后续神经网络模型的输入数据，以便神经网络模型可以根据上述叠加结果图像获取到更丰富、更准确的图像特征来进行图像目标定位。

在一个实施方式中，上述叠加所述第一处理图像和所述第二处理图像，得到叠加结果图像，具体实施时，可以包括：利用预设的连接方式，对所述第一处理图像和所述第二处理图像进行图像卷积叠加，以得到所述叠加结果图像。

在一个实施方式中，进一步的，为了提高算法的鲁棒性，具体实施时，上述预设的连接方式具体可以是route连接方式。其中，上述route具体与后端的神经网络模型相连，这样可以在没有增加明显的计算复杂度的前提下，增加了不同通道的联系，通过route连接方式将来自不同通道的第一处理图像和第二处理图像进行图像卷积叠加得到上述叠加结果图像。当然，需要说明的是，上述所列举的route连接方式只是为了更好的说明本申请实施方式。具体实施时，也可以根据具体的场景和要求，选择其他的连接方式作为上述预设的连接方式。对此，本申请不作限定。

S14：利用改进的神经网络模型对所述叠加结果图像进行检测，以确定所述待检测图像的目标定位框，其中，所述目标定位框用于标识出所述待检测图像中的目标对象所处的图像区域。

在本实施方式中，在获取了叠加结果图像后，可以将叠加结果图像作为输入，利用神经网络模型对叠加结果图像进行检测处理，以确定出用于标识待检测图像中目标对象所处的图线区域的目标定位框，以完成对待检测图像的图像目标定位。

在本实施方式中，上述确定待检测图像的目标定位框可以理解为确定出用于标识(或框选出)待检测图像中的目标对象所处的图像区域的定位框的位置参数(包括距离中心的距离差)和尺寸参数(包括定位框的长度和宽度)等，进而后续可以利用上述目标定位框的位置参数和尺寸参数进行进一步的图像数据处理。例如，图像识别等。

在一个实施方式中，由于通过利用同时具备有第一处理图像、第二处理图像的图像特征优势的叠加结果图像作为神经网络模型的输入数据，使得神经网络模型所获取的图像数据在检测处理之前就已经具备了更为丰富、强化的图像特征，从而可以减轻神经网络模型的任务负担。这时，可以针对性地对神经网络模型进行相应的改进，以简化神经网络模型的结构，在保证精确度的同时，提高神经网络模型的处理速度，降低神经网络模型对时间和资源的占用，进而可以使得硬件条件较差的嵌入式移动设备等运行环境基于有限的硬件资源也能较好地利用改进的神经网络模型进行图像目标定位。

在一个实施方式中，上述利用改进的神经网络模型对所述叠加结果图像进行检测，以确定所述待检测图像的目标定位框，其中，所述目标定位框用于标识出所述待检测图像中的目标对象所处的图像区域，具体实施时，可以包括以下内容：

S1：根据所述叠加结果图像，利用所述改进的神经网络模型生成多个的特征图，其中，所述特征图用于检测目标对象；

S2：根据所述特征图，利用所述改进的神经网络模型生成多个候选框；

S3：从所述多个候选框中筛选出所述目标定位框。

在一个实施方式中，所述改进的神经网络模型具体可以为所述改进的神经网络模型为基于mobilenet v2结构的，且所生成的特征图的数量、所述生成的候选框的数量被调整后的模型。

在本实施方式中，上述mobilenet v2是一种神经网络的基础网络，是对mobilenetv1做了相应的修改后得到的网络。具体的，例如，上述mobilenet v2使用了invertedresiduals，这种类似导致残差网络的模型，来增大数据输入的维度，实际上是为了解决因为特征消失而导致的训练调入激活函数无法激活的问题。

在本实施方式中，还需要说明的是，为了保证后续使用上述改进的神经网络模型能同时兼顾数据处理精度以及数据处理效率，即在保证能获得较为丰富的图像特征信息的同时，降低用于确定目标位置的候选框的数量，还对基于mobilenet v2结构的神经网络模型所生成的特征图的数量、所述生成的候选框的数量等参数分别进行了相应的调整。进而将基于mobilenet v2结构的，且所生成的特征图的数量、所述生成的候选框的数量被调整后的模型作为改进的神经网络模型。当然，需要说明的是，上述所列举的改进的神经网络模型只是一种示意性说明，不应构成对本申请的不当限定。

在一个实施方式中，考虑到输入神经网络模型的叠加结果图像具有维度更多、更丰富、更清晰的图像特征信息，因此降低了后续神经网络模型提取图像特征的难度。基于上述情况，结合叠加结果图像的数据特点，考虑可以对神经网络模型进行相应改进调整，进而可以利用改进的神经网络模型更加高效地提取图像特征信息，提高定位速度；同时，保证具备较高的准确度。

在一个实施方式中，具体实施时，可以按照以下方式对神经网络模型进行改进，得到改进的神经网络模型：对神经网络模型中的feature map进行修改，以将所述神经网络模型生成的多个特征图的数量调整为8。

在一个实施方式中，基于上述改进的神经网络模型，利用所述改进的神经网络模型生成多个的特征图，具体实施时，可以包括以下内容：

S1：利用所述改进的神经网络模型，通过反向传播训练，生成8个卷积核；其中，所述卷积核分别对应一个维度特征；

S2：利用所述8个卷积核，获取对应的8个特征图。

在本实施方式中，上述每一个卷积核对应一个维度特征，不同卷积核对应不同的层级的特征。

在本实施方式中，上述8个特征图分别来自8个不同的卷积核。相应的，8个特征图是8个不同维度的特征图，对应基于不同维度得到的目标对象位置。进而后续处理时，可以利用图像金字塔理论，综合上述基于不同维度得到的目标对象位置，得到精度更高的目标定位框。

在本实施方式中，需要说明的是，现有方法大多只是获取6个特征图。而本发明由于输入的维度更多，图像特征信息更丰富的叠加结果图像，因此可以通过改进的神经网络模型获取得到8个特征图，以提高确定目标定位框的准确度。

在一个实施方式中，具体实施时，可以按照以下方式对神经网络模型进行改进，得到改进的神经网络模型：修改神经网络模型中的设置参数，以将所述神经网络模型生成的多个候选框的数量调整为3。

在一个实施方式中，基于上述改进的神经网络模型，利用所述改进的神经网络模型生成多个候选框，具体实施时，可以包括以下内容：利用所述改进的神经网络模型，通过回归处理，得到3个候选框；其中，所述候选框分别携带有候选框的位置参数和置信度概率，所述置信度概率用于表征所述候选框中存在目标对象的概率。

在本实施方式中，上述3个候选框具体可以是基于同一个中心点沿三个不同方向设计的候选框(或称检测框)。

在本实施方式中，具体实施时，所获取的候选框携带有候选框的位置参数，例如上述位置参数还可以包括：x轴方向上与中心点的偏移距离和y轴方向上与中心点的偏移距离。上述候选框还可以携带有各自的置信度概率，其中，上述置信度概率是通过神经网络模型经过回归优化得到的用于指示候选框中是否存在目标对象的概率值。通常，某个候选框的置信度概率越高，相应的存在目标对象的可能性越大。此外，上述候选框还可以携带有候选框中目标对象的类型参数。例如标识候选框中的目标对象为人脸的标识信息等。当然，需要说明的是，上述所列举的候选框所携带的参数信息只是一种示意性说明。不应当构成对本申请的不当限定。

在本实施方式中，需要说明的是，现有方法没有利用到目标对象检测中的位置偏移参数，大多是生成5个候选框来标识目标对象。但在本申请实施例中，考虑到可以将目标对象检测中的位置偏移参数作为辅助参数，并不需要使用到这么多的候选框。为了降低神经网络模型检测的复杂度，提高处理速度，同时也为了不减少检测的范围，将生成的候选框的数量修改为了3个。这样也能更好地适合部署应用于嵌入式移动设备等运行环境。

在一个实施方式中，从所述多个候选框中筛选出所述目标定位框，具体实施时，可以包括：从所述3个候选框中，筛选出置信度概率最高的后选框作为所述目标定位框。这样可以更加准确地选择出精度最高的候选框作为目标定位框。

从以上的描述中，可以看出，本申请实施例提供的图像中目标对象的定位方法，通过先对待检测图像进行前置处理，分别得到图像特征较丰富的第一处理图像、第二处理图像；再通过叠加上述两种图像，以综合两种图像的不同的图像特征优势，进一步增强并丰富了输入神经网络模型的图像的特征信息；进而通过改进的神经网络模型可以更加有效地利用上述图像特征信息，确定目标定位框，从而解决了现有方法存在的定位速度慢、准确度差的技术问题，达到能够适合部署并应用于嵌入式移动设备等运行环境，高效地自动识别、确定出图像中的目标定位框的技术效果；还通过采用 route连接方式将第一处理图像和第二处理图像进行图像卷积叠加得到维度更堵、图像特征更优的叠加结果图像，增加了不同图像通道之间的联系，提高了算法的鲁棒性；还通过改进神经网络模型，利用改进的神经网络模型获取8个特征图，以获取更多维度的图像特征，进一步提高了图像目标定位的准确度；还通过改进神经网络模型，利用改进的神经网络模型生成3个候选框，以筛选得到目标定位框，进一步提高了处理速度。

基于同一发明构思，本发明实施例中还提供了一种图像中目标对象的定位装置，如下面的实施例所述。由于图像中目标对象的定位装置解决问题的原理与图像中目标对象的定位方法相似，因此图像中目标对象的定位装置的实施可以参见图像中目标对象的定位方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。请参阅图2，是本申请实施例提供的图像中目标对象的定位装置的一种组成结构图，该装置具体可以包括：获取模块21、前置处理模块22、叠加模块23和确定模块24，下面对该结构进行具体说明。

获取模块21，具体可以用于获取待检测图像；

前置处理模块22，具体可以用于根据所述待检测图像得到第一处理图像和第二处理图像，其中，所述第一处理图像为边界增强的灰度图像，所述第二处理图像为对比度增强的RGB图像；

叠加模块23，具体可以用于叠加所述第一处理图像和所述第二处理图像，得到叠加结果图像；

确定模块24，具体可以用于利用改进的神经网络模型对所述叠加结果图像进行检测，以确定所述待检测图像的目标定位框，其中，所述目标定位框用于标识出所述待检测图像中的目标对象所处的图像区域。

在一个实施方式中，为了能够根据所述待检测图像得到第一处理图像，上述前置处理模块22具体可以包括以下结构单元：

第一处理单元，具体可以用于对所述灰度图进行图像边界增强处理，得到所述第一处理图像根据所述待检测图像得到灰度图像和边界图像；

相加单元，具体可以用于将所述灰度图像和所述边界图像相加，得到所述第一处理图像。

在一个实施方式中，为了能够根据所述待检测图像得到第二处理图像，上述前置处理模块22具体还可以包括以下结构单元：

第一确定单元，具体可以用于确定图像卷积核；

第二处理单元，具体可以用于利用所述图像卷积核对所述待检测图像进行卷积核滤波，得到所述第二处理图像。

在一个实施方式中，为了能够叠加所述第一处理图像和所述第二处理图像，得到叠加结果图像，上述叠加模块23具体可以包括以下结构单元：

叠加单元，具体可以用于利用预设的连接方式，对所述第一处理图像和所述第二处理图像进行图像卷积叠加，以得到所述叠加结果图像。

在一个实施方式中，所述预设的连接方式具体可以包括route连接方式等。当然，上述所列举的连接方式只是一种示意性说明。不应构成对本申请的不当限定。

在一个实施方式中，为了能够利用改进的神经网络模型对所述叠加结果图像进行检测，以确定所述待检测图像的目标定位框，其中，所述目标定位框用于标识出所述待检测图像中的目标对象所处的图像区域，上述确定模块24具体可以包括以下结构单元：

第一生成单元，具体可以用于根据所述叠加结果图像，利用所述改进的神经网络模型生成多个的特征图，其中，所述特征图用于检测目标对象；

第二生成单元，具体可以用于根据所述特征图，利用所述改进的神经网络模型生成多个候选框；

筛选单元，具体可以用于从所述多个候选框中筛选出所述目标定位框。

在一个实施方式中，所述改进的神经网络模型具体可以为基于mobilenet v2结构的，且所生成的特征图的数量、所述生成的候选框的数量被调整后的模型。

在本实施方式中，需要说明的是，为了保证后续使用上述改进的神经网络模型能同时兼顾数据处理精度以及数据处理效率，即在保证能获得较为丰富的图像特征信息的同时，降低用于确定目标位置的候选框的数量，还对基于mobilenet v2结构的神经网络模型所生成的特征图的数量、所述生成的候选框的数量等参数分别进行了相应的调整。进而将基于mobilenet v2结构的，且所生成的特征图的数量、所述生成的候选框的数量被调整后的模型作为改进的神经网络模型。当然，需要说明的是，上述所列举的改进的神经网络模型只是一种示意性说明，不应构成对本申请的不当限定。

在一个实施方式中，上述装置还可以包括改进模块，用于对神经网络模型进行针对性的调整修改，以得到改进的神经网络模型。

在一个实施方式中，上述改进模块具体实施时，可以按照以下程序对神经网络模型进行改进：对神经网络模型中的feature map进行修改，以将所述神经网络模型生成的多个特征图的数量调整为8。

在一个实施方式中，基于上述改进的神经网络模型，确定模块24具体实施时可以按照以下程序实现利用所述改进的神经网络模型生成多个的特征图：利用所述改进的神经网络模型，通过反向传播训练，生成8个卷积核；其中，所述卷积核分别对应一个维度特征；利用所述8个卷积核，获取对应的8个特征图。

在一个实施方式中，上述改进模块具体实施时，还可以按照以下程序对神经网络模型进行另种改进：修改神经网络模型中的设置参数，以将所述神经网络模型生成的多个候选框的数量调整为3。

在一个实施方式中，基于上述改进的神经网络模型，确定模块24具体实施时可以按照以下程序实现利用所述改进的神经网络模型生成多个候选框：利用所述改进的神经网络模型，通过回归处理，得到3个候选框；其中，所述候选框分别携带有候选框的位置参数和置信度概率，所述置信度概率用于表征所述候选框中存在目标对象的概率。

在一个实施方式中，确定模块24具体实施时，可以从所述3个候选框中，筛选出置信度概率最高的后选框作为所述目标定位框。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，上述实施方式阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，在本说明书中，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

此外，在本说明书中，诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分，而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下，参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个，而可以是元素、部件、或步骤中的一个或多个等。

从以上的描述中，可以看出，本申请实施例提供的图像中目标对象的定位装置，通过前置处理模块先对待检测图像进行前置处理，分别得到图像特征较丰富的第一处理图像、第二处理图像；再通过叠加模块叠加上述两种图像，以综合两种图像的不同的图像特征优势，进一步增强并丰富了输入神经网络模型的图像的特征信息；进而通过确定模块利用改进的神经网络模型可以更加有效地利用上述图像特征信息，确定目标定位框，从而解决了现有方法存在的定位速度慢、准确度差的技术问题，达到能够适合部署并应用于嵌入式移动设备等运行环境，高效地自动识别、确定出图像中的目标定位框的技术效果；还通过叠加模块采用route连接方式将第一处理图像和第二处理图像进行图像卷积叠加得到维度更堵、图像特征更优的叠加结果图像，增加了不同图像通道之间的联系，提高了算法的鲁棒性；还通过改进模块改进神经网络模型，通过确定模块利用改进的神经网络模型获取8个特征图，以获取更多维度的图像特征，进一步提高了图像目标定位的准确度；还通过改进模块改进神经网络模型，通过确定模块利用改进的神经网络模型生成3个候选框，以筛选得到目标定位框，进一步提高了处理速度。

本申请实施方式还提供了一种电子设备，具体可以参阅图3所示的基于本申请实施例提供的图像中目标对象的定位方法的电子设备组成结构示意图，所述电子设备具体可以包括输入设备31、处理器32、存储器33。其中，所述输入设备31具体可以用于输入待检测图像。所述处理器32具体可以用于根据所述待检测图像得到第一处理图像和第二处理图像，其中，所述第一处理图像为边界增强的灰度图像，所述第二处理图像为对比度增强的RGB图像；叠加所述第一处理图像和所述第二处理图像，得到叠加结果图像；利用改进的神经网络模型对所述叠加结果图像进行检测，以确定所述待检测图像的目标定位框，其中，所述目标定位框用于标识出所述待检测图像中的目标对象所处的图像区域。所述存储器33具体可以用于存储通过输入设备31输入的待检测图像、处理器32生成的中间数据，以及相关的程序指令。

在本实施方式中，所述输入设备具体可以是用户和计算机系统之间进行信息交换的主要装置之一。所述输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等；输入设备用于把原始数据和处理这些数的程序输入到计算机中。所述输入设备还可以获取接收其他模块、单元、设备传输过来的数据。所述处理器可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述存储器具体可以是现代信息技术中用于保存信息的记忆设备。所述存储器可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

在本实施方式中，该电子设备具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

本说申请实施方式中还提供了一种基于图像中目标对象的定位方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取待检测图像；根据所述待检测图像得到第一处理图像和第二处理图像，其中，所述第一处理图像为边界增强的灰度图像，所述第二处理图像为对比度增强的 RGB图像；叠加所述第一处理图像和所述第二处理图像，得到叠加结果图像；利用改进的神经网络模型对所述叠加结果图像进行检测，以确定所述待检测图像的目标定位框，其中，所述目标定位框用于标识出所述待检测图像中的目标对象所处的图像区域。

在本实施方式中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施方式中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

在一个具体实施场景示例中，应用本申请实施例的提供图像中目标对象的定位方法和装置进行目标定位框的确定。具体实施过程可以参阅以下内容。

第一步：传统的图像处理中，卷积神经网络一般直接输入3通道的RGB图像(即待检测图像)，在本例中，对此进行了改进用以获取得到更好的效果。改进之一为：首先通过图像前处理得到灰度图，在灰度图中进行相应的图像边界增强(即得到第一处理图像)。这样能得到更好的边界信息，在后面的卷积神经网络中有更好的表现。改进之二为：基于神经网络对于颜色同时也存在敏感度，回归过程会参考色差饱和等信息，在本例中也对图像的颜色进行了增强(即得到第二处理图像)，形象的来讲，也就是使颜色更具有色差性，有利于神将网络提取得到更好的特征。

在改进一中：提取相应的灰度图像以及相应的边界增强公式具体可以表示如下：

Gray＝0.30*R+0.59*G+0.11*B

随后对得到的灰度图像以及边界图像进行图像相加，即得到了边界增强的灰度图像(即第一处理图像)。

在改进二中：对图像的颜色增强具体采用了如下的计算方法进行对比度增强：

在本例中，实际上是将图像通过了一个固定的图像卷积操作，其卷积核具体可以表示为如下形式：

0	-1	0
			-1	5	-1
0	-1	0

通过卷积核滤波后，图像得到了对比度增强，颜色落差对比明显，通常来讲神经网络的图像输入一般为224或者229这样的像素维度，这样的图像增强之后明显使网络模型可得的特征维度增多。

第二步：在本处理流程中，采用了mobilenetv2作为基础网络。但是基于mobilenet本身的局限，本例中进行了相应的改进(得到改进的神经网络模型)。

在本例中，需要说明的是，mobilenet v2对mobilenet v1做了相应的改进。比如使用了inverted residuals，一个类似导致残差网络的模型，来增大数据输入的维度，实际上是为了解决因为特征消失而导致的训练调入激活函数无法激活的区间。本文在此基础上做了进一步增强，

在本例中，采用了route连接方式，将图像输入源的多个通道进行图像卷积叠加(即得到叠加结果图像)。这样做的优点是，没有过大的提高计算复杂度的情况下，增加了图像各个通道之间的联系，有利于提高算法的鲁棒性。实际上本质即是：增大图像输入，丰富图像输入特征。

第三步：在图像的检测任务中，利用改进的神经网络模型获得了8副特征图，用于目标内容的探测。

在本例中使用8副特征图类似于图像金字塔的理论。但是8个维度的图像来源于，8个不同卷积核，其中，卷积核是采用adding和stride得到不同层级的特征。其中，得到的多个维度的特征图，可以从不同大小层级，获得相应目标位置。从而增大了图像处理的精度。

第四步：在图像经过了第三步的检测后，图像可以得到在各个特征图位置是否为某一目标的概率置信度，但是还没有目标的位置信息。由于图像是经过回归问题，而得到的最优结果，对神经网络模型进行了改进，从中心点3个方向设计了候选目标框 (即候选框)，相对于原始的VGG-SSD模型这样使得目标框选得到精准的框取的同时降低了大约一半的计算复杂度。上述生成的3个候选框可以参阅图4所示的在一个场景示例中应用本申请实施例提供的图像中目标对象的定位方法和装置获得的3个候选框的示意图。进而可以根据各个候选框的置信度概率，从上述3个候选框中筛选出置信度概率最高的候选框作为目标定位框。可以参阅图5所示的在一个场景示例中应用本申请实施例提供的图像中目标对象的定位方法和装置确定的目标定位框的示意图。

将本例与现有的图像定位方法进行比较分析，可以得到以下结论：首先，由于图像源的输入并没有使用原始的RGB三通道图像，改进采用了灰度图叠加边界轮廓图。在此基础上，同时还对源图像进行了图像颜色增强。在本质上这是对图像的边界信息以及颜色信息的特征，进行了信号增强，在特征提取中这样的操作会取得更好的效果。其次，在模型中间的处理流程中，对卷积神经网络中的卷积操作进行了卷积分解。分解操作非常有利于更丰富的特征提取，同时降低了模型的计算参数复杂度。Mobilenet 的pointwise和depthwise虽然有降低计算消耗资源的功能，但是也有损失掉特征信息的缺点，同时，这种缺点容易导致训练进入死循环，无法使算法收敛。本文改进采用了route连接方式，将图像输入源的多个通道进行图像卷积叠加。这样做的优点是，没有过大的提高计算复杂度的情况下，增加了图像各个通道之间的联系，有利于提高算法的鲁棒性。然后，在检测部分，原始SSD网络采用5个检测框用来检测相应的目标。实际上在物体检测中因为有位置偏移作为辅助参数，并不需要这么多的检测狂。为了改进此缺点在本例中修改了网络层，采用了3个检测框，在保持相同的检测范围情况下，降低了大约一半的检测复杂度，最后，在现有方法使用的神经网络的feature map部分，本例以改进的方式添加到了八个特征图，优点是能够获取更多维度的特征得到更好的大小目标的检测效果。

通过上述场景示例，验证了本申请实施例提供的图像中目标对象的定位方法和装置，通过先对待检测图像进行前置处理，分别得到图像特征较丰富的第一处理图像、第二处理图像；再通过叠加上述两种图像，以综合两种图像的不同的图像特征优势，进一步增强并丰富了输入神经网络模型的图像的特征信息；进而通过改进的神经网络模型可以更加有效地利用上述图像特征信息，确定目标定位框，确实解决了现有方法存在的定位速度慢、准确度差的技术问题，达到能够适合部署并应用于嵌入式移动设备等运行环境，高效地自动识别、确定出图像中的目标定位框的技术效果。

尽管本申请内容中提到不同的具体实施例，但是，本申请并不局限于必须是行业标准或实施例所描述的情况等，某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、处理、输出、判断方式等的实施例，仍然可以属于本申请的可选实施方案范围之内。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

上述实施例阐明的装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的实施方式包括这些变形和变化而不脱离本申请。

Claims

1.一种图像中目标对象的定位方法，其特征在于，包括：

获取待检测图像；

2.根据权利要求1所述的方法，其特征在于，根据所述待检测图像得到第一处理图像，包括：

根据所述待检测图像得到灰度图像和边界图像；

3.根据权利要求1所述的方法，其特征在于，根据所述待检测图像得到第二处理图像，包括：

确定图像卷积核；

4.根据权利要求1所述的方法，其特征在于，叠加所述第一处理图像和所述第二处理图像，得到叠加结果图像，包括：

5.根据权利要求4所述的方法，其特征在于，所述预设的连接方式包括route连接方式。

6.根据权利要求1所述的方法，其特征在于，利用改进的神经网络模型对所述叠加结果图像进行检测，以确定所述待检测图像的目标定位框，包括：

从所述多个候选框中筛选出所述目标定位框。

7.根据权利要求6所述的方法，其特征在于，所述改进的神经网络模型为基于mobilenet v2结构的，且所生成的特征图的数量、所述生成的候选框的数量被调整后的模型。

8.根据权利要求7所述的方法，其特征在于，所述改进的神经网络模型按照以下方式获取：

9.根据权利要求8所述的方法，其特征在于，利用所述改进的神经网络模型生成多个的特征图，包括：

利用所述8个卷积核，获取对应的8个特征图。

10.根据权利要求7所述的方法，其特征在于，所述改进的神经网络模型按照以下方式获取：

11.根据权利要求10所述的方法，其特征在于，利用所述改进的神经网络模型生成多个候选框，包括：

12.根据权利要求11所述的方法，其特征在于，从所述多个候选框中筛选出所述目标定位框，包括：

13.一种图像中目标对象的定位装置，其特征在于，包括：

获取模块，用于获取待检测图像；

前置处理模块，用于根据所述待检测图像得到第一处理图像和第二处理图像，其中，所述第一处理图像为边界增强的灰度图像，所述第二处理图像为对比度增强的RGB图像；

14.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被执行时实现权利要求1至12中任一项所述方法的步骤。