CN110110731A

CN110110731A - 基于深度学习的定位方法及装置

Info

Publication number: CN110110731A
Application number: CN201910377066.5A
Authority: CN
Inventors: 谢东荣; 王占奎; 冯清; 田建方; 谢成利; 周创佳; 谭勇; 梁承恩
Original assignee: Zhongjian Steel Structure Guangdong Co Ltd; China Construction Steel Structure Corp Ltd
Current assignee: Zhongjian Steel Structure Guangdong Co Ltd; China Construction Science and Industry Corp Ltd; China Construction Steel Structure Guangdong Corp Ltd
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2019-08-09

Abstract

本发明提供了一种基于深度学习的定位方法及装置，该方法包括：获取待处理图像的高分辨率图像，在该高分辨率图像上通过卷积神经网络提取待识别目标的完整轮廓，通过第一矩形框标识出该待识别目标的完整轮廓；获取该待处理图像的低分辨率图像，在该低分辨率图像上通过卷积神经网络提取待识别目标的多个部分轮廓，通过多个第二矩形框标识出该待识别目标的多个部分轮廓；对该待识别目标的多个部分轮廓进行处理，对待识别目标进行精确定位。通过上述方法描述的在多种分辨率中进行轮廓提取操作，能够减小轮廓定位误差，保证最终定位的高精度。

Description

基于深度学习的定位方法及装置

技术领域

本发明涉及神经网络领域，具体而言，涉及一种基于深度学习的定位方法及装置。

背景技术

传统的用于工业现场的目标识别与定位方法，大部分都是基于模板匹配。通过事先设定目标对象的模板，然后根据此模板在成像范围内搜索相似度较高的匹配对象，以此来定位目标。但是在实际应用中，该方法易受光照、拍摄角度的影响，对于目标的灰度和几何变化非常敏感，识别成功率和定位精度通常难以满足应用需求。

发明内容

为了解决上述问题，本发明实施例提供一种基于深度学习的定位方法及装置。

第一方面，本发明实施例提供一种基于深度学习的定位方法，所述方法包括：

获取待处理图像的高分辨率图像，在所述高分辨率图像上通过卷积神经网络提取待识别目标的完整轮廓，通过第一矩形框标识出所述待识别目标的完整轮廓；

获取所述待处理图像的低分辨率图像，在所述低分辨率图像上通过卷积神经网络提取待识别目标的多个部分轮廓，通过多个第二矩形框标识出所述待识别目标的多个部分轮廓；

对所述待识别目标的多个部分轮廓进行处理，对待识别目标进行精确定位。

可选地，在本实施例中，在获取待处理图像的高分辨率图像之前，所述方法还包括：

创建卷积神经网络。

可选地，在本实施例中，所述对所述待识别目标的多个部分轮廓进行处理，对待识别目标进行精确定位，包括：

在所述待处理图像中搜索包含待识别目标的边界区域；

根据搜索到的包含待识别目标的边界区域进一步更新标识所述待识别目标的第一矩形框的位置或尺寸。

可选地，在本实施例中，所述在所述待处理图像中搜索包含待识别目标的边界区域，包括：

获取所述待处理图像的多个二进制掩码，其中，所述多个二进制掩码包括所述待识别目标完整轮廓的第一掩码及所述待识别目标的多个部分轮廓的第二掩码；

通过所述第二掩码及第二矩形框的坐标计算所述待识别目标被所述边界区域包含的比例值；

通过所述比例值计算所述边界区域与所述第二掩码的重叠度；

若所述重叠度高于预设值，则视为所述边界区域包含所述待识别目标。

可选地，在本实施例中，所述卷积神经网络包括一个输入层、一个输出层、多个卷积层、多个池化层及多个全连接层；

所述多个卷积层设置在所述输入层之后；

所述池化层设置在所述多个卷积层之间，所述全连接层设置在所述卷积层之后；

所述输出层设置在所述全连接层之后；

所述卷积神经网络的每一层之间采用修正线性单元作为激活函数。

第二方面，本发明实施例还提供一种基于深度学习的定位装置，所述装置包括：

第一提取模块，用于获取待处理图像的高分辨率图像，在所述高分辨率图像上通过卷积神经网络提取待识别目标的完整轮廓，通过第一矩形框标识出所述待识别目标的完整轮廓；

第二提取模块，用于获取所述待处理图像的低分辨率图像，在所述低分辨率图像上通过卷积神经网络提取待识别目标的多个部分轮廓，通过多个第二矩形框标识出所述待识别目标的多个部分轮廓；

定位模块，用于对所述待识别目标的多个部分轮廓进行处理，对待识别目标进行精确定位。

可选的，在本实施例中，所述装置还包括：

创建模块，用于创建卷积神经网络。

可选的，在本实施例中，所述定位模块具体用于：

在所述待处理图像中搜索包含待识别目标的边界区域；

可选的，在本实施例中，所述在所述待处理图像中搜索包含待识别目标的边界区域，包括：

可选的，在本实施例中，所述卷积神经网络包括一个输入层、一个输出层、多个卷积层、多个池化层及多个全连接层；

所述多个卷积层设置在所述输入层之后；

所述输出层设置在所述全连接层之后；

相对于现有技术，本发明实施例具有至少以下有益效果：

本发明提供了一种基于深度学习的定位方法及装置，所述方法包括：获取待处理图像的高分辨率图像，在所述高分辨率图像上通过卷积神经网络提取待识别目标的完整轮廓，通过第一矩形框标识出所述待识别目标的完整轮廓；获取所述待处理图像的低分辨率图像，在所述低分辨率图像上通过卷积神经网络提取待识别目标的多个部分轮廓，通过多个第二矩形框标识出所述待识别目标的多个部分轮廓；对所述待识别目标的多个部分轮廓进行处理，对待识别目标进行精确定位。通过上述方法描述的在多种分辨率中进行轮廓提取操作，能够减小轮廓定位误差，保证最终定位的高精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的基于深度学习的定位方法的流程图；

图2为本发明实施例提供的步骤S212的子步骤流程图；

图3为本发明实施例提供的步骤S210的子步骤流程图；

图4为本发明实施例提供的基于深度学习的定位装置的功能模块图。

图标：401-第一提取模块；402-第二提取模块；403-定位模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

请参照图1，图1为本发明实施例提供的基于深度学习的定位方法的流程图，在本实施例中，所述方法包括以下步骤：

步骤S110，获取待处理图像的高分辨率图像，在所述高分辨率图像上通过卷积神经网络提取待识别目标的完整轮廓，通过第一矩形框标识出所述待识别目标的完整轮廓。

步骤S111，获取所述待处理图像的低分辨率图像，在所述低分辨率图像上通过卷积神经网络提取待识别目标的多个部分轮廓，通过多个第二矩形框标识出所述待识别目标的多个部分轮廓。

步骤S112，对所述待识别目标的多个部分轮廓进行处理，对待识别目标进行精确定位。

可选的，在步骤S210之前，所述方法还包括：

步骤S109，创建卷积神经网络。

请参照图2，图2为本发明实施例提供的步骤S212的子步骤流程图，在本实施例中，所述步骤S212包括以下步骤：

步骤S210，在所述待处理图像中搜索包含待识别目标的边界区域。

步骤S211，根据搜索到的包含待识别目标的边界区域进一步更新标识所述待识别目标的第一矩形框的位置或尺寸。

请参照图3，图3为本发明实施例提供的步骤S210的子步骤流程图，在本实施例中，步骤S210包括以下步骤：

步骤S310，获取所述待处理图像的多个二进制掩码。其中，所述多个二进制掩码包括所述待识别目标完整轮廓的第一掩码及所述待识别目标的多个部分轮廓的第二掩码。

步骤S311，通过所述第二掩码及第二矩形框的坐标计算所述待识别目标被所述边界区域包含的比例值。

步骤S312，通过所述比例值计算所述边界区域与所述第二掩码的重叠度。

步骤S313，判断所述重叠度是否高于预设值。

步骤S314，若所述重叠度高于预设值，则视为所述边界区域包含所述待识别目标。

在步骤S310至步骤S314中，具体的，在本实施例的一种实施方式中，采用多个不同大小的掩码对待定位目标进行位置定位，每一个掩码代表了待定位目标的整体或者局部特征。由于最终的目的是得到目标对象的精确坐标，因此，首先采用一个网络去获取对应的待定位目标的完整轮廓的掩码，四个子网络去预测待定位目标的上、下、左、右四个子部分的小型掩码。所有掩码可表示为m^h,h∈{full,bottom,top,left,right}。上述的五个掩码是互相重叠的，由此可以降低识别的不确定性，提高定位的精度。

通过T(i,j)表示图像中的矩形框，目标物体是否存在通过网络输出m(i,j)进行表示，所述矩形框左上角点的坐标为大小为其中d表示输出掩码的尺寸，d₁和d₂为图像的高和宽。训练时，作为图像中矩形T(i,j)的一部分，m(i,j)被边界区域bb(h)包含的比例为：其中，bb(full)对应的是待识别目标的整体轮廓，而bb(h)则对应了待识别目标的四个部分轮廓。

在本实施例中，通过S的值来衡量边界区域与掩码的重叠度，

其中，halves＝{full,bottom,left,right}表示待识别目标的完整的掩码和四个部分掩码。

优选的，在本实施例中，所述卷积神经网络包括一个输入层、一个输出层、多个卷积层、多个池化层及多个全连接层；

所述多个卷积层设置在所述输入层之后；所述池化层设置在所述多个卷积层之间，所述全连接层设置在所述卷积层之后；所述输出层设置在所述全连接层之后；所述卷积神经网络的每一层之间采用修正线性单元作为激活函数。

在本实施例的一种实施方式中，所述卷积神经网络总共有7层，其中前5层为卷积层，后2层为全连接层。每层均采用修正线性单元作为激活函数，并在卷积层之间增加了3层最大池化操作，且在本实施方式中，采用退化函数作为最后输出层，以生成目标的二进制掩码DNN(x；θ)，其中，θ为神经网络参数，N为所有像素的数量，由于网络输出的维度是固定的，可以假设掩码的大小N＝d×d。由于掩码大小与原始图像大小是一致的，因此二进制掩码中像素值就代表了目标是否在这个位置，其中包含有目标像素的位置值为1，否则为0。

请参照图4，图4为本发明实施例提供的基于深度学习的定位装置的功能模块图，在本实施例中，所述装置包括：

第一提取模块401，用于获取待处理图像的高分辨率图像，在所述高分辨率图像上通过卷积神经网络提取待识别目标的完整轮廓，通过第一矩形框标识出所述待识别目标的完整轮廓；

第二提取模块402，用于获取所述待处理图像的低分辨率图像，在所述低分辨率图像上通过卷积神经网络提取待识别目标的多个部分轮廓，通过多个第二矩形框标识出所述待识别目标的多个部分轮廓；

定位模块403，用于对所述待识别目标的多个部分轮廓进行处理，对待识别目标进行精确定位。

在本实施例中，所述装置还包括：创建模块400，用于创建卷积神经网络。

具体的，在本实施例中，所述定位模块403具体用于：在所述待处理图像中搜索包含待识别目标的边界区域；根据搜索到的包含待识别目标的边界区域进一步更新标识所述待识别目标的第一矩形框的位置或尺寸。

具体的，在本实施例中，所述在所述待处理图像中搜索包含待识别目标的边界区域，包括：

获取所述待处理图像的多个二进制掩码，其中，所述多个二进制掩码包括所述待识别目标完整轮廓的第一掩码及所述待识别目标的多个部分轮廓的第二掩码；通过所述第二掩码及第二矩形框的坐标计算所述待识别目标被所述边界区域包含的比例值；通过所述比例值计算所述边界区域与所述第二掩码的重叠度；若所述重叠度高于预设值，则视为所述边界区域包含所述待识别目标。

在本实施例中，所述卷积神经网络包括一个输入层、一个输出层、多个卷积层、多个池化层及多个全连接层；所述多个卷积层设置在所述输入层之后；所述池化层设置在所述多个卷积层之间，所述全连接层设置在所述卷积层之后；所述输出层设置在所述全连接层之后；所述卷积神经网络的每一层之间采用修正线性单元作为激活函数。

可以理解的是，本实施例中的各功能模块的具体操作方法可参阅上述方法实施例中相应步骤的详细描述，在此不再重复赘述。

综上所述，本发明提供了一种基于深度学习的定位方法及装置，所述方法包括：获取待处理图像的高分辨率图像，在所述高分辨率图像上通过卷积神经网络提取待识别目标的完整轮廓，通过第一矩形框标识出所述待识别目标的完整轮廓；获取所述待处理图像的低分辨率图像，在所述低分辨率图像上通过卷积神经网络提取待识别目标的多个部分轮廓，通过多个第二矩形框标识出所述待识别目标的多个部分轮廓；对所述待识别目标的多个部分轮廓进行处理，对待识别目标进行精确定位。通过上述方法描述的在多种分辨率中进行轮廓提取操作，能够减小轮廓定位误差，保证最终定位的高精度。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于深度学习的定位方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在获取待处理图像的高分辨率图像之前，所述方法还包括：

创建卷积神经网络。

3.根据权利要求2所述的方法，其特征在于，所述对所述待识别目标的多个部分轮廓进行处理，对待识别目标进行精确定位，包括：

在所述待处理图像中搜索包含待识别目标的边界区域；

4.根据权利要求3所述的方法，其特征在于，所述在所述待处理图像中搜索包含待识别目标的边界区域，包括：

5.根据权利要求4所述的方法，其特征在于，所述卷积神经网络包括一个输入层、一个输出层、多个卷积层、多个池化层及多个全连接层；

所述多个卷积层设置在所述输入层之后；

所述输出层设置在所述全连接层之后；

6.一种基于深度学习的定位装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

创建模块，用于创建卷积神经网络。

8.根据权利要求6所述的装置，其特征在于，所述定位模块具体用于：

在所述待处理图像中搜索包含待识别目标的边界区域；

9.根据权利要求8所述的装置，其特征在于，所述在所述待处理图像中搜索包含待识别目标的边界区域，包括：

10.根据权利要求9所述的装置，其特征在于，所述卷积神经网络包括一个输入层、一个输出层、多个卷积层、多个池化层及多个全连接层；

所述多个卷积层设置在所述输入层之后；

所述输出层设置在所述全连接层之后；