CN113420774A

CN113420774A - 一种用于不规则图形的目标检测技术

Info

Publication number: CN113420774A
Application number: CN202110316581.XA
Authority: CN
Inventors: 廖家舟; 刘志鹏; 郭敬娜
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-09-21

Abstract

本发明公开了一种用于不规则图形的目标检测方法，包括实验环境和算法研究两大部分。本发明的实验平台为ubuntu16.04操作系统，显卡为NVIDIA GeForce GTX 1080Ti。算法研究包括对自制数据集进行预处理和训练模型。整个系统的运行流程为：1.安装ubuntu16.04操作系统，配置Anaconda版本为Anaconda3，python版本为3.6.5，CUDA版本为10.0，cudnn版本为7.1。TensorFlow‑gpu 1.14.0版本以及其他所需要的安装包。2.对数据集进行预处理操作，该操作在装有Anaconda环境的pycharm中运行。3.对预处理过后的数据集使用MobileNet_V2_224_fpn算法进行目标检测。4.通过评价指标在测试集上对该模型进行评价。该发明的主要目的在于提高对不规则物体目标检测的准确性，增加目标检测技术的实用性和普遍性，推动人工智能的发展。

Description

一种用于不规则图形的目标检测技术

技术领域

本发明属于人工智能领域，涉及到一种目标检测——不规则图形的识别与定位技术。

背景技术

随着21世纪的到来，图像处理技术被广泛应用于各行各业中，包括人脸检测、人体检测、车辆检测、路况检测、海关检测等等。借助计算机的快速发展，图像分类和目标检测技术成为计算机视觉方面两个重点研究方向。图像分类就是从一幅图片中分辨出物体所属的类别，而目标检测就是在此基础上，对该物体进行定位并快速准确地输出图像所在的位置。目标检测技术能对能一张图片中我们所需要的物体和不需要的物体进行分类，且判断物体是否存在，若存在，则输出物体的具体位置。该技术能够实现对图像信息的快速归类，加强对目标的认知和了解。在深度学习大规模应用之前，通常用于关键点检测的传统方法有两类，一类是基于参数化模型的方法，另一类是基于多阶段迭代的级联形状回归。AlexNet在ImageNet图像分类挑战赛上取得大幅度超越第二名的最佳成绩，带动了卷积神经网络(Convolutional Neural Network，CNN)的发展，关键点检测任务也开始跨越到CNN时代。基于CNN人脸关键点检测方法也可以细分为两种，一种是使用卷积神经网络回归预测关键点的坐标，另一种方法是先使用卷积神经网络回归关键点的高斯热图，然后从热图中解码出关键点的坐标信息。轻量级神经网络架构的设计逐渐的进入了人们的视野，受到众多关注的轻量级模型设计也催生了一批经典的轻量级网络架构MobileNet-V1和MobileNet-V2，其核心是将标准卷积进行拆分来降低标准卷积的参数量。虽然目标检测技术已经取得了不错的进展，然而对于不规则物体的目标检测较少为人们所应用。因而如何对不规则物体进行准确快速地识别与定位是非常具有研究意义及实用价值的。

发明内容

由于MobileNet算法对目标检测技术的巨大优势，本发明提供一种基于该算法的MobileNet_V2_224_fpn不规则图形的目标检测系统，已解决现有算法中检测速度过慢，模型冗余及对重叠目标出现漏检等问题。其具体方案实施如下：

第一方面，本申请实例提供了一种不规则图形的目标检测的方法，包括：

数据集采用自己制作的数据集，共有13000张图片，包括网页爬虫抓取1000张前景，自己拍摄2000张真实场景图片，1000张目标四边形图片，利用脚本生成10000张虚拟图片，其中训练集和验证集占11000张，测试集占2000张。

安装Anaconda3.0、pycharm2019社区版。

在ubuntu16.04操作系统上下载并安装CUDA10.0和cudnn7.1。在Anaconda中配置虚拟环境，在虚拟环境中安装搭建TensorFlow、numpy、pandas、termcolor、tabulate、tqdm、pyarrow、 pyzmq、msgpack、pillow、matplotlib、scipy、opencv-python等程序所需要的包。

对数据集进行预处理，主要是格式转换，主要是将数据集转成.txt格式，然后将.txt转换成.xml格式，再将.xml文件转换成.int格式和.json格式。

训练的主要过程为将格式转换过后的数据集送入MobileNet_V2_224_fpn算法中。其中 MobileNet_V2_224为本专利所提出的轻量级算法。

第二方面，本申请实例提供了一种不规则目标检测系统，包括：

实验环境：本发明的实验平台为Linux ubuntu16.04操作系统，显卡为NVIDIAGeForce GTX 1080Ti。

算法研究：主要通过对不规则图形进行识别与定位。正常的目标检测是检测回归一个四边形的左下角点和右上角点，而本专利借鉴关键点检测的方法，检测一个不规则四边形的四个角点。

整个系统的运行流程为：1.安装ubuntu16.04操作系统，配置Anaconda版本为Anaconda3， python版本为3.6.5，CUDA版本为10.0，cudnn版本为7.1，Tensorflow-gpu1.14.0以及其他所需要的安装包。2.对数据集进行预处理操作，该操作在装有Anaconda环境的pycharm中运行。3.对预处理过后的数据集使用MobileNet_V2_224_fpn算法进行目标检测。4.通过评价指标在测试集上对该模型进行评价。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实例提供的一种用于不规则图形的目标检测系统的整体框架示意图，图2 为软件系统整体设计图，图3为MobileNet_V2_224_fpn的网络结构图，图4为loss图，图5为评价指标图，图6为实验结果图。

具体实施方式

由图1可知，该申请的实验平台是基于ubuntu16.04操作系统下完成的，其中包括：

CPU:中央处理器(CPU)，是电子计算机的主要设备之一，电脑中的核心配件。其功能主要是解释计算机指令以及处理计算机软件中的数据。CPU是计算机中负责读取指令，对指令译码并执行指令的核心部件。中央处理器主要包括两个部分，即控制器、运算器，其中还包括高速缓冲存储器及实现它们之间联系的数据、控制的总线。中央处理器的功效主要为处理指令、执行操作、控制时间、处理数据。

GPU:NVIDIA在GDC 2017大会上正式发布了顶级Pascal显卡GeForce GTX 1080Ti显卡，采用了16nm制程GP102核心，拥有3584个CUDA核心，224个纹理单元，88个ROP 单元，搭配352-bit 11GB GDDR5X超大容量显存，等效频率提高到11GHz。该卡性能比GeForce GTX1080提升35％，比GeForce GTX 1070提升78％，甚至超越了当前性能最强的卡皇 NVIDIATITAN X Pascal。

编程语言：Python为我们提供了非常完善的基础代码库，覆盖了网络、文件GUI、数据库、文本等大量内容，被形象地称作"内置电池(batteries included)"。Python的开发使得许多功能不再从零开始写起，直接使用现成即可。Python除了内置的库以外，还有许多第三方库供编程者直接使用。Python的语言特点就是优雅、明确、简单。因而被广泛应用编码中。

CUDA:CUDA(Compute Unified Device Architecture)，是显卡厂商NVIDIA推出的运算平台。CUDA是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。本专利使用的版本为CUDA10.0 with cudnn7.1。

软件系统整体设计如图2所示，其中包括了如下步骤：

步骤1：配置环境，主要包括pycharm、Anaconda3.0编译环境以及TensorFlow、numpy、 pandas、termcolor、tabulate、tqdm、pyarrow、pyzmq、msgpack、pillow、matplotlib、scipy、 opencv-python等程序所需要的安装包。

步骤2：在pycharm中创建工程，对数据集进行预处理，主要是格式转换,主要是将数据集转成.txt格式，然后将.txt转换成.xml格式，再将xml文件转换成int格式，最后运行将.xml格式转换适应COCO的json格式。

步骤3：将经过预处理的图片送入MobileNet_V2_224_fpn中进行训练。此时将学习率的初始值设为0.0005，随epoch次数不断减小，损失函数点回归和边缘回归相结合的方式，各占权重的一半、优化器选择Adam进行优化。图3为MobileNet_V2_224_fpn的网络结构图。

步骤4：测试模型文件的识别精度是否达到预期要求，根据实验结果调节算法所涉及的参数，进行验证和比对。评价指标采用mAP(mean Average Precision),即各类别AP的平均值， AP即为PR曲线下面积，其实是在0～1之间所有recall值的precision的平均值。

图4为loss图，图5为评价指标图。

图6为实验结果图。

Claims

1.一种用于不规则图形的目标检测技术，其特征在于，实验平台包括CPU、GPU、编程语言、CUDA。

所述的CPU内存为16G，是电子计算机的主要设备之一，电脑中的核心配件。其功能主要是解释计算机指令以及处理计算机软件中的数据。

所述的GPU为NVIDIA GeForce GTX 1080Ti，采用了16nm制程GP102核心，拥有3584个CUDA核心，224个纹理单元，88个ROP单元，搭配352-bit 11GB GDDR5X超大容量显存。该卡性能比GeForce GTX 1080提升35％，比GeForce GTX 1070提升78％，甚至超越了当前性能最强的卡皇NVIDIA TITAN X Pascal。

所述的编程语言为Python，该语言为我们提供了非常完善的基础代码库，覆盖了网络、文件GUI、数据库、文本等大量内容，被形象地称作"内置电池(batteries included)"。Python的开发使得许多功能不再从零开始写起，直接使用现成即可。Python除了内置的库以外，还有许多第三方库供编程者直接使用。Python的语言特点就是优雅、明确、简单。因而被广泛应用编码中。

所述的CUDA全称为Compute Unified Device Architecture，是显卡厂商NVIDIA推出的运算平台。CUDA是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。本专利使用的版本为CUDA10.0 with cudnn7.1。

2.根据权利要求1所述的系统，其特征在于对不规则图形进行快速准确的目标检测。为此所选用的算法在mobilenet_v2_224的基础上添加了全连接层，网络中的算法模型使用全卷积神经网络，并在自制数据集上进行训练和评估。本系统的实验流程为：1.安装ubuntu16.04操作系统，配置Anaconda版本为Anaconda3，python版本为3.6.5，CUDA版本为10.0，cudnn版本为7.1。Tensorflow-gpu 1.14.0以及其他所需要的安装包。2.对数据集进行预处理操作，该操作在装有Anaconda环境的pycharm中运行。3.对预处理过后的数据集使用mobilenet_v2_224_fpn算法进行目标检测。4.通过评价指标在测试集上对该模型进行评价。该过程中激活函数使用RELU函数，如公式1所示。损失函数采用点回归Loss1和边缘回归Loss2相结合的方式，Loss1如公式2所示，其中(x1，y1)，(x2，y2)，(x3，y3)，(x4，y4)为四边形四个点的真实坐标，(x1'，y1')，(x2'，y2')，(x3'，y3')，(x4'，y4')为预测坐标。Loss2如公式3所示，a，b，c，d为四边形四个角的角度。最终损失函数Loss如公式4所示。优化器选择Adam算法优化器进行优化。评价指标采用mAP(mean average precision)，mean为类的别平均，average precision为一个类别的平均精确度，P(Precision)精确率的公式如公式5所示，R(Recall)召回率的公式如公式6，其中TP为True Positive，被判定为正样本，事实上也是正样本；TN为True Negative，被判定为负样本，事实上也是负样本；FP为FalsePositive，被判定为正样本，但事实上是负样本；FN为False Negative，被判定为负样本，但事实上是正样本。因而构成PR曲线。mAP的计算则为PR曲线的面积。

Loss＝Loss1+Loss2 公式4