CN113420774A - 一种用于不规则图形的目标检测技术 - Google Patents

一种用于不规则图形的目标检测技术 Download PDF

Info

Publication number
CN113420774A
CN113420774A CN202110316581.XA CN202110316581A CN113420774A CN 113420774 A CN113420774 A CN 113420774A CN 202110316581 A CN202110316581 A CN 202110316581A CN 113420774 A CN113420774 A CN 113420774A
Authority
CN
China
Prior art keywords
version
target detection
data set
python
cuda
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110316581.XA
Other languages
English (en)
Inventor
廖家舟
刘志鹏
郭敬娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Univeristy of Technology
Original Assignee
Chengdu Univeristy of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Univeristy of Technology filed Critical Chengdu Univeristy of Technology
Priority to CN202110316581.XA priority Critical patent/CN113420774A/zh
Publication of CN113420774A publication Critical patent/CN113420774A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种用于不规则图形的目标检测方法,包括实验环境和算法研究两大部分。本发明的实验平台为ubuntu16.04操作系统,显卡为NVIDIA GeForce GTX 1080Ti。算法研究包括对自制数据集进行预处理和训练模型。整个系统的运行流程为:1.安装ubuntu16.04操作系统,配置Anaconda版本为Anaconda3,python版本为3.6.5,CUDA版本为10.0,cudnn版本为7.1。TensorFlow‑gpu 1.14.0版本以及其他所需要的安装包。2.对数据集进行预处理操作,该操作在装有Anaconda环境的pycharm中运行。3.对预处理过后的数据集使用MobileNet_V2_224_fpn算法进行目标检测。4.通过评价指标在测试集上对该模型进行评价。该发明的主要目的在于提高对不规则物体目标检测的准确性,增加目标检测技术的实用性和普遍性,推动人工智能的发展。

Description

一种用于不规则图形的目标检测技术
技术领域
本发明属于人工智能领域,涉及到一种目标检测——不规则图形的识别与定位技术。
背景技术
随着21世纪的到来,图像处理技术被广泛应用于各行各业中,包括人脸检测、人体检测、车辆检测、路况检测、海关检测等等。借助计算机的快速发展,图像分类和目标检测技术成为计算机视觉方面两个重点研究方向。图像分类就是从一幅图片中分辨出物体所属的类别,而目标检测就是在此基础上,对该物体进行定位并快速准确地输出图像所在的位置。目标检测技术能对能一张图片中我们所需要的物体和不需要的物体进行分类,且判断物体是否存在,若存在,则输出物体的具体位置。该技术能够实现对图像信息的快速归类,加强对目标的认知和了解。在深度学习大规模应用之前,通常用于关键点检测的传统方法有两类,一类是基于参数化模型的方法,另一类是基于多阶段迭代的级联形状回归。AlexNet在ImageNet图像分类挑战赛上取得大幅度超越第二名的最佳成绩,带动了卷积神经网络(Convolutional Neural Network,CNN)的发展,关键点检测任务也开始跨越到CNN时代。基于CNN人脸关键点检测方法也可以细分为两种,一种是使用卷积神经网络回归预测关键点的坐标,另一种方法是先使用卷积神经网络回归关键点的高斯热图,然后从热图中解码出关键点的坐标信息。轻量级神经网络架构的设计逐渐的进入了人们的视野,受到众多关注的轻量级模型设计也催生了一批经典的轻量级网络架构MobileNet-V1和MobileNet-V2,其核心是将标准卷积进行拆分来降低标准卷积的参数量。虽然目标检测技术已经取得了不错的进展,然而对于不规则物体的目标检测较少为人们所应用。因而如何对不规则物体进行准确快速地识别与定位是非常具有研究意义及实用价值的。
发明内容
由于MobileNet算法对目标检测技术的巨大优势,本发明提供一种基于该算法的MobileNet_V2_224_fpn不规则图形的目标检测系统,已解决现有算法中检测速度过慢,模型冗余及对重叠目标出现漏检等问题。其具体方案实施如下:
第一方面,本申请实例提供了一种不规则图形的目标检测的方法,包括:
数据集采用自己制作的数据集,共有13000张图片,包括网页爬虫抓取1000张前景,自己拍摄2000张真实场景图片,1000张目标四边形图片,利用脚本生成10000张虚拟图片,其中训练集和验证集占11000张,测试集占2000张。
安装Anaconda3.0、pycharm2019社区版。
在ubuntu16.04操作系统上下载并安装CUDA10.0和cudnn7.1。在Anaconda中配置虚拟环境,在虚拟环境中安装搭建TensorFlow、numpy、pandas、termcolor、tabulate、tqdm、pyarrow、 pyzmq、msgpack、pillow、matplotlib、scipy、opencv-python等程序所需要的包。
对数据集进行预处理,主要是格式转换,主要是将数据集转成.txt格式,然后将.txt转换成.xml格式,再将.xml文件转换成.int格式和.json格式。
训练的主要过程为将格式转换过后的数据集送入MobileNet_V2_224_fpn算法中。其中 MobileNet_V2_224为本专利所提出的轻量级算法。
第二方面,本申请实例提供了一种不规则目标检测系统,包括:
实验环境:本发明的实验平台为Linux ubuntu16.04操作系统,显卡为NVIDIAGeForce GTX 1080Ti。
算法研究:主要通过对不规则图形进行识别与定位。正常的目标检测是检测回归一个四边形的左下角点和右上角点,而本专利借鉴关键点检测的方法,检测一个不规则四边形的四个角点。
整个系统的运行流程为:1.安装ubuntu16.04操作系统,配置Anaconda版本为Anaconda3, python版本为3.6.5,CUDA版本为10.0,cudnn版本为7.1,Tensorflow-gpu1.14.0以及其他所需要的安装包。2.对数据集进行预处理操作,该操作在装有Anaconda环境的pycharm中运行。3.对预处理过后的数据集使用MobileNet_V2_224_fpn算法进行目标检测。4.通过评价指标在测试集上对该模型进行评价。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实例提供的一种用于不规则图形的目标检测系统的整体框架示意图,图2 为软件系统整体设计图,图3为MobileNet_V2_224_fpn的网络结构图,图4为loss图,图5为评价指标图,图6为实验结果图。
具体实施方式
由图1可知,该申请的实验平台是基于ubuntu16.04操作系统下完成的,其中包括:
CPU:中央处理器(CPU),是电子计算机的主要设备之一,电脑中的核心配件。其功能主要是解释计算机指令以及处理计算机软件中的数据。CPU是计算机中负责读取指令,对指令译码并执行指令的核心部件。中央处理器主要包括两个部分,即控制器、运算器,其中还包括高速缓冲存储器及实现它们之间联系的数据、控制的总线。中央处理器的功效主要为处理指令、执行操作、控制时间、处理数据。
GPU:NVIDIA在GDC 2017大会上正式发布了顶级Pascal显卡GeForce GTX 1080Ti显卡,采用了16nm制程GP102核心,拥有3584个CUDA核心,224个纹理单元,88个ROP 单元,搭配352-bit 11GB GDDR5X超大容量显存,等效频率提高到11GHz。该卡性能比GeForce GTX1080提升35%,比GeForce GTX 1070提升78%,甚至超越了当前性能最强的卡皇 NVIDIATITAN X Pascal。
编程语言:Python为我们提供了非常完善的基础代码库,覆盖了网络、文件GUI、数据库、文本等大量内容,被形象地称作"内置电池(batteries included)"。Python的开发使得许多功能不再从零开始写起,直接使用现成即可。Python除了内置的库以外,还有许多第三方库供编程者直接使用。Python的语言特点就是优雅、明确、简单。因而被广泛应用编码中。
CUDA:CUDA(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台。CUDA是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。本专利使用的版本为CUDA10.0 with cudnn7.1。
软件系统整体设计如图2所示,其中包括了如下步骤:
步骤1:配置环境,主要包括pycharm、Anaconda3.0编译环境以及TensorFlow、numpy、 pandas、termcolor、tabulate、tqdm、pyarrow、pyzmq、msgpack、pillow、matplotlib、scipy、 opencv-python等程序所需要的安装包。
步骤2:在pycharm中创建工程,对数据集进行预处理,主要是格式转换,主要是将数据集转成.txt格式,然后将.txt转换成.xml格式,再将xml文件转换成int格式,最后运行将.xml格式转换适应COCO的json格式。
步骤3:将经过预处理的图片送入MobileNet_V2_224_fpn中进行训练。此时将学习率的初始值设为0.0005,随epoch次数不断减小,损失函数点回归和边缘回归相结合的方式,各占权重的一半、优化器选择Adam进行优化。图3为MobileNet_V2_224_fpn的网络结构图。
步骤4:测试模型文件的识别精度是否达到预期要求,根据实验结果调节算法所涉及的参数,进行验证和比对。评价指标采用mAP(mean Average Precision),即各类别AP的平均值, AP即为PR曲线下面积,其实是在0~1之间所有recall值的precision的平均值。
图4为loss图,图5为评价指标图。
图6为实验结果图。

Claims (2)

1.一种用于不规则图形的目标检测技术,其特征在于,实验平台包括CPU、GPU、编程语言、CUDA。
所述的CPU内存为16G,是电子计算机的主要设备之一,电脑中的核心配件。其功能主要是解释计算机指令以及处理计算机软件中的数据。
所述的GPU为NVIDIA GeForce GTX 1080Ti,采用了16nm制程GP102核心,拥有3584个CUDA核心,224个纹理单元,88个ROP单元,搭配352-bit 11GB GDDR5X超大容量显存。该卡性能比GeForce GTX 1080提升35%,比GeForce GTX 1070提升78%,甚至超越了当前性能最强的卡皇NVIDIA TITAN X Pascal。
所述的编程语言为Python,该语言为我们提供了非常完善的基础代码库,覆盖了网络、文件GUI、数据库、文本等大量内容,被形象地称作"内置电池(batteries included)"。Python的开发使得许多功能不再从零开始写起,直接使用现成即可。Python除了内置的库以外,还有许多第三方库供编程者直接使用。Python的语言特点就是优雅、明确、简单。因而被广泛应用编码中。
所述的CUDA全称为Compute Unified Device Architecture,是显卡厂商NVIDIA推出的运算平台。CUDA是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。本专利使用的版本为CUDA10.0 with cudnn7.1。
2.根据权利要求1所述的系统,其特征在于对不规则图形进行快速准确的目标检测。为此所选用的算法在mobilenet_v2_224的基础上添加了全连接层,网络中的算法模型使用全卷积神经网络,并在自制数据集上进行训练和评估。本系统的实验流程为:1.安装ubuntu16.04操作系统,配置Anaconda版本为Anaconda3,python版本为3.6.5,CUDA版本为10.0,cudnn版本为7.1。Tensorflow-gpu 1.14.0以及其他所需要的安装包。2.对数据集进行预处理操作,该操作在装有Anaconda环境的pycharm中运行。3.对预处理过后的数据集使用mobilenet_v2_224_fpn算法进行目标检测。4.通过评价指标在测试集上对该模型进行评价。该过程中激活函数使用RELU函数,如公式1所示。损失函数采用点回归Loss1和边缘回归Loss2相结合的方式,Loss1如公式2所示,其中(x1,y1),(x2,y2),(x3,y3),(x4,y4)为四边形四个点的真实坐标,(x1',y1'),(x2',y2'),(x3',y3'),(x4',y4')为预测坐标。Loss2如公式3所示,a,b,c,d为四边形四个角的角度。最终损失函数Loss如公式4所示。优化器选择Adam算法优化器进行优化。评价指标采用mAP(mean average precision),mean为类的别平均,average precision为一个类别的平均精确度,P(Precision)精确率的公式如公式5所示,R(Recall)召回率的公式如公式6,其中TP为True Positive,被判定为正样本,事实上也是正样本;TN为True Negative,被判定为负样本,事实上也是负样本;FP为FalsePositive,被判定为正样本,但事实上是负样本;FN为False Negative,被判定为负样本,但事实上是正样本。因而构成PR曲线。mAP的计算则为PR曲线的面积。
Figure FDA0002990071310000011
Figure FDA0002990071310000012
Figure FDA0002990071310000013
Loss=Loss1+Loss2 公式4
Figure FDA0002990071310000014
Figure FDA0002990071310000015
CN202110316581.XA 2021-03-24 2021-03-24 一种用于不规则图形的目标检测技术 Pending CN113420774A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110316581.XA CN113420774A (zh) 2021-03-24 2021-03-24 一种用于不规则图形的目标检测技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110316581.XA CN113420774A (zh) 2021-03-24 2021-03-24 一种用于不规则图形的目标检测技术

Publications (1)

Publication Number Publication Date
CN113420774A true CN113420774A (zh) 2021-09-21

Family

ID=77711858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110316581.XA Pending CN113420774A (zh) 2021-03-24 2021-03-24 一种用于不规则图形的目标检测技术

Country Status (1)

Country Link
CN (1) CN113420774A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN110276287A (zh) * 2019-06-17 2019-09-24 百度在线网络技术(北京)有限公司 车位检测方法、装置、计算机设备以及存储介质
CN111814827A (zh) * 2020-06-08 2020-10-23 三峡大学 基于yolo的关键点目标检测方法
CN111860171A (zh) * 2020-06-19 2020-10-30 中国科学院空天信息创新研究院 一种大规模遥感图像中不规则形状目标的检测方法及系统
CN111860494A (zh) * 2020-06-16 2020-10-30 北京航空航天大学 图像目标检测的优化方法、装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN110276287A (zh) * 2019-06-17 2019-09-24 百度在线网络技术(北京)有限公司 车位检测方法、装置、计算机设备以及存储介质
CN111814827A (zh) * 2020-06-08 2020-10-23 三峡大学 基于yolo的关键点目标检测方法
CN111860494A (zh) * 2020-06-16 2020-10-30 北京航空航天大学 图像目标检测的优化方法、装置、电子设备和存储介质
CN111860171A (zh) * 2020-06-19 2020-10-30 中国科学院空天信息创新研究院 一种大规模遥感图像中不规则形状目标的检测方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
南枫木木: ""ubuntu16.04+anaconda5.2+TensorFlow-gpu+CUDA+cuDNN+pycharm的整合"", 《HTTPS://BLOG.CSDN.NET/QQ_37972530/ARTICLE/DETAILS/80906461》 *
梦里寻梦: ""(三十七)通俗易懂理解——模型评价指标(混淆矩阵、目标检测AP与mAP、PR曲线)"", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/73251860》 *
精装之家: ""NVIDIA GTX 1080Ti显卡参数规格 核心频率及性能超越"", 《WWW.JZPC.COM.CN/PZ/162479.HTML》 *
龟壳: ""Pose关键点检测(3)"-图片中不规则四边形提取", 《HTTPS:ZHUANLAN.ZHIHU.COM/P/34274242165》 *

Similar Documents

Publication Publication Date Title
KR102447352B1 (ko) 교통 신호등 검출 및 지능형 주행을 위한 방법 및 디바이스, 차량, 및 전자 디바이스
Messom et al. Stream processing for fast and efficient rotated Haar-like features using rotated integral images
US20060074653A1 (en) Pattern identification method, apparatus, and program
CN110956126A (zh) 一种联合超分辨率重建的小目标检测方法
JP2010218051A (ja) 特徴点選択システム、特徴点選択方法および特徴点選択プログラム
KR102167011B1 (ko) 샘플링 및 적응적으로 변경되는 임계치에 기초하여 뉴럴 네트워크를 학습하는데 이용되는 하드 네거티브 샘플을 추출하는 영상 학습 장치 및 상기 장치가 수행하는 방법
Xiang et al. Moving object detection and shadow removing under changing illumination condition
CN112016638A (zh) 一种钢筋簇的识别方法、装置、设备及存储介质
Yin et al. Overview of robotic grasp detection from 2D to 3D
Wang et al. CDFF: a fast and highly accurate method for recognizing traffic signs
CN113420774A (zh) 一种用于不规则图形的目标检测技术
CN117058439A (zh) 一种基于位置适应模块与知识补足的点云分析方法及系统
Mamalet et al. Embedded facial image processing with convolutional neural networks
Lin et al. Robot grasping based on object shape approximation and LightGBM
Wang et al. Lightweight identification of retail products based on improved convolutional neural network
Park et al. Self-training based augmented reality for robust 3D object registration and task assistance
Miyamoto et al. Parallel implementation strategy for CoHOG-based pedestrian detection using a multi-core processor
CN110009625B (zh) 基于深度学习的图像处理系统、方法、终端、及介质
KR20190076202A (ko) 3차원 손 자세 인식 장치 및 방법
Zhang et al. Holistic and local patch framework for 6D object pose estimation in RGB-D images
CN117553808B (zh) 基于深度学习的机器人定位导航方法、装置、设备及介质
CN111353464B (zh) 一种物体检测模型训练、物体检测方法及装置
Ke et al. A Novel Pedestrian Detection Method Based on Histogram of Oriented gradient and Support Vector Data Description
Ilyasi et al. Object-Text Detection and Recognition System
Chen et al. MSGC-YOLO: An Improved Lightweight Traffic Sign Detection Model under Snow Conditions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210921

WD01 Invention patent application deemed withdrawn after publication