CN110348531A - 具有分辨率适应性的深度卷积神经网络构建方法及应用 - Google Patents
具有分辨率适应性的深度卷积神经网络构建方法及应用 Download PDFInfo
- Publication number
- CN110348531A CN110348531A CN201910644172.5A CN201910644172A CN110348531A CN 110348531 A CN110348531 A CN 110348531A CN 201910644172 A CN201910644172 A CN 201910644172A CN 110348531 A CN110348531 A CN 110348531A
- Authority
- CN
- China
- Prior art keywords
- target
- convolutional neural
- neural networks
- image
- depth convolutional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 87
- 230000006978 adaptation Effects 0.000 title claims abstract description 32
- 238000010276 construction Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 64
- 238000001514 detection method Methods 0.000 claims abstract description 37
- 239000000284 extract Substances 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 5
- 238000005191 phase separation Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007812 deficiency Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 239000000047 product Substances 0.000 claims 1
- 230000008569 process Effects 0.000 description 12
- 238000013135 deep learning Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 206010021703 Indifference Diseases 0.000 description 1
- 241000669244 Unaspis euonymi Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011496 digital image analysis Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种具有分辨率适应性的深度卷积神经网络构建方法,用于构建能够适配各种分辨率的目标图像的尺度特征的深度卷积神经网络模型,其特征在于,包括如下步骤:步骤S1,根据目标图像设定多个目标尺度形成尺度等级,并根据尺度等级设定目标检索步长;步骤S2,获取训练图像,并根据训练图像的尺寸的阶,将训练图像进行标准化处理从而得到标准化训练图像;步骤S3,设计用于适应多分辨输入和多尺度目标检测的深度卷积神经网络模型,并通过标准化训练图像对深度卷积神经网络模型进行训练从而得到可执行的深度卷积神经网络模型,其中,步骤S3中的深度卷积神经网络模型包括:特征图提取部分、逐级降采样部分、分支卷积运算部分以及预测输出部分。
Description
技术领域
本发明属于数字图像处理及深度学习领域,涉及一种深度卷积神经网络的算法模型设计,具体涉及一种具有分辨率适应性的深度卷积神经网络。
背景技术
数字图像分析技术在当今社会发挥着重要作用,其中图像目标检测技术是一个重要的组成部分。目前目标检测技术的发展已经逐渐抛弃传统数字图像处理的手工设计算法的方案,转而使用深度学习,以卷积神经网络(Convolutional Neural Network,CNN)为代表,以达到高准确率的目标检测结果。深度学习革命爆发在2011~2012年,深度学习革命使得计算机视觉在很多应用领域达到了实用水平,催生了工业界的大量应用。其最重要的原因是深度学习可以做到传统方法无法企及的精度,尤其是基于卷积神经网络CNN的深度学习模型,现在已经成为计算机视觉的主流方法。
卷积神经网络是一种常见的深度学习网络架构,受生物自然视觉认知机制启发而来。CNN能够得出原始图像的有效表征,这使得CNN能够直接从原始像素中,经过极少的预处理,捕获到视觉上面的规律。
目标检测是当前最热的话题之一,它需要对很多对象进行分类和定位。基于深度学习的目标检测,主要有两类模型:对于单张图像中的目标检测,使用基于regionproposal的检测方法,以faster rcnn为代表的two-stage方案,能够达到很高的准确率;考虑到two-stage方案的效率不够高,针对实时场景的YOLO、SSD等one-stage算法应运而生,在保持相对不错的准确率的情况下,可以快速对图像进行目标检测。
然而,对于现有的CNN模型,普遍使用统一的图像数据输入,无论实际场景下的图像分辨率如何,都要求图像在输入模型之前全部统一为同一种或几种预先设定的分辨率。这种做法对算法的实际应用是一种巨大的限制。
这种限制的存在,不可避免对图像进行缩放、拉伸、切割等操作,导致图像内的对象变形,像素信息大量损失。对于小分辨率图像来说,扩大分辨率则插入了冗余信息,增加了额外计算负担;对于大分辨率图像来说,缩小图像又浪费了宝贵的图像信息,造成准确率下降。在同一分辨率的过程中还会对图像的长宽比进行调整,因此也影响到图像内目标的几何形状,降低算法的检测效果,与统一形状差异较大的图像甚至不能应用该算法。
发明内容
为解决上述问题,提供一种能够兼容各种分辨率图像,并适配目标尺度特征进行目标检测的具有分辨率适应性的深度卷积神经网络的构建方法,本发明采用了如下技术方案:
本发明提供了一种具有分辨率适应性的深度卷积神经网络构建方法,用于构建能够适配各种分辨率的目标图像的尺度特征的深度卷积神经网络模型,其特征在于,包括如下步骤:步骤S1,根据目标图像设定多个目标尺度形成尺度等级,并根据尺度等级设定目标检索步长;步骤S2,获取训练图像,并根据训练图像的尺寸的阶,将训练图像进行标准化处理从而得到标准化训练图像;步骤S3,设计用于适应多分辨输入和多尺度目标检测的深度卷积神经网络模型,并通过标准化训练图像对深度卷积神经网络模型进行训练从而得到可执行的深度卷积神经网络模型,其中,步骤S3中的深度卷积神经网络模型包括:特征图提取部分,用于对输入深度卷积神经网络模型的输入图像执行非降采样的卷积神经网络操作,从而得到分辨率不变的特征图;逐级降采样部分,用于将特征图进行逐级降采样并运算出对应输入图像的初步预测数据,该初步预测数据包括预置信度、目标分类及目标定位;分支卷积运算部分,用于将特征图根据尺度等级,做相应的分支卷积运算从而得到对应输入图像的注意力预测数据,分支卷积运算的卷积核大小及步长与尺度等级相适应;预测输出部分,用于将注意力预测数据与预置信度相作用从而得到目标置信度预测数据,进一步将该目标置信度预测数据与目标分类、目标定位整合作为对应输入图像的预测结果并输出,特征图提取部分中,在根据输入图像提取特征图的阶段中使用池化算法时,会交替执行padding操作,从而提取到分辨率不变的特征图。
本发明提供的具有分辨率适应性的深度卷积神经网络构建方法,还可以具有这样的技术特征,其中,在步骤S1中,尺度等级的设定方法为:根据神经网络的性能估算出可检测的目标图像的最小分辨率并作为最小等级,进一步以最小等级为首,将分辨率的高与宽逐级扩大2倍,得到其他的尺度等级,直到最大等级的分辨率在下一次扩大时会超过目标图像的最大可能分辨率,各个尺度等级中,目标图像的基本形状为正方形时,目标尺度的高和宽必须为2的整数次幂;基本形状为其他形状时,目标尺度的形状面积与基本形状为正方形时的目标尺度的形状面积相同。
本发明提供的具有分辨率适应性的深度卷积神经网络构建方法,还可以具有这样的技术特征,其中,目标检索步长与目标尺度相关,在步骤S1中,目标检索步长的计算方法为:若目标图像为正方形,且该目标图像的边长为l,则目标检索步长step为:
式中,N=2n,n为整数,并且目标检索步长step的值也为整数。
本发明提供的具有分辨率适应性的深度卷积神经网络构建方法,还可以具有这样的技术特征,其中,尺度等级的最小等级为阶的整数倍,在步骤S2中,标准化处理的方法为:训练图像的高和宽为h、w,设所述阶的大小为s,要求标准化后的标准化图像的高h’、宽w’满足:
式中,m,n∈N+,根据图像分辨率调整方法将训练图像的分辨率由h×w调整为h’×w’,得到标准化训练图像。
本发明提供的具有分辨率适应性的深度卷积神经网络构建方法,还可以具有这样的技术特征,其中,图像分辨率调整方法为:根据训练图像的实际分辨率将该训练图像向最靠近的标准分辨率进行缩放,将某一个长度L标准化到最小目标边长lmin的整数倍,其计算函数为:
式中,r=L mod lmin,L/lmin表示L与lmin相除的整数部分,得到标准化训练图像的分辨率为:
进一步采用插值算法将训练图像转化为标准化训练图像。
本发明提供的具有分辨率适应性的深度卷积神经网络构建方法,还可以具有这样的技术特征,其中,图像分辨率调整方法为:使用padding方法,对训练图像补充padding像素从而达到较大的标准分辨率,并将训练图像的高h和宽w分别预设为大于各自的最小l整数倍,在图像不足分辨率的部分添加像素padding,从而得到分辨率为h’×w’的标准化训练图像。
本发明提供的具有分辨率适应性的深度卷积神经网络构建方法,还可以具有这样的技术特征,其中,逐级降采样部分中,特征图不断以2×2的倍数缩小分辨率进行逐级降采样,当缩小倍数达到某个尺度等级的目标检索步长时,执行对应该尺度等级的目标检测预测,从而输出输入图像的初步预测数据。
本发明提供的具有分辨率适应性的深度卷积神经网络构建方法,还可以具有这样的技术特征,其中,分支卷积运算部分中,若目标尺度等级有m个,就执行m个注意力运算的分支,对原分辨率的特征图执行卷积运算,卷积核的大小等于尺度等级的尺度的大小,卷积步长等于目标检索步长。
本发明提供的具有分辨率适应性的深度卷积神经网络构建方法,还可以具有这样的技术特征,其中,预测输出部分中,将注意力预测数据与预置信度数据相作用的过程采用相乘、相加或是互相关等运算。
本发明还提供了一种具有分辨率适应性的深度卷积神经网络构建方法在目标检测分析中的应用,其特征在于,包括:模型存储部,存储有通过权利要求1至9中任意一项的具有分辨率适应性的深度卷积神经网络构建方法构建的深度卷积神经网络模型;检测图像获取部,用于获取待检测图像;图像检测部,用于将待检测图像输入深度卷积神经网络模型从而得到预测结果,预测结果处理输出部,用于对预测结果进行处理得到目标检测结果并进行输出。
发明作用与效果
根据本发明的具有分辨率适应性的深度卷积神经网络构建方法,由于根据目标图像可能的分辨率范围设定尺度等级,从而根据该尺度等级计算相应的目标检索步长,进一步构建并训练具有特征图提取部分、逐级降采样部分、分支卷积运算部分以及预测输出部分的深度卷积神经网络模型,因此通过上述方法最终得到的模型能够兼容各种分辨率图像,避免输入数据归一化带来的弊端。本发明所构建的深度卷积神经网络模型能免去一般卷积神经网络对数据格式统一的苛刻要求:对于小分辨率图像,该模型避免了冗余数据的加入,避免额外计算负担;对于大分辨率图像,该模型防止缩小后带来的信息量损失,充分利用像素信息执行运算。另外,本发明模型中的特征图提取部分能够在提取特征图时不改变原图分辨率,同时在多尺度目标检测中加入注意力机制,从而能够更充分利用图像信息,并对小目标有更好的检测效果。
附图说明
图1是本发明实施例中深度卷积神经网络模型的构建及使用过程的流程图;
图2是本发明实施例中以分辨率512×512的输入、目标尺度为128×128的step示意图;以及
图3是本发明实施例中深度卷积神经网络模型的架构图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的具有分辨率适应性的深度卷积神经网络作具体阐述。
<实施例>
本实施例实现的平台,操作系统为ubuntu16.04,深度学习框架使用pytorch1.01,图形处理库使用opencv 3.2.0,CUDA版本为9.0,图像加速计算单元使用NVIDIA1080Ti GPU。
本实施例中,以Pascal VOC数据集为处理对象,深度学习模型需要先经过训练并测试通过得以成型,然后应用到实际场景中。深度卷积神经网络的设计与数据集的具体情况相关。有关深度学习模型的训练、测试和实际应用与通用深度学习应用并无差异,因此本实施例以对具有分辨率适应性的深度卷积神经网络模型的设定及训练过程为主,介绍该深度卷积神经网络模型(下文中“模型”与“深度卷积神经网络模型”表示相同含义)的构建方法及构成。
图1是本发明实施例中深度卷积神经网络模型的构建及使用过程的流程图。
如图1所示,具有分辨率适应性的深度卷积神经网络模型的构建及使用过程包括如下步骤:
步骤S1,根据目标图像设定多个目标尺度形成尺度等级,并针对每个尺度等级设定目标图像的目标检索步长。
本实施例的步骤S1中,目标图像为待检索的图像,采用Pascal VOC数据集作为目标图像,根据Pascal VOC数据集的具体情况,所有图片的宽和高均在500像素以内,且图像的形状仅为正方形。
本实施例中,尺度等级的设定方法为:根据神经网络的性能估算出可检测的目标图像的最小分辨率并作为最小等级,进一步以最小等级为首,将分辨率的高与宽逐级扩大2倍,得到其他的尺度等级,直到最大等级的分辨率在下一次扩大时会超过目标图像的最大可能分辨率。
当以正方形作为目标的基本形状时,其长和宽必须为2的整数次幂。因此对于Pascal VOC数据集,将目标尺度作如下设计:32×32、64×64、128×128、256×256四种尺度等级,每种等级仅设计一种形状,即正方形。
本实施例的步骤S1中,目标检索步长与目标尺度相关,目标检索步长(step)的设定方法为:以正方形的目标为例,若其边长为l,则step为:
其中,N=2n,n为整数,并且step值也为整数。
因此对于Pascal VOC数据集,根据公式(1)针对每个目标尺度等级,设定目标检索步长(step):step的大小按目标边长的1/8计算,各尺度等级与目标检索步长的对应如表1所示:
表1各尺度等级与步长
尺度等级 | step size |
32×32 | 4 |
64×64 | 8 |
128×128 | 16 |
256×256 | 32 |
图2是以输入分辨率512×512的数据为例,l=128的step计算原理,在整个途中要将128×128等级的目标检索完全。
在其他实施例中,以其它形状作为目标形状时,可以根据每个尺度等级的目标尺度计算其尺度面积,各个尺度的尺度面积与正方形的尺度面积相同。同时,对于同尺度的目标,步长相同。因此在其它形状作为目标形状时,其步长可以根据正方形的尺度等级以及目标检索步长进行相应的设定。
步骤S2,获取训练图像,并根据训练图像的尺寸的阶,将训练图像进行标准化处理从而得到标准化训练图像。
本实施例中,训练图像为从Pascal VOC数据集中随机获取的部分图像,该训练图像的尺寸的阶与尺度等级的最小等级有关,一般来说,最小尺度应为阶的整数倍,本实施例中标准化的阶采用最小尺度的1倍大小,在其他实施例中,标准化的阶可以不限于本实施例所采用的1倍大小。
本实施例中,训练图像分辨率的高和宽是最小尺度目标(以正方形为标准)边长的整数倍。在步骤S2执行图形标准化操作时,训练图像的高和宽为h、w,设最小尺度的目标边长为l,则标准化后图像的尺寸高h’、宽w’需要满足:
其中,m,n∈N+。
为求得标准化训练图像的尺寸,并改变训练图像的尺寸从而完成标准化处理,本实施例提供了以下两种方法:
方法一,根据实际分辨率将图像向最靠近的标准分辨率进行缩放。将一个长度L标准化到最小目标边长l的整数倍,其计算函数为:
其中,r=L mod lmin,L/lmin表示L与lmin相除的整数部分。
则标准化的图像分辨率为:
进一步,使用主流的插值算法将训练图像根据通过公式(3)、(4)计算得到的尺寸转化为标准分辨率。
方法二,为图像补充padding像素,达到较大的标准分辨率。将图像的高和宽分别预设为大于各自的最小l整数倍,在图像不足分辨率的部分添加像素padding,可以使用但不限于填充黑色像素、拷贝最近像素值的padding方法。
本实施例中,采取方法一,根据训练图像的实际分辨率将图像向最靠近的标准分辨率(即尺度等级)进行缩放:根据公式(3)将高和宽全标准化到最小目标边长l的整数倍,并将训练图像使用opencv缩放到标准化的尺寸形成标准化训练图像,从而作为深度模型的输入图像。
在其他实施例中,可以采用但不限于上述的方法一以及方法二对图像进行标准化处理。
步骤S3,设计用于适应多分辨输入和多尺度目标检测的深度卷积神经网络模型,并通过标准化训练图像对深度卷积神经网络模型进行训练从而得到可执行的深度卷积神经网络模型。
本实施例的步骤S3中,模型的训练过程为常规的神经网络模型训练过程,即:通过输入标准化训练图像并执行模型算法和反向传播不断更新模型参数,进一步使用测试集对模型的性能进行测试,最终达到完成训练的条件,使模型成型。
本实施例中,适应多分辨输入和多尺度目标检测的深度卷积神经网络模型能够对输入的图像执行如下模型算法:通过卷积操作提取到分辨率不变的特征图(featuremaps),然后对特征图(feature maps)逐级降采样,同时作预测运算,获得全部目标预测数据。
图3是本发明实施例的深度卷积神经网络模型的架构图。
如图3所示,图中描述了深度卷积神经网络模型的整体架构,并说明了算法前向传播的整体数据流向。输入图像(以下或称“目标”)在提取特征图(feature maps)过程中,分辨率不变;然后通过最上面的支路提取不同分辨率等级的特征图(feature maps),同时通过其它支路计算注意力;最终将不同等级的计算数据与对应的注意力相乘,得出预测结果。
本实施例中,以图3为具体实施结构,各层参数如下表2所示:
表2本发明实施例的卷积神经网络模型各层参数
表中,in_channel表示输入数据的通道数;out_channel表示输出数据的通道数;kernel_size表示卷积核大小;stride表示卷积步长;padding表示padding大小;groups表示group卷积的group数量。
本实施例中,深度卷积神经网络模型可分为特征图提取部分1、逐级降采样部分2、分支卷积运算部分3以及预测输出部分4。
特征图提取部分1用于执行非降采样的卷积神经网络操作,得到分辨率不变的特征图(feature maps)。
本实施例中,该特征图提取部分1采用通道分离的卷积方法,从而保证features提取操作前后分辨率不变。其features提取操作中使用Max池化(pooling)操作,由于stride=1的池化(pooling)操作会导致分辨率在横纵方向上各减少1个像素;如果池化(pooling)中使用padding=1的操作,会在横纵方向各增加2个像素。因此特征图提取部分1中的池化(pooling)使用交替padding的操作。具体结构参考表2。
逐级降采样部分2与分支卷积运算部分3进行的是并行操作,即,特征图提取部分1的数据流向有两大分支:特征图(feature maps)逐级降采样,同时执行初步目标检测;特征图(feature maps)做不同尺度的注意力检测。该注意力检测能够与初步目标检测相互作用得出目标检测预测。
逐级降采样部分用于将特征图(feature maps)逐级降采样,通过卷积模型运算出初步预测数据,该初步预测数据包括预置信度、目标分类及目标定位。
本实施例中,当逐级降采样部分2降采样的倍数等于某一尺度的目标的step值时,执行该尺度目标的预测操作,输出预置信度、目标分类及目标定位。
图3中上半部分是模型的逐级降采样部分2中特征图(feature maps)逐级降采样过程。根据步骤S1中不同尺度等级所对应的步长,在降采样的过程中分别执行初步的目标检测predict。predict对于一个具体目标框,数据结构为预置信度(1位)、目标分类(classnumber位)及目标定位(4位)。Pascal VOC数据集的class number为20,因此一个目标框预测数据为1+20+4=25位。
以32×32尺度的目标为例,其step=4。在特征图(feature maps)降采样2次,maps的分辨率缩小到此时对32×32尺度的目标进行初步预测,使用8×8的卷积对maps进行处理,则整张图执行了全部32×32尺度的目标初步检索和预测。以输入分辨率512×512的数据为例,全部32×32尺度的目标共有121×121个,因此初步预测数据的形状为[121,121,25]。
依次类推,64×64尺度的目标,step=8,在特征图(feature maps)进一步降采样之后(分辨率缩小到)执行初步预测;128×128尺度的目标,step=16,再进一步降采样,分辨率缩小到执行初步预测;256×256尺度的目标,step=16,再进一步降采样之后,分辨率缩小到执行初步预测。
分支卷积运算部分3用于将特征图(feature maps)根据目标尺度数,做相应的分支卷积运算,从而输出目标的注意力预测数据。该分支卷积运算的卷积核大小及步长与相应的目标尺度相适应。
本实施例中,分支卷积运算部分3对原分辨率的特征图(feature maps)执行卷积运算,不同尺度的目标对应于不同的运算分支,得到运算结果与逐级降采样部分2中当前目标尺度等级的初步预测数据的形状相吻合。
以尺度为l×l的目标为例,其对应的step值为a,特征图(feature maps)分辨率即输入图像的分辨率为h×w,则注意力预测数据的矩阵的高hatte和宽watte为:
具体地,以32×32尺度的目标为例,使用size为32×32的卷积核,卷积步长为4(即此等级目标对应的step大小)进行卷积运算,得到注意力的矩阵,其分辨率与逐级降采样部分2中32×32尺度的目标的初步预测结果的分辨率一致。以输入分辨率512×512的数据为例,全部32×32尺度的目标的注意力预测数据的形状为[121,121,1]。
依次类推,计算其他尺度目标对应的注意力预测数据。64×64尺度的目标,卷积核大小为64×64,卷积步长为8;128×128尺度的目标,卷积核大小为128×128,卷积步长为16;256×256尺度的目标,卷积核大小为256×256,卷积步长为32。
输出预测部分4用于将分支卷积运算部分3得到的注意力预测数据与相应目标的预置信度数据相乘,得到目标置信度预测数据,并与目标分类、目标定位的预测数据整合作为目标的预测输出。
本实施例中,由于注意力预测数据与目标检测初步预测数据的形状(分辨率)相匹配,对于一个具体的目标预测,注意力为1个数据,初步预测为25个数据(预置信度+目标种类+目标定位),只需将注意力与预置信度相乘即可。
本实施例中,输出预测部分4将注意力预测数据与预置信度数据相乘作为预测结果的一部分。在其他实施例中,输出预测部分4还能够采用相加或是互相关等运算计算注意力预测数据与预置信度数据并作为预测结果的一部分。
本实施例中,通过步骤S1至S3构建并训练深度卷积神经网络模型,将预测数据与数据集提供的标签数据进行LOSS运算,通过不断地学习更新模型参数,最终完成模型的训练,形成可执行的深度模型,进一步即可在步骤S4中将该深度卷积神经网络模型应用到实际场景中。
步骤S4,根据步骤S3中训练所获得的模型,对待检测数据执行算法得到目标检测结果。
本实施例中,步骤S4是对训练得到的深度模型的实际应用。当输入待分析的图像时,先将该待分析图像按照步骤S2中的方法一进行标准化,然后将标准化的待分析图像输入模型得到预测结果(predict数据),最后对预测结果进行处理得到目标检测结果。
本实施例中,对待分析图像进行标准化的过程与步骤S2中对训练图像进行标准化的过程相同,在此不再赘述。
实施例作用与效果
根据本实施例提供的具有分辨率适应性的深度卷积神经网络构建方法,由于根据目标图像可能的分辨率范围设定尺度等级,从而根据该尺度等级计算相应的目标检索步长,进一步构建并训练具有特征图提取部分、逐级降采样部分、分支卷积运算部分以及预测输出部分的深度卷积神经网络模型,因此通过上述方法最终得到的模型能够兼容各种分辨率图像,避免输入数据归一化带来的弊端。本发明所构建的深度卷积神经网络模型能免去一般卷积神经网络对数据格式统一的苛刻要求:对于小分辨率图像,该模型避免了冗余数据的加入,避免额外计算负担;对于大分辨率图像,该模型防止缩小后带来的信息量损失,充分利用像素信息执行运算。另外,本发明模型中的特征图提取部分能够在提取特征图时不改变原图分辨率,同时在多尺度目标检测中加入注意力机制,从而能够更充分利用图像信息,并对小目标有更好的检测效果。
实施例中,由于在设定尺度等级时,根据估算的最小等级,将分辨率的高与宽逐级扩大2倍形成其他的尺度等级,因此使得模型不仅能够更好的适应不同分辨率的输入图像,同时在设定步长以及进行卷积运算时采用的参数也能更容易设定。
实施例中,由于在计算目标检测步长时,通过根据公式(1)结合目标尺度计算目标检测步长,因此能够得到恰当的step值,该恰当的step值既保证了目标检测与目标大小相关,又保证整张图片完全检索。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
Claims (10)
1.一种具有分辨率适应性的深度卷积神经网络构建方法,用于构建能够适配各种分辨率的目标图像的尺度特征的深度卷积神经网络模型,其特征在于,包括如下步骤:
步骤S1,根据所述目标图像设定多个目标尺度形成尺度等级,并根据所述尺度等级设定目标检索步长;
步骤S2,获取训练图像,并根据所述训练图像的尺寸的阶,将所述训练图像进行标准化处理从而得到标准化训练图像;
步骤S3,设计用于适应多分辨输入和多尺度目标检测的深度卷积神经网络模型,并通过所述标准化训练图像对所述深度卷积神经网络模型进行训练从而得到可执行的深度卷积神经网络模型,
其中,所述步骤S3中的所述深度卷积神经网络模型包括:
特征图提取部分,用于对输入所述深度卷积神经网络模型的输入图像执行非降采样的卷积神经网络操作,从而得到分辨率不变的特征图;
逐级降采样部分,用于将所述特征图进行逐级降采样并运算出对应所述输入图像的初步预测数据,该初步预测数据包括预置信度、目标分类及目标定位;
分支卷积运算部分,用于将所述特征图根据所述尺度等级,做相应的分支卷积运算从而得到对应所述输入图像的注意力预测数据,所述分支卷积运算的卷积核大小及步长与所述尺度等级相适应;
预测输出部分,用于将所述注意力预测数据与所述预置信度相作用从而得到目标置信度预测数据,进一步将该目标置信度预测数据与所述目标分类、所述目标定位整合作为对应所述输入图像的预测结果并输出,
所述特征图提取部分中,在根据所述输入图像提取所述特征图的阶段中使用池化算法时,会交替执行padding操作,从而提取到分辨率不变的所述特征图。
2.根据权利要求1所述的具有分辨率适应性的深度卷积神经网络构建方法,其特征在于:
其中,在所述步骤S1中,所述尺度等级的设定方法为:
根据神经网络的性能估算出可检测的目标图像的最小分辨率并作为最小等级,
进一步以所述最小等级为首,将分辨率的高与宽逐级扩大2倍,得到其他的所述尺度等级,直到最大等级的分辨率在下一次扩大时会超过所述目标图像的最大可能分辨率,
各个所述尺度等级中,所述目标图像的基本形状为正方形时,所述目标尺度的高和宽必须为2的整数次幂;所述基本形状为其他形状时,所述目标尺度的形状面积与所述基本形状为正方形时的目标尺度的形状面积相同。
3.根据权利要求1所述的具有分辨率适应性的深度卷积神经网络构建方法,其特征在于:
其中,所述目标检索步长与所述目标尺度相关,在所述步骤S1中,所述目标检索步长的计算方法为:
若所述目标图像为正方形,且该目标图像的边长为l,则所述目标检索步长step为:
式中,l>N,N=2n,n为整数,并且所述目标检索步长step的值也为整数。
4.根据权利要求1所述的具有分辨率适应性的深度卷积神经网络构建方法,其特征在于:
其中,所述尺度等级的最小等级为所述阶的整数倍,
在所述步骤S2中,所述标准化处理的方法为:
所述训练图像的高和宽为h、w,设所述阶的大小为s,要求标准化后的标准化图像的高h’、宽w’满足:
式中,m,n∈N+,
根据图像分辨率调整方法将训练图像的分辨率由h×w调整为h’×w’,得到所述标准化训练图像。
5.根据权利要求4所述的具有分辨率适应性的深度卷积神经网络构建方法,其特征在于:
其中,所述图像分辨率调整方法为:
根据所述训练图像的实际分辨率将该训练图像向最靠近的标准分辨率进行缩放,将某一个长度L标准化到最小目标边长lmin的整数倍,其计算函数为:
式中,r=Lmodlmin,L/lmin表示L与lmin相除的整数部分,
得到所述标准化训练图像的分辨率为:
进一步采用插值算法将所述训练图像转化为所述标准化训练图像。
6.根据权利要求4所述的具有分辨率适应性的深度卷积神经网络构建方法,其特征在于:
其中,所述图像分辨率调整方法为:
使用padding方法,对所述训练图像补充padding像素从而达到较大的标准分辨率,并将所述训练图像的高h和宽w分别预设为大于各自的最小l整数倍,在图像不足分辨率的部分添加像素padding,从而得到分辨率为h’×w’的所述标准化训练图像。
7.根据权利要求1所述的具有分辨率适应性的深度卷积神经网络构建方法,其特征在于:
其中,所述逐级降采样部分中,所述特征图不断以2×2的倍数缩小分辨率进行所述逐级降采样,当缩小倍数达到某个所述尺度等级的所述目标检索步长时,执行对应该尺度等级的目标检测预测,从而输出所述输入图像的所述初步预测数据。
8.根据权利要求1所述的具有分辨率适应性的深度卷积神经网络构建方法,其特征在于:
其中,所述分支卷积运算部分中,若所述目标尺度等级有m个,就执行m个注意力运算的分支。对原分辨率的特征图执行卷积运算,所述卷积核的大小等于所述尺度等级的尺度的大小,卷积步长等于所述目标检索步长。
9.根据权利要求1所述的具有分辨率适应性的深度卷积神经网络构建方法,其特征在于:
其中,所述预测输出部分中,将所述注意力预测数据与所述预置信度数据相作用的过程采用且不限于相乘、相加或是互相关运算。
10.权利要求1至9中任意一项所述的具有分辨率适应性的深度卷积神经网络构建方法在目标检测分析中的应用,其特征在于,包括:
检测图像获取部,用于获取待检测图像;
图像检测部,含有一个深度卷积神经网络模型,用于将所述待检测图像输入所述深度卷积神经网络模型从而得到预测结果;
预测结果处理输出部,用于对所述预测结果进行处理得到目标检测结果并进行输出,
其中,所述深度卷积神经网络模型通过权利要求1至9中任意一项所述的具有分辨率适应性的深度卷积神经网络构建方法构建得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910644172.5A CN110348531B (zh) | 2019-07-17 | 2019-07-17 | 具有分辨率适应性的深度卷积神经网络构建方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910644172.5A CN110348531B (zh) | 2019-07-17 | 2019-07-17 | 具有分辨率适应性的深度卷积神经网络构建方法及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110348531A true CN110348531A (zh) | 2019-10-18 |
CN110348531B CN110348531B (zh) | 2022-12-30 |
Family
ID=68175538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910644172.5A Expired - Fee Related CN110348531B (zh) | 2019-07-17 | 2019-07-17 | 具有分辨率适应性的深度卷积神经网络构建方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110348531B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382685A (zh) * | 2020-03-04 | 2020-07-07 | 电子科技大学 | 一种基于深度学习的场景识别方法和系统 |
CN113126856A (zh) * | 2019-12-30 | 2021-07-16 | 无锡祥生医疗科技股份有限公司 | 分辨率自适应方法、超声设备和存储介质 |
CN113269765A (zh) * | 2021-06-04 | 2021-08-17 | 重庆大学 | 可扩张卷积神经网络训练方法及ct影像分割模型构建方法 |
WO2023155433A1 (zh) * | 2022-02-16 | 2023-08-24 | 海信视像科技股份有限公司 | 视像解析装置及视像解析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268870A (zh) * | 2018-01-29 | 2018-07-10 | 重庆理工大学 | 基于对抗学习的多尺度特征融合超声图像语义分割方法 |
CN108470320A (zh) * | 2018-02-24 | 2018-08-31 | 中山大学 | 一种基于cnn的图像风格化方法及系统 |
CN108647585A (zh) * | 2018-04-20 | 2018-10-12 | 浙江工商大学 | 一种基于多尺度循环注意力网络的交通标识符检测方法 |
CN109389057A (zh) * | 2018-09-22 | 2019-02-26 | 天津大学 | 一种基于多尺度高级语义融合网络的物体检测方法 |
-
2019
- 2019-07-17 CN CN201910644172.5A patent/CN110348531B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268870A (zh) * | 2018-01-29 | 2018-07-10 | 重庆理工大学 | 基于对抗学习的多尺度特征融合超声图像语义分割方法 |
CN108470320A (zh) * | 2018-02-24 | 2018-08-31 | 中山大学 | 一种基于cnn的图像风格化方法及系统 |
CN108647585A (zh) * | 2018-04-20 | 2018-10-12 | 浙江工商大学 | 一种基于多尺度循环注意力网络的交通标识符检测方法 |
CN109389057A (zh) * | 2018-09-22 | 2019-02-26 | 天津大学 | 一种基于多尺度高级语义融合网络的物体检测方法 |
Non-Patent Citations (5)
Title |
---|
KEKE HE 等: "Harnessing Synthesized Abstraction Images to Improve Facial Attribute Recognition", 《PROCEEDINGS OF THE TWENTY-SEVENTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE (IJCAI-18)》 * |
WEI GUO 等: "Geospatial Object Detection in High Resolution Satellite Images Based on Multi-Scale Convolutional Neural Network", 《REMOTE SENSING》 * |
吴佳祥等: "一种应用于高分辨率遥感图像目标检测的尺度自适应卷积神经网络", 《微电子学与计算机》 * |
张文达等: "基于多尺度分块卷积神经网络的图像目标识别算法", 《计算机应用》 * |
胡炎等: "基于Faster-RCNN和多分辨率SAR的海上舰船目标检测", 《无线电工程》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113126856A (zh) * | 2019-12-30 | 2021-07-16 | 无锡祥生医疗科技股份有限公司 | 分辨率自适应方法、超声设备和存储介质 |
CN111382685A (zh) * | 2020-03-04 | 2020-07-07 | 电子科技大学 | 一种基于深度学习的场景识别方法和系统 |
CN113269765A (zh) * | 2021-06-04 | 2021-08-17 | 重庆大学 | 可扩张卷积神经网络训练方法及ct影像分割模型构建方法 |
CN113269765B (zh) * | 2021-06-04 | 2022-10-28 | 重庆大学 | 可扩张卷积神经网络训练方法及ct影像分割模型构建方法 |
WO2023155433A1 (zh) * | 2022-02-16 | 2023-08-24 | 海信视像科技股份有限公司 | 视像解析装置及视像解析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110348531B (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348531A (zh) | 具有分辨率适应性的深度卷积神经网络构建方法及应用 | |
CN109948425B (zh) | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 | |
CN108805070A (zh) | 一种基于嵌入式终端的深度学习行人检测方法 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN110175613A (zh) | 基于多尺度特征和编解码器模型的街景图像语义分割方法 | |
CN109800628A (zh) | 一种加强ssd小目标行人检测性能的网络结构及检测方法 | |
CN111860235A (zh) | 高低层特征融合的注意力遥感图像描述的生成方法及系统 | |
CN112949408B (zh) | 一种过鱼通道目标鱼类实时识别方法和系统 | |
CN107229757A (zh) | 基于深度学习和哈希编码的视频检索方法 | |
CN113240691A (zh) | 一种基于u型网络的医学图像分割方法 | |
CN104680558B (zh) | 使用GPU硬件加速的Struck目标跟踪方法 | |
CN107958067A (zh) | 一种基于无标注自动特征提取的大规模电商图片检索系统 | |
CN110287806A (zh) | 一种基于改进ssd网络的交通标志识别方法 | |
CN110827312A (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN114419406A (zh) | 图像变化检测方法、训练方法、装置和计算机设备 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
WO2020259036A1 (zh) | 基于生成对抗和卷积神经网络的UI生成Web代码的方法 | |
CN113327227B (zh) | 一种基于MobilenetV3的小麦头快速检测方法 | |
Sujatha et al. | Enhancing Object Detection with Mask R-CNN: A Deep Learning Perspective | |
CN116823891A (zh) | 基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统 | |
CN111967516A (zh) | 一种逐像素分类方法、存储介质及分类设备 | |
Wei et al. | L2-norm prototypical networks for tackling the data shift problem in scene classification | |
CN112990336B (zh) | 基于竞争注意力融合的深度三维点云分类网络构建方法 | |
CN113222114B (zh) | 一种图像数据增广方法及装置 | |
Wei et al. | Improved RetinaNet target detection model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221230 |
|
CF01 | Termination of patent right due to non-payment of annual fee |