CN110717929A - 图像目标检测方法、装置及存储介质 - Google Patents
图像目标检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110717929A CN110717929A CN201810754633.XA CN201810754633A CN110717929A CN 110717929 A CN110717929 A CN 110717929A CN 201810754633 A CN201810754633 A CN 201810754633A CN 110717929 A CN110717929 A CN 110717929A
- Authority
- CN
- China
- Prior art keywords
- depth
- level
- image
- features
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 417
- 238000000605 extraction Methods 0.000 claims abstract description 286
- 238000006243 chemical reaction Methods 0.000 claims description 83
- 230000004913 activation Effects 0.000 claims description 62
- 230000009467 reduction Effects 0.000 claims description 24
- 230000009466 transformation Effects 0.000 claims description 4
- 230000008901 benefit Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 67
- 238000000034 method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 238000007689 inspection Methods 0.000 description 6
- 238000013468 resource allocation Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000007480 spreading Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种图像目标检测方法,其包括:获取检测图像、n级深度特征图框架以及m级非深度特征图框架,其中特征图框架包括输出的特征尺寸以及维度;基于深度特征提取模型,使用i级深度特征图框架对检测图像的(i‑1)级特征进行深度特征提取,以获取检测图像的i级特征;基于非深度特征提取模型,使用j级非深度特征图框架对检测图像的(j‑1+n)级特征进非深度特征提取,以获取检测图像的(j+n)级特征;以及基于特征预测模型,对检测图像的a级特征至(m+n)级特征进行信息回归操作,从而获取检测图像的目标类型以及目标位置。本发明还提供一种图像目标检测装置,本发明整体特征提取速度较快,且对配置资源的需求较低。
Description
技术领域
本发明涉及图像处理领域,特别是涉及一种图像目标检测方法、装置及存储介质。
背景技术
随着科技的发展,图像中的目标识别技术已越来越成为计算机视觉的重要问题。即在给定的图片中,标注出要识别的物体,如在图片上标识出人、车、房子等物体。
随着最近深度学习的兴起,使用深度学习在图像目标检测领域中的应用得到巨大的突破,一系列基于深度学习算法的图像目标学习方法被提出来。如Faster-RCNN(快速区域卷积神经网络,Faster-Regions with Convolutional Neural Networks features)和YOLO(You Only Look Once)等深度学习算法。
但是现有的图像目标检测算法的技术重心是放在检测结果的准确率上,因此现有的图像目标检测算法的运行速度并不满足实际场景的落地,一些相对比较高效的图像目标检测系统的模型大小均超过了100Mb,使得现有的图像目标检测系统运行速度较慢且无法在资源配置较小的移动终端上实施。
发明内容
本发明实施例提供一种运行速度较快且对配置资源需求较低的图像目标检测方法及装置;以解决现有的图像目标检测方法及装置的运行速度较慢且无法在资源配置较小的移动终端上实施的技术问题。
本发明实施例提供一种图像目标检测方法,其包括:
获取检测图像、n级深度特征图框架以及m级非深度特征图框架,n为大于等于2的整数,m为大于等于1的整数;其中特征图框架包括输出的特征尺寸以及维度;
基于深度特征提取模型,使用i级深度特征图框架对所述检测图像的(i-1)级特征进行深度特征提取,以获取所述检测图像的i级特征,其中i为小于等于n的正整数;
基于非深度特征提取模型,使用j级非深度特征图框架对所述检测图像的(j-1+n)级特征进非深度特征提取,以获取所述检测图像的(j+n)级特征,其中j为小于等于m的正整数;以及
基于特征预测模型,对所述检测图像的a级特征至(m+n)级特征进行信息回归操作,从而获取所述检测图像的目标类型以及目标位置,其中a为小于n且大于等于2的整数。
本发明实施例还提供一种图像目标检测装置,其包括:
图像以及框架获取模块,用于获取检测图像、n级深度特征图框架以及m级非深度特征图框架,n为大于等于2的整数,m为大于等于1的整数;其中特征图框架包括输出的特征尺寸以及维度;
深度特征提取模块,用于基于深度特征提取模型,使用i级深度特征图框架对所述检测图像的(i-1)级特征进行深度特征提取,以获取所述检测图像的i级特征,其中i为小于等于n的正整数;
非深度特征提取模块,用于基于非深度特征提取模型,使用j级非深度特征图框架对所述检测图像的(j-1+n)级特征进非深度特征提取,以获取所述检测图像的(j+n)级特征,其中j为小于等于m的正整数;
目标检测模块,用于基于特征预测模型,对所述检测图像的a级特征至(m+n)级特征进行信息回归操作,从而获取所述检测图像的目标类型以及目标位置,其中a为小于n且大于等于2的整数。
本发明实施例还提供一种存储介质,其内存储有处理器可执行指令,所述指令由一个或一个以上处理器加载,以执行上述任一的图像目标检测方法。
相较于现有技术,本发明的图像目标检测方法、装置及存储介质基于深度特征提取模型以及非深度特征提取模型对同一检测图像的多个不同尺寸的特征进行提取以及特征识别,由于检测图像的小尺寸特征可直接在检测图像的大尺寸特征的基础上进行提取,因此整体特征提取速度较快,且对配置资源的需求较低;有效的解决了现有的图像目标检测方法及装置的运行速度较慢且无法在资源配置较小的移动终端上实施的技术问题。
附图说明
图1为本发明的图像目标检测方法的第一实施例的流程图;
图2为本发明的图像目标检测方法的第二实施例的流程图;
图3a为本发明的图像目标检测方法的第二实施例的步骤S202的流程图;
图3b为本发明的图像目标检测方法的第二实施例的步骤S202的特征提取示意图;
图4a为本发明的图像目标检测方法的第二实施例的步骤S203的流程图;
图4b为本发明的图像目标检测方法的第二实施例的步骤S203的特征提取示意图;
图5a为本发明的图像目标检测方法的第二实施例的步骤S204的流程图;
图5b为本发明的图像目标检测方法的第二实施例的步骤S204的特征提取示意图;
图6为本发明的图像目标检测装置的第一实施例的结构示意图;
图7为本发明的图像目标检测装置的第二实施例的结构示意图;
图8为本发明的图像目标检测装置的第二实施例的深度特征提取模块的结构示意图;
图9为本发明的图像目标检测装置的第二实施例的非深度特征提取模块的结构示意图;
图10为本发明的图像目标检测装置的第二实施例的目标检测模块的结构示意图;
图11为本发明的图像目标检测方法及图像目标检测装置的具体实施例的使用示意图;
图12为本发明的图像目标检测装置所在的电子设备的工作环境结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行之作业的步骤及符号来说明,除非另有述明。因此,其将可了解到这些步骤及操作,其中有数次提到为由计算机执行,包括了由代表了以一结构化型式中的数据之电子信号的计算机处理单元所操纵。此操纵转换该数据或将其维持在该计算机之内存系统中的位置处,其可重新配置或另外以本领域技术人员所熟知的方式来改变该计算机之运作。该数据所维持的数据结构为该内存之实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本发明的图像目标检测方法以及图像目标检测装置可设置在任何的电子设备中,用于对图片或照片的中人、车、房子等目标问题进行检测识别操作。该电子设备包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA,Personal Digital Assistant)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境,等等。该电子设备优选为安装有图像目标识别应用的移动终端,该移动终端可对图像中的目标特征进行快速提取,且对移动终端自身的配置资源的需求较低。
请参照图1,图1为本发明的图像目标检测方法的第一实施例的流程图;本实施例的图像目标检测方法可使用上述的电子设备进行实施,本实施例的图像目标检测方法包括:
步骤S101,获取检测图像、n级深度特征图框架以及m级非深度特征图框架,n为大于等于2的整数,m为大于等于1的整数;其中特征图框架包括输出的特征尺寸以及维度;
步骤S102,基于深度特征提取模型,使用i级深度特征图框架对检测图像的(i-1)级特征进行深度特征提取,以获取检测图像的i级特征,其中i为小于等于n的正整数;
步骤S103,基于非深度特征提取模型,使用j级非深度特征图框架对检测图像的(j-1+n)级特征进非深度特征提取,以获取检测图像的(j+n)级特征,其中j为小于等于m的正整数;
步骤S104,基于特征预测模型,对检测图像的a级特征至(m+n)级特征进行信息回归操作,从而获取检测图像的目标类型以及目标位置,其中a为小于n且大于等于2的整数。
下面详细说明本实施例的图像目标检测方法的图像目标检测过程。
在步骤S101中,图像目标检测装置获取需要进行目标检测的检测图像,以及对该检测图像进行目标检测的n级深度特征图框架以及m级非深度特征图框架。在本实施例中n为大于等于2的整数,m为大于等于1的整数。即检测图像至少要进行3次特征提取操作。
这里为了对检测图像进行准确全面的目标检测,需要采用对检测图像进行多级特征提取操作,如m+n级等。由于下一级的特征尺寸一定小于上一级的特征尺寸,因此下级的特征提取操作可在上级特征提取操作输出的特征上进行。大尺寸的特征提取操作由于之前进行的上级特征提取操作较少,因此需要使用深度特征提取模型以及深度特征图框架进行特征提取。小尺寸的特征提取操作由于之前已经进行了多次上级特征提取操作,因此仅需要使用非深度特征提取模型以及非深度特征图框架进行特征提取即可。
这里深度特征图框架是对检测图像或检测图像对应的下级特征进行特征识别的识别参数,该深度特征图框架可包括每个深度特征级别输出的特征尺寸以及维度。非深度特征框架是对检测图像对应的下级特征进行特征识别的识别参数,该非深度特征图框架可包括每个非深度特征级别输出的特征尺寸以及维度。
在步骤S102中,图像目标检测装置基于预设的深度特征提取模型,使用步骤S101获取的i级深度特征图框架对检测图像的(i-1)级特征进行深度特征提取,以获取检测图像的i级特征,其中i为小于等于n的正整数。
即图像目标检测装置基于预设的深度特征提取模型,对检测图像的像素进行深度特征提取,以获取1级深度特征图框架对应的检测图像的1级特征;随后图像目标检测装置对检测图像的1级特征进行深度特征提取,以获取2级深度特征图框架对应的检测图像的2级特征……;最后图像目标检测装置对检测图像(n-1)级特征进行深度特征提取,以获取n级深度特征图框架对应的检测图像的n级特征。这样获取了检测图像的1级特征至n级特征。
在步骤S103中,图像目标检测装置基于预设的非深度特征提取模型,使用步骤S101获取的j级非深度特征图框架对检测图像的(j-1+n)级特征进行非深度特征提取,以获取检测图像的(j+n)级特征,其中j为小于等于m的正整数。
即图像目标检测装置基于预设的非深度特征提取模型,对检测图像的n级特征进行非深度特征提取,以获取1级非深度特征图框架对应的检测图像的(n+1)级特征;随后图像目标检测装置对检测图像的(n+1)级特征进行非深度特征提取,以获取2级非深度特征图框架对应的检测图像的(n+2)级特征……;最后图像目标检测装置对检测图像(n+m-1)级特征进行深度特征提取,以获取(m+n)级深度特征图框架对应的检测图像的(m+n)级特征。这样获取了检测图像的(n+1)级特征至(m+n)级特征。
在步骤S104中,图像目标检测装置基于预设的特征预测模型,对步骤S102和步骤S103获取的检测图像的a级特征至(m+n)级特征进行信息回归操作,从而获取检测图像的目标类型以及目标位置,其中a小于n且大于等于2的整数。
具体的,由于检测图像的1级特征至(a-1)级特征的特征尺寸较大,因此不具有进行特征分类识别的意义,因此图像目标检测装置将检测图像的1级特征至(a-1)级特征直接丢弃。图像目标检测装置对检测图像的a级特征至(m+n)级特征进行特征分类识别,从而获取该特征对应的检测图像的目标类型(如人、车、房子等)以及目标位置(如目标的中心坐标以及目标方框的长宽等)。
这样即完成了本实施例的图像目标检测方法的图像目标检测过程。
本实施例的图像目标检测方法基于深度特征提取模型以及非深度特征提取模型,对同一检测图像的多个不同尺寸的特征进行提取以及特征识别,由于检测图像的小尺寸特征可直接在检测图像的大尺寸特征的基础上进行提取,因此整体特征提取速度较快,且对配置资源的需求较低。
请参照图2,图2为本发明的图像目标检测方法的第二实施例的流程图;本实施例的图像目标检测方法可使用上述的电子设备进行实施,本实施例的图像目标检测方法包括:
步骤S201,获取检测图像、n级深度特征图框架以及m级非深度特征图框架,n为大于等于2的整数,m为大于等于1的整数;其中特征图框架包括输出的特征尺寸以及维度;
步骤S202,基于深度特征提取模型,使用i级深度特征图框架对检测图像的(i-1)级特征进行深度特征提取,以获取检测图像的i级特征,其中i为小于等于n的正整数;
步骤S203,基于非深度特征提取模型,使用j级非深度特征图框架对检测图像的(j-1+n)级特征进非深度特征提取,以获取检测图像的(j+n)级特征,其中j为小于等于m的正整数;
步骤S204,基于特征预测模型,对检测图像的a级特征至(m+n)级特征进行信息回归操作,从而获取检测图像的目标类型以及目标位置,其中a小于n且大于等于2的整数。
下面详细说明本实施例的图像目标检测方法的图像目标检测过程。
在步骤S201中,图像目标检测装置获取需要进行目标检测的检测图像,以及对该检测图像进行目标检测的n级深度特征图框架以及m级非深度特征图框架。在本实施例中n为大于等于2的整数,m为大于等于1的整数。即检测图像至少要进行3次特征提取操作。
这里深度特征图框架是对检测图像或检测图像对应的下级特征进行特征识别的识别参数,该深度特征图框架可包括每个深度特征级别输出的特征尺寸以及维度。非深度特征框架是对检测图像对应的下级特征进行特征识别的识别参数,该非深度特征图框架可包括每个非深度特征级别输出的特征尺寸以及维度。
在步骤S202中,图像目标检测装置基于预设的深度特征提取模型,使用步骤S101获取的i级深度特征图框架对检测图像的(i-1)级特征进行深度特征提取,以获取检测图像的i级特征,其中i为小于等于n的正整数。
在本实施例中深度特征提取模型包括深度输入卷积层、深度第一非线性转换卷积层、深度第二非线性转换卷积层以及深度输出卷积层。
具体请参照图3a和图3b,图3a为本发明的图像目标检测方法的第二实施例的步骤S202的流程图,图3b为本发明的图像目标检测方法的第二实施例的步骤S202的特征提取示意图。该步骤S202包括:
步骤S301,图像目标检测装置使用深度特征提取模型的深度输入卷积层,对检测图像的(i-1)级特征进行升维操作,以得到检测图像的i级升维特征。
其中深度输入卷积层为具有1*1卷积核尺寸以及具有非线性激活函数的标准卷积层,其中深度输入卷积层可设置较大的通道数,如4-6等。这样可在保证检测图像的特征尺寸的情况下,增加输入特征的维度,从而解决检测图像的特征丢失的问题。
深度输入卷积层的通道数用于表示从检测图像的低级特征上进行特征提取的特征提取模式的数量,深度输入卷积层的卷积核尺寸用于调整深度神经网络模型的复杂度。
如输入的检测图像的(i-1)级特征为32*32*3的特征点矩阵,其中3为检测图像的输入通道数,如红色的像素亮度值、蓝色的像素亮度值以及绿色的像素亮度值等;设定深度输入卷积层的卷积核尺寸为1*1,则该深度输入卷积层的输出特征尺寸为32*32,即使用1*1的卷积核依次遍历32*32的特征点矩阵可得到32*32尺寸的特征图,如深度输入卷积层的通道数为6,则得到的深度输入卷积层的输出为32*32*18的i级升维特征。这样在不改变输出特征尺寸的情况下得到了维度更高的检测图像的升维特征。
随后深度输入卷积层会使用非线性激活函数,如线性整流函数(ReLU,RectifiedLinear Unit)等对输出的i级升维特征进行非线性处理,以保证深度输入卷积层的输出是可微的,从而提高后续输出特征的准确性。
步骤S302,图像目标检测装置使用深度特征提取模型的深度第一非线性转换卷积层,对步骤S301获取的检测图像的i级升维特征进行第一特征提取操作,以得到检测图像的i级第一卷积特征。
其中第一非线性转换卷积层为具有3*3卷积核尺寸以及具有非线性激活函数的深度可分离卷积层,其中深度可分离卷积层的设置可使得第一非线性转换卷积层的运算量大幅度减少,进而使得深度特征提取模型的大小也大幅度减小。
其中深度可分离卷积层(depthwise separable convolution)可在保持通道分离的前提下,实现空间卷积。如3*3卷积核尺寸的标准卷积层,输入通道数为16,输出通道数为32,则32个3*3大小的卷积核遍历16个通道中的每个数据,需要设置16*32*3*3=4608个参数进行卷积运算。如3*3卷积核尺寸的深度可分离卷积层,用1个3*3尺寸的卷积核遍历16个通道的数据,得到16个特征图谱,然后使用32个1*1尺寸的卷积核遍历这16个特征图谱,这样只需要设置16*3*3+16+32+1+1=656个参数就能完成卷积运算。
在本步骤中,深度第一非线性转换卷积层首先对检测图像的i级升维特征进行第一特征提取操作,随后深度第一非线性转换卷积层会使用非线性激活函数,如线性整流函数(ReLU,Rectified Linear Unit)等对输出的i级第一卷积特征进行非线性处理,以保证深度第一非线性转换卷积层的输出是可微的,从而提高后续输出特征的准确性。
步骤S303,图像目标检测装置使用深度特征提取模型的深度第二非线性转换卷积层,对步骤S302获取的检测图像的i级第一卷积特征进行第二特征提取操作,以得到检测图像的i级第二卷积特征。
其中深度第二非线性转换卷积层为具有3*3卷积核尺寸以及具有非线性激活函数的深度可分离空洞卷积层(atrous convolutions),其中深度可分离空洞卷积层的设置可使得第二非线性转换卷积层的运算量大幅度减少的同时,还增加检测图像的每个特征基本单元的感受野,从而进一步提高了第二非线性转换卷积层输出的i级第二卷积特征的准确性。
其中空洞卷积可在卷积操作中设置一“扩展率(dilation rate)”的参数,该扩展率定义卷积层处理数据时各个数据之间的间距。如5*5卷积核尺寸的标准卷积层,需要设置25个参数;但是如果设置3*3的卷积核尺寸且扩展率为2的空洞卷积层,仅仅只需要设置9个参数,即在5*5尺寸的卷积核的基础上,每隔一行删除一行数据以及每隔一列删除一列数据。因此在相同的计算条件下,空洞卷积层可在不增加运算量的情况下提供更大的感受野。
这里将空洞卷积层设置在深度第二非线性转换卷积层,可以在深度第一非线性转换卷积层已经进行初步深度特征提取的基础上,使用较少的资源再次进行深度特征提取,可以较好的弥补第一特征提取操作中的感受野较小的问题。
在本步骤中,深度第二非线性转换卷积层首先对检测图像的i级第一卷积特征进行第二特征提取操作,随后深度第二非线性转换卷积层会使用非线性激活函数,如线性整流函数(ReLU,Rectified Linear Unit)等对输出的i级第二卷积特征进行非线性处理,以保证深度第二非线性转换卷积层的输出是可微的,从而提高后续输出特征的准确性。
步骤S304,图像目标检测装置使用深度特征提取模型的深度输出卷积层,对步骤S303获取的检测图像的i级第二卷积特征进行降维操作,以得到检测图像的i级特征。
其中深度输出卷积层为具有1*1卷积核尺寸以及不具有激活函数的标准卷积层。这里深度输出卷积层可将在步骤S301中增加的维度恢复至输入到深度输入卷积层的维度;且在深度输出卷积层中没有设置激活函数,以避免激活函数导致的输出特征的丢失。深度输出卷积层输出的检测图像的i级特征应该与i级深度特征图框架符合。
这样即完成了使用i级深度特征图框架对检测图像的(i-1)级特征进行深度特征提取,以获取检测图像的i级特征。重复步骤S301至步骤S304,可获取检测图像的1级特征至n级特征。
在步骤S203中,图像目标检测装置基于预设的非深度特征提取模型,使用步骤S101获取的j级非深度特征图框架对检测图像的(j-1+n)级特征进行非深度特征提取,以获取检测图像的(j+n)级特征,其中j为小于等于m的正整数。
在本实施例中非深度特征提取模型包括非深度输入卷积层、非深度非线性转换卷积层以及非深度输出卷积层。
具体请参照图4a和图4b,图4a为本发明的图像目标检测方法的第二实施例的步骤S203的流程图,图4b为本发明的图像目标检测方法的第二实施例的步骤S203的特征提取示意图。该步骤S203包括:
步骤S401,图像目标检测装置使用非深度特征提取模型的非深度输入卷积层,对检测图像的(j-1+n)级特征进行升维操作,以得到检测图像的(j+n)级升维特征。
其中非深度输入卷积层为具有1*1卷积核尺寸以及具有非线性激活函数的标准卷积层,其中深度输入卷积层可设置较大的通道数,如4-6等。这样可在保证检测图像的特征尺寸的情况下,增加输入特征的维度,从而解决检测图像的特征丢失的问题。
随后非深度输入卷积层会使用非线性激活函数,如线性整流函数(ReLU,Rectified Linear Unit)等对输出的(j+n)级升维特征进行非线性处理,以保证非深度输入卷积层的输出是可微的,从而提高后续输出特征的准确性。
步骤S402,图像目标检测装置使用非深度特征提取模型的非深度非线性转换卷积层,对步骤S401获取的检测图像的(j+n)级升维特征进行特征提取操作,以得到检测图像的(j+n)级卷积特征。
其中非深度非线性转换卷积层为具有3*3卷积核尺寸以及具有非线性激活函数的深度可分离卷积层,其中深度可分离卷积层的设置可使得非深度非线性转换卷积层的运算量大幅度减少,进而使得深度特征提取模型的大小也大幅度减小。这里的非深度非线性转换卷积层也可为深度可分离空洞卷积层。
由于非深度非线性转换卷积层直接输入深度非线性转换卷积层输出的特征,因此这里的非深度特征提取模型只需要使用一个非深度非线性转换卷积层进行特征提取即可,而不需要设置多个非线性转换卷积层进行特征提取。
在本步骤中,非深度非线性转换卷积层首先对检测图像的(j+n)级升维特征进行特征提取操作,随后非深度非线性转换卷积层会使用非线性激活函数,如线性整流函数(ReLU,Rectified Linear Unit)等对输出的(j+n)级卷积特征进行非线性处理,以保证非深度非线性转换卷积层的输出是可微的,从而提高后续输出特征的准确性。
步骤S403,图像目标检测装置使用非深度特征提取模型的非深度输出卷积层,对步骤S402获取的检测图像的(j+n)级卷积特征进行降维操作,以得到检测图像的(j+n)级特征。
其中非深度输出卷积层为具有1*1卷积核尺寸以及不具有激活函数的标准卷积层。这里非深度输出卷积层可将在步骤S401中增加的维度恢复至输入到非深度输入卷积层的维度;且在非深度输出卷积层中没有设置激活函数,以避免激活函数导致的输出特征的丢失。非深度输出卷积层输出的检测图像的(j+n)级特征应该与j级非深度特征图框架符合。
这样即完成了使用j级非深度特征图框架对检测图像的(j-1+n)级特征进行非深度特征提取,以获取检测图像的(j+n)级特征。重复步骤S401至步骤S403,可获取检测图像的(n+1)级特征至(j+n)级特征。
本实施例基于检测图像的特征提取深度分别采用深度特征提取模型以及非深度特征提取模型,可大大降低特征提取操作的计算量,这里n的设置可根据用户的要求进行设定。如特征提取操作的计算量较大,可适当的降低n的大小,如需要提高特征提取的准确性,可适当的提升n的大小。
在步骤S204中,图像目标检测装置基于预设的特征预测模型,对步骤S202和步骤S203获取的检测图像的a级特征至(m+n)级特征进行信息回归操作,从而获取检测图像的目标类型以及目标位置,其中a为小于n且大于等于2的整数。这里特征预测模型的作用相当于回归器,用于获取检测图像中目标的目标类型以及目标位置,这里的目标类型使用分类概率进行标识,如某个目标80%的概率为一只猫,20%的概率为一只狗等。
在本实施例中特征预测模型包括特征分类卷积层以及特征输出卷积层。
具体请参照图5a和图5b,图5a为本发明的图像目标检测方法的第二实施例的步骤S204的流程图,图5b为本发明的图像目标检测方法的第二实施例的步骤S204的特征提取示意图。该步骤S204包括:
步骤S501,图像目标检测装置使用特征预测模型的特征分类卷积层,对检测图像的a级特征至(m+n)级特征进行特征提取操作,以得到检测图像的分类识别特征。
其中特征分类卷积层为具有3*3卷积核尺寸以及不具有激活函数的深度可分离卷积层。由于检测图像的1级特征至(a-1)级特征的特征尺寸较大,一般不会成为检测的图像目标,因此这里将检测图像的a级特征的前级特征全部丢弃。
随后图像目标检测装置使用检测图像的a级特征至(m+n)级特征进行特征提取操作,从而获取检测图像的分类识别特征,以便进行后续的检测图像的目标类型以及目标位置的预测操作。
具体的,这里可根据用户需要选择a级特征至(m+n)级特征中的部分特征进行特征提取操作,从而进一步的减少特征提取操作的计算量。
步骤S502,图像目标检测装置使用特征预测模型的特征输出卷积层,对步骤S501获取的检测图像的分类识别特征进行降维操作,以得到检测图像的目标类型以及目标位置。
其中特征输出卷积层为具有1*1卷积核尺寸以及不具有激活函数的标准卷积层。这里特征输出卷积层中没有设置激活函数,以避免激活函数导致的输出特征的丢失。
这里输出的目标类型可为人、车、房子等物品,输出的目标位置可为目标的中心坐标以及目标方框的长宽等参数。
这样即完成了本实施例的图像目标检测方法的图像目标检测过程。
在第一实施例的基础上,本实施例的图像目标检测方法中深度特征提取模型和非深度特征提取模型采用不同的结构,且深度特征提取模型中的第一非线性转换卷积层和第二非线性转换卷积层也采用不同的结果,这样可以最大化检测图像的目标特征的提取速度,进一步降低配置资源的需求,从而实现目标检测功能在移动终端上的落地。
本发明还提供一种图像目标检测装置,请参照图6,图6为本发明的图像目标检测装置的第一实施例的结构示意图。本实施例的图像目标检测装置可使用上述的图像目标检测方法的第一实施例进行实施,本实施例的图像目标检测装置60包括图像以及框架获取模块61、深度特征提取模块62、非深度特征提取模块63以及目标检测模块64。
图像以及框架获取模块61用于获取检测图像、n级深度特征图框架以及m级非深度特征图框架,n为大于等于2的整数,m为大于等于1的整数;其中特征图框架包括输出的特征尺寸以及维度;深度特征提取模块62用于基于深度特征提取模型,使用i级深度特征图框架对检测图像的(i-1)级特征进行深度特征提取,以获取检测图像的i级特征,其中i为小于等于n的正整数;非深度特征提取模块63用于基于非深度特征提取模型,使用j级非深度特征图框架对检测图像的(j-1+n)级特征进非深度特征提取,以获取检测图像的(j+n)级特征,其中j为小于等于m的正整数;目标检测模块64用于基于特征预测模型,对检测图像的a级特征至(m+n)级特征进行信息回归操作,从而获取检测图像的目标类型以及目标位置,其中a为小于n且大于等于2的整数。
本实施例的图像目标检测装置60使用时,首先图像以及框架获取模块61获取需要进行目标检测的检测图像,以及对该检测图像进行目标检测的n级深度特征图框架以及m级非深度特征图框架。在本实施例中n为大于等于2的整数,m为大于等于1的整数。即检测图像至少要进行3次特征提取操作。
这里为了对检测图像进行准确全面的目标检测,需要采用对检测图像进行多级特征提取操作,如m+n级等。由于下一级的特征尺寸一定小于上一级的特征尺寸,因此下级的特征提取操作可在上级特征提取操作输出的特征上进行。大尺寸的特征提取操作由于之前进行的上级特征提取操作较少,因此需要使用深度特征提取模型以及深度特征图框架进行特征提取。小尺寸的特征提取操作由于之前已经进行了多次上级特征提取操作,因此仅需要使用非深度特征提取模型以及非深度特征图框架进行特征提取即可。
这里深度特征图框架是对检测图像或检测图像对应的下级特征进行特征识别的识别参数,该深度特征图框架可包括每个深度特征级别输出的特征尺寸以及维度。非深度特征框架是对检测图像对应的下级特征进行特征识别的识别参数,该非深度特征图框架可包括每个非深度特征级别输出的特征尺寸以及维度。
随后深度特征提取模块62基于预设的深度特征提取模型,使用i级深度特征图框架对检测图像的(i-1)级特征进行深度特征提取,以获取检测图像的i级特征,其中i为小于等于n的正整数。
即深度特征提取模块62基于预设的深度特征提取模型,对检测图像的像素进行深度特征提取,以获取1级深度特征图框架对应的检测图像的1级特征;随后深度特征提取模块对检测图像的1级特征进行深度特征提取,以获取2级深度特征图框架对应的检测图像的2级特征……;最后图像目标检测装置对检测图像(n-1)级特征进行深度特征提取,以获取n级深度特征图框架对应的检测图像的n级特征。这样获取了检测图像的1级特征至n级特征。
然后非深度特征提取模块63基于预设的非深度特征提取模型,使用j级非深度特征图框架对检测图像的(j-1+n)级特征进行非深度特征提取,以获取检测图像的(j+n)级特征,其中j为小于等于m的正整数。
即非深度特征提取模块63基于预设的非深度特征提取模型,对检测图像的n级特征进行非深度特征提取,以获取1级非深度特征图框架对应的检测图像的(n+1)级特征;随后非深度特征提取模块对检测图像的(n+1)级特征进行非深度特征提取,以获取2级非深度特征图框架对应的检测图像的(n+2)级特征……;最后图像目标检测装置对检测图像(n+m-1)级特征进行深度特征提取,以获取(m+n)级深度特征图框架对应的检测图像的(m+n)级特征。这样获取了检测图像的(n+1)级特征至(m+n)级特征。
最后目标检测模块64基于预设的特征预测模型,对检测图像的a级特征至(m+n)级特征进行信息回归操作,从而获取检测图像的目标类型以及目标位置,其中a小于n且大于等于2的整数。
具体的,由于检测图像的1级特征至(a-1)级特征的特征尺寸较大,因此不具有进行特征分类识别的意义,因此目标检测模块64将检测图像的1级特征至(a-1)级特征直接丢弃。目标检测模块64对检测图像的a级特征至(m+n)级特征进行特征分类识别,从而获取该特征对应的检测图像的目标类型(如人、车、房子等)以及目标位置(如目标的中心坐标以及目标方框的长宽等)。
这样即完成了本实施例的图像目标检测装置60的图像目标检测过程。
本实施例的图像目标检测装置基于深度特征提取模型以及非深度特征提取模型,对同一检测图像的多个不同尺寸的特征进行提取以及特征识别,由于检测图像的小尺寸特征可直接在检测图像的大尺寸特征的基础上进行提取,因此整体特征提取速度较快,且对配置资源的需求较低。
请参照图7,图7为本发明的图像目标检测装置的第二实施例的结构示意图。本实施例的图像目标检测装置可使用上述的图像目标检测方法的第二实施例进行实施,本实施例的图像目标检测装置70包括图像以及框架获取模块71、深度特征提取模块72、非深度特征提取模块73以及目标检测模块74。
图像以及框架获取模块71用于获取检测图像、n级深度特征图框架以及m级非深度特征图框架,其中特征图框架包括输出的特征尺寸以及维度;深度特征提取模块72用于基于深度特征提取模型,使用i级深度特征图框架对检测图像的(i-1)级特征进行深度特征提取,以获取检测图像的i级特征;非深度特征提取模块73用于基于非深度特征提取模型,使用j级非深度特征图框架对检测图像的(j-1+n)级特征进非深度特征提取,以获取检测图像的(j+n)级特征;目标检测模块74用于基于特征预测模型,对检测图像的a级特征至(m+n)级特征进行信息回归操作,从而获取检测图像的目标类型以及目标位置。
请参照图8,图8为本发明的图像目标检测装置的第二实施例的深度特征提取模块的结构示意图。该深度特征提取模块72包括深度升维操作单元81、第一深度特征提取单元82、第二深度特征提取单元83以及深度降维操作单元84。
深度升维操作单元81用于使用深度输入卷积层,对检测图像的i级特征进行升维操作,以得到检测图像的i级升维特征;第一深度特征提取单元82用于使用深度第一非线性转换卷积层,对检测图像的(i-1)级升维特征进行第一特征提取操作,以得到检测图像的i级第一卷积特征;第二深度特征提取单元83使用深度第二非线性转换卷积层,对检测图像的i级第一卷积特征进行第二特征提取操作,以得到检测图像的i级第二卷积特征;深度降维操作单元84用于使用深度输出卷积层,对检测图像的i级第二卷积特征进行降维操作,以得到检测图像的i级特征。
请参照图9,图9为本发明的图像目标检测装置的第二实施例的非深度特征提取模块的结构示意图。该非深度特征提取模块73包括非深度升维操作单元91、非深度特征提取单元92以及非深度降维操作单元93。
非深度升维操作单元91用于使用非深度输入卷积层,对检测图像的(j-1+n)级特征进行升维操作,以得到检测图像的(j+n)级升维特征;非深度特征提取单元92用于使用非深度非线性转换卷积层,对检测图像的(j+n)级升维特征进行特征提取操作,以得到检测图像的(j+n)级卷积特征;非深度降维操作单元93用于使用非深度输出卷积层,对检测图像的(j+n)级卷积特征进行降维操作,以得到检测图像的(j+n)级特征。
请参照图10,图10为本发明的图像目标检测装置的第二实施例的目标检测模块的结构示意图。该目标检测模块74包括特征分类单元101以及特征输出单元102。
特征分类单元101用于使用特征分类卷积层,对检测图像的a级特征至(m+n)级特征进行特征提取操作,以得到检测图像的分类识别特征;特征输出单元102用于使用特征输出卷积层,对检测图像的分类识别特征进行降维操作,以得到检测图像的目标类型以及位置。
本实施例的图像目标检测装置70使用时,首先图像以及框架获取模块71获取需要进行目标检测的检测图像,以及对该检测图像进行目标检测的n级深度特征图框架以及m级非深度特征图框架。在本实施例中n为大于等于2的整数,m为大于等于1的整数。即检测图像至少要进行3次特征提取操作。
这里深度特征图框架是对检测图像或检测图像对应的下级特征进行特征识别的识别参数,该深度特征图框架可包括每个深度特征级别输出的特征尺寸以及维度。非深度特征框架是对检测图像对应的下级特征进行特征识别的识别参数,该非深度特征图框架可包括每个非深度特征级别输出的特征尺寸以及维度。
随后深度特征提取模块72基于预设的深度特征提取模型,使用i级深度特征图框架对检测图像的(i-1)级特征进行深度特征提取,以获取检测图像的i级特征,其中i为小于等于n的正整数。
在本实施例中深度特征提取模型包括深度输入卷积层、深度第一非线性转换卷积层、深度第二非线性转换卷积层以及深度输出卷积层。
具体的深度特征提取流程包括:
深度特征提取模块72的深度升维操作单元81使用深度特征提取模型的深度输入卷积层,对检测图像的(i-1)级特征进行升维操作,以得到检测图像的i级升维特征。
其中深度输入卷积层为具有1*1卷积核尺寸以及具有非线性激活函数的标准卷积层,其中深度输入卷积层可设置较大的通道数,如4-6等。这样可在保证检测图像的特征尺寸的情况下,增加输入特征的维度,从而解决检测图像的特征丢失的问题。
深度输入卷积层的通道数用于表示从检测图像的低级特征上进行特征提取的特征提取模式的数量,深度输入卷积层的卷积核尺寸用于调整深度神经网络模型的复杂度。
如输入的检测图像的(i-1)级特征为32*32*3的特征点矩阵,其中3为检测图像的输入通道数,如红色的像素亮度值、蓝色的像素亮度值以及绿色的像素亮度值等;设定深度输入卷积层的卷积核尺寸为1*1,则该深度输入卷积层的输出特征尺寸为32*32,即使用1*1的卷积核依次遍历32*32的特征点矩阵可得到32*32尺寸的特征图,如深度输入卷积层的通道数为6,则得到的深度输入卷积层的输出为32*32*18的i级升维特征。这样在不改变输出特征尺寸的情况下得到了维度更高的检测图像的升维特征。
随后深度输入卷积层会使用非线性激活函数,如线性整流函数(ReLU,RectifiedLinear Unit)等对输出的i级升维特征进行非线性处理,以保证深度输入卷积层的输出是可微的,从而提高后续输出特征的准确性。
深度特征提取模块72的第一深度特征提取单元82使用深度特征提取模型的深度第一非线性转换卷积层,对检测图像的i级升维特征进行第一特征提取操作,以得到检测图像的i级第一卷积特征。
其中第一非线性转换卷积层为具有3*3卷积核尺寸以及具有非线性激活函数的深度可分离卷积层,其中深度可分离卷积层的设置可使得第一非线性转换卷积层的运算量大幅度减少,进而使得深度特征提取模型的大小也大幅度减小。
其中深度可分离卷积层(depthwise separable convolution)可在保持通道分离的前提下,实现空间卷积。如3*3卷积核尺寸的标准卷积层,输入通道数为16,输出通道数为32,则32个3*3大小的卷积核遍历16个通道中的每个数据,需要设置16*32*3*3=4608个参数进行卷积运算。如3*3卷积核尺寸的深度可分离卷积层,用1个3*3尺寸的卷积核遍历16个通道的数据,得到16个特征图谱,然后使用32个1*1尺寸的卷积核遍历这16个特征图谱,这样只需要设置16*3*3+16+32+1+1=656个参数就能完成卷积运算。
深度第一非线性转换卷积层首先对检测图像的i级升维特征进行第一特征提取操作,随后深度第一非线性转换卷积层会使用非线性激活函数,如线性整流函数(ReLU,Rectified Linear Unit)等对输出的i级第一卷积特征进行非线性处理,以保证深度第一非线性转换卷积层的输出是可微的,从而提高后续输出特征的准确性。
深度特征提取模块72的第二深度特征提取单元83使用深度特征提取模型的深度第二非线性转换卷积层,对检测图像的i级第一卷积特征进行第二特征提取操作,以得到检测图像的i级第二卷积特征。
其中深度第二非线性转换卷积层为具有3*3卷积核尺寸以及具有非线性激活函数的深度可分离空洞卷积层(atrous convolutions),其中深度可分离空洞卷积层的设置可使得第二非线性转换卷积层的运算量大幅度减少的同时,还增加检测图像的每个特征基本单元的感受野,从而进一步提高了第二非线性转换卷积层输出的i级第二卷积特征的准确性。
其中空洞卷积可在卷积操作中设置一“扩展率(dilation rate)”的参数,该扩展率定义卷积层处理数据时各个数据之间的间距。如5*5卷积核尺寸的标准卷积层,需要设置25个参数;但是如果设置3*3的卷积核尺寸且扩展率为2的空洞卷积层,仅仅只需要设置9个参数,即在5*5尺寸的卷积核的基础上,每隔一行删除一行数据以及每隔一列删除一列数据。因此在相同的计算条件下,空洞卷积层可在不增加运算量的情况下提供更大的感受野。
这里将空洞卷积层设置在深度第二非线性转换卷积层,可以在深度第一非线性转换卷积层已经进行初步深度特征提取的基础上,使用较少的资源再次进行深度特征提取,可以较好的弥补第一特征提取操作中的感受野较小的问题。
在本步骤中,深度第二非线性转换卷积层首先对检测图像的i级第一卷积特征进行第二特征提取操作,随后深度第二非线性转换卷积层会使用非线性激活函数,如线性整流函数(ReLU,Rectified Linear Unit)等对输出的i级第二卷积特征进行非线性处理,以保证深度第二非线性转换卷积层的输出是可微的,从而提高后续输出特征的准确性。
深度特征提取模块72的深度降维操作单元84使用深度特征提取模型的深度输出卷积层,对检测图像的i级第二卷积特征进行降维操作,以得到检测图像的i级特征。
其中深度输出卷积层为具有1*1卷积核尺寸以及不具有激活函数的标准卷积层。这里深度输出卷积层可将增加的维度恢复至输入到深度输入卷积层的维度;且在深度输出卷积层中没有设置激活函数,以避免激活函数导致的输出特征的丢失。深度输出卷积层输出的检测图像的i级特征应该与i级深度特征图框架符合。
这样即完成了使用i级深度特征图框架对检测图像的(i-1)级特征进行深度特征提取,以获取检测图像的i级特征。重复上述升维操作、第一特征提取操作、第二特征提取操作以及降维操作,可获取检测图像的1级特征至n级特征。
然后非深度特征提取模块73基于预设的非深度特征提取模型,使用j级非深度特征图框架对检测图像的(j-1+n)级特征进行非深度特征提取,以获取检测图像的(j+n)级特征,其中j为小于等于m的正整数。
在本实施例中非深度特征提取模型包括非深度输入卷积层、非深度非线性转换卷积层以及非深度输出卷积层。
具体的非深度特征提取流程包括:
非深度特征提取模块73的非深度升维操作单元91使用非深度特征提取模型的非深度输入卷积层,对检测图像的(j-1+n)级特征进行升维操作,以得到检测图像的(j+n)级升维特征。
其中非深度输入卷积层为具有1*1卷积核尺寸以及具有非线性激活函数的标准卷积层,其中深度输入卷积层可设置较大的通道数,如4-6等。这样可在保证检测图像的特征尺寸的情况下,增加输入特征的维度,从而解决检测图像的特征丢失的问题。
随后非深度输入卷积层会使用非线性激活函数,如线性整流函数(ReLU,Rectified Linear Unit)等对输出的(j+n)级升维特征进行非线性处理,以保证非深度输入卷积层的输出是可微的,从而提高后续输出特征的准确性。
非深度特征提取模块73的非深度特征提取单元92使用非深度特征提取模型的非深度非线性转换卷积层,对检测图像的(j+n)级升维特征进行特征提取操作,以得到检测图像的(j+n)级卷积特征。
其中非深度非线性转换卷积层为具有3*3卷积核尺寸以及具有非线性激活函数的深度可分离卷积层,其中深度可分离卷积层的设置可使得非深度非线性转换卷积层的运算量大幅度减少,进而使得深度特征提取模型的大小也大幅度减小。这里的非深度非线性转换卷积层也可为深度可分离空洞卷积层。
由于非深度非线性转换卷积层直接输入深度非线性转换卷积层输出的特征,因此这里的非深度特征提取模型只需要使用一个非深度非线性转换卷积层进行特征提取即可,而不需要设置多个非线性转换卷积层进行特征提取。
在本步骤中,非深度非线性转换卷积层首先对检测图像的(j+n)级升维特征进行特征提取操作,随后非深度非线性转换卷积层会使用非线性激活函数,如线性整流函数(ReLU,Rectified Linear Unit)等对输出的(j+n)级卷积特征进行非线性处理,以保证非深度非线性转换卷积层的输出是可微的,从而提高后续输出特征的准确性。
非深度特征提取模块71的非深度降维操作单元93使用非深度特征提取模型的非深度输出卷积层,对检测图像的(j+n)级卷积特征进行降维操作,以得到检测图像的(j+n)级特征。
其中非深度输出卷积层为具有1*1卷积核尺寸以及不具有激活函数的标准卷积层。这里非深度输出卷积层可将之前增加的维度恢复至输入到非深度输入卷积层的维度;且在非深度输出卷积层中没有设置激活函数,以避免激活函数导致的输出特征的丢失。非深度输出卷积层输出的检测图像的(j+n)级特征应该与j级非深度特征图框架符合。
这样即完成了使用j级非深度特征图框架对检测图像的(j-1+n)级特征进行非深度特征提取,以获取检测图像的(j+n)级特征。重复上述升维操作、特征提取操作以及降维操作,可获取检测图像的(n+1)级特征至(j+n)级特征。
本实施例基于检测图像的特征提取深度分别采用深度特征提取模型以及非深度特征提取模型,可大大降低特征提取操作的计算量,这里n的设置可根据用户的要求进行设定。如特征提取操作的计算量较大,可适当的降低n的大小,如需要提高特征提取的准确性,可适当的提升n的大小。
最后目标检测模块74基于预设的特征预测模型,对检测图像的a级特征至(m+n)级特征进行信息回归操作,从而获取检测图像的目标类型以及目标位置,其中a为小于n且大于等于2的整数。这里特征预测模型的作用相当于回归器,用于获取检测图像中目标的目标类型以及目标位置,这里的目标类型使用分类概率进行标识,如某个目标80%的概率为一只猫,20%的概率为一只狗等。
在本实施例中特征预测模型包括特征分类卷积层以及特征输出卷积层。
具体的目标检测流程包括:
目标检测模块74的特征分类单元101使用特征预测模型的特征分类卷积层,对检测图像的a级特征至(m+n)级特征进行特征提取操作,以得到检测图像的分类识别特征。
其中特征分类卷积层为具有3*3卷积核尺寸以及不具有激活函数的深度可分离卷积层。由于检测图像的1级特征至(a-1)级特征的特征尺寸较大,一般不会成为检测的图像目标,因此这里将检测图像的a级特征的前级特征全部丢弃。
特征分类单元101使用检测图像的a级特征至(m+n)级特征进行特征提取操作,从而获取检测图像的分类识别特征,以便进行后续的检测图像的目标类型以及目标位置的预测操作。
具体的,这里特征分类单元可根据用户需要选择a级特征至(m+n)级特征中的部分特征进行特征提取操作,从而进一步的减少特征提取操作的计算量。
目标检测模块74的特征输出单元102使用特征预测模型的特征输出卷积层,对检测图像的分类识别特征进行降维操作,以得到检测图像的目标类型以及目标位置。
其中特征输出卷积层为具有1*1卷积核尺寸以及不具有激活函数的标准卷积层。这里特征输出卷积层中没有设置激活函数,以避免激活函数导致的输出特征的丢失。
这里输出的目标类型可为人、车、房子等物品,输出的目标位置可为目标的中心坐标以及目标方框的长宽等参数。
这样即完成了本实施例的图像目标检测装置70的图像目标检测过程。
在第一实施例的基础上,本实施例的图像目标检测装置中深度特征提取模型和非深度特征提取模型采用不同的结构,且深度特征提取模型中的第一非线性转换卷积层和第二非线性转换卷积层也采用不同的结果,这样可以最大化检测图像的目标特征的提取速度,进一步降低配置资源的需求,从而实现目标检测功能在移动终端上的落地。
下面通过一具体实施例说明本发明的图像目标检测方法及图像目标检测装置的工作原理,请参照图11,图11为本发明的图像目标检测方法及图像目标检测装置的具体实施例的使用示意图。
本具体实施例的图像目标检测装置可设置在安装有图像目标识别应用的移动终端中,该移动终端可对图像中的目标特征进行快速提取,且对移动终端自身的配置资源的需求较低。本具体实施例的图像目标检测装置进行图像目标检测的步骤包括:
步骤S1101,获取检测图像、n级深度特征图框架以及m级非深度特征图框架。在本实施例中,深度特征图框架包括128*128*12、64*64*24、32*32*48、16*16*64等特征尺寸以及纬度的不同级别的深度特征图框架。这里128*128是指特征图框架的特征尺寸,12是指特征图框架的维度。当然这里还可包括更多的深度特征图框架,如可在64*64*24以及32*32*48之间增加64*64*32以及64*64*40等深度特征图框架。在本实施例中,获取了4级深度特征图框架以及4级非深度特征图框架。
步骤S1102,基于深度特征提取模型,使用i级的深度特征图框架对检测图像的(i-1)级特征进行深度特征提取,以获取检测图像的i级特征。如在本实施例中检测图像设置了4级深度特征,在实际使用中,检测图像的深度特征级数应大于4。
图像目标检测装置基于深度特征提取模型,对检测图像的像素(该像素尺寸以及维度为256*256*3)进行深度特征提取,以获取1级深度特征图框架对应的检测图像的1级特征(该特征尺寸以及维度为128*128*12);随后图像目标检测装置对检测图像的1级特征进行深度特征提取,以获取2级深度特征图框架对应的检测图像的2级特征(该特征尺寸以及维度为64*64*24);然后图像目标检测装置对检测图像的2级特征进行深度特征提取,以获取3级深度特征图框架对应的检测图像的3级特征(该特征尺寸以及维度为32*32*48),最后图像目标检测装置对检测图像的3级特征进行深度特征提取,以获取4级深度特征图框架对应的检测图像的4级特征(该特征尺寸以及维度为16*16*64)。
这里以获取检测图像的3级特征为例,说明如何对检测图像进行深度特征提取。该深度特征提取的流程包括:
图像目标检测装置使用深度输入卷积层,对检测图像的2级特征(该特征尺寸以及维度为64*64*24)进行升维操作,以得到检测图像的3级升维特征(该特征尺寸以及维度为64*64*144)。这里深度输入卷积层为具有1*1卷积核尺寸以及具有非线性激活函数Relu的标准卷积层Conv1。
图像目标检测装置使用第一非线性转换卷积层,对检测图像的3级升维特征进行第一特征提取操作,以得到检测图像的3级第一卷积特征(该特征尺寸以及维度为32*32*144)。这里的第一非线性转换卷积层为具有3*3卷积核尺寸以及具有非线性激活函数Relu的深度可分离标准卷积层Dwise2,由于3级第一卷积特征的尺寸减少了,因此这里的深度可分离标准卷积层Dwise2的卷积步长stride为2。
图像目标检测装置使用第二非线性转换卷积层,对检测图像的3级第一卷积特征进行第二特征提取操作,以得到检测图像的3级第二卷积特征(该特征尺寸以及维度为32*32*144)。这里的第二非线性转换卷积层为具有3*3卷积核尺寸以及具有非线性激活函数Relu的深度可分离空洞卷积层Dwise3,其中深度可分离空洞卷积层Dwise3的扩展率为2。
图像目标检测装置使用深度输出卷积层,对检测图像的3级第二卷积特征进行降维操作,以得到检测图像的3级特征(该特征尺寸以及维度为32*32*48)。这里的深度输出卷积层为具有1*1卷积核尺寸以及不具有激活函数的标准卷积层Conv4。
步骤S1103,基于非深度特征提取模型,使用j级的非深度特征图框架对检测图像的(j-1+n)级特征进非深度特征提取,以获取检测图像的(j+n)级特征。如在本实施例中检测图像设置4级非深度特征,即该检测图像一共设置了8级特征,在实际使用中,检测图像的非深度特征级数应大于4。
图像目标检测装置基于非深度特征提取模型,对检测图像的4级特征进行非深度特征提取,以获取1级非深度特征图框架对应的检测图像的5级特征(该特征尺寸以及维度为8*8*144);随后图像目标检测装置对检测图像的5级特征进行非深度特征提取,以获取2级非深度特征图框架对应的检测图像的6级特征(该特征尺寸以及维度为4*4*256);然后图像目标检测装置对检测图像的6级特征进行非深度特征提取,以获取3级非深度特征图框架对应的检测图像的7级特征(该特征尺寸以及维度为2*2*256);最后图像目标检测装置对检测图像的7级特征进行非深度特征提取,以获取4级非深度特征图框架对应的检测图像的8级特征(该特征尺寸以及维度为1*1*256)。
这里以获取检测图像的7级特征为例,说明如何对检测图像进行非深度特征提取。该非深度特征提取的流程包括:
图像目标检测装置使用非深度输入卷积层,对检测图像的6级特征(该特征尺寸以及维度为4*4*256)进行升维操作,以得到检测图像的7级升维特征(该特征尺寸以及维度为4*4*1536)。这里的非深度输入卷积层为具有1*1卷积核尺寸以及具有非线性激活函数Relu的标准卷积层Conv5。
图像目标检测装置使用非深度非线性转换卷积层,对检测图像的7级升维特征进行特征提取操作,以得到检测图像的7级卷积特征(该特征尺寸以及维度为2*2*1536)。这里的非深度非线性转换卷积层为具有3*3卷积核尺寸以及具有非线性激活函数Relu的深度可分离空洞卷积层Dwise6,由于7级卷积特征的尺寸减少了,因此这里的深度可分离卷积层Dwise6的卷积步长stride为2,其中深度可分离空洞卷积层Dwise6的扩展率为2。
图像目标检测装置使用非深度输出卷积层,对检测图像的7级卷积特征进行降维操作,以得到检测图像的7级特征(该特征尺寸以及维度为2*2*256)。这里的非深度输出卷积层为具有1*1卷积核尺寸以及不具有激活函数的标准卷积层Conv7。
步骤S1104,基于特征预测模型,对检测图像的3级特征至8级特征进行信息回归操作,从而获取检测图像的目标类型以及目标位置。获取检测图像的目标类型以及目标位置的流程包括:
图像目标检测装置使用特征分类卷积层,对检测图像的3级特征至8级特征进行信息回归操作,以得到检测图像的分类识别特征。其中特征分类卷积层为具有3*3卷积核尺寸以及不具有激活函数的深度可分离卷积层。
图像目标检测装置使用特征输出卷积层,对检测图像的分类识别特征进行降维操作,以得到检测图像的目标类型以及目标位置。其中特征输出卷积层为具有1*1卷积核尺寸以及不具有激活函数的标准卷积层。
这样即完成了图像中目标类型以及目标位置的输出操作,如图11中的1101所示。
本具体实施例的图像目标检测方法及图像目标检测装置的目标检测过程同时对深度特征提取模型、非深度特征提取模型以及特征预测模型三个部分进行优化,使原来的特征提取模型从100Mb缩小到小于1Mb,并且运行速度也得到了大于10倍的提升。
本发明的图像目标检测方法、装置及存储介质基于深度特征提取模型以及非深度特征提取模型对同一检测图像的多个不同尺寸的特征进行提取以及特征识别,由于检测图像的小尺寸特征可直接在检测图像的大尺寸特征的基础上进行提取,因此整体特征提取速度较快,且对配置资源的需求较低;有效的解决了现有的图像目标检测方法及装置的运行速度较慢且无法在资源配置较小的移动终端上实施的技术问题。
如本申请所使用的术语“组件”、“模块”、“系统”、“接口”、“进程”等等一般地旨在指计算机相关实体:硬件、硬件和软件的组合、软件或执行中的软件。例如,组件可以是但不限于是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序和/或计算机。通过图示,运行在控制器上的应用和该控制器二者都可以是组件。一个或多个组件可以有在于执行的进程和/或线程内,并且组件可以位于一个计算机上和/或分布在两个或更多计算机之间。
图12和随后的讨论提供了对实现本发明所述的图像目标检测装置所在的电子设备的工作环境的简短、概括的描述。图8的工作环境仅仅是适当的工作环境的一个实例并且不旨在建议关于工作环境的用途或功能的范围的任何限制。实例电子设备1212包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境,等等。
尽管没有要求,但是在“计算机可读指令”被一个或多个电子设备执行的通用背景下描述实施例。计算机可读指令可以经由计算机可读介质来分布(下文讨论)。计算机可读指令可以实现为程序模块,比如执行特定任务或实现特定抽象数据类型的功能、对象、应用编程接口(API)、数据结构等等。典型地,该计算机可读指令的功能可以在各种环境中随意组合或分布。
图12图示了包括本发明的图像目标检测装置中的一个或多个实施例的电子设备1212的实例。在一种配置中,电子设备1212包括至少一个处理单元1216和存储器1218。根据电子设备的确切配置和类型,存储器1218可以是易失性的(比如RAM)、非易失性的(比如ROM、闪存等)或二者的某种组合。该配置在图12中由虚线1214图示。
在其他实施例中,电子设备1212可以包括附加特征和/或功能。例如,设备1212还可以包括附加的存储装置(例如可移除和/或不可移除的),其包括但不限于磁存储装置、光存储装置等等。这种附加存储装置在图12中由存储装置1220图示。在一个实施例中,用于实现本文所提供的一个或多个实施例的计算机可读指令可以在存储装置1220中。存储装置1220还可以存储用于实现操作系统、应用程序等的其他计算机可读指令。计算机可读指令可以载入存储器1218中由例如处理单元1216执行。
本文所使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。存储器1218和存储装置1220是计算机存储介质的实例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储期望信息并可以被电子设备1212访问的任何其他介质。任意这样的计算机存储介质可以是电子设备1212的一部分。
电子设备1212还可以包括允许电子设备1212与其他设备通信的通信连接1226。通信连接1226可以包括但不限于调制解调器、网络接口卡(NIC)、集成网络接口、射频发射器/接收器、红外端口、USB连接或用于将电子设备1212连接到其他电子设备的其他接口。通信连接1226可以包括有线连接或无线连接。通信连接1226可以发射和/或接收通信媒体。
术语“计算机可读介质”可以包括通信介质。通信介质典型地包含计算机可读指令或诸如载波或其他传输机构之类的“己调制数据信号”中的其他数据,并且包括任何信息递送介质。术语“己调制数据信号”可以包括这样的信号:该信号特性中的一个或多个按照将信息编码到信号中的方式来设置或改变。
电子设备1212可以包括输入设备1224,比如键盘、鼠标、笔、语音输入设备、触摸输入设备、红外相机、视频输入设备和/或任何其他输入设备。设备1212中也可以包括输出设备1222,比如一个或多个显示器、扬声器、打印机和/或任意其他输出设备。输入设备1224和输出设备1222可以经由有线连接、无线连接或其任意组合连接到电子设备1212。在一个实施例中,来自另一个电子设备的输入设备或输出设备可以被用作电子设备1212的输入设备1224或输出设备1222。
电子设备1212的组件可以通过各种互连(比如总线)连接。这样的互连可以包括外围组件互连(PCI)(比如快速PCI)、通用串行总线(USB)、火线(IEEE1394)、光学总线结构等等。在另一个实施例中,电子设备1212的组件可以通过网络互连。例如,存储器1218可以由位于不同物理位置中的、通过网络互连的多个物理存储器单元构成。
本领域技术人员将认识到,用于存储计算机可读指令的存储设备可以跨越网络分布。例如,可经由网络1228访问的电子设备1230可以存储用于实现本发明所提供的一个或多个实施例的计算机可读指令。电子设备1212可以访问电子设备1230并且下载计算机可读指令的一部分或所有以供执行。可替代地,电子设备1212可以按需要下载多条计算机可读指令,或者一些指令可以在电子设备1212处执行并且一些指令可以在电子设备1230处执行。
本文提供了实施例的各种操作。在一个实施例中,所述的一个或多个操作可以构成一个或多个计算机可读介质上存储的计算机可读指令,其在被电子设备执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且,应当理解,不是所有操作必需在本文所提供的每个实施例中存在。
而且,尽管已经相对于一个或多个实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的方法。
综上所述,虽然本发明已以实施例揭露如上,实施例前的序号仅为描述方便而使用,对本发明各实施例的顺序不造成限制。并且,上述实施例并非用以限制本发明,本领域的普通技术人员,在不脱离本发明的精神和范围内,均可作各种更动与润饰,因此本发明的保护范围以权利要求界定的范围为准。
Claims (15)
1.一种图像目标检测方法,其特征在于,包括:
获取检测图像、n级深度特征图框架以及m级非深度特征图框架,n为大于等于2的整数,m为大于等于1的整数;其中特征图框架包括输出的特征尺寸以及维度;
基于深度特征提取模型,使用i级深度特征图框架对所述检测图像的(i-1)级特征进行深度特征提取,以获取所述检测图像的i级特征,其中i为小于等于n的正整数;
基于非深度特征提取模型,使用j级非深度特征图框架对所述检测图像的(j-1+n)级特征进非深度特征提取,以获取所述检测图像的(j+n)级特征,其中j为小于等于m的正整数;以及
基于特征预测模型,对所述检测图像的a级特征至(m+n)级特征进行信息回归操作,从而获取所述检测图像的目标类型以及目标位置,其中a为小于n且大于等于2的整数。
2.根据权利要求1所述的图像目标检测方法,其特征在于,所述深度特征提取模型包括深度输入卷积层、深度第一非线性转换卷积层、深度第二非线性转换卷积层以及深度输出卷积层;
所述基于深度特征提取模型,使用i级深度特征图框架对所述检测图像的(i-1)级特征进行深度特征提取,以获取所述检测图像的i级特征的步骤包括:
使用所述深度输入卷积层,对所述检测图像的(i-1)级特征进行升维操作,以得到所述检测图像的i级升维特征;
使用所述深度第一非线性转换卷积层,对所述检测图像的i级升维特征进行第一特征提取操作,以得到所述检测图像的i级第一卷积特征;
使用所述深度第二非线性转换卷积层,对所述检测图像的i级第一卷积特征进行第二特征提取操作,以得到所述检测图像的i级第二卷积特征;以及
使用所述深度输出卷积层,对所述检测图像的i级第二卷积特征进行降维操作,以得到所述检测图像的i级特征。
3.根据权利要求2所述的图像目标检测方法,其特征在于,所述深度输入卷积层的卷积核尺寸为1*1,所述深度第一非线性转换卷积层的卷积核尺寸为3*3,所述深度第二非线性转换卷积层的卷积核尺寸为3*3,所述深度输出卷积层的卷积核尺寸为1*1;
所述深度输入卷积层为具有非线性激活函数的标准卷积层,所述深度第一非线性转换卷积层为具有非线性激活函数的深度可分离卷积层,所述深度第二非线性转换卷积层为具有非线性激活函数的深度可分离卷积层,所述深度输出卷积层为不具有激活函数的标准卷积层。
4.根据权利要求3所述的图像目标检测方法,其特征在于,所述深度第二非线性转换卷积层为具有非线性激活函数的深度可分离空洞卷积层。
5.根据权利要求1所述的图像目标检测方法,其特征在于,所述非深度特征提取模型包括非深度输入卷积层、非深度非线性转换卷积层以及非深度输出卷积层;
所述基于非深度特征提取模型,使用j级非深度特征图框架对所述检测图像的(j-1+n)级特征进非深度特征提取,以获取所述检测图像的(j+n)级特征的步骤包括:
使用所述非深度输入卷积层,对所述检测图像的(j-1+n)级特征进行升维操作,以得到所述检测图像的(j+n)级升维特征;
使用所述非深度非线性转换卷积层,对所述检测图像的(j+n)级升维特征进行特征提取操作,以得到所述检测图像的(j+n)级卷积特征;以及
使用所述非深度输出卷积层,对所述检测图像的(j+n)级卷积特征进行降维操作,以得到所述检测图像的(j+n)级特征。
6.根据权利要求5所述的图像目标检测方法,其特征在于,所述非深度输入卷积层的卷积核尺寸为1*1,所述非深度非线性转换卷积层的卷积核尺寸为3*3,所述非深度输出卷积层的卷积核尺寸为1*1;
所述非深度输入卷积层为具有非线性激活函数的标准卷积层,所述非深度非线性转换卷积层为具有非线性激活函数的深度可分离卷积层,所述非深度输出卷积层为不具有激活函数的标准卷积层。
7.根据权利要求6所述的图像目标检测方法,其特征在于,所述非深度非线性转换卷积层为具有非线性激活函数的深度可分离空洞卷积层。
8.根据权利要求1所述的图像目标检测方法,其特征在于,所述特征预测模型包括特征分类卷积层以及特征输出卷积层;
所述基于特征预测模型,对所述检测图像的a级特征至(m+n)级特征进行信息回归操作,从而获取所述检测图像的目标类型以及位置的步骤包括:
使用所述特征分类卷积层,对所述检测图像的a级特征至(m+n)级特征进行特征提取操作,以得到所述检测图像的分类识别特征;以及
使用所述特征输出卷积层,对所述检测图像的分类识别特征进行降维操作,以得到所述检测图像的目标类型以及位置。
9.根据权利要求8所述的图像目标检测方法,其特征在于,所述特征分类卷积层的卷积核尺寸为3*3,所述特征输出卷积层的卷积核尺寸为1*1;
所述特征分类卷积层为不具有激活函数的深度可分离卷积层,所述特征输出卷积层为不具有激活函数的标准卷积层。
10.一种图像目标检测装置,其特征在于,包括:
图像以及框架获取模块,用于获取检测图像、n级深度特征图框架以及m级非深度特征图框架,n为大于等于2的整数,m为大于等于1的整数;其中特征图框架包括输出的特征尺寸以及维度;
深度特征提取模块,用于基于深度特征提取模型,使用i级深度特征图框架对所述检测图像的(i-1)级特征进行深度特征提取,以获取所述检测图像的i级特征,其中i为小于等于n的正整数;
非深度特征提取模块,用于基于非深度特征提取模型,使用j级非深度特征图框架对所述检测图像的(j-1+n)级特征进非深度特征提取,以获取所述检测图像的(j+n)级特征,其中j为小于等于m的正整数;以及
目标检测模块,用于基于特征预测模型,对所述检测图像的a级特征至(m+n)级特征进行信息回归操作,从而获取所述检测图像的目标类型以及目标位置,其中a为小于n且大于等于2的整数。
11.根据权利要求10所述的图像目标检测装置,其特征在于,所述深度特征提取模型包括深度输入卷积层、深度第一非线性转换卷积层、深度第二非线性转换卷积层以及深度输出卷积层;
所述深度特征提取模块包括:
深度升维操作单元,用于使用所述深度输入卷积层,对所述检测图像的i级特征进行升维操作,以得到所述检测图像的i级升维特征;
第一深度特征提取单元,用于使用所述深度第一非线性转换卷积层,对所述检测图像的(i-1)级升维特征进行第一特征提取操作,以得到所述检测图像的i级第一卷积特征;
第二深度特征提取单元,使用所述深度第二非线性转换卷积层,对所述检测图像的i级第一卷积特征进行第二特征提取操作,以得到所述检测图像的i级第二卷积特征;以及
深度降维操作单元,用于使用所述深度输出卷积层,对所述检测图像的i级第二卷积特征进行降维操作,以得到所述检测图像的i级特征。
12.根据权利要求10所述的图像目标检测装置,其特征在于,所述非深度特征提取模型包括非深度输入卷积层、非深度非线性转换卷积层以及非深度输出卷积层;
所述非深度特征提取模块包括:
非深度升维操作单元,用于使用所述非深度输入卷积层,对所述检测图像的(j-1+n)级特征进行升维操作,以得到所述检测图像的(j+n)级升维特征;
非深度特征提取单元,用于使用所述非深度非线性转换卷积层,对所述检测图像的(j+n)级升维特征进行特征提取操作,以得到所述检测图像的(j+n)级卷积特征;以及
非深度降维操作单元,用于使用所述非深度输出卷积层,对所述检测图像的(j+n)级卷积特征进行降维操作,以得到所述检测图像的(j+n)级特征。
13.根据权利要求10所述的图像目标检测装置,其特征在于,所述特征预测模型包括特征分类卷积层以及特征输出卷积层;
所述目标检测模块包括:
特征分类单元,用于使用所述特征分类卷积层,对所述检测图像的a级特征至(m+n)级特征进行特征提取操作,以得到所述检测图像的分类识别特征;以及
特征输出单元,用于使用所述特征输出卷积层,对所述检测图像的分类识别特征进行降维操作,以得到所述检测图像的目标类型以及位置。
14.根据权利要求13所述的图像目标检测装置,其特征在于,所述特征分类卷积层的卷积核尺寸为3*3,所述特征输出卷积层的卷积核尺寸为1*1;
所述特征分类卷积层为不具有激活函数的深度可分离卷积层,所述特征输出卷积层为不具有激活函数的标准卷积层。
15.一种存储介质,其内存储有处理器可执行指令,所述指令由一个或一个以上处理器加载,以执行如权利要求1-9中任一的图像目标检测方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810754633.XA CN110717929A (zh) | 2018-07-11 | 2018-07-11 | 图像目标检测方法、装置及存储介质 |
EP19833842.8A EP3742394A4 (en) | 2018-07-11 | 2019-06-06 | IMAGE TARGET DETECTION METHOD AND DEVICE, STORAGE MEDIUM AND ELECTRONIC DEVICE |
PCT/CN2019/090406 WO2020010975A1 (zh) | 2018-07-11 | 2019-06-06 | 图像目标检测方法、装置、存储介质及电子设备 |
US17/008,189 US11176404B2 (en) | 2018-07-11 | 2020-08-31 | Method and apparatus for detecting object in image, and storage medium thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810754633.XA CN110717929A (zh) | 2018-07-11 | 2018-07-11 | 图像目标检测方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110717929A true CN110717929A (zh) | 2020-01-21 |
Family
ID=69143168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810754633.XA Pending CN110717929A (zh) | 2018-07-11 | 2018-07-11 | 图像目标检测方法、装置及存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11176404B2 (zh) |
EP (1) | EP3742394A4 (zh) |
CN (1) | CN110717929A (zh) |
WO (1) | WO2020010975A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507271A (zh) * | 2020-04-20 | 2020-08-07 | 北京理工大学 | 一种机载光电视频目标智能化检测与识别方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11429824B2 (en) * | 2018-09-11 | 2022-08-30 | Intel Corporation | Method and system of deep supervision object detection for reducing resource usage |
US11410315B2 (en) * | 2019-11-16 | 2022-08-09 | Uatc, Llc | High quality instance segmentation |
CN113392857B (zh) * | 2021-08-17 | 2022-03-11 | 深圳市爱深盈通信息技术有限公司 | 基于yolo网络的目标检测方法、装置和设备终端 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9668699B2 (en) * | 2013-10-17 | 2017-06-06 | Siemens Healthcare Gmbh | Method and system for anatomical object detection using marginal space deep neural networks |
WO2015078018A1 (en) * | 2013-11-30 | 2015-06-04 | Xiaoou Tang | Method and system for face image recognition |
EP3149611A4 (en) * | 2014-05-27 | 2017-08-09 | Beijing Kuangshi Technology Co., Ltd. | Learning deep face representation |
US10387773B2 (en) * | 2014-10-27 | 2019-08-20 | Ebay Inc. | Hierarchical deep convolutional neural network for image classification |
US10346726B2 (en) * | 2014-12-15 | 2019-07-09 | Samsung Electronics Co., Ltd. | Image recognition method and apparatus, image verification method and apparatus, learning method and apparatus to recognize image, and learning method and apparatus to verify image |
JP2016146174A (ja) * | 2015-02-06 | 2016-08-12 | パナソニックIpマネジメント株式会社 | 決定方法およびプログラム |
US10192288B2 (en) * | 2016-12-23 | 2019-01-29 | Signal Processing, Inc. | Method and system for generating high resolution worldview-3 images |
EP3545466A4 (en) * | 2016-12-29 | 2019-11-27 | Zhejiang Dahua Technology Co., Ltd. | SYSTEMS AND METHODS FOR DETECTING OBJECTS IN IMAGES |
CN106845499A (zh) * | 2017-01-19 | 2017-06-13 | 清华大学 | 一种基于自然语言语义的图像目标检测方法 |
EP3616118A1 (en) * | 2017-04-26 | 2020-03-04 | Skansense S.L.U. | Identifying targets within images |
CN108198192A (zh) * | 2018-01-15 | 2018-06-22 | 任俊芬 | 一种基于深度学习的高精度快速人体分割方法 |
US20190318806A1 (en) * | 2018-04-12 | 2019-10-17 | Illumina, Inc. | Variant Classifier Based on Deep Neural Networks |
-
2018
- 2018-07-11 CN CN201810754633.XA patent/CN110717929A/zh active Pending
-
2019
- 2019-06-06 EP EP19833842.8A patent/EP3742394A4/en active Pending
- 2019-06-06 WO PCT/CN2019/090406 patent/WO2020010975A1/zh unknown
-
2020
- 2020-08-31 US US17/008,189 patent/US11176404B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507271A (zh) * | 2020-04-20 | 2020-08-07 | 北京理工大学 | 一种机载光电视频目标智能化检测与识别方法 |
CN111507271B (zh) * | 2020-04-20 | 2021-01-12 | 北京理工大学 | 一种机载光电视频目标智能化检测与识别方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3742394A4 (en) | 2021-07-28 |
US20200394433A1 (en) | 2020-12-17 |
US11176404B2 (en) | 2021-11-16 |
EP3742394A1 (en) | 2020-11-25 |
WO2020010975A1 (zh) | 2020-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9916531B1 (en) | Accumulator constrained quantization of convolutional neural networks | |
WO2021098362A1 (zh) | 视频分类模型构建、视频分类的方法、装置、设备及介质 | |
WO2020228522A1 (zh) | 目标跟踪方法、装置、存储介质及电子设备 | |
CN110717929A (zh) | 图像目标检测方法、装置及存储介质 | |
CN110189246B (zh) | 图像风格化生成方法、装置及电子设备 | |
CN111476309A (zh) | 图像处理方法、模型训练方法、装置、设备及可读介质 | |
CN108230346B (zh) | 用于分割图像语义特征的方法和装置、电子设备 | |
US20230062238A1 (en) | Pooling Processing Method and System Applied to Convolutional Neural Network | |
CN111860398B (zh) | 遥感图像目标检测方法、系统及终端设备 | |
CN112668588B (zh) | 车位信息生成方法、装置、设备和计算机可读介质 | |
CN110826567B (zh) | 光学字符识别方法、装置、设备及存储介质 | |
US10133955B2 (en) | Systems and methods for object recognition based on human visual pathway | |
CN110399847B (zh) | 关键帧提取方法、装置及电子设备 | |
CN110738235A (zh) | 肺结核判定方法、装置、计算机设备及存储介质 | |
CN113379627A (zh) | 图像增强模型的训练方法和对图像进行增强的方法 | |
EP4343616A1 (en) | Image classification method, model training method, device, storage medium, and computer program | |
WO2017112087A1 (en) | Reconstruction of signals using a gramian matrix | |
CN109615620B (zh) | 图像压缩度识别方法、装置、设备及计算机可读存储介质 | |
US9311523B1 (en) | Method and apparatus for supporting object recognition | |
CN110674813B (zh) | 汉字识别方法、装置、计算机可读介质及电子设备 | |
CN110197459B (zh) | 图像风格化生成方法、装置及电子设备 | |
CN108764206B (zh) | 目标图像识别方法和系统、计算机设备 | |
CN115100536B (zh) | 建筑物识别方法、装置、电子设备和计算机可读介质 | |
CN113727050B (zh) | 面向移动设备的视频超分辨率处理方法、装置、存储介质 | |
CN112487943B (zh) | 关键帧去重的方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40019610 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |