CN110503088A - 基于深度学习的目标检测方法及电子装置 - Google Patents

基于深度学习的目标检测方法及电子装置 Download PDF

Info

Publication number
CN110503088A
CN110503088A CN201910593114.4A CN201910593114A CN110503088A CN 110503088 A CN110503088 A CN 110503088A CN 201910593114 A CN201910593114 A CN 201910593114A CN 110503088 A CN110503088 A CN 110503088A
Authority
CN
China
Prior art keywords
image
layer
pond
network
normalizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910593114.4A
Other languages
English (en)
Other versions
CN110503088B (zh
Inventor
王健宗
贾雪丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910593114.4A priority Critical patent/CN110503088B/zh
Priority to PCT/CN2019/102842 priority patent/WO2021000404A1/zh
Publication of CN110503088A publication Critical patent/CN110503088A/zh
Application granted granted Critical
Publication of CN110503088B publication Critical patent/CN110503088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种基于深度学习的目标检测方法,包括:获取待检测的图片;将所述图片输入至改进型VGG16网络中进行图像特征提取;将所述图像特征输入至ROI Pooling网络中进行池化;将池化结果输入至3*3*4的卷积核中以对所述池化结果进行微调整;及将微调整结果输入至RPN网络,后经过全连接层网络,以对目标及背景进行分类,以获取所述目标的类别信息及位置信息。通过本发明实施例,增加了系统的鲁棒性,有效的降低了维度的操作,大大减少了参数量,进而降低了算法空间复杂度及时间复杂度,极大的提高了检测准确度。

Description

基于深度学习的目标检测方法及电子装置
技术领域
本发明实施例涉及神经网络技术领域,尤其涉及一种基于深度学习的目标检测方法、电子装置、计算机设备及可读存储介质。
背景技术
脑胶质瘤细胞是一种恶性肿瘤细胞,也是脑部最为常见的一种恶性肿瘤细胞,它的发病率高于其他脑部肿瘤,并且易复发。故,通过目标检测的方法提前发现脑胶质瘤细胞对于患者的生命健康具有十分重要的意义。
目标检测是检测图片中是否存在待检测的目标,并在存在目标时,确定该目标的位置,相关技术中有区域生成卷积神经网络(Region Proposal Convolutional NeuralNetworks,RCNN)、Fast RCNN及Faster RCNN网络。其中,RCNN、Fast RCNN网络使用SelectSearch算法作为目标检测框的生成模式,该算法通过随机生成大量的目标检测框,随机检测目标特征,属于密集检测的方式。Select Search算法对于重叠物体的目标框检测不够精确,时间消耗较大。相比而言,Faster RCNN所采用的目标框生成模式(auchor方式)性能优越。Anchor方式通过对特征图上的每一个点生成目标检测框,对每一个点采用统一的方式生成结果。对比Select Search算法而言,anchor方式生成的目标检测框更少,识别物体的结果更加准确。所以,Faster RCNN网络对目标检测任务提供了强有力的支持。
然,由于Faster RCNN中使用到的视觉几何群(Visual Geometry Group,VGG16)网络是一种标准的全卷积神经网络模型,具有显著的图像不变性,即图像的语义表达不随位置的变动而发生改变,这在分类任务中表现出了优良的性能,但对于分割任务与目标检测任务,图像的不变性使得图像特征只能获取到图像的抽象语义表达的大致位置,而细节特征被忽略,以此造成了细节特征的缺失。由于卷积神经网络中使用大量的池化操作与转移卷积(反卷积)操作都会丢失图像的细节特征,所以通过VGG16卷积网络获得的特征图不够精确。
故,本发明旨在解决通过VGG16卷积网络获得的特征图不够精确的问题。
发明内容
有鉴于此,有必要提供一种基于深度学习的目标检测方法、电子装置、计算机设备及计算机可读存储介质,能够增加系统的鲁棒性,有效的降低维度的操作,减少参数量,进而降低算法空间复杂度及时间复杂度,极大的提高检测准确度。
为实现上述目的,本发明实施例提供了一种基于深度学习的目标检测方法,所述方法包括:
获取待检测的图片;
将所述图片输入至改进型VGG16网络中进行图像特征提取;
将所述图像特征输入至兴趣区域池化层(Region of Interest Pooling,ROIPooling)网络中进行池化;
将池化结果输入至3*3*4的卷积核中以对所述池化结果进行微调整;及
将微调整结果输入至区域生成网络(Region Proposal Network,RPN)网络,后经过全连接层(Fully Connected,FC)网络,以对目标及背景进行分类,以获取所述目标的类别信息及位置信息。
优选地,所述将所述图片输入至改进型VGG16网络中进行图像特征提取的步骤之前,还包括步骤:
建立所述改进型VGG16网络;
其中,所述改进型VGG16网络包括5个卷积层、6个池化层及1个转换卷积层,其中,所述5个卷积层之间均设置有1个池化层,第1个卷积层后面设置2个池化层,第5个卷积层后面设置所述转换卷积层,所述池化层为最大池化层,在每个卷积层之后还设置有非线性激活函数。
优选地,所述将所述图片输入至改进型VGG16网络中进行图像特征提取的步骤,还包括步骤:
将所述图片经过5个卷积层以及4个池化层,以分别获取各层卷积图像特征;
将所述各层卷积图像特征存储于数据库中。
优选地,所述将所述各层卷积图像特征存储于数据库中的步骤之后,还包括步骤:
将第一层卷积图像特征进行最大池化处理以获取第一图像特征;
将第三层卷积图像特征设定为第二图像特征,其中,所述第二图像特征为标准图像特征;
将第五层卷积图像特征进行转换卷积处理以获取第三图像特征,其中,所述第三图像特征的大小与所述第一图像特征及所述第二图像特征的大小一致,所述大小包括宽及高。
优选地,所述将第五层卷积图像特征进行转换卷积处理以获取第三图像特征的步骤之后,还包括步骤:
将所述第一图像特征、所述标准图像特征及所述第二图像特征分别进行归一化处理,以分别获得第一归一图像、第二归一图像及第三归一图像,以使所述第一归一图像、所述第二归一图像及所述第三归一图像符合标准正态分布。
优选地,所述将所述第一图像特征、所述标准图像特征及所述第二图像特征分别进行归一化处理的步骤之后,还包括步骤:
将所述第一归一图像、所述第二归一图像及所述第三归一图像分别通过1*1*42的卷积核以调整通道数。
优选地,所述将所述第一归一图像、所述第二归一图像及所述第三归一图像分别通过1*1*42的卷积核的步骤之后,还包括步骤:
将调整结果进行通道数堆叠操作。
为实现上述目的,本发明实施例还提供了一种电子装置,包括:
获取模块,用于获取待检测的图片;
提取模块,用于将所述图片输入至改进型VGG16网络中进行图像特征提取;
池化模块,用于将所述图像特征输入至ROI Pooling网络中进行池化;
调整模块,用于将池化结果输入至3*3*4的卷积核中以对所述池化结果进行微调整;及
分类模块,用于将微调整结果输入至RPN网络,后经过全连接层网络,以对目标及背景进行分类,以获取所述目标的类别信息及位置信息。
优选地,所述电子装置还包括建立模块,用于建立所述改进型VGG16网络;
其中,所述改进型VGG16网络包括5个卷积层、6个池化层及1个转换卷积层,其中,所述5个卷积层之间均设置有1个池化层,第1个卷积层后面设置2个池化层,第5个卷积层后面设置所述转换卷积层,所述池化层为最大池化层,在每个卷积层之后还设置有非线性激活函数。
优选地,所述提取模块,还用于将所述图片经过5个卷积层以及4个池化层,以分别获取各层卷积图像特征;将所述各层卷积图像特征存储于数据库中。
优选地,所述提取模块,还用于将第一层卷积图像特征进行最大池化处理以获取第一图像特征;将第三层卷积图像特征设定为第二图像特征,其中,所述第二图像特征为标准图像特征;将第五层卷积图像特征进行转换卷积处理以获取第三图像特征,其中,所述第三图像特征的大小与所述第一图像特征及所述第二图像特征的大小一致,所述大小包括宽及高。
优选地,所述提取模块,还用于将所述第一图像特征、所述标准图像特征及所述第二图像特征分别进行归一化处理,以分别获得第一归一图像、第二归一图像及第三归一图像,以使所述第一归一图像、所述第二归一图像及所述第三归一图像符合标准正态分布。
优选地,所述提取模块,还用于将所述第一归一图像、所述第二归一图像及所述第三归一图像分别通过1*1*42的卷积核以调整通道数。
优选地,所述提取模块,还用于将调整结果进行通道数堆叠操作。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上所述的基于深度学习的目标检测方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的基于深度学习的目标检测方法的步骤。
本发明实施例提供的基于深度学习的目标检测方法、电子装置、计算机设备及计算机可读存储介质,通过将第一层卷积图像特征作最大池化处理以获取第一图像特征,第三层卷积图像特征设定为第二图像特征,第五层卷积图像特征作转换卷积处理以获取第三图像特征,将第一图像特征、第二图像特征与第三图像特征进行归一化处理,将归一化获取的第一归一图像、第二归一图像及第三归一图像分别通过1*1*42的卷积核以调整通道数,并将调整结果进行通道数堆叠操作,然后将获取的图像特征输入至ROI Pooling网络中,然后接3*3卷积核做微小调整,最后再接一个RPN网络以及全连接层进行分类。通过本发明实施例,增加了系统的鲁棒性,有效的降低了维度的操作,大大减少了参数量,进而降低了算法空间复杂度及时间复杂度,极大的提高了检测准确度。
附图说明
图1为本发明实施例之改进型VGG16网络的示意图。
图2为本发明实施例一之目标检测方法的步骤流程图。
图3为本发明实施例二之电子装置的硬件架构示意图。
图4为本发明实施例三之目标检测系统的程序模块示意图。
附图标记:
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
实施例一
参阅图2,示出了本发明实施例一之目标检测方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。需要说明是,本实施例以电子装置2为执行主体进行示例性描述。具体如下:
步骤S100,获取待检测的图片。
具体实施例中,通过CT、核磁共振等方式获取具有脑胶质瘤的成像图片,并将该成像图片输入至电子装置2中,电子装置2获取该成像图片,例如:该成像图片大小为800*600。
步骤S102,将所述图片输入至改进型VGG16网络中进行图像特征提取。
在一较佳实施例中,在将所述图片输入至改进型VGG16网络中进行图像特征提取之前,所述电子装置2需建立所述改进型VGG16网络。请参阅图1,示出了本发明实施例之改进型VGG16网络的示意图。所述改进型VGG16网络包括5个卷积层、6个池化层及1个转换卷积层,其中,所述5个卷积层之间均设置有1个池化层,第1个卷积层后面设置2个池化层,第5个卷积层后面设置所述转换卷积层,所述池化层为最大池化层,在每个卷积层之后还设置有非线性激活函数。具体地,所述获取模块201在获取到待检测的图片之后,将所述图片首先经过5个卷积层以及4个池化层,以分别获取各层卷积图像特征,并将所述各层卷积图像特征存储于数据库中。然后,将第一层卷积图像特征进行最大池化处理以获取第一图像特征,将第三层卷积图像特征设定为第二图像特征,其中所述第二图像特征为标准图像特征,将第五层卷积图像特征进行转换卷积处理以获取第三图像特征,其中,所述第三图像特征的大小与所述第一图像特征及所述第二图像特征的大小(宽及高)一致。然后,将所述第一图像特征、所述标准图像特征及所述第二图像特征分别进行归一化处理,以分别获得第一归一图像、第二归一图像及第三归一图像,以使所述第一归一图像、所述第二归一图像及所述第三归一图像符合标准正态分布,将所述第一归一图像、所述第二归一图像及所述第三归一图像分别通过1*1*42的卷积核以调整通道数,然后将调整结果进行通道数堆叠操作。
示例性地,所述改进型VGG16网络包括5个卷积核大小为3,特征图填充圈数为1(也即kernel_size=3,pad=1)的卷积层,1个卷积核大小为2,卷积步长为2(也即kernel_size=2,stride=2)的池化层,1个卷积核大小为3,特征图填充圈数为1(也即kernel_size=3,pad=1)的转换卷积层,通过设置卷积层以使所述图像经过卷积层的大小不会发生改变,通过设置池化层的参数以使图像大小变为原来的二分之一。当输入的图片大小为800*600时,经过第一层卷积层(CONV1)后变化为800*600,经过第一个池化层(POOLING1)后变化为400*300,经过第二层卷积层(CONV2)后变化为400*300,经过第二个池化层(POOLING2)后变化为200*150,经过第三层卷积层(CONV3)后变化为200*150,经过第三个池化层(POOLING3)后变化为100*75,经过第四层卷积层(CONV4)后变化为100*75,经过第四个池化层(POOLING4)后变化为50*38,经过第五层卷积层(CONV5)后变化为50*38。
然后,选取第一、三及五层卷积层进行多尺度操作,将所述第三层卷积层(CONV3)200*150的图像特征设定为基准图像特征(也即第二图像特征)。将所述第一层卷积层(CONV1)800*600的图像特征输入至2个卷积核大小为2,卷积步长为2(也即kernel_size=2,stride=2)的池化层,以对所述200*150的图像特征进行最大池化处理,并获取第一图像特征。将所述第五层卷积层(CONV5)50*38的图像特征输入至2个转换卷积层中,以对所述50*38的图像特征进行转换卷积处理,并获取第三图像特征。经过处理后,所述第一图像特征、所述第二图像特征及所述第三图像特征的大小均为200*150大小。
然后,将所述第一图像特征、所述第二图像特征及所述第三图像特征分别输入至批量归一化(Batch Normalization,BN)层,以使所述第一图像特征、所述第二图像特征及所述第三图像特征进行归一化处理,并分别获得第一归一图像、第二归一图像及第三归一图像,以使所述第一图像特征、所述第二图像特征及所述第三图像特征均符合标准正态分布。
最后,将归一化处理后的所述第一归一图像、所述第二归一图像及所述第三归一图像分别通过1*1*42的卷积核以调整通道数,然后,将调整结果在第三维度(也即通道维度)上进行堆叠,以使通道数变成原来的3倍。例如:三张大小均为200*150的图像特征经1*1*42的卷积核之后,得到三张200*150*42的图像特征,然后,将所述三张200*150*42的图像特征在第三维度堆叠,得到200*150*126的图像特征。
步骤S104,将所述图像特征输入至ROI Pooling网络中进行池化。
需要说明的是,ROI Pooling网络只有池化操作,现有的ROI Pooling的池化方式有两种:第一种是采用SAME方式,即先填充0,将输入的图像特征变为长宽相同的图像,然后再进行池化操作;第二种是采用kernel size长宽不同的尺寸。在本发明实施例中,对输入的200*150*126的图像特征,采用4*3的kernel size,经过ROI Pooling池化,结果为13*13*126。
步骤S106,将池化结果输入至3*3*4的卷积核中以对所述池化结果进行微调整。
具体地,经过ROI Pooling网络后的池化结果中图像特征为13*13*126,将该13*13*126图像特征经过一个3*3*4的卷积核,以通过3*3*4卷积核做一个微调,调整后的结果为13*13*4的图像特征。所述3*3*4的卷积核增加了整个系统的鲁棒性,同时,4通道数有效的实现了降低维度的操作,大大减少了模型的参数量,进而降低了整个网络的时间复杂度。
步骤S108,将微调整结果输入至RPN网络,后经过全连接层(Fully Connected,FC)网络以对目标及背景进行分类,以获取所述目标的类别信息及位置信息。
举例来说,将微调整结果输入至RPN网络,然后,全连接层网络(3*3*63的卷积核)将微调整后的图像特征进行处理,根据处理结果中显示的热度来确定待检测图像中的目标为脑胶质瘤还是背景,及该目标的位置信息,其中显示较高热度的区域为脑胶质瘤,显示较低热度的区域为背景。
通过本发明实施例,增加了系统的鲁棒性,有效的降低维度的操作,大大减少了参数量,进而降低了算法空间复杂度及时间复杂度,极大的提高了检测准确度。
实施例二
请参阅图3,示出了本发明实施例二之电子装置的硬件架构示意图。电子装置2包括,但不仅限于,可通过系统总线相互通信连接存储器21、处理22以及网络接口23,图2仅示出了具有组件21-23的电子装置2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器21至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子装置2的内部存储单元,例如该电子装置2的硬盘或内存。在另一些实施例中,所述存储器也可以是所述电子装置2的外部存储设备,例如该电子装置2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子装置2的操作系统和各类应用软件,例如目标检测系统20的程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述目标检测系统20等。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述电子装置2与其他电子设备之间建立通信连接。例如,所述网络接口23用于通过网络将所述电子装置2与外部终端相连,在所述电子装置2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband CodeDivision Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
实施例三
请参阅图4,示出了本发明实施例三之目标检测系统的程序模块示意图。在本实施例中,目标检测系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述目标检测方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述目标检测系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
获取模块201,用于获取待检测的图片。
具体实施例中,通过CT、核磁共振等方式获取具有脑胶质瘤的成像图片,并将该成像图片输入至电子装置2中,所述获取模块201获取该成像图片,例如:该成像图片大小为800*600。
提取模块202,用于将所述图片输入至改进型VGG16网络中进行图像特征提取。
在一较佳实施例中,在使用改进型VGG16网络之前,需建立模块206建立所述改进型VGG16网络。请参阅图1,示出了本发明实施例之改进型VGG16网络的示意图。所述改进型VGG16网络包括5个卷积层、6个池化层及1个转换卷积层,其中,所述5个卷积层之间均设置有1个池化层,第1个卷积层后面设置2个池化层,第5个卷积层后面设置所述转换卷积层,所述池化层为最大池化层,在每个卷积层之后还设置有非线性激活函数。具体地,所述获取模块201在获取到待检测的图片之后,所述提取模块202将所述图片首先经过5个卷积层以及4个池化层,以分别获取各层卷积图像特征,并将所述各层卷积图像特征存储于数据库中。然后,所述提取模块202将第一层卷积图像特征进行最大池化处理以获取第一图像特征,将第三层卷积图像特征设定为第二图像特征,其中所述第二图像特征为标准图像特征,将第五层卷积图像特征进行转换卷积处理以获取第三图像特征,其中,所述第三图像特征的大小与所述第一图像特征及所述第二图像特征的大小(宽及高)一致。然后,所述提取模块202将所述第一图像特征、所述标准图像特征及所述第二图像特征分别进行归一化处理,以分别获得第一归一图像、第二归一图像及第三归一图像,以使所述第一归一图像、所述第二归一图像及所述第三归一图像符合标准正态分布。最后,所述提取模块202将所述第一归一图像、所述第二归一图像及所述第三归一图像分别通过1*1*42的卷积核以调整通道数,并将将调整结果进行通道数堆叠操作。
示例性地,所述改进型VGG16网络包括5个卷积核大小为3,特征图填充圈数为1(也即kernel_size=3,pad=1)的卷积层,1个卷积核大小为2,卷积步长为2(也即kernel_size=2,stride=2)的池化层,1个卷积核大小为3,特征图填充圈数为1(也即kernel_size=3,pad=1)的转换卷积层,通过设置卷积层以使所述图像经过卷积层的大小不会发生改变,通过设置池化层的参数以使图像大小变为原来的二分之一。当输入的图片大小为800*600时,经过第一层卷积层(CONV1)后变化为800*600,经过第一个池化层(POOLING1)后变化为400*300,经过第二层卷积层(CONV2)后变化为400*300,经过第二个池化层(POOLING2)后变化为200*150,经过第三层卷积层(CONV3)后变化为200*150,经过第三个池化层(POOLING3)后变化为100*75,经过第四层卷积层(CONV4)后变化为100*75,经过第四个池化层(POOLING4)后变化为50*38,经过第五层卷积层(CONV5)后变化为50*38。
然后,所述提取模块202选取第一、三及五层卷积层进行多尺度操作,将所述第三层卷积层(CONV3)200*150的图像特征设定为基准图像特征(也即第二图像特征)。将所述第一层卷积层(CONV1)800*600的图像特征输入至2个卷积核大小为2,卷积步长为2(也即kernel_size=2,stride=2)的池化层,以对所述200*150的图像特征进行最大池化处理,并获取第一图像特征。将所述第五层卷积层(CONV5)50*38的图像特征输入至2个转换卷积层中,以对所述50*38的图像特征进行转换卷积处理,并获取第三图像特征。经过处理后,所述第一图像特征、所述第二图像特征及所述第三图像特征的大小均为200*150大小。
然后,所述提取模块202将所述第一图像特征、所述第二图像特征及所述第三图像特征分别输入至批量归一化(Batch Normalization,BN)层,以使所述第一图像特征、所述第二图像特征及所述第三图像特征进行归一化处理,并分别获得第一归一图像、第二归一图像及第三归一图像,以使所述第一图像特征、所述第二图像特征及所述第三图像特征均符合标准正态分布。
最后,所述提取模块202将归一化处理后的所述第一归一图像、所述第二归一图像及所述第三归一图像分别通过1*1*42的卷积核以调整通道数,然后,将调整结果在第三维度(也即通道维度)上进行堆叠,以使通道数变成原来的3倍。例如:三张大小均为200*150的图像特征经1*1*42的卷积核之后,得到三张200*150*42的图像特征,然后,将所述三张200*150*42的图像特征在第三维度堆叠,得到200*150*126的图像特征。
池化模块203,用于将所述图像特征输入至ROI Pooling网络中进行池化。
需要说明的是,ROI Pooling网络只有池化操作,现有的ROI Pooling的池化方式有两种:第一种是采用SAME方式,即先填充0,将输入的图像特征变为长宽相同的图像,然后再进行池化操作;第二种是采用kernel size长宽不同的尺寸。在本发明实施例中,所述池化模块203对输入的200*150*126的图像特征,采用4*3的kernel size,经过ROI Pooling池化,结果为13*13*126。
调整模块204,用于将池化结果输入至3*3*4的卷积核中以对所述池化结果进行微调整。
具体地,经过ROI Pooling网络后的池化结果中图像特征为13*13*126,所述调整模块204将该13*13*126图像特征经过一个3*3*4的卷积核,以通过3*3*4卷积核做一个微调,调整后的结果为13*13*4的图像特征。所述3*3*4的卷积核增加了整个系统的鲁棒性,同时,4通道数有效的实现了降低维度的操作,大大减少了模型的参数量,进而降低了整个网络的时间复杂度。
分类模块205,用于将微调整结果输入至RPN网络,后经过全连接层网络,以对目标及背景进行分类,以获取所述目标的类别信息及位置信息。
举例来说,所述分类模块205将微调整结果输入至RPN网络,然后,全连接层网络(3*3*63的卷积核)将微调整后的图像特征进行处理,根据处理结果中显示的热度来确定待检测图像中的目标为脑胶质瘤还是背景,及该目标的位置信息,其中显示较高热度的区域为脑胶质瘤,显示较低热度的区域为背景。
通过本发明实施例,增加了系统的鲁棒性,有效的降低维度的操作,大大减少了参数量,进而降低了算法空间复杂度及时间复杂度,极大的提高了检测准确度。
本发明还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器、处理器等。
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储目标检测系统20,被处理器执行时实现实施例一的目标检测方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于深度学习的目标检测方法,其特征在于,包括步骤:
获取待检测的图片;
将所述图片输入至改进型VGG16网络中进行图像特征提取;
将所述图像特征输入至ROI Pooling网络中进行池化;
将池化结果输入至3*3*4的卷积核中以对所述池化结果进行微调整;及
将微调整结果输入至RPN网络,后经过全连接层网络,以对目标及背景进行分类,以获取所述目标的类别信息及位置信息。
2.如权利要求1所述的目标检测方法,其特征在于,所述将所述图片输入至改进型VGG16网络中进行图像特征提取的步骤之前,还包括步骤:
建立所述改进型VGG16网络;
其中,所述改进型VGG16网络包括5个卷积层、6个池化层及1个转换卷积层,其中,所述5个卷积层之间均设置有1个池化层,第1个卷积层后面设置2个池化层,第5个卷积层后面设置所述转换卷积层,所述池化层为最大池化层,在每个卷积层之后还设置有非线性激活函数。
3.如权利要求1所述的目标检测方法,其特征在于,所述将所述图片输入至改进型VGG16网络中进行图像特征提取的步骤,还包括步骤:
将所述图片经过5个卷积层以及4个池化层,以分别获取各层卷积图像特征;
将所述各层卷积图像特征存储于数据库中。
4.如权利要求3所述的目标检测方法,其特征在于,所述将所述各层卷积图像特征存储于数据库中的步骤之后,还包括步骤:
将第一层卷积图像特征进行最大池化处理以获取第一图像特征;
将第三层卷积图像特征设定为第二图像特征,其中,所述第二图像特征为标准图像特征;
将第五层卷积图像特征进行转换卷积处理以获取第三图像特征,其中,所述第三图像特征的大小与所述第一图像特征及所述第二图像特征的大小一致,所述大小包括宽及高。
5.如权利要求4所述的目标检测方法,其特征在于,所述将第五层卷积图像特征进行转换卷积处理以获取第三图像特征的步骤之后,还包括步骤:
将所述第一图像特征、所述标准图像特征及所述第二图像特征分别进行归一化处理,以分别获得第一归一图像、第二归一图像及第三归一图像,以使所述第一归一图像、所述第二归一图像及所述第三归一图像符合标准正态分布。
6.如权利要求5所述的目标检测方法,其特征在于,所述将所述第一图像特征、所述标准图像特征及所述第二图像特征分别进行归一化处理的步骤之后,还包括步骤:
将所述第一归一图像、所述第二归一图像及所述第三归一图像分别通过1*1*42的卷积核以调整通道数。
7.如权利要求6所述的目标检测方法,其特征在于,所述将所述第一归一图像、所述第二归一图像及所述第三归一图像分别通过1*1*42的卷积核的步骤之后,还包括步骤:
将调整结果进行通道数堆叠操作。
8.一种电子装置,其特征在于,包括:
获取模块,用于获取待检测的图片;
提取模块,用于将所述图片输入至改进型VGG16网络中进行图像特征提取;
池化模块,用于将所述图像特征输入至ROI Pooling网络中进行池化;
调整模块,用于将池化结果输入至3*3*4的卷积核中以对所述池化结果进行微调整;及
分类模块,用于将微调整结果输入至RPN网络,后经过全连接层网络以对目标及背景进行分类,以获取所述目标的类别信息及位置信息。
9.一种计算机设备,其特征在于,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的基于深度学习的目标检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1-7中任一项所述的基于深度学习的目标检测方法的步骤。
CN201910593114.4A 2019-07-03 2019-07-03 基于深度学习的目标检测方法及电子装置 Active CN110503088B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910593114.4A CN110503088B (zh) 2019-07-03 2019-07-03 基于深度学习的目标检测方法及电子装置
PCT/CN2019/102842 WO2021000404A1 (zh) 2019-07-03 2019-08-27 基于深度学习的目标检测方法及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910593114.4A CN110503088B (zh) 2019-07-03 2019-07-03 基于深度学习的目标检测方法及电子装置

Publications (2)

Publication Number Publication Date
CN110503088A true CN110503088A (zh) 2019-11-26
CN110503088B CN110503088B (zh) 2024-05-07

Family

ID=68585851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910593114.4A Active CN110503088B (zh) 2019-07-03 2019-07-03 基于深度学习的目标检测方法及电子装置

Country Status (2)

Country Link
CN (1) CN110503088B (zh)
WO (1) WO2021000404A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523439A (zh) * 2020-04-21 2020-08-11 苏州浪潮智能科技有限公司 一种基于深度学习的目标检测的方法、系统、设备及介质
CN113393523A (zh) * 2021-06-04 2021-09-14 上海蓝色帛缔智能工程有限公司 一种自动化监控机房图像的方法、装置及电子设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034455B (zh) * 2021-03-17 2023-01-10 清华大学深圳国际研究生院 一种平面物件麻点检测方法
CN114155676A (zh) * 2021-11-29 2022-03-08 山东中烟工业有限责任公司 一种物流系统破损木托盘检测报警系统及其工作方法
CN115018788B (zh) * 2022-06-02 2023-11-14 常州晋陵电力实业有限公司 基于智能机器人的架空线异常检测方法和系统
CN115937655B (zh) * 2023-02-24 2023-05-23 城云科技(中国)有限公司 多阶特征交互的目标检测模型及其构建方法、装置及应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137642A1 (en) * 2016-11-15 2018-05-17 Magic Leap, Inc. Deep learning system for cuboid detection
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN108664838A (zh) * 2017-03-27 2018-10-16 北京中科视维文化科技有限公司 基于改进rpn深度网络的端到端的监控场景行人检测方法
CN109858495A (zh) * 2019-01-16 2019-06-07 五邑大学 一种基于改进卷积块的特征提取方法、装置及其存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610087B (zh) * 2017-05-15 2020-04-28 华南理工大学 一种基于深度学习的舌苔自动分割方法
CN109063559B (zh) * 2018-06-28 2021-05-11 东南大学 一种基于改良区域回归的行人检测方法
US10325179B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137642A1 (en) * 2016-11-15 2018-05-17 Magic Leap, Inc. Deep learning system for cuboid detection
CN108664838A (zh) * 2017-03-27 2018-10-16 北京中科视维文化科技有限公司 基于改进rpn深度网络的端到端的监控场景行人检测方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN109858495A (zh) * 2019-01-16 2019-06-07 五邑大学 一种基于改进卷积块的特征提取方法、装置及其存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523439A (zh) * 2020-04-21 2020-08-11 苏州浪潮智能科技有限公司 一种基于深度学习的目标检测的方法、系统、设备及介质
CN111523439B (zh) * 2020-04-21 2022-05-17 苏州浪潮智能科技有限公司 一种基于深度学习的目标检测的方法、系统、设备及介质
CN113393523A (zh) * 2021-06-04 2021-09-14 上海蓝色帛缔智能工程有限公司 一种自动化监控机房图像的方法、装置及电子设备
CN113393523B (zh) * 2021-06-04 2023-03-14 上海蓝色帛缔智能工程有限公司 一种自动化监控机房图像的方法、装置及电子设备

Also Published As

Publication number Publication date
WO2021000404A1 (zh) 2021-01-07
CN110503088B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
CN110503088A (zh) 基于深度学习的目标检测方法及电子装置
Liao et al. Guidance and evaluation: Semantic-aware image inpainting for mixed scenes
CN108121816A (zh) 图片分类方法、装置、存储介质及电子设备
US9183228B2 (en) Image retrieval method, real-time drawing prompting method, and devices thereof
CN110502608A (zh) 基于知识图谱的人机对话方法及人机对话装置
CN110362307A (zh) 表单页面配置方法及服务器
CN108229419A (zh) 用于聚类图像的方法和装置
CN111160140B (zh) 一种图像检测方法及装置
US10769784B2 (en) Image analyzing method and electrical device
CN108205580A (zh) 一种图像检索方法、装置及计算机可读存储介质
Abdullah et al. Fixed partitioning and salient points with MPEG-7 cluster correlograms for image categorization
CN108875797A (zh) 一种确定图像相似度的方法、相册管理方法及相关设备
CN107967461A (zh) Svm 差分模型训练及人脸验证方法、装置、终端及存储介质
CN111353430A (zh) 人脸识别方法和系统
Bessmeltsev et al. Gesture3D: posing 3D characters via gesture drawings
CN106650568A (zh) 一种人脸识别方法及装置
CN110176017A (zh) 一种基于目标检测的边缘检测模型、方法和存储介质
CN110265153A (zh) 慢性病随访方法及电子装置
CN109977762A (zh) 一种文本定位方法及装置、文本识别方法及装置
CN112749576A (zh) 图像识别方法和装置、计算设备以及计算机存储介质
CN113077464A (zh) 一种医学图像处理方法、医学图像识别方法及装置
WO2023280221A1 (en) Multi-scale 3d convolutional classification model for cross-sectional volumetric image recognition
CN116310308A (zh) 图像分割方法、装置、计算机设备和存储介质
CN109388307A (zh) 一种可对应用程序的图标进行分页的智能移动终端
CN109918237A (zh) 异常网络层确定方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant