CN108764292B - 基于弱监督信息的深度学习图像目标映射及定位方法 - Google Patents

基于弱监督信息的深度学习图像目标映射及定位方法 Download PDF

Info

Publication number
CN108764292B
CN108764292B CN201810390879.3A CN201810390879A CN108764292B CN 108764292 B CN108764292 B CN 108764292B CN 201810390879 A CN201810390879 A CN 201810390879A CN 108764292 B CN108764292 B CN 108764292B
Authority
CN
China
Prior art keywords
classification model
layer
training
neural network
last
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810390879.3A
Other languages
English (en)
Other versions
CN108764292A (zh
Inventor
田永鸿
李宗贤
史业民
曾炜
王耀威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201810390879.3A priority Critical patent/CN108764292B/zh
Publication of CN108764292A publication Critical patent/CN108764292A/zh
Application granted granted Critical
Publication of CN108764292B publication Critical patent/CN108764292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于弱监督信息的深度学习图像目标映射及定位方法。该方法包括:使用带有类别标签的图像数据分别训练两个深度卷积神经网络框架,得到分类模型M1和分类模型M2,并获取全局带参可学习池化层参数;使用新的分类模型M2对测试图像进行特征提取,得到特征图,根据特征图通过特征类别映射及阈值法得到初步定位框;使用选择性搜索方法对测试图像进行候选区域提取,使用分类模型M1筛选类别出候选框集合;对初步定位框和候选框进行非极大值抑制处理,得到测试图像最终的目标定位框。本发明引入全局带参可学习池化层,能够学习得到关于目标类别j的更好的特征表达,并通过使用选择性特征类别映射的方式,有效得到图像中目标物体的位置信息。

Description

基于弱监督信息的深度学习图像目标映射及定位方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于弱监督信息的深度学习图像目标映射及定位方法。
背景技术
随着以深度卷积神经网络为代表的深度学习技术的发展,图像分类和图像目标识别领域取得了巨大的突破性进展,并且引发了很多影响力极大的学术研究和相关的产业应用。在2015年的全球大规模视觉识别竞赛(ILSVRC)中,微软亚洲研究院提出的深度残差模型以3.57%的识别错误率获得冠军,并且首次超过人类的识别准确率。
2014年提出的区域卷积神经网络(RCNN),首次将深度卷积网络用于图像目标检测任务,性能较传统基于手工特征的图像目标检测方法提升明显。在此之后,各种基于卷积神经网络的目标检测方法,例如快速区域卷积神经网络、更快的区域卷积神经网络等等方法,使得通用目标检测的性能不断提升。但上述方法都依赖于大量的完备位置标注的标签信息来训练卷积网络和区域回归模型,即在训练过程中不仅在给定目标的类别信息,还需要额外提供目标在图像中的位置信息,这也就要求研究者在训练深度网络前,需要对数据进行位置信息的标注。在实际应用场景中,对于大量的图片进行手工位置标注,需要耗费大量的时间成本和人力成本。
如何在只使用弱监督的标注数据来学习目标定位和检测是计算机视觉领域极有研究和应用价值的问题。我们关注的弱监督问题,是指为实现某个计算机视觉任务,采用了比该任务更多的一种人工标注作为监督信息。一般来讲,这种弱监督的标注比原始的标注更容易获得。在深度学习技术兴起以前,这种基于弱监督学习的方法通常依赖于对图像不同目标的特征进行聚类。例如授权公告号为CN103336969B的发明专利,联合谱聚类与判别式聚类的双重聚类方法,对由过分割方法得到的图像子区域进行聚类,实现对图像进行语义标注。
在以深度卷积神经网络为代表的深度学习技术出现后,相关研究表明,在使用深度卷积神经网络对图像进行特征提取时,再最后一个卷积层的特征图上,将会保留图像的部份语义和空间信息。但这些语义和空间信息在卷积特征图送入全连接网络层的时候,会遭到完全破坏。为了避免全连接层对语义和空间信息的破坏,现有技术中的图像映射方法使用了全局平均池化或者全局最大值池化的方法,将卷积特征图直接映射到一个特征点,然后使用单层的全连接网络对特征点进行聚合分类。
上述现有技术中的图像映射方法的缺点为:这种使用计算全局平均值或者全局最大值的方法对特征图进行池化的方法,会导致池化后的特征点对原始特征的表征能力不够。
发明内容
本发明的实施例提供了一种基于弱监督信息的深度学习图像目标映射及定位方法,以解决现有技术的缺点。
为了实现上述目的,本发明采取了如下技术方案。一种基于弱监督信息的深度学习图像目标映射及定位方法,包括如下步骤:
S1,使用人工标注带有类别标签的图像数据训练深度卷积神经网络框架,得到分类模型M1;
S2,在所述深度神经网络框架中删去卷积层后所有的全连接层,并加入一个全局带参可学习池化层和最后的分类全连接层,得到新的深度卷积神经网络框架;
S3,使用人工标注带有类别信息标签的图像数据训练所述新的深度卷积神经网络框架,得到新的分类模型M2,并获取全局带参可学习池化层参数;
S4,对于新输入的测试图像,使用所述新的分类模型M2进行特征提取,得到最后一个卷积层后的特征图,对所述特征图与全局带参可学习池化层参数进行内积后求和、非线性函数激活和列向量相乘后求和操作,得到最终的特征映射图,根据所述最终的特征映射图通过阈值法得到初步定位框;
S5,对于所述新输入的测试图像,使用选择性搜索方法进行候选区域提取,再使用所述分类模型M1筛选出类别属于目标物体的置信度大于75%的候选框集合;
S6,对所述初步定位框和所述候选框进行非极大值抑制处理,得到所述测试图像最终的目标定位框。
进一步地,所述的S1中的使用人工标注带有类别标签的图像数据训练深度卷积神经网络框架,得到分类模型,包括:
设计深度卷积神经网络框架F1,其中F1由卷积层、池化层和全连接层组成,在最后一个卷积层Convlast和网络尾部的分类全连接层之间由连续的全连接层组成,使用高斯参数对深度卷积神经网络框架F1中所有层的参数进行初始化设置;
使用人工标注好类别标签的图像数据作为训练样本(xn,yn),其中n为训练样本数目,使用训练样本(xn,yn)训练所述深度神经网络框架F1得到分类模型,使用随机梯度下降法对分类模型进行优化,得到收敛后的分类模型M1。
进一步地,所述的S2中的在所述深度神经网络框架中删去卷积层后所有的全连接层,并加入一个全局带参可学习池化层和最后的分类全连接层,得到新的深度卷积神经网络框架;包括:
在深度卷积网络框架F1中,删除框架中最后一个卷积层Convlast后的全连接层,重新设计最后的分类全连接层FCcls,维度为m×c,其中c为类别数,获取深度卷积网络框架F1中Convlast层后得到的卷积特征图F的尺寸w×w和数目m,随机生成m个相同大小为w×w的矩阵K,构成新的全局带参可学习池化层Pl,在Convlast和FCcls填入新生成的由m个w×w大小的矩阵组成的全局带参可学习池化层Pl,得到新的深度卷积神经网络框架F2;
使用所述分类模型M1的模型参数对所述新的深度卷积神经网络框架F2的前半部分卷积层的参数进行初始化。
进一步地,所述的S3中的使用人工标注带有类别信息标签的图像数据训练按照所述新的深度卷积神经网络框架,得到新的分类模型,并获取全局带参可学习池化层参数,包括:
使用带有人工标注类别信息的训练样本集(xn,yn)对所述新的深度卷积神经网络框架F2进行训练,训练优化算法使用随机梯度下降法,得到收敛后的新的分类模型M2,所述全局带参可学习池化层参数使用高斯参数进行初始化,训练完成后,获取网络全局带参可学习池化层参数及最后一个分类全连接层参数矩阵。
进一步地,所述的S4中的对于新输入的测试图像,使用所述新的分类模型进行特征提取,得到最后一个卷积层后的特征图,对所述特征图进行内积后求和、非线性函数激活和列向量相乘后求和操作,得到最终的特征映射图,根据所述最终的特征映射图通过阈值法得到初步定位框,包括:
获取所述分类模型M2的全局带参可学习池化层池化核矩阵Pi,其中i=[0,m],其中参数在分类M2模型训练中学习得到,得到分类全连接层的参数矩阵Wm×c,其中c为训练的总类别数;
对于新输入的测试图像,使用分类模型M2进行特征提取,得到最后一个卷积层Convlast后的特征图Fi,其中i=[0,m],对Pi和Fi对应做内积后求和,再经过一次非线性函数激活,得到池化后的值,再和参数矩阵Wm×c对应的列向量相乘后求和,得到最终的特征映射图FL,使用阈值法根据特征映射图FL的高相应区域获得a个定位框,将所有的定位框组成定位框集合L。
进一步地,所述的对于所述新输入的测试图像,使用选择性搜索方法进行候选区域提取,再使用所述分类模型M1筛选类别属于目标物体的置信度大于75%的候选框集合,包括:
对于所述测试图像,使用选择性搜索的方式在所述测试图像中获取一定数量个的候选框,使用训练好的所述分类模型M1对所有候选框进行类别判定,保留目标类别置信度高于75%的候选框,将所有保留的候选框组成候选框集合B。
进一步地,所述的对所述初步定位框和所述候选框进行非极大值抑制处理,得到所述测试图像最终的目标定位框,包括:
对于所述定位框集合L和所述候选框集合B使用非极大值抑制的方法进行筛选,消除交叉重复的位置框,得到最终的目标定位框。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例的方法通过引入全局带参可学习池化层,使得深度卷积网络的卷积特征图在参与分类的过程中,其包含的语义和空间信息不会遭到破坏,网络通过不断更新训练,能够学习得到关于目标类别j的更好的特征表达,使得有用的特征信息被加权,无用信息得以抑制。使得网络在只使用图像的类别标注信息作为训练标签信息的情况下,结合经过筛选的选择性搜索得到的置信度高的候选框,有效得到图像中目标物体的位置信息。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于弱监督信息的深度学习图像目标映射及定位方法的实现原理示意图;
图2为本发明实施例提供的一种前向运算及特征类别映射示意图;
图3为本发明实施例提供的一种全局带参可学习池化前向传播过程的示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明实施例提供了一种基于弱监督标注数据的深度神经网络学习方法,利用深度卷积网络提取到的特张图得到图像中的目标的位置信息。本发明在训练阶段只使用了目标的类别标签,在测试阶段对于完全陌生的图像,能够得到了图像中目标物体的位置信息。
本申请提供了一种基于深度神经网络的图像目标定位方法。该方法同样可以理解为一种基于深度网络的弱监督信息的映射和使用方法。除了以目标定位为例对本发明提出的方法进行结束,本领域技术人员可以理解的是,除了目标定位之外,本发明的弱监督学习及特征类别映射方法还能应用于很多其他的弱监督学习任务,不能以实施例中的样本限定本发明的保护范围和应用范围。
本发明实施例提供的一种基于弱监督信息的深度学习图像目标映射及定位方法的实现原理示意图如图1所示,包括如下的处理步骤:
步骤S110、使用人工标注带有类别标签的图像数据训练深度卷积神经网络框架F1,得到深度卷积神经网络的分类模型M1。
在该阶段,首先设计深度卷积神经网络框架F1,其中F1由卷积层、池化层和全连接层组成。最后一个卷积层Convlast和网络尾部的分类全连接层之间由连续的全连接层组成,使用高斯参数对网络中所有层的参数进行初始化设置。使用人工标注好类别标签的图像数据作为训练样本(xn,yn),其中n为训练样本数目,使用训练样本(xn,yn)训练深度神经网络框架F1得到分类模型,使用随机梯度下降法对分类模型进行优化,得到收敛后的分类模型M1。
步骤S120、在深度神经网络框架中删去卷积层后所有的全连接层,并加入一个全局带参可学习池化层和最后的分类全连接层,得到新的深度卷积神经网络框架,使用训练样本训练新的深度卷积神经网络框架,得到新的分类模型M2。
在深度卷积网络框架F1中,删除框架中最后一个卷积层Convlast后的全连接层,在其中加入一个全局带参可学习池化层和最后的分类全连接层。重新设计最后的分类全连接层FCcls,维度为m×c,其中c为类别数。在深度卷积网络训练好后,获取Convlast层后得到的卷积特征图F的尺寸w×w和数目m,随机生成m个相同大小为w×w的矩阵K,构成新的全局带参可学习池化层Pl。在Convlast和FCcls填入新生成的由m个w×w大小的矩阵组成的全局带参可学习池化层Pl,得到新的深度卷积神经网络框架F2。
考虑到框架F1和框架F2在全局带参可学习池化层Pl之前的结果完全相同,并且分类模型M1中保存了训练网络中所有的层的大小、参数信息,使用所述分类模型M1中保存的参数对所述新的深度卷积神经网络框架F2中的卷积层参数进行初始化。使用预训练好的分类模型M1在Pl之前的层的参数对F2对应的层的参数进行初始化设置,对于Pl层中的m个大小为w×w的矩阵和最后分类层的m×c的参数矩阵,使用高斯方式进行初始化。
对于新的网络框架,再次使用带有人工标注类别信息的训练样本集(xn,yn)对框架F2进行训练,训练优化算法使用随机梯度下降法,得到收敛后的新的分类模型M2,并且通过前向运算过程获取全局带参可学习池化层参数及最后一个分类全连接层参数矩阵。
图2所示是本发明提出的全局带参可学习池化的前向运算过程。具体处理过程包括:在训练样本集(xn,yn)训练框架F2得到分类模型M2的过程中,对于新增入的Pl层,使用新的方法进行前向计算。在最后的卷积层Convlast后,得到m个w×w大小的特征图F,对于每一个特征图Fi,都有一个唯一的全局带参数可学习池化核与之对应Ki。将Fi和Ki的对应元素进行相乘后求和,然后经过一次非线性函数Relu()进行激活,得到最后的池化值Pi
Figure BDA0001643409640000091
Relu(x)=max(0,x)
在神经网络更新过程中,使用误差反向传播算法对该层参数进行更新。考虑最后一个卷积特征图Fi和其对应的池化核Ki中的同一位置的特征值
Figure BDA0001643409640000092
和池化核参数
Figure BDA0001643409640000093
将其对应元素相乘后的值定义为zm,n,zm,n计算方式如下:
Figure BDA0001643409640000094
其中b为偏置项。对于求得的zm,n值,使用Relu()函数对其进行非线性变换,然后使用随机梯度下降法进行学习训练。
Figure BDA0001643409640000095
其中α为学习率,初始化为0.01,每经过100000次迭代,下降一个数量级,J为Softmax损失函数值,对整个网络学习情况进行评估。
步骤S130、选择性搜索框生成及筛选阶段:对于新输入的测试图像,使用新的分类模型M2进行特征提取,得到最后一个卷积层后的特征图,对特征图进行内积后求和、非线性函数激活和列向量相乘后求和操作,得到最终的特征映射图,根据所述最终的特征映射图通过阈值法得到初步定位框。
图3为本发明实施例提供的一种全局带参可学习池化前向传播过程的示意图。获取所述分类模型M2的全局带参可学习池化层池化核矩阵Pi,其中i=[0,m],其中参数在分类M2模型训练中学习得到,得到分类全连接层的参数矩阵Wm×c,其中c为训练的总类别数。
对于新输入的测试图像,使用分类模型M2进行特征提取,得到最后一个卷积层Convlast后的特征图Fi,其中i=[0,m],对Pi和Fi对应做内积后求和,再经过一次非线性函数激活,得到池化后的值,再和参数矩阵W对应的列向量相乘后求和,得到最终的特征映射图FL,使用阈值法根据特征映射图FL的高相应区域获得a个定位框L。
在前向运算中,经过全局带参可学习池化后,能够得到m个经过全局带参可学习池化后的特征点,对于待分类的c个类别,最后的分类全连接层的参数可构成一个m×c的矩阵W,每个特征点都会被连接到每个分类点。对于一个特定类别j,定义
Figure BDA0001643409640000101
为第i个池化值和第j个分类点之间的连接权值,定义如下特征类别映射关系,获得最终的对于类别j的特征图Mj
Figure BDA0001643409640000102
式中Relu()为非线性激活函数。
对于使用上述方法,得到对于某个特定类别j的融合特征图Mj,本发明使用最近邻插值法对特征图进行上采样,得到与原图尺寸大小相同的特征图
Figure BDA0001643409640000111
Figure BDA0001643409640000112
其实upsampling()为上采样函数,本发明中使用的最近邻插值函数方法。使用灰度图和阈值法确定融合特征图中的目标位置信息。将原图把白色与黑色之间按对数关系分为若干等级,形成256阶,得到灰度图,显示为从最暗黑色到最亮的白色的灰度。获取整个灰度图中值最高点的像素值Pixelmax,给定一个阈值系数ε,得到灰度阈值thresh:
thresh=εPixelmax
本发明中阈值系数ε设置为0.8。然后对灰度图的每个像素进行判断,像素值大于thresh的设置为1,否则则设置为0,,其中像素值为1的区域定义为可能存在目标的区域。最后使用一个索引函数index(),得到值为1的的像素的坐标集合(X,Y),然后生成相应的定位框Lbox
Figure BDA0001643409640000113
Figure BDA0001643409640000114
Lbox={min(X),min(Y);max(X),max(Y)}
步骤S140、对于所述新输入的测试图像,使用选择性搜索方法进行候选区域提取,再使用所述分类模型M1筛选类别属于目标物体的置信度大于75%的候选框集合。
在本阶段,首先使用选择性搜索算法对图像进行处理,得到2000个左右的大小不一的候选框,使用训练好的M1分类模型对所有的候选框进行类别判断,得到每个候选框对应于不同类别的置信度。此时我们只关心我们所需要定位的目标类别,目标类别置信度大于75%的候选框将会被保留,其他的候选框将被视为无用信息被丢弃。
步骤S150、非极大值抑制阶段.对所述初步定位框和所述候选框进行非极大值抑制处理,得到所述测试图像最终的目标定位框。
在得到了使用特征类别映射得到的定位框和经过筛选后的使用选择性搜索算法生成的候选框后,在该阶段,使用非极大值抑制算法,对所有的候选框进行融合,消除交叉重复的位置框,得到图像中最终的目标物体的位置信息。
综上所述,本发明实施例的方法通过引入全局带参可学习池化层,使得深度卷积网络的卷积特征图在参与分类的过程中,其包含的语义和空间信息不会遭到破坏,网络通过不断更新训练,能够学习得到关于目标类别j的更好的特征表达,使得有用的特征信息被加权,无用信息得以抑制。使得网络在只使用图像的类别标注信息作为训练标签信息的情况下,结合经过筛选的选择性搜索得到的置信度高的候选框,有效得到图像中目标物体的位置信息。
本发明实施例提出了使用卷积特征图和分类矩阵参数的类别特征映射,将最后一个卷积层的特征图和池化核以及最后的分类全连接层结合起来,得到融合后特征图上的高亮区域,即认为是所要定位的目标区域,通过和选择性搜索得到的候选框进行结合,得到最终的目标位置信息。本发明实施例通过对第一阶段特征类别映射生成的定位框和第二阶段选择性搜索经筛选后的候选框进行非极大值抑制,实现了在训练阶段不获取目标位置标签,只使用图像类别级别的标注信号,在弱监督信号的情况下完成神经网络训练,实现在测试阶段,从给定图像中得到指定类别目标的位置信息。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种基于弱监督信息的深度学习图像目标映射及定位方法,其特征在于,包括如下步骤:
S1,使用人工标注好类别标签的图像数据训练深度卷积神经网络框架,得到分类模型M1;
S2,在所述深度神经网络框架中删去卷积层后所有的全连接层,并加入一个全局带参可学习池化层和最后的分类全连接层,得到新的深度卷积神经网络框架;具体包括:
在深度卷积网络框架F1中,删除框架中最后一个卷积层Convlast后的全连接层,重新设计最后的分类全连接层FCcls,维度为m×c,其中c为类别数,获取深度卷积网络框架F1中Convlast层后得到的卷积特征图F的尺寸w×w和数目m,随机生成m个相同大小为w×w的矩阵K,构成新的全局带参可学习池化层Pl,在Convlast和FCcls填入新生成的由m个w×w大小的矩阵组成的全局带参可学习池化层Pl,得到新的深度卷积神经网络框架F2;使用所述分类模型M1的模型参数对所述新的深度卷积神经网络框架F2的前半部分卷积层的参数进行初始化;
S3,使用人工标注好类别标签的图像数据训练所述新的深度卷积神经网络框架,得到新的分类模型M2,并获取全局带参可学习池化层参数;
S4,对于新输入的测试图像,使用所述新的分类模型M2进行特征提取,得到最后一个卷积层后的特征图,对所述特征图与全局带参可学习池化层参数进行内积后求和、非线性函数激活和列向量相乘后求和操作,得到最终的特征映射图,使得有用的特征信息被加权,根据所述最终的特征映射图通过阈值法得到初步定位框;
S5,对于所述新输入的测试图像,使用选择性搜索方法进行候选区域提取,再使用所述分类模型M1筛选出类别属于目标物体的置信度大于75%的候选框集合;
S6,对所述初步定位框和所述候选框进行非极大值抑制处理,得到所述测试图像最终的目标定位框。
2.根据权利要求1所述方法,其特征在于:所述的S1中的使用人工标注好类别标签的图像数据训练深度卷积神经网络框架,得到分类模型,包括:
设计深度卷积神经网络框架F1,其中F1由卷积层、池化层和全连接层组成,在最后一个卷积层Convlast和网络尾部的分类全连接层之间由连续的全连接层组成,使用高斯参数对深度卷积神经网络框架F1中所有层的参数进行初始化设置;
使用人工标注好类别标签的图像数据作为训练样本(xn,yn),其中n为训练样本数目,使用训练样本(xn,yn)训练所述深度神经网络框架F1得到分类模型,使用随机梯度下降法对分类模型进行优化,得到收敛后的分类模型M1。
3.根据权利要求2所述的方法,其特征在于,所述的S3中的使用人工标注带有类别信息标签的图像数据训练按照所述新的深度卷积神经网络框架,得到新的分类模型,并获取全局带参可学习池化层参数,包括:
使用带有人工标注类别信息的训练样本集(xn,yn)对所述新的深度卷积神经网络框架F2进行训练,训练优化算法使用随机梯度下降法,得到收敛后的新的分类模型M2,所述全局带参可学习池化层参数使用高斯参数进行初始化,训练完成后,获取网络全局带参可学习池化层参数及最后一个分类全连接层参数矩阵。
4.根据权利要求3所述的方法,其特征在于,所述的S4中的对于新输入的测试图像,使用所述新的分类模型进行特征提取,得到最后一个卷积层后的特征图,对所述特征图进行内积后求和、非线性函数激活和列向量相乘后求和操作,得到最终的特征映射图,根据所述最终的特征映射图通过阈值法得到初步定位框,包括:
获取所述分类模型M2的全局带参可学习池化层池化核矩阵Pi,其中i=[0,m],其中参数在分类M2模型训练中学习得到,得到分类全连接层的参数矩阵Wm×c,其中c为训练的总类别数;
对于新输入的测试图像,使用分类模型M2进行特征提取,得到最后一个卷积层Convlast后的特征图Fi,其中i=[0,m],对Pi和Fi对应做内积后求和,再经过一次非线性函数激活,得到池化后的值,再和参数矩阵Wm×c对应的列向量相乘后求和,得到最终的特征映射图FL,使用阈值法根据特征映射图FL的高相应区域获得a个定位框,将所有的定位框组成定位框集合L。
5.根据权利要求4所述的方法,其特征在于,所述的对于所述新输入的测试图像,使用选择性搜索方法进行候选区域提取,再使用所述分类模型M1筛选类别属于目标物体的置信度大于75%的候选框集合,包括:
对于所述测试图像,使用选择性搜索的方式在所述测试图像中获取一定数量个的候选框,使用训练好的所述分类模型M1对所有候选框进行类别判定,保留目标类别置信度高于75%的候选框,将所有保留的候选框组成候选框集合B。
6.根据权利要求5所述的方法,其特征在于,所述的对所述初步定位框和所述候选框进行非极大值抑制处理,得到所述测试图像最终的目标定位框,包括:
对于所述定位框集合L和所述候选框集合B使用非极大值抑制的方法进行筛选,消除交叉重复的位置框,得到最终的目标定位框。
CN201810390879.3A 2018-04-27 2018-04-27 基于弱监督信息的深度学习图像目标映射及定位方法 Active CN108764292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810390879.3A CN108764292B (zh) 2018-04-27 2018-04-27 基于弱监督信息的深度学习图像目标映射及定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810390879.3A CN108764292B (zh) 2018-04-27 2018-04-27 基于弱监督信息的深度学习图像目标映射及定位方法

Publications (2)

Publication Number Publication Date
CN108764292A CN108764292A (zh) 2018-11-06
CN108764292B true CN108764292B (zh) 2022-03-18

Family

ID=64012151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810390879.3A Active CN108764292B (zh) 2018-04-27 2018-04-27 基于弱监督信息的深度学习图像目标映射及定位方法

Country Status (1)

Country Link
CN (1) CN108764292B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178121B (zh) * 2018-12-25 2023-04-07 中国科学院合肥物质科学研究院 基于空间特征和深度特征强化技术的害虫图像定位识别方法
US10387754B1 (en) * 2019-01-23 2019-08-20 StradVision, Inc. Learning method and learning device for object detector based on CNN using 1×H convolution to be used for hardware optimization, and testing method and testing device using the same
CN109784343B (zh) * 2019-01-25 2023-05-12 上海深杳智能科技有限公司 一种基于深度学习模型的资源分配方法及终端
CN109977819B (zh) * 2019-03-14 2020-04-24 长沙理工大学 一种应用模板匹配方法的弱监督单个动作定位方法
CN110060102B (zh) * 2019-04-18 2022-05-03 重庆邮电大学 基于偏标记学习的用户所在商铺定位大数据预测方法
CN110321450A (zh) * 2019-05-05 2019-10-11 苏宁易购集团股份有限公司 一种针对目标检测的数据辅助标注方法、装置及系统
CN110110799B (zh) * 2019-05-13 2021-11-16 广州锟元方青医疗科技有限公司 细胞分类方法、装置、计算机设备和存储介质
CN110147851B (zh) * 2019-05-29 2022-04-01 北京达佳互联信息技术有限公司 图像筛选方法、装置、计算机设备及存储介质
CN110490202B (zh) * 2019-06-18 2021-05-25 腾讯科技(深圳)有限公司 检测模型训练方法、装置、计算机设备和存储介质
CN110349148A (zh) * 2019-07-11 2019-10-18 电子科技大学 一种基于弱监督学习的图像目标检测方法
CN110533067A (zh) * 2019-07-22 2019-12-03 杭州电子科技大学 基于深度学习的边框回归的端到端弱监督目标检测方法
CN110443366B (zh) * 2019-07-30 2022-08-30 上海商汤智能科技有限公司 神经网络的优化方法及装置、目标检测方法及装置
US11138477B2 (en) * 2019-08-15 2021-10-05 Collibra Nv Classification of data using aggregated information from multiple classification modules
CN110717534B (zh) * 2019-09-30 2020-09-15 中国科学院大学 一种基于网络监督的目标分类和定位方法
CN110968695A (zh) * 2019-11-18 2020-04-07 罗彤 基于弱监督技术主动学习的智能标注方法、装置及平台
CN111104538A (zh) * 2019-12-06 2020-05-05 深圳久凌软件技术有限公司 一种基于多尺度约束的细粒度车辆图像检索的方法及装置
WO2021109878A1 (en) * 2019-12-06 2021-06-10 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and system for semi-supervised content localization
CN111476301A (zh) * 2019-12-26 2020-07-31 山东中科先进技术研究院有限公司 一种基于机器学习的医学图像分类方法及系统
CN111275040B (zh) * 2020-01-18 2023-07-25 北京市商汤科技开发有限公司 定位方法及装置、电子设备、计算机可读存储介质
CN111461182B (zh) * 2020-03-18 2023-04-18 北京小米松果电子有限公司 图像处理方法、图像处理装置及存储介质
CN111444969B (zh) * 2020-03-30 2022-02-01 西安交通大学 一种弱监督的ivoct图像异常区域检测方法
CN111464647A (zh) * 2020-04-02 2020-07-28 科锐特(厦门)净化科技有限公司 一种智慧云的洁净室控制方法及系统
CN111738074B (zh) * 2020-05-18 2023-07-25 上海交通大学 基于弱监督学习的行人属性识别方法、系统及装置
CN111667055A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 用于搜索模型结构的方法和装置
CN111967385B (zh) * 2020-08-17 2023-11-14 之江实验室 基于深度学习目标检测算法的蓝莓灰霉病检测方法及系统
CN112651492B (zh) * 2020-12-30 2023-10-13 广州大学华软软件学院 一种自连接宽度图卷积神经网络模型系统及训练方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7382789B2 (en) * 2002-02-06 2008-06-03 Wuhan Fiberhome Networks Co. Ltd. Resilient multiple service ring
US10169661B2 (en) * 2014-03-28 2019-01-01 International Business Machines Corporation Filtering methods for visual object detection
CN106326886B (zh) * 2016-11-07 2019-05-10 重庆工商大学 基于卷积神经网络的手指静脉图像质量评估方法
CN106778472A (zh) * 2016-11-17 2017-05-31 成都通甲优博科技有限责任公司 基于深度学习的输电走廊常见侵入物目标检测与识别方法
CN106682697B (zh) * 2016-12-29 2020-04-14 华中科技大学 一种基于卷积神经网络的端到端物体检测方法
CN106971152B (zh) * 2017-03-16 2020-04-17 天津大学 一种基于航拍图像的检测输电线路中鸟巢的方法
CN107229904B (zh) * 2017-04-24 2020-11-24 东北大学 一种基于深度学习的目标检测与识别方法
US9934440B1 (en) * 2017-10-04 2018-04-03 StradVision, Inc. Method for monitoring blind spot of monitoring vehicle and blind spot monitor using the same
CN107871124B (zh) * 2017-11-15 2018-08-10 陕西师范大学 一种基于深度神经网络的遥感图像目标检测方法

Also Published As

Publication number Publication date
CN108764292A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108764292B (zh) 基于弱监督信息的深度学习图像目标映射及定位方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN109754078A (zh) 用于优化神经网络的方法
CN109118504B (zh) 一种基于神经网络的图像边缘检测方法、装置及其设备
CN107506792B (zh) 一种半监督的显著对象检测方法
CN109447096B (zh) 一种基于机器学习的扫视路径预测方法和装置
CN111160225B (zh) 基于深度学习的人体解析方法和装置
CN112529005B (zh) 基于语义特征一致性监督金字塔网络的目标检测方法
Nawaz et al. AI-based object detection latest trends in remote sensing, multimedia and agriculture applications
Sakurai et al. Plant Growth Prediction using Convolutional LSTM.
CN112598031A (zh) 一种蔬菜病害检测方法及系统
Rios et al. Feature visualization for 3D point cloud autoencoders
CN113283524A (zh) 一种基于对抗攻击的深度神经网络近似模型分析方法
CN114511733A (zh) 基于弱监督学习的细粒度图像识别方法、装置及可读介质
US10643092B2 (en) Segmenting irregular shapes in images using deep region growing with an image pyramid
Xu et al. Tackling small data challenges in visual fire detection: a deep convolutional generative adversarial network approach
US10776923B2 (en) Segmenting irregular shapes in images using deep region growing
CN111046958A (zh) 基于数据依赖的核学习和字典学习的图像分类及识别方法
CN116524296A (zh) 设备缺陷检测模型的训练方法、装置和设备缺陷检测方法
CN113128614B (zh) 基于图像梯度的卷积方法、基于方向卷积的神经网络及分类方法
CN114463574A (zh) 一种遥感图像的场景分类方法及装置
CN114022458A (zh) 骨架检测方法、装置、电子设备和计算机可读存储介质
Kaul et al. Single image dehazing using neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant