CN106127208A - 对图像中的多个对象进行分类的方法和系统、计算机系统 - Google Patents

对图像中的多个对象进行分类的方法和系统、计算机系统 Download PDF

Info

Publication number
CN106127208A
CN106127208A CN201610430103.0A CN201610430103A CN106127208A CN 106127208 A CN106127208 A CN 106127208A CN 201610430103 A CN201610430103 A CN 201610430103A CN 106127208 A CN106127208 A CN 106127208A
Authority
CN
China
Prior art keywords
feature
bias
eigenvalue
image
fisrt feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610430103.0A
Other languages
English (en)
Inventor
王晓刚
李弘扬
欧阳万里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201610430103.0A priority Critical patent/CN106127208A/zh
Publication of CN106127208A publication Critical patent/CN106127208A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种对图像中的多个对象进行分类的方法和系统、计算机系统,所述方法包括:过滤所述图像以生成第一特征图,第一特征图包括用于表征各对象的语义特征的第一特征值;根据第一特征图和多个偏置值生成多个第二特征图,其中,每个第二特征图包括与经一偏置值偏置处理的各第一特征值分别对应的多个第二特征值;更新每个第二特征图以增强每个第二特征图中各第二特征值之间的差异性;以及根据更新后的各第二特征图对多个对象进行分类。本申请的方案降低了对用于过滤图像的筛选器的数量要求,减小了计算负担,提高了图像识别的速度。

Description

对图像中的多个对象进行分类的方法和系统、计算机系统
技术领域
本申请一般地涉及图像识别领域,更具体地,涉及一种对图像中的多个对象进行分类的方法和系统、计算机系统。
背景技术
将图像中出现的多个对象进行分类是图像识别领域中的一个核心问题。CNN(Convolutional Neural Network,卷积神经网络)作为深度学习网络的一种卓而有效的实现方式,在图像识别领域中得以广泛应用。
一般而言,传统的CNN需要使用具有不同卷积核(kernel)的多个筛选器(filter)与图像进行卷积操作从而获得不同的特征图(feature map)。在每个特征图中,图像仅对与所使用的筛选器有关的特征有强的响应。因此,为了对图像中多个不同的对象进行准确的分类,往往需要选用数量众多的筛选器,这增加了计算负担,限制了图像识别的速度。
发明内容
本申请提供一种对图像中的多个对象进行分类的技术方案。
本申请实施方式的一方面提供用于对图像中的多个对象进行分类的方法,该方法包括:过滤图像以生成第一特征图,第一特征图包括用于表征各对象的语义特征的第一特征值;根据第一特征图和多个偏置值生成多个第二特征图,其中,每个第二特征图包括与经一偏置值偏置处理的各第一特征值分别对应的多个第二特征值;更新每个第二特征图以增强每个第二特征图中各第二特征值之间的差异性;以及根据更新后的各第二特征图对多个对象进行分类。
在一些可选的实现方式中,根据更新后的第二特征图对多个对象进行分类包括:根据更新后的各第二特征图评估图像中的多个对象分别属于预定种类的概率值;以及将各对象分别划分到具有最大概率值的预定种类中。
在一些可选的实现方式中,根据更新后的各第二特征图对多个对象进行分类包括:将更新后的各第二特征图线性合并为第三特征图;以及根据第三特征图对多个对象进行分类。
在一些可选的实现方式中,根据第一特征图和多个偏置值生成多个第二特征图,包括:将多个偏置值中的每个偏置值分别与第一特征图中的各第一特征值叠加。
在一些可选的实现方式中,根据第一特征图中的各第一特征值和多个偏置值生成与各偏置值相对应的第二特征图包括:将各第二特征图中的小于预定阈值的第二特征值设置为零。
在一些可选的实现方式中,各偏置值各不相同,且各预定阈值基于各偏置值确定。
在一些可选的实现方式中,更新每个第二特征图以增强每个第二特征图中各第二特征值之间的差异性,包括:调整至少一对象的至少一语义特征以增强第二特征图中各第二特征值之间的差异性。
在一些可选的实现方式中,过滤图像以生成第一特征图包括:将图像输入至卷积神经网络的特征提取层;以及在特征提取层中使用多个第一筛选器与图像进行卷积从而生成与各第一筛选器对应的第一特征图;其中,各第一筛选器用于对图像中的其中一个语义特征进行筛选。
在一些可选的实现方式中,卷积神经网络还包括特征图分解层,根据第一特征图和多个偏置值生成多个第二特征图,包括:将第一特征图输入至特征图分解层;将多个偏置值中的每个偏置值分别与第一特征图中的各第一特征值叠加;基于各偏置值确定预定阈值;以及将各第二特征图中的小于预定阈值的第二特征值设置为零。
在一些可选的实现方式中,卷积神经网络还包括与特征图分解层联接的特征增强层,更新每个第二特征图以增强每个第二特征图中各第二特征值之间的差异性,包括:将多个第二特征图分别输入至特征增强层;以及在特征增强层中使用第二筛选器与各第二特征图进行卷积,从而更新各第二特征图以增强各第二特征值之间的差异性;其中,第二筛选器用于对第二特征图中的其中一个语义特征进行增强。
在一些可选的实现方式中,卷积神经网络还包括联接至特征增强层的分类层,根据更新后的各第二特征图对多个对象进行分类还包括:将更新后各第二特征图输入至分类层;根据更新后的各第二特征图评估图像中的多个对象分别属于预定种类的概率值;以及将各对象分别划分到具有最大概率值的预定种类中。
本申请实施方式的另一方面提供用于对图像中的多个对象进行分类的系统,该系统包括:特征提取器,用于过滤图像以生成第一特征图,第一特征图包括用于表征各对象的语义特征的第一特征值;偏置器,用于根据第一特征图和多个偏置值生成多个第二特征图,其中,每个第二特征图包括与经一偏置值偏置处理的各第一特征值分别对应的多个第二特征值;特征强化器,用于更新每个第二特征图以增强每个第二特征图中各第二特征值之间的差异性;以及分类器,用于根据更新后的各第二特征图对多个对象进行分类。
在一些可选的实现方式中,分类器包括:评估单元,用于根据更新后的各第二特征图评估图像中的多个对象分别属于预定种类的概率值;以及划分单元,用于将各对象分别划分到具有最大概率值的预定种类中。
在一些可选的实现方式中,分类器包括:合并单元,用于将更新后的各第二特征图线性合并为第三特征图;以及分类单元,用于根据第三特征图对多个对象进行分类。
在一些可选的实现方式中,偏置器用于:将多个偏置值中的每个偏置值分别与第一特征图中的各第一特征值叠加。
在一些可选的实现方式中,偏置器还用于:将各第二特征图中的小于预定阈值的第二特征值设置为零。
在一些可选的实现方式中,各偏置值各不相同,且各预定阈值基于各偏置值确定。
在一些可选的实现方式中,特征强化器进一步用于:调整至少一对象的至少一语义特征以增强第二特征图中各第二特征值之间的差异性。
在一些可选的实现方式中,特征提取器还包括:第一输入单元,用于将图像输入至卷积神经网络的特征提取层;以及第一卷积单元,用于在特征提取层中使用第一筛选器与图像进行卷积从而生成第一特征图;其中,各第一筛选器用于对图像中的其中一个语义特征进行筛选。
在一些可选的实现方式中,卷积神经网络包括特征图分解层,偏置器还包括:第二输入单元,用于将第一特征图输入至特征图分解层;叠加单元,用于将多个偏置值中的每个偏置值分别与第一特征图中的各第一特征值叠加;确定单元,用于根据各偏置值确定预定阈值;以及生成单元,用于将小于预定阈值的第二特征值设置为零。
在一些可选的实现方式中,卷积神经网络还包括与特征图分解层联接的特征增强层,特征强化器还包括:第三输入单元,用于将多个第二特征图分别输入至特征增强层;以及第二卷积单元,用于在特征增强层中使用第二筛选器与各第二特征图进行卷积,从而更新各第二特征图以增强各第二特征值之间的差异性;其中,第二筛选器用于对第二特征图中的其中一个语义特征进行增强。
在一些可选的实现方式中,卷积神经网络包括分类层,分类器还包括:第四输入单元,用于将更新后的各第二特征图输入至分类层;评估单元还用于根据输入至分类层的更新后的第二特征图评估图像中的多个对象分别属于预定种类的概率值。
本申请实施方式的再一方面提供一种计算机系统,包括:存储器,存储可执行指令;一个或多个处理器,与存储器通信以执行可执行指令从而完成以下操作:过滤图像以生成第一特征图,第一特征图包括用于表征各对象的语义特征的第一特征值;根据第一特征图和多个偏置值生成多个第二特征图,其中,每个第二特征图包括与经一偏置值偏置处理的各第一特征值分别对应的多个第二特征值;更新每个第二特征图以增强每个第二特征图中各第二特征值之间的差异性;以及根据更新后的各第二特征图对多个对象进行分类。
本申请实施方式的又一方面还提供了一种计算机存储介质,用于存储计算机可读取的指令。所述指令包括:过滤图像以生成第一特征图的指令,第一特征图包括用于表征各对象的语义特征的第一特征值;根据第一特征图和多个偏置值生成多个第二特征图的指令,每个第二特征图包括与经一偏置值偏置处理的各第一特征值分别对应的多个第二特征值;更新每个第二特征图以增强每个第二特征图中各第二特征值之间的差异性的指令;以及根据更新后的各第二特征图对多个对象进行分类的指令。
采用本申请实施方式提供的方案,能够在第一特征图中加入多个偏置值从而生成包括第二特征值的多个第二特征图,继而以每个第二特征图作为输入来过滤噪音或背景信号。这样能够在使用较少的第一特征图的前提下将图像中用于区分不同对象的语义特征区分开。相应地,本申请的方案降低了对筛选器的数量要求,减小了计算负担,提高了图像识别的速度。
附图说明
通过阅读参照以下附图所作的对非限制性实施方式所作的详细描述,本申请的其它特征、目的和优点将会变得更明显,其中:
图1示意性地示出了根据本申请实施方式的对图像中的多个对象进行分类的方法的流程图;
图2示意性地示出了根据本申请实施方式的对图像中的多个对象进行分类的CNN架构;
图3示意性地示出了根据本申请实施方式的对图像中的多个对象进行分类的系统;以及
图4示意性地示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施方式对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分。在不冲突的情况下,本申请中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本申请。
参见图1所示,为本申请实施方式提供的一种对图像中的多个对象进行分类的方法的示意性流程图。
具体而言,本实施例的方法包括:
步骤S110,过滤图像以生成第一特征图,第一特征图包括用于表征各对象的语义特征的第一特征值。
在这里,第一特征图可以包括用于表征各对象的语义特征的第一特征值。语义特征值例如可以是对图像中某些特征的数值化表现,例如:线条的弯曲程度、颜色、表面粗糙度等。在一些可选的实现方式中,代表语义特征的特征值(即第一特征值)可以以矩阵的形式排布从而构成第一特征图。
步骤120,根据第一特征图和多个偏置值生成多个第二特征图,其中,每个第二特征图包括与经一偏置值偏置处理的各第一特征值分别对应的多个第二特征值。
在这里,各个偏置值互不相同。也即是说,可以通过n个偏置值对同一个第一特征图进行偏置处理,从而生成n个第二特征图。在每一个第二特征图中,每个第二特征值均与第一特征图中的各第一特征值分别对应。
在一些可选的实现方式中,本实施例的步骤120可以通过如下的方式来实现:
步骤121,将多个偏置值中的每个偏置值分别与第一特征图中的各第一特征值叠加。这样一来,通过本步骤生成的多个第二特征图中的每一个第二特征图中,各第二特征值均为与之对应的第一特征值和其中一个偏置值之和。
可选地,在如上的步骤121之后,本实施例的步骤120还可以进一步包括:
步骤122,将各第二特征图中的小于预定阈值的第二特征值设置为零。
这样一来,通过将小于预定阈值的第二特征值设置为零,可以使得各第二特征图中,大于该预定阈值的各个第二特征值更加突出。
步骤130,更新每个第二特征图以增强每个第二特征图中各第二特征值之间的差异性。
在一些可选的实现方式中,本实施例的方法中,步骤130可以进一步包括:
调整至少一对象的至少一语义特征以增强至少一个第二特征图中各第二特征值之间的差异性。通过增强第二特征图中各第二特征值之间的差异性,可以使得某一对象的某一个语义特征更加地显著。
步骤140,根据更新后的各第二特征图对多个对象进行分类。
在一些可选的实现方式中,本实施例的方法中,步骤140可以进一步包括:
步骤141,根据更新后的第二特征图评估图像中的多个对象分别属于预定种类的概率值。
步骤142,将各对象划分到具有最大概率值的预定种类中。
或者,在另一些可选的实现方式中,步骤140还可以进一步包括:
步骤143,将更新后的各第二特征图线性合并为第三特征图。
步骤144,根据第三特征图对多个对象进行分类。
在一些应用场景中,本实施例的对图像中的多个对象进行分类的方法可以利用如图2所示的CNN架构来实现。
如图2所示,CNN架构可包括特征提取层210、特征图分解层220、特征增强层230和分类层240。
下面,将结合结图2来具体地示意性说明利用CNN架构来实现本实施例的用于对图像中的多个对象进行分类的方法。
如图2所示,包含有多个对象的图像20输入至CNN架构200的特征提取层210。在特征提取层210中过滤图像20以生成第一特征图211,第一特征图211包括用于表征各对象的语义特征的第一特征值。语义特征例如是对图像中某些特征的数值化表现,这些特征例如可以包括但不限于线条的弯曲程度、颜色、表面粗糙度等。
在一些可选的实现方式中,用于表征语义特征的各第一特征值可以以矩阵的形式排布从而构成第一特征图211。特征提取层210可包括级联的多个筛选层以构成分级结构,在每个筛选层中均布置有多个第一筛选器。各第一筛选器均会增强与该第一筛选器对应的第一特征值而压低其它第一特征值。具体地,通过在特征提取层210中使用多个第一筛选器与图像20进行卷积,从而生成与各第一筛选器对应的第一特征图211。其中,各第一筛选器用于对图像中的其中一个语义特征进行筛选。相应地,第一特征图211的数目取决于最后一级筛选层中的筛选器的数目,即,每一个第一特征图211对应于最后一级筛选层中的一个筛选器,并且每一个第一特征图211均由多个对象的语义特征值(也即第一特征值)构成。
在传统的CNN架构中,每一个第一特征图211均经过被称作激活层(activationlayer)的非线性作用层(诸如ReLU)对第一特征图211中的特征值进行过滤。具体地,每一个第一特征图211均通过激活层被设定一个阈值,大于该阈值的语义特征值被保留,而小于该阈值的语义特征值被丢弃。通过这种激活层的激活操作,可过滤掉一些与目标特征无关的语义特征。然而,这种过滤是不可逆的,因此有可能过滤掉一些有用的信息。因而,为了能够将图像中的不同的对象区分开,往往需要提取为数众多的第一特征图211从而能够以多个不同特征为依据区分不同的对象。因而,在对图像中的对象进行分类的过程中会出现大量的冗余计算。
在应用了如图2所示的CNN架构来实现本申请的对图像中的多个对象进行分类的方法时,上述问题至少部分地得以解决。具体地,基于第一特征图211中的各第一特征值和多个偏置值221、222、223等生成与各偏置值相对应的第二特征图224、225、226等,其中第二特征图224、225、226包括多个第二特征值。
在一些可选的实现方式中,以上过程可以在特征图分解层220中完成。特征图分解层220联接至特征提取层210并且将各偏置值与第一特征图的各第一特征值叠加生成与各偏置值对应的多个第二特征值。具体地,如图2所示,在特征图分解层220中,偏置值221与第一特征图211中的第一特征值相加从而生成多个与该偏置值221对应的第二特征值(未示出);偏置值222与第一特征图211中的第一特征值相加从而生成多个与偏置值222对应的第二特征值;以及偏置值223与第一特征图211中的第一特征值相加从而生成多个与偏置值223对应的第二特征值。
在一些可选的实现方式中,可以将这些分别与各偏置值对应的多个第二特征值直接作为与各偏置值对应的第二特征图224、225、226等输出至CNN架构200的后级。
或者,在另一些可选的实现方式中,还可以将这些分别与各偏置值对应的多个第二特征值分别输入至特征图分解层220的多个激活层(未示出),这些激活层例如可以是ReLU、sigmoid等。这些激活层分别基于各偏置值确定预定阈值,以及将分别与各偏置值对应的多个第二特征值中的小于预定阈值的第二特征值设置为零以生成第二特征图。作为一个示例,偏置值各不相同,且各预定阈值基于各偏置值确定,即,该多个预定阈值可分别与多个偏置值一一对应。具体地,分别与各偏置值对应的第二特征值分别与不同的对应阈值作比较,并且将小于对应阈值的语义特征值设为零。以上过程可以由如下公式描述:
x ^ n , i = σ ( x n , i + b n , k ) - - - ( 1 )
其中,n代表第一特征图211的序号,i表示第一特征图211中的元素序号,表示第n个第二特征图的第i个叠加了偏置值的元素的语义特征值,xn,i表示第n个第一特征图的第i个未叠加偏置值的元素的语义特征值,σ表示激活操作,bn,k表示为第n个第一特征图设置的第k个偏置值。在激活层使用ReLU的情况下,激活操作σ的逻辑可以表示为:
若xn,i≤-bn,k,则
若xn,i>-bn,k,则
以上所示的特征图分解层220也称为多偏置值非线性激活层(Multi-bias Non-linear Activation Layer)。
随后,更新每个第二特征图以增强每个第二特征图中各第二特征值之间的差异性。具体地,从特征图分解层220输出的多个第二特征图224、225、226等可输入至特征增强层230。特征增强层230与特征图分解层220联接并且包括多个第二筛选器(未示出)。在特征增强层230中,通过将各第二特征图与第二筛选器进行卷积,从而更新各第二特征图,进而增强该多个第二特征图224、225、226等中每个第二特征图中的各第二特征值之间的差异性。
在一些可选的实现方式中,可将经差异性增强后的多个第二特征图线性地合并为一个特征图,如图2所示的第三特征图231。该过程可由如下公式描述:
h m = Σ n = 1 N Σ k = 1 K w m , n , k x ^ n , k - - - ( 2 )
其中hm表示从特征增强层230中的第m个第二筛选器输出的第三特征图。表示求和遍及累计K个第二特征图,表示求和累计N个第一特征图(即,特征提取层210的最后一级筛选层的筛选器的数目)。
Wm,n,k表示从特征图分解层220输出的第n,k个特征图到特征增强层230的第m个第二筛选器的映射权重,表示从特征图分解层220输出的第n,k个第二特征图。
需要说明的是,尽管图2中仅示出了一个第一特征图211,但是如本领域普通技术人员所理解的以及如在上文中所描述的,第一特征图211可具有任意的数量,该数量取决于特征提取层210的最后一级筛选层中的筛选器的数目。为了更清晰地描述公式(2)所描述的将第二特征图合并为第三特征图231的过程,以下将公式(2)展开为针对特征图中每个元素的如下公式(3):
h m , j = Σ n = 1 N Σ k = 1 K Σ i = 1 W H w m , n , k , i , j x ^ n , k , i - - - ( 3 )
其中hm,j表示从特征增强层230中的第m个第二筛选器输出的第三特征图231的第j个元素,wm,n,k,i,j表示从特征图分解层220输出的第n,k个特征图的第i个元素到特征增强层230的第m个第二筛选器的第j个元素的映射权重,表示从特征图分解层220输出的第n,k个第二特征图的第i个元素。
如果将公式(1)代入公式(3),则可更清晰地得到从第一特征图211到第三特征图231的完整映射过程,如以下公式(4)所示:
h m , j = Σ i = 1 W H Σ n = 1 N Σ k = 1 K w m , n , k , j , i σ ( x n , i + b n , k ) , = Σ i = 1 W H Σ n = 1 N w m , n , j , i ′ Σ k = 1 K a m , n , k , j , i σ ( x n , i + b n , k ) = Σ i = 1 W H Σ n = 1 N w m , n , j , i ′ u m , n , j , i , - - - ( 4 )
公式(4)中,w′m,n,j,i和um,n,j,i可由如下公式(5)来表示:
w m , n , k , j , i = Δ w m , n , j , i ′ a m , n , k , j , i ,
u m , n , j , i = Δ Σ k = 1 K a m , n , k , j , i σ ( x n , i + b n , k ) - - - ( 5 )
以上公式描述了从n个第一特征图到第n×k个第二特征图的映射以及最终到第m个第三特征图的映射。在特征增强层230中,可通过对映射权重以及偏置值的训练来增强用于将多个对象区分开的语义特征之间的差异性。
最后,基于更新后的第二特征图对多个对象进行分类。具体地,根据更新后的第二特征图评估图像中的多个对象分别属于预定种类的概率值;以及将各对象划分到具有最大概率值的预定种类中。更具体地,首先,将更新的各第二特征图输入至分类层。参照图2,将从特征增强层230输出的更新后的第二特征图(例如,图2所示的第三特征图231,但本申请不限于此)输入至与特征增强层230联接的分类层240。在分类层240中,系统将根据更新后的第二特征图评估图像中的多个对象分别属于预定种类的概率值,然后将各对象划分到具有最大概率值的预定种类中。
需要说明的是,尽管图2示意性地示出了在特征增强层230中将更新后的各第二特征图线性合并成为第三特征图再将第三特征图输入至分类层240进行分类,但这仅是示意性的。在一些应用场景中,可以由分类层240来将更新后的各第二特征图线性合并成为第三特征图,并根据第三特征图来对多个对象进行分类。
例如,在分类层240中,对象241得到如下评估结果:
桌子——概率0.6;
椅子——概率0.2;
沙发——概率0.1;
其它种类——概率0.1。
则对象241可被划分到桌子的种类中。在这里,对象及种类应以宽泛的概念来理解,而不应被解释为过于概念化或过于形式化的意义。例如,CNN架构200可在不同级别上对对象进行分类,例如仅仅将前景与背景进行分类、对不同的物种进行分类、对不同的人进行分类(例如分类为成年男子、成年女子、男童、女童等)、以及对人的不同器官进行分类。
如本领域普通技术人员所理解的,CNN架构200在使用前需要用训练过程来对各个层(特征提取层210、特征图分解层220、特征增强层230、分类层240等)进行训练来优化各个层的参数从而能够满足实际的图像识别(例如,对象分类)的应用。
通过参照图2的CNN架构200实现的描述可以看出,采用本实施例的方法后,可减少对特征提取层210中的第一筛选器的数量的需求。具体地,通过使用特征图分解层220可将从特征提取层210中过滤提取的各第一特征图211分解为多个子特征图(即第二特征图224、225、226等)。在将各第一特征图211分解为多个子特征图的过程中,分别引入了多个不同的偏置值及阈值,从而在随后的激活过程中既通过该不同的阈值分别过滤掉后续处理中非必要的语义特征值,又尽可能地避免了仅引入一个阈值所带来的有效数据的大量损失。通过这种方式,既过滤掉了噪音或背景信号从而增强了有用的语义特征,又保留了足够多的有用信息。这样能够在使用较少的第一特征图的前提下将图像中用于区分不同对象的语义特征区分开,从而降低了计算负担,提高了处理速度。
图3示意性地示出了根据本申请实施方式的对图像中的多个对象进行分类的系统300。在该实施方式中,系统300可包括:特征提取器310、偏置器320、特征强化器330和分类器340。
其中,特征提取器310可用于过滤图像以生成第一特征图,第一特征图包括用于表征各对象的语义特征的第一特征值。
偏置器320可用于根据第一特征图和多个偏置值生成多个第二特征图,其中,每个第二特征图包括与经一偏置值偏置处理的各第一特征值分别对应的多个第二特征值。
特征强化器330可用于更新每个第二特征图以增强每个第二特征图中各第二特征值之间的差异性。
分类器340可用于根据更新后的第二特征图对多个对象进行分类。
在一些可选的实现方式中,分类器340可进一步包括评估单元341和划分单元342。
其中,评估单元341可用于根据更新后的各第二特征图评估图像中的多个对象分别属于预定种类的概率值。
划分单元342可用于将各对象分别划分到具有最大概率值的预定种类中。
在另一些可选的实现方式中,分类器340还可以进一步包括合并单元(图中未示出)和分类单元(图中未示出)。
其中,合并单元可用于将更新后的各第二特征图线性合并为第三特征图。
分类单元可用于根据第三特征图对多个对象进行分类。
在一些可选的实现方式中,偏置器320可用于将多个偏置值中的每个偏置值分别与第一特征图中的各第一特征值叠加,来生成各第二特征图。
或者,在另一些可选的实现方式中,偏置器320还可以在将多个偏置值中的每个偏置值分别与第一特征图中的各第一特征值叠加之后,再将各第二特征图中的小于预定阈值的第二特征值设置为零,从而生成各个第二特征图。在一些可选的实现方式中,各偏置值可各不相同,且各预定阈值可基于各偏置值确定。
在一些可选的实现方式中,特征强化器330可进一步用于调整至少一对象的至少一语义特征以增强至少一第二特征图中各第二特征值之间的差异性。
在一些可选的实现方式中,本实施例的系统300可通过如参照图2所描述的CNN架构200来实施。
具体地,特征提取器310可进一步包括第一输入单元311和第一卷积单元312。
其中,第一输入单元311可用于将图像输入至卷积神经网络的特征提取层。
第一卷积单元312可用于在特征提取层中使用第一筛选器与图像进行卷积从而生成第一特征图;其中,通过卷积的操作,第一筛选器增强与第一筛选器对应的第一特征值而压低第一语义特征值。
在一些可选的实现方式中,偏置器320可以进一步包括第二输入单元321、叠加单元322、确定单元323以及生成单元324。
其中,第二输入单元321可用于将第一特征图输入至特征图分解层。
叠加单元322可用于将多个偏置值中的每个偏置值分别与第一特征图中的各第一特征值叠加。
确定单元323可用于根据各偏置值确定预定阈值。
生成单元324可用于将小于预定阈值的第二特征值设置为零以生成第二特征图。
在一些可选的实现方式中,特征强化器330可以进一步包括第三输入单元331和第二卷积单元332。
其中,第三输入单元331可用于将多个第二特征图输入至特征增强层。
第二卷积单元332可用于在特征增强层中使用第二筛选器与各第二特征图进行卷积,从而更新各第二特征图以增强各第二特征值之间的差异性。其中,第二筛选器用于对第二特征图中的其中一个语义特征进行增强。
在一些可选的实现方式中,分类器340还可以进一步包括第四输入单元343。
第四输入单元343可用于将更新后的各第二特征图输入至分类层。
相应地,评估单元341可进一步用于根据输入至分类层的更新后的第二特征图评估图像中的多个对象分别属于预定种类的概率值。
如本领域普通技术人员所理解的,上述系统300的特征提取器310、偏置器320、特征强化器330和分类器340可使用集成电路(IC)的形式实施,该集成电路包括但不限于数字信号处理器、图形处理集成电路、影像处理集成电路以及音频处理集成电路等。本领域普通技术人员在本申请所提供的教导下可以知晓通过使用何种硬件或软件的形式来实施系统300。例如,可采用存储有计算机可执行指令的存储介质的形式来实施本申请,该计算机可执行指令分别实现上述的特征提取器310、偏置器320、特征强化器330和分类器340,从而通过计算机运行而实现它们各自的上述功能。也可采用计算机系统来实施本申请的系统300,其中该计算机系统中包括存储有计算机可执行指令的存储器以及与存储器通信的处理器,处理器运行该可执行指令从而实现上述对特征提取器310、偏置器320、特征强化器330和分类器340所描述的功能,以及本申请中所提供的如图1所示的方法100。
下面参考图4,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统400的结构示意图。
如图4所示,计算机系统400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的可执行指令或者从存储部分408加载到随机访问存储器(RAM)403中的可执行指令而执行各种适当的动作和处理。中央处理单元可与只读存储器402和/或随机访问存储器430中通信以执行可执行指令从而完成以下操作:过滤图像以生成第一特征图,第一特征图包括用于表征各对象的语义特征的第一特征值;根据第一特征图和多个偏置值生成多个第二特征图,其中,每个第二特征图包括与经一偏置值偏置处理的各第一特征值分别对应的多个第二特征值;更新每个第二特征图以增强每个第二特征图中各第二特征值之间的差异性;以及根据更新后的各第二特征图对多个对象进行分类。
此外,在RAM 403中,还可存储有系统400操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的方法中限定的上述功能。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质用于存储计算机可读取的指令。所述指令包括:过滤图像以生成第一特征图的指令,第一特征图包括用于表征各对象的语义特征的第一特征值;根据第一特征图和多个偏置值生成多个第二特征图的指令,每个第二特征图包括与经一偏置值偏置处理的各第一特征值分别对应的多个第二特征值;更新每个第二特征图以增强每个第二特征图中各第二特征值之间的差异性的指令;以及根据更新后的各第二特征图对多个对象进行分类的指令。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种用于对图像中的多个对象进行分类的方法,其特征在于,包括:
过滤所述图像以生成第一特征图,所述第一特征图包括用于表征各所述对象的语义特征的第一特征值;
根据所述第一特征图和多个偏置值生成多个第二特征图,其中,每个所述第二特征图包括与经一偏置值偏置处理的各第一特征值分别对应的多个第二特征值;
更新每个所述第二特征图以增强每个所述第二特征图中各所述第二特征值之间的差异性;以及
根据更新后的各所述第二特征图对所述多个对象进行分类。
2.根据权利要求1所述的方法,其特征在于,所述根据更新后的第二特征图对所述多个对象进行分类包括:
根据更新后的各第二特征图评估所述图像中的多个对象分别属于预定种类的概率值;以及
将各所述对象分别划分到具有最大概率值的预定种类中。
3.根据权利要求1所述的方法,其特征在于,所述根据更新后的各第二特征图对所述多个对象进行分类包括:
将更新后的各第二特征图线性合并为第三特征图;以及
根据所述第三特征图对所述多个对象进行分类。
4.根据权利要求1-3任一所述的方法,其特征在于,根据所述第一特征图和多个偏置值生成多个第二特征图,包括:
将多个偏置值中的每个偏置值分别与所述第一特征图中的各第一特征值叠加。
5.根据权利要求1-4任一所述的方法,其特征在于,所述根据所述第一特征图中的各所述第一特征值和多个偏置值生成与各所述偏置值相对应的第二特征图包括:
将各所述第二特征图中的小于预定阈值的第二特征值设置为零。
6.一种用于对图像中的多个对象进行分类的系统,其特征在于,包括:
特征提取器,用于过滤所述图像以生成第一特征图,所述第一特征图包括用于表征各所述对象的语义特征的第一特征值;
偏置器,用于根据所述第一特征图和多个偏置值生成多个第二特征图,其中,每个所述第二特征图包括与经一偏置值偏置处理的各第一特征值分别对应的多个第二特征值;
特征强化器,用于更新每个所述第二特征图以增强每个所述第二特征图中各所述第二特征值之间的差异性;以及
分类器,用于根据更新后的各所述第二特征图对所述多个对象进行分类。
7.根据权利要求6所述的系统,其特征在于,所述分类器包括:
评估单元,用于根据更新后的各所述第二特征图评估所述图像中的多个对象分别属于预定种类的概率值;以及
划分单元,用于将各所述对象分别划分到具有最大概率值的预定种类中。
8.根据权利要求6所述的系统,其特征在于,所述分类器包括:
合并单元,用于将更新后的各第二特征图线性合并为第三特征图;以及
分类单元,用于根据所述第三特征图对所述多个对象进行分类。
9.根据权利要求6-8任一所述的系统,其特征在于,所述偏置器用于:
将多个偏置值中的每个偏置值分别与所述第一特征图中的各第一特征值叠加。
10.一种计算机系统,其特征在于,包括:
存储器,存储可执行指令;
一个或多个处理器,与存储器通信以执行可执行指令从而完成以下操作:
过滤所述图像以生成第一特征图,所述第一特征图包括用于表征各所述对象的语义特征的第一特征值;
根据所述第一特征图和多个偏置值生成多个第二特征图,其中,每个所述第二特征图包括与经一偏置值偏置处理的各第一特征值分别对应的多个第二特征值;
更新每个所述第二特征图以增强每个所述第二特征图中各所述第二特征值之间的差异性;以及
根据更新后的各所述第二特征图对所述多个对象进行分类。
CN201610430103.0A 2016-06-16 2016-06-16 对图像中的多个对象进行分类的方法和系统、计算机系统 Pending CN106127208A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610430103.0A CN106127208A (zh) 2016-06-16 2016-06-16 对图像中的多个对象进行分类的方法和系统、计算机系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610430103.0A CN106127208A (zh) 2016-06-16 2016-06-16 对图像中的多个对象进行分类的方法和系统、计算机系统

Publications (1)

Publication Number Publication Date
CN106127208A true CN106127208A (zh) 2016-11-16

Family

ID=57469594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610430103.0A Pending CN106127208A (zh) 2016-06-16 2016-06-16 对图像中的多个对象进行分类的方法和系统、计算机系统

Country Status (1)

Country Link
CN (1) CN106127208A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578055A (zh) * 2017-06-20 2018-01-12 北京陌上花科技有限公司 一种图像预测方法和装置
CN108108738A (zh) * 2017-11-28 2018-06-01 北京达佳互联信息技术有限公司 图像处理方法、装置及终端
CN109558781A (zh) * 2018-08-02 2019-04-02 北京市商汤科技开发有限公司 一种多视角视频识别方法及装置、设备和存储介质
WO2020029708A1 (zh) * 2018-08-07 2020-02-13 深圳市商汤科技有限公司 图像处理方法和装置、电子设备、存储介质、程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006055413A3 (en) * 2004-11-11 2007-02-01 Univ Columbia Methods and systems for identifying and localizing objects based on features of the objects that are mapped to a vector
CN104077599A (zh) * 2014-07-04 2014-10-01 西安电子科技大学 基于深度神经网络的极化sar图像分类方法
CN104156736A (zh) * 2014-09-05 2014-11-19 西安电子科技大学 基于sae和idl的极化sar图像分类方法
CN105046268A (zh) * 2015-06-18 2015-11-11 西安电子科技大学 基于Wishart深度网络的极化SAR图像分类方法
CN105631480A (zh) * 2015-12-30 2016-06-01 哈尔滨工业大学 一种基于多层卷积网络与数据重组折叠的高光谱数据分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006055413A3 (en) * 2004-11-11 2007-02-01 Univ Columbia Methods and systems for identifying and localizing objects based on features of the objects that are mapped to a vector
CN104077599A (zh) * 2014-07-04 2014-10-01 西安电子科技大学 基于深度神经网络的极化sar图像分类方法
CN104156736A (zh) * 2014-09-05 2014-11-19 西安电子科技大学 基于sae和idl的极化sar图像分类方法
CN105046268A (zh) * 2015-06-18 2015-11-11 西安电子科技大学 基于Wishart深度网络的极化SAR图像分类方法
CN105631480A (zh) * 2015-12-30 2016-06-01 哈尔滨工业大学 一种基于多层卷积网络与数据重组折叠的高光谱数据分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HONGYANG LI ET AL.: "Multi-Bias Non-linear Activation in Deep Neural Network", 《ARXIV》 *
付鹏 等: "利用红外特征和Softmax回归识别绝缘子污秽等级", 《计算机工程与应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578055A (zh) * 2017-06-20 2018-01-12 北京陌上花科技有限公司 一种图像预测方法和装置
CN107578055B (zh) * 2017-06-20 2020-04-14 北京陌上花科技有限公司 一种图像预测方法和装置
CN108108738A (zh) * 2017-11-28 2018-06-01 北京达佳互联信息技术有限公司 图像处理方法、装置及终端
CN108108738B (zh) * 2017-11-28 2018-11-16 北京达佳互联信息技术有限公司 图像处理方法、装置及终端
CN109558781A (zh) * 2018-08-02 2019-04-02 北京市商汤科技开发有限公司 一种多视角视频识别方法及装置、设备和存储介质
WO2020029708A1 (zh) * 2018-08-07 2020-02-13 深圳市商汤科技有限公司 图像处理方法和装置、电子设备、存储介质、程序产品

Similar Documents

Publication Publication Date Title
Lundberg et al. A unified approach to interpreting model predictions
CN106504064A (zh) 基于深度卷积神经网络的服装分类与搭配推荐方法及系统
CN108764471A (zh) 基于特征冗余分析的神经网络跨层剪枝方法
CN107169454A (zh) 一种人脸图像年龄估算方法、装置及其终端设备
CN108805188A (zh) 一种基于特征重标定生成对抗网络的图像分类方法
CN106503654A (zh) 一种基于深度稀疏自编码网络的人脸情感识别方法
CN106845529A (zh) 基于多视野卷积神经网络的影像特征识别方法
CN106127208A (zh) 对图像中的多个对象进行分类的方法和系统、计算机系统
CN106796668A (zh) 用于人工神经网络中比特深度减少的方法和系统
CN107944556A (zh) 基于块项张量分解的深度神经网络压缩方法
CN110428045A (zh) 基于Tucker算法的深度卷积神经网络压缩方法
CN107766794A (zh) 一种特征融合系数可学习的图像语义分割方法
CN108256651A (zh) 用于对数据进行量子处理的方法
CN107301400A (zh) 一种语义导向的半监督视频对象分割方法
WO2019102984A1 (ja) 学習装置及び学習方法、識別装置及び識別方法、プログラム並びに記録媒体
CN106897404A (zh) 一种基于多gru层神经网络的推荐方法与系统
CN106485259A (zh) 一种基于高约束高分散主成分分析网络的图像分类方法
CN109711401A (zh) 一种基于Faster Rcnn的自然场景图像中的文本检测方法
DE102016011527B4 (de) Maschinenlernvorrichtung und Verfahren zum Lernen einer Anordungsposition eines Magneten in einem Rotor und Rotordesignvorrichtung, die die Maschinenlernvorrichtung umfasst
CN107392155A (zh) 基于多目标优化的稀疏受限玻尔兹曼机的手写体识别方法
CN108268890A (zh) 一种高光谱图像分类方法
CN112508190A (zh) 结构化稀疏参数的处理方法、装置、设备及存储介质
CN112101364A (zh) 基于参数重要性增量学习的语义分割方法
CN107885754B (zh) 基于lda模型从交易数据中提取信用变量的方法和装置
DE102022105808A1 (de) Effiziente quantisierung für eine bereitstellung und ausführung von neuronalen netzen

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161116