CN106886781B - 物体识别方法及装置 - Google Patents

物体识别方法及装置 Download PDF

Info

Publication number
CN106886781B
CN106886781B CN201610940596.2A CN201610940596A CN106886781B CN 106886781 B CN106886781 B CN 106886781B CN 201610940596 A CN201610940596 A CN 201610940596A CN 106886781 B CN106886781 B CN 106886781B
Authority
CN
China
Prior art keywords
image
image area
label
labeled
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610940596.2A
Other languages
English (en)
Other versions
CN106886781A (zh
Inventor
何凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010157201.8A priority Critical patent/CN111523552A/zh
Priority to CN201610940596.2A priority patent/CN106886781B/zh
Publication of CN106886781A publication Critical patent/CN106886781A/zh
Application granted granted Critical
Publication of CN106886781B publication Critical patent/CN106886781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/513Sparse representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供物体识别方法及装置,所述方法包括:对待识别的图像进行区域划分,得到图像区域集合;将所述图像区域集合输入预设的物体识别模型中;其中,所述物体识别模型基于空间视觉上下文信息和语义上下文信息构建而成;在所述物体识别模型中对所述图像区域集合中每一个图像区域进行标签推理;将所述标签推理得出的概率最大的物体标签集合中的物体标签一一标注给对应的图像区域。应用本申请实施例,可以实现提高物体识别的准确率。

Description

物体识别方法及装置
技术领域
本申请涉及图像识别技术领域,尤其涉及物体识别方法及装置。
背景技术
物体识别技术,广泛应用于例如,在搜索场景中,用户对某一物体拍照后,通过物体识别技术搜索该物体或者类似物体的信息展示;再例如,在购物场景中,用户对某一物体拍照后,通过物体识别技术搜索该物体或者类似物体供用户选择购买。
现有技术中,物体识别主要是通过将待识别图像进行区域划分,得到若干图像区域,每个待识别图像的区域划分结果构成一个图像区域集合;提取每个图像区域的特征,并根据预先通过机器学习算法构建的物体识别模型分别对每个图像区域进行物体识别,这一识别过程通常可以称之为标签推理。为了提高物体识别的准确率,一般可以通过以下方式:
第一,通过挖掘图像区域中更有效的特征,来提高识别的准确率。例如使用深度学习(deep-learning)提取出的特征比尺度不变特征变换(Scale-invariant featuretransform,SIFT)提取的特征更加有效。这样,可以避免不是很有效的特征在识别过程中所引起的干扰。
第二,通过空间视觉上下文信息来提高识别的准确率。所述空间识别上下文信息所基于的假设为:在相邻图像区域之间,属于同一个物体的可能性较大。例如,在识别当前图像区域i时,可以参考其相邻图像区域j,假设相邻图像区域j被标注为牛,那么当前图像区域i同样被标注为牛的可能性要比其它物体要高的多。这样的方式也被称为标签平滑。
然而,这些方式虽然可以部分提高物体识别的准确率,但是整体上物体识别的准确率依然不是很理想,尤其是当图像中内容较为复杂,包含的物体较多的情况下,采用现有技术中物体识别方法的准确率经常无法满足应用需求。
发明内容
本申请提供一种物体识别方法及装置,以解决现有技术中存在的物体识别的准确率不高的问题。
根据本申请实施例提供的一种物体识别方法,所述方法包括:
对待识别的图像进行区域划分,得到图像区域集合;
将所述图像区域集合输入预设的物体识别模型中;其中,所述物体识别模型基于空间视觉上下文信息和语义上下文信息构建而成;
在所述物体识别模型中对所述图像区域集合中每一个图像区域进行标签推理;
将所述标签推理得出的概率最大的物体标签集合中的物体标签一一标注给对应的图像区域。
可选的,所述物体识别模型包括条件随机场、马尔科夫随机场或稀疏编码模型。
可选的,所述条件随机场模型为:
Figure BDA0001139599300000021
其中,Z是预设的归一化常数;
Figure BDA0001139599300000022
是图像区域的特征和被判断物体之间关系的点势函数;所述
Figure BDA0001139599300000023
是基于空间视觉上下文信息的边势函数;
Figure BDA0001139599300000024
是基于语义上下文信息的边势函数;S是图像区域集合;R是图像区域i相邻的图像区域j的集合;C是物体k、p之间具有共现关系的集合;X是所有图像区域的特征集合;
Figure BDA0001139599300000031
是图像区域i被标注为物体k的标签值;
Figure BDA0001139599300000032
是图像区域j被标注为物体k的标签值;
Figure BDA0001139599300000033
是图像I被标注为物体p的标签值。
可选的,所述图像区域的特征和被判断物体之间关系的点势函数如下公式所示:
Figure BDA0001139599300000034
其中,λk,αk是点势函数上的参数;
Figure BDA0001139599300000035
是图像区域i被标注为物体k的标签值;
Figure BDA0001139599300000036
是物体k出现在图像区域i中的概率值。
可选的,所述基于空间视觉上下文信息的边势函数如下公式所示:
Figure BDA0001139599300000037
其中,
Figure BDA0001139599300000038
是该边势函数上的参数;
Figure BDA0001139599300000039
是图像区域i被标注为物体k的标签值;
Figure BDA00011395993000000310
是图像区域j被标注为物体k的标签值;
Figure BDA00011395993000000311
是物体k出现在图像区域j中的概率值;sim(xi,xj)=exp(-dist(xi,xj)),其中,dist(xi,xj)是图像特征xi,xj之间的欧式距离值。
可选的,所述基于语义上下文信息的边势函数如下公式所示:
Figure BDA00011395993000000312
其中,εkp是该边势函数上的参数,
Figure BDA00011395993000000313
是图像区域i被标注为物体k的标签值;
Figure BDA00011395993000000314
是图像I被标注为物体p的标签值;cor(k,p)=μ·occur(k,p),其中,μ是平滑参数;occur(k,p)是物体k与p之间的共现频率;
Figure BDA00011395993000000315
是物体p出现在图像I中的概率值。
可选的,所述归一化常数通过最优化算法进行迭代求解。
可选的,所述最优化算法包括投影梯度下降算法。
可选的,所述在所述物体识别模型中对所输入的图像区域集合中每一个图像区域进行标签推理,具体包括:
根据图像区域的特征和被判断物体,计算得出该图像区域的第一概率值;
根据图像区域和相邻图像区域之间特征的相似度进行标签平滑处理,计算得出该图像区域的第二概率值;
根据图像区域的被判断物体和相邻图像区域被标注的物体,从语义概念集合中获取这两个物体之间的共现频率,计算该图像区域的第三概率值;
根据所述第一概率值、第二概率值和第三概率值,计算得出该图像区域联合的概率值。
可选的,所述标签推理通过迭代算法进行。
可选的,所述迭代算法包括ICM(iterated conditional mode)算法。
根据本申请实施例提供的一种物体识别装置,所述装置包括:
划分单元,对待识别的图像进行区域划分,得到图像区域集合;
输入单元,将所述图像区域集合输入预设的物体识别模型中;其中,所述物体识别模型基于空间视觉上下文信息和语义上下文信息构建而成;
识别单元,在所述物体识别模型中对所述图像区域集合中每一个图像区域进行标签推理;
标注单元,将所述标签推理得出的概率最大的物体标签集合中的物体标签一一标注给对应的图像区域。
可选的,所述物体识别模型包括条件随机场、马尔科夫随机场或稀疏编码模型。
可选的,所述条件随机场模型为:
Figure BDA0001139599300000041
其中,Z是预设的归一化常数;
Figure BDA0001139599300000042
是图像区域的特征和被判断物体之间关系的点势函数;所述
Figure BDA0001139599300000043
是基于空间视觉上下文信息的边势函数;
Figure BDA0001139599300000044
是基于语义上下文信息的边势函数;S是图像区域集合;R是图像区域i相邻的图像区域j的集合;C是物体k、p之间具有共现关系的集合;X是所有图像区域的特征集合;
Figure BDA0001139599300000045
是图像区域i被标注为物体k的标签值;
Figure BDA0001139599300000051
是图像区域j被标注为物体k的标签值;
Figure BDA0001139599300000052
是图像I被标注为物体p的标签值。
可选的,所述图像区域的特征和被判断物体之间关系的点势函数如下公式所示:
Figure BDA0001139599300000053
其中,λk,αk是点势函数上的参数;
Figure BDA0001139599300000054
是图像区域i被标注为物体k的标签值;
Figure BDA0001139599300000055
是物体k出现在图像区域i中的概率值。
可选的,所述基于空间视觉上下文信息的边势函数如下公式所示:
Figure BDA0001139599300000056
其中,
Figure BDA0001139599300000057
是该边势函数上的参数;
Figure BDA0001139599300000058
是图像区域i被标注为物体k的标签值;
Figure BDA0001139599300000059
是图像区域j被标注为物体k的标签值;
Figure BDA00011395993000000510
是物体k出现在图像区域j中的概率值;sim(xi,xj)=exp(-dist(xi,xj)),其中,dist(xi,xj)是图像特征xi,xj之间的欧式距离值。
可选的,所述基于语义上下文信息的边势函数如下公式所示:
Figure BDA00011395993000000511
其中,εkp是该边势函数上的参数,
Figure BDA00011395993000000512
是图像区域i被标注为物体k的标签值;
Figure BDA00011395993000000513
是图像I被标注为物体p的标签值;cor(k,p)=μ·occur(k,p),其中,μ是平滑参数;occur(k,p)是物体k与p之间的共现频率;
Figure BDA00011395993000000514
是物体p出现在图像I中的概率值。
可选的,所述归一化常数通过最优化算法进行迭代求解。
可选的,所述最优化算法包括投影梯度下降算法。
可选的,所述识别单元,具体包括:
第一计算子单元,根据图像区域的特征和被判断物体,计算得出该图像区域的第一概率值;
第二计算子单元,根据图像区域和相邻图像区域之间特征的相似度进行标签平滑处理,计算得出该图像区域的第二概率值;
第三计算子单元,根据图像区域的被判断物体和相邻图像区域被标注的物体,从语义概念集合中获取这两个物体之间的共现频率,计算该图像区域的第三概率值;
第四计算子单元,根据所述第一概率值、第二概率值和第三概率值,计算得出该图像区域联合的概率值。
可选的,所述标签推理通过迭代算法进行。
可选的,所述迭代算法包括ICM(iterated conditional mode)算法。
本申请实施例中,对待识别的图像进行区域划分,得到图像区域集合;将所述图像区域集合输入预设的物体识别模型中;其中,所述物体识别模型基于空间视觉上下文信息和语义上下文信息构建而成;在所述物体识别模型中对所述图像区域集合中每一个图像区域进行标签推理;将所述标签推理得出概率最大的物体标签标注给对应的图像区域。如此,通过预先基于空间视觉上下文信息和语义上下文信息构建而成的物体识别模型,不仅采取标签平滑处理这种基于空间视觉上下文信息的方式来提高物体识别的准确率;还进一步的,结合语义上下文信息来提高物体识别的准确率,所述语义上下文信息为在语义概念集合中,频繁共现的物体之间,当其中一个出现在待识别图像中时,另一个物体出现的可能性要比其它物体出现的可能性更高。
附图说明
图1是本申请一实施例提供的物体识别方法的流程图;
图2是本申请提供的图像区域划分的示意图;
图3是本申请提供的对图像区域进行物体识别的示意图;
图4是本申请一实施例提供的物体识别方法的流程图;
图5是本申请一实施例提供的物体识别装置所在设备的一种硬件结构图;
图6是本申请一实施例提供的物体识别装置的模块示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为了解决前述物体识别准确率不高的问题,请参见图1,为本申请一实施例提供的物体识别方法的流程图,包括以下步骤:
步骤110:将待识别的图像进行区域划分,得到图像区域的集合。
本实施例中,通过将待识别的图像进行区域划分,得到若干图像区域,每个待识别图像的区域划分结果构成一个图像区域集合。所述区划划分可以是通过预设规则进行划分的。所述预设规则可以是人为预先设置的。
例如,根据预设边长(预设规则),将所述待识别的图像划分为若干个大小相同的矩形区域,从而到划分后的图像区域集合。
如图2所述的区域划分示意图中,一个待识别的图像100,根据预设边长将其进行区域划分,从而得到图像区域的集合S={1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16};每一个集合中的元素对应了一个图像区域。
通常,一个图像中可能存在有多种物体,通过将识别的图像进行区域划分后,使得划分后的每个图像区域相对独立,避免图像中不同物体之间可能造成的干扰。
步骤120:将所述图像区域集合输入预设的物体识别模型中;其中,所述物体识别模型基于空间视觉上下文信息和语义上下文信息构建而成。
本实施例中,物体识别一般可以是基于物体识别模型来实现的,所述物体识别模型主要是通过机器学习算法并基于大量模型训练得出的。在本实施例中,所述物体识别模块主要可以包括例如条件随机场(conditional random field,CRF)、稀疏编码(sparsecoding)、马尔科夫随机场(markov random field,MRF)等模型。
以下通过条件随机场模型为例加以说明。
所述条件随机场是一种判别式概率模型。所述条件随机场模型主要是借助了能量函数(energy function),所述能量函数可以包括多种势函数,例如点势函数(sitepotential)、边势函数(edge potantial)。
所述能量函数通过模拟现实中能量越低,物质越稳定;能量越高,物质越不稳定的现象,在势函数中,势函数的值越低,代表越稳定,而构建的模型的整体概率值则越高。
本实施例中,所述条件随机场模型的联合概率可以写作若干个势函数联乘的形式的公式。
在本实施例中,所述条件随机场模型主要为如下公式1所示:
Figure BDA0001139599300000081
其中,Z是预设的归一化常数;
Figure BDA0001139599300000091
是图像区域的特征和被判断的物体之间关系的点势函数(site potential);所述
Figure BDA0001139599300000092
是基于空间视觉上下文信息的边势函数(edge potantial);
Figure BDA0001139599300000093
是基于语义上下文信息的边势函数(edgepotential);S是图像区域集合;R是图像区域i相邻的图像区域j的集合;C是物体k、p之间具有共现关系的集合;X是所有图像区域的特征集合;
Figure BDA0001139599300000094
是图像区域i被标注为物体k的标签值;
Figure BDA0001139599300000095
是图像区域j被标注为物体k的标签值;
Figure BDA0001139599300000096
是图像I被标注为物体p的标签值。
需要说明的是,上述标签值为真假两个值;例如+1代表真,-1代表假。举例说明,假设
Figure BDA0001139599300000097
的标签值为-1,则说明图像区域i被标注为物体k为假。
所述图像区域i相邻的图像区域j的集合R,如图2所示的图像区域集合S中,假设图像区域i为7,则相邻的图像区域j包括3、6、8、11,即图像区域7相邻的图像区域的集合R为{3、6、8、11}。
所述物体k、p之间具有共现关系的集合C,为本申请实施例中预先构建的一个语义概率库,反映了频繁共现的物体之间的关系,体现为两个物体之间同时出现在图像中的次数,即共现频率。如果某两个物体k,p同时在同一图像中出现一次,则在所述集合C中,将所述物体k,p之间的共现频率加1。随着模型训练次数的不断增加,该集合C可以越来越丰富。
本实施例中,如前公式1所示,所述图像区域的特征和被判断的语义概念的点势函数
Figure BDA0001139599300000098
具体可以如下公式2所示:
Figure BDA0001139599300000099
其中,λk,αk是点势函数上的参数;
Figure BDA00011395993000000910
与前述相同是图像区域i被标注为物体k的标签值;
Figure BDA00011395993000000911
是物体k出现在图像区域i中的概率值。
具体地,
Figure BDA00011395993000000912
可以表示图像区域i被标注为物体k的概率值,可以通过逻辑斯特回归(logistic regression)进行求解,即:
Figure BDA00011395993000000913
Figure BDA0001139599300000101
其中,xi是图像区域i的特征;γk0
Figure BDA0001139599300000102
是参数。
本实施例中,如前公式1所示,所述基于空间视觉上下文信息的边势函数
Figure BDA0001139599300000103
具体可以如下公式4所示:
Figure BDA0001139599300000104
其中,
Figure BDA0001139599300000105
是该边势函数上的参数;
Figure BDA0001139599300000106
是图像区域i被标注为物体k的标签值;
Figure BDA0001139599300000107
是图像区域j被标注为物体k的标签值;
Figure BDA0001139599300000108
是物体k出现在图像区域j中的概率值;sim(xi,xj)=exp(-dist(xi,xj)),其中,dist(xi,xj)是图像特征xi,xj之间的欧式距离值。
具体地,
Figure BDA0001139599300000109
与上述公式3类似,可以表示图像区域j被标注为物体k的概率值,可以通过逻辑斯特回归(logistic regression)进行求解,即:
Figure BDA00011395993000001010
其中,xj是图像区域j的特征;γk0
Figure BDA00011395993000001011
是参数。
本实施例中,如前公式1所示,所述基于语义上下文信息的边势函数
Figure BDA00011395993000001012
具体可以如下公式6所示:
Figure BDA00011395993000001013
其中,εkp是该边势函数上的参数,
Figure BDA00011395993000001014
是图像区域i被标注为物体k的标签值;
Figure BDA00011395993000001015
是图像I被标注为物体p的标签值;cor(k,p)=μ·occur(k,p),其中,μ是平滑参数;occur(k,p)是物体k与p之间的共现频率;
Figure BDA00011395993000001016
是物体p出现在图像I中的概率值。
所述物体k与p之间的共现频率,如前所述为物体之间具有共现关系的集合C中记录的物体k,p同时出现在图像中的次数。
Figure BDA0001139599300000111
可以表示图像I中标注了物体p的图像区域的概率平均值:
Figure BDA0001139599300000112
其中,I是整个的图像;
Figure BDA0001139599300000113
是图像区域j被标注为物体p的标签值;σ(·)是指示函数(indictor function),当该指示函数内的表达式为真时,该指示函数值为1;当该指示函数内的表达式为假时,该指示函数值为0。
具体地,
Figure BDA0001139599300000114
与上述公式3、5类似,可以表示图像区域j被标注为物体p的概率值,可以通过逻辑斯特回归(logistic regression)进行求解,即:
Figure BDA0001139599300000115
其中,xj是图像区域j的特征;γk0
Figure BDA0001139599300000116
是参数。
值得一提的是,如公式1所示,其中Z表示为一个归一化常数,具体地,Z是一个配分函数(partition function),所述Z是根据作用于公式2-8中的参数(λk,αk,γk0
Figure BDA0001139599300000117
εkp,μ)计算得出。
一般的,在构建目标公式后,可以通过伪似然函数(pseudo-likelihood)将基于训练观察值的联合概率转换为单一的条件概率,如此使得原本参数求和变为求积,这样配分函数就能被有效计算,如此所述归一化常数Z可以通过最优化算法进行迭代求解。
具体地,所述最优化算法可以包括投影梯度下降算法、坐标梯度下降、网格搜索算法、模拟退火、爬山算法等。本申请实施例对此并加以限定。
举例说明,如图3所示的示意图中,虚线为已被标注的图像区域,即图像区域(1,2,5)被标注为树,图像区域(3,6,8,11)被标注为牛,图像区域(12,15,16)被标注为草。实线为待识别的当前图像区域,即当前图像区域为7。矩形为语义概念集合S中具有共现频率的物体,假设(牛,草)的共现频率为5;(牛,树)的共现频率为8;(牛,羊)的共现频率为6。
基于空间语义上下文信息的标签平滑处理时,由于当前图像区域7,周围相邻的图像区域集合{3,6,8,11}均被标注为牛,所以图像区域7也被标注为牛的概率就相对较大。
同时,基于语义上下文信息时,由于存在图像区域被标注为树、牛、草;所以当前图像区域7被标注为树、牛、草的概率较大。
综合上述因素,最终该当前图像区域7被标注为牛的概率最大。
在其它一些实施例中,可以根据
Figure BDA0001139599300000121
在模型中重要程度或者对联合概率值的影响程度设置不同的权重值,例如:在
Figure BDA0001139599300000122
前设置权重ω1,在
Figure BDA0001139599300000123
前设置权重ω2,在
Figure BDA0001139599300000124
前设置权重ω3。假设
Figure BDA0001139599300000125
的重要程度大于
Figure BDA0001139599300000126
大于
Figure BDA0001139599300000127
则权重之间ω1大于ω2大于ω3。
步骤130:在所述物体识别模型中对所述图像区域集合中每一个图像区域进行标签推理。
本实施例中,在所述物体识别模型中对所述图像区域集合中每一个图像区域进行标签推理,即根据前述公式1,并通过迭代条件算法对图像区域进行标签推理。
一般的,所述迭代条件算法可以包括ICM(iterated conditional mode)算法。
如上述公式1所示,其输入数据包括了:图像区域的集合S;相邻图像区域的集合R;当前图像区域i;当前被判断物体k;某个与i相邻图像区域j;某个与k具有共现关系的物体p;所有图像区域的特征集合X。
其中,所述特征集合X,可以是通过如下方式获得的:
提取所述待识别图像中所有图像区域的特征集合。
本实施例中,提取所述待识别图像中所有图像区域的特征集合,可以通过多种方式,例如前述SIFT、deep-learning、或者MSER(Maximally Stable Extremal Regions,区域特征提取)、DoG(Difference of Gaussian)等等。本实施例中,并不对其加以限定。在具体应用中,为了尽可能提高物体识别的准确率,可以使用更为有效的deep-learning。
具体地,所述步骤130,即在所述物体识别模型中对所输入的图像区域集合中每一个图像区域进行标签推理中,每一个图像区域进行标签推理的过程都可以如下图4所示:
步骤131:根据图像区域的特征和被判断物体,计算得出该图像区域的第一概率值。
本实施例中,根据前述公式2,可以计算得出当前图像区域的第一概率值。
步骤132:根据图像区域和相邻图像区域之间特征的相似度进行标签平滑处理,计算得出该图像区域的第二概率值。
本实施例中,根据前述公式4,可以计算得出当前图像区域的第二概率值。
步骤133:根据图像区域的被判断物体和相邻图像区域被标注的物体,从语义概念集合中获取这两个物体之间的共现频率,计算该图像区域的第三概率值。
本实施例中,根据前述公式6,可以计算得出当前图像区域的第三概率值。
步骤134:根据所述第一概率值、第二概率值和第三概率值,计算得出当前图像区域的联合的概率值。
本实施例中,在得出
Figure BDA0001139599300000131
对应的第一概率值,
Figure BDA0001139599300000132
对应的第二概率值,
Figure BDA0001139599300000133
对应的第三概率值后,根据前述公式1,可以计算得出当前图像区域对应物体的联合的概率值。
值得一提的是,所述标签推理可以是通过迭代算法进行的。如此,每一次迭代计算都会对当前图像区域的标签值造成影响,多次迭代计算可以使得每一个图像区域形成一个最优的物体标签集合。
具体地,所述迭代算法可以包括ICM(iterated conditional mode)算法。
步骤140:将所述标签推理得出的概率最大的物体标签集合中物体标签一一标注给对应的图像区域。
在对上述每个图像区域判断是否标注物体k时,通过例如ICM算法迭代运算过程中,随着迭代概率值也会逐步提高,最终在所述概率值最大时收敛,可以得出一个最优的物体标签集合,该物体标签集合中包括了每一个图像区域的物体标签。所述最优的物体标签集合就是在所述概率值最大的时候得出的。将概率值最大的物体标签集合中的物体标签一一标注给对应的图像区域:
Figure BDA0001139599300000141
其中,
Figure BDA0001139599300000142
表示最大的联合的概率值。
通过本实施例,将待识别图像进行区域划分,得到图像区域集合;将所述图像区域集合输入预设的物体识别模型中;其中,所述物体识别模型通过相邻图像区域的标签平滑处理和语义上下文信息构建得到;在所述物体识别模型中对所述图像区域集合中每一个图像区域进行标签推理;将所述标签推理得出概率最大的物体标签赋予对应的图像区域。如此,通过预先基于空间视觉上下文信息和语义上下文信息构建而成的物体识别模型,不仅采取标签平滑处理这种基于空间视觉上下文信息的方式来提高物体识别的准确率;还进一步的,结合语义上下文信息来提高物体识别的准确率,所述语义上下文信息为在语义概念集合中,频繁共现的物体之间,当其中一个出现在待识别图像中时,另一个物体出现的可能性要比其它物体出现的可能性更高。
与前述物体识别方法实施例相对应,本申请还提供了物体识别装置的实施例。
本申请物体识别装置的实施例可以分别应用在服务器。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本申请物体识别装置所在设备的一种硬件结构图,除了图5所示的处理器、网络接口、内存以及非易失性存储器之外,实施例中装置所在的设备通常根据该物体识别的实际功能,还可以包括其他硬件,对此不再赘述。
参见图6,为本申请一实施例提供的物体识别装置的模块图,该实施例从服务器侧进行描述,所述装置包括:划分单元210、输入单元220、标签推理单元230和识别单元240。
其中,划分单元210,对待识别的图像进行区域划分,得到图像区域集合;
输入单元220,将所述图像区域集合输入预设的物体识别模型中;其中,所述物体识别模型基于空间视觉上下文信息和语义上下文信息构建而成;
识别单元230,在所述物体识别模型中对所述图像区域集合中每一个图像区域进行标签推理;
标注单元240,将所述标签推理得出的概率最大的物体标签集合中的物体标签一一标注给对应的图像区域。
在一个可选的实施例中:
所述物体识别模型包括条件随机场、马尔科夫随机场或稀疏编码模型。
在一个可选的实施例中:
所述条件随机场模型为:
Figure BDA0001139599300000151
其中,Z是预设的归一化常数;
Figure BDA0001139599300000152
是图像区域的特征和被判断物体之间关系的点势函数;所述
Figure BDA0001139599300000153
是基于空间视觉上下文信息的边势函数;
Figure BDA0001139599300000154
是基于语义上下文信息的边势函数;S是图像区域集合;R是图像区域i相邻的图像区域j的集合;C是物体k、p之间具有共现关系的集合;X是所有图像区域的特征集合;
Figure BDA0001139599300000161
是图像区域i被标注为物体k的标签值;
Figure BDA0001139599300000162
是图像区域j被标注为物体k的标签值;
Figure BDA0001139599300000163
是图像I被标注为物体p的标签值。
在一个可选的实施例中:
所述图像区域的特征和被判断的语义概念之间关系的点势函数如下公式所示:
Figure BDA0001139599300000164
其中,λk,αk是点势函数上的参数;
Figure BDA0001139599300000165
是图像区域i被标注为物体k的标签值;
Figure BDA0001139599300000166
是物体k出现在图像区域i中的概率值。
在一个可选的实施例中:
所述基于空间视觉上下文信息的边势函数如下公式所示:
Figure BDA0001139599300000167
其中,
Figure BDA0001139599300000168
是该边势函数上的参数;
Figure BDA0001139599300000169
是图像区域i被标注为物体k的标签值;
Figure BDA00011395993000001610
是图像区域j被标注为物体k的标签值;
Figure BDA00011395993000001611
是物体k出现在图像区域j中的概率值;sim(xi,xj)=exp(-dist(xi,xj)),其中,dist(xi,xj)是图像特征xi,xj之间的欧式距离值。
在一个可选的实施例中:
所述基于语义上下文信息的边势函数如下公式所示:
Figure BDA00011395993000001612
其中,εkp是该边势函数上的参数,
Figure BDA00011395993000001613
是图像区域i被标注为物体k的标签值;
Figure BDA00011395993000001614
是图像I被标注为物体p的标签值;cor(k,p)=μ·occur(k,p),其中,μ是平滑参数;occur(k,p)是物体k与p之间的共现频率;
Figure BDA00011395993000001615
是物体p出现在图像I中的概率值。
在一个可选的实施例中:
所述归一化常数通过最优化算法进行迭代求解。
在一个可选的实施例中:
所述最优化算法包括投影梯度下降算法。
在一个可选的实施例中:
所述识别单元230,具体包括:
第一计算子单元,根据图像区域的特征和被判断物体,计算得出该图像区域的第一概率值;
第二计算子单元,根据图像区域和相邻图像区域之间特征的相似度进行标签平滑处理,计算得出该图像区域的第二概率值;
第三计算子单元,根据图像区域的被判断物体和相邻图像区域被标注的物体,从语义概念集合中获取这两个物体之间的共现频率,计算该图像区域的第三概率值;
第四计算子单元,根据所述第一概率值、第二概率值和第三概率值,计算得出该图像区域联合的概率值。
在一个可选的实施例中:
所述标签推理通过迭代算法进行。
在一个可选的实施例中:
所述迭代算法包括ICM(iterated conditional mode)算法。
综上所述,通过本申请实施例中,将待识别图像进行区域划分,得到图像区域集合;将所述图像区域集合输入预设的物体识别模型中;其中,所述物体识别模型通过相邻图像区域的标签平滑处理和语义上下文信息构建得到;在所述物体识别模型中对所述图像区域集合中每一个图像区域进行标签推理;将所述标签推理得出概率最大的物体标签赋予对应的图像区域。如此,通过预先基于空间视觉上下文信息和语义上下文信息构建而成的物体识别模型,不仅采取标签平滑处理这种基于空间视觉上下文信息的方式来提高物体识别的准确率;还进一步的,结合语义上下文信息来提高物体识别的准确率,所述语义上下文信息为在语义概念集合中,频繁共现的物体之间,当其中一个出现在待识别图像中时,另一个物体出现的可能性要比其它物体出现的可能性更高。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (18)

1.一种物体识别方法,其特征在于,所述方法包括:
对待识别的图像进行区域划分,得到图像区域集合;
将所述图像区域集合输入预设的物体识别模型中;其中,所述物体识别模型基于空间视觉上下文信息和语义上下文信息构建而成;
在所述物体识别模型中对所述图像区域集合中每一个图像区域进行标签推理;
将所述标签推理得出的概率最大的物体标签集合中的物体标签一一标注于对应的图像区域;
其中,所述物体识别模型包括条件随机场模型,所述条件随机场模型为:
Figure FDA0002345619840000011
Z是预设的归一化常数;
Figure FDA0002345619840000012
是图像区域的特征和被判断物体之间关系的点势函数;所述
Figure FDA0002345619840000013
是基于空间视觉上下文信息的边势函数;
Figure FDA0002345619840000014
是基于语义上下文信息的边势函数;S是图像区域集合;R是图像区域i相邻的图像区域j的集合;C是物体k、p之间具有共现关系的集合;x是所有图像区域的特征集合;
Figure FDA0002345619840000015
是图像区域i被标注为物体k的标签值;
Figure FDA0002345619840000016
是图像区域j被标注为物体k的标签值;
Figure FDA0002345619840000017
是图像I被标注为物体p的标签值。
2.根据权利要求1所述的方法,其特征在于,所述图像区域的特征和被判断物体之间关系的点势函数如下公式所示:
Figure FDA0002345619840000018
其中,λk,αk是点势函数上的参数;
Figure FDA0002345619840000019
是图像区域i被标注为物体k的标签值;
Figure FDA00023456198400000110
是物体k出现在图像区域i中的概率值。
3.根据权利要求1所述的方法,其特征在于,所述基于空间视觉上下文信息的边势函数如下公式所示:
Figure FDA0002345619840000021
其中,
Figure FDA0002345619840000022
是该边势函数上的参数;
Figure FDA0002345619840000023
是图像区域i被标注为物体k的标签值;
Figure FDA0002345619840000024
是图像区域j被标注为物体k的标签值;
Figure FDA0002345619840000025
是物体k出现在图像区域j中的概率值;sim(xi,xj)=exp(-dist(xi,xj)),其中,dist(xi,xj)是图像特征xi,xj之间的欧式距离值。
4.根据权利要求1所述的方法,其特征在于,所述基于语义上下文信息的边势函数如下公式所示:
Figure FDA0002345619840000026
其中,εkp是该边势函数上的参数,
Figure FDA0002345619840000027
是图像区域i被标注为物体k的标签值;
Figure FDA0002345619840000028
是图像I被标注为物体p的标签值;cor(k,p)=μ·occur(k,p),其中,μ是平滑参数;occur(k,p)是物体k与p之间的共现频率;
Figure FDA0002345619840000029
是物体p出现在图像I中的概率值。
5.根据权利要求1所述的方法,其特征在于,所述归一化常数通过最优化算法进行迭代求解。
6.根据权利要求5所述的方法,其特征在于,所述最优化算法包括投影梯度下降算法。
7.根据权利要求1所述的方法,其特征在于,所述在所述物体识别模型中对所输入的图像区域集合中每一个图像区域进行标签推理,具体包括:
根据图像区域的特征和被判断物体,计算得出该图像区域的第一概率值;
根据图像区域和相邻图像区域之间特征的相似度进行标签平滑处理,计算得出该图像区域的第二概率值;
根据图像区域的被判断物体和相邻图像区域被标注的物体,从语义概念集合中获取这两个物体之间的共现频率,计算该图像区域的第三概率值;
根据所述第一概率值、第二概率值和第三概率值,计算得出该图像区域联合的概率值。
8.根据权利要求1所述的方法,其特征在于,所述标签推理通过迭代算法进行。
9.根据权利要求8所述的方法,其特征在于,所述迭代算法包括ICM算法。
10.一种物体识别装置,其特征在于,所述装置包括:
划分单元,对待识别的图像进行区域划分,得到图像区域集合;
输入单元,将所述图像区域集合输入预设的物体识别模型中;其中,所述物体识别模型基于空间视觉上下文信息和语义上下文信息构建而成;
识别单元,在所述物体识别模型中对所述图像区域集合中每一个图像区域进行标签推理;
标注单元,将所述标签推理得出的概率最大的物体标签集合中的物体标签一一标注给对应的图像区域;
其中,所述物体识别模型包括条件随机场模型,所述条件随机场模型为:
Figure FDA0002345619840000031
Z是预设的归一化常数;
Figure FDA0002345619840000032
是图像区域的特征和被判断物体之间关系的点势函数;所述
Figure FDA0002345619840000033
是基于空间视觉上下文信息的边势函数;
Figure FDA0002345619840000034
是基于语义上下文信息的边势函数;S是图像区域集合;R是图像区域i相邻的图像区域j的集合;C是物体k、p之间具有共现关系的集合;X是所有图像区域的特征集合;
Figure FDA0002345619840000035
是图像区域i被标注为物体k的标签值;
Figure FDA0002345619840000036
是图像区域j被标注为物体k的标签值;
Figure FDA0002345619840000037
是图像I被标注为物体p的标签值。
11.根据权利要求10所述的装置,其特征在于,所述图像区域的特征和被判断物体之间关系的点势函数如下公式所示:
Figure FDA0002345619840000038
其中,λk,αk是点势函数上的参数;
Figure FDA0002345619840000039
是图像区域i被标注为物体k的标签值;
Figure FDA00023456198400000310
是物体k出现在图像区域i中的概率值。
12.根据权利要求10所述的装置,其特征在于,所述基于空间视觉上下文信息的边势函数如下公式所示:
Figure FDA0002345619840000041
其中,
Figure FDA0002345619840000042
是该边势函数上的参数;
Figure FDA0002345619840000043
是图像区域i被标注为物体k的标签值;
Figure FDA0002345619840000044
是图像区域j被标注为物体k的标签值;
Figure FDA0002345619840000045
是物体k出现在图像区域j中的概率值;sim(xi,xj)=exp(-dist(xi,xj)),其中,dist(xi,xj)是图像特征xi,xj之间的欧式距离值。
13.根据权利要求10所述的装置,其特征在于,所述基于语义上下文信息的边势函数如下公式所示:
Figure FDA0002345619840000046
其中,εkp是该边势函数上的参数,
Figure FDA0002345619840000047
是图像区域i被标注为物体k的标签值;
Figure FDA0002345619840000048
是图像I被标注为物体p的标签值;cor(k,p)=μ·occur(k,p),其中,μ是平滑参数;occur(k,p)是物体k与p之间的共现频率;
Figure FDA0002345619840000049
是物体p出现在图像I中的概率值。
14.根据权利要求10所述的装置,其特征在于,所述归一化常数通过最优化算法进行迭代求解。
15.根据权利要求14所述的装置,其特征在于,所述最优化算法包括投影梯度下降算法。
16.根据权利要求10所述的装置,其特征在于,所述识别单元,具体包括:
第一计算子单元,根据图像区域的特征和被判断物体,计算得出该图像区域的第一概率值;
第二计算子单元,根据图像区域和相邻图像区域之间特征的相似度进行标签平滑处理,计算得出该图像区域的第二概率值;
第三计算子单元,根据图像区域的被判断物体和相邻图像区域被标注的物体,从语义概念集合中获取这两个物体之间的共现频率,计算该图像区域的第三概率值;
第四计算子单元,根据所述第一概率值、第二概率值和第三概率值,计算得出该图像区域联合的概率值。
17.根据权利要求10所述的装置,其特征在于,所述标签推理通过迭代算法进行。
18.根据权利要求17所述的装置,其特征在于,所述迭代算法包括ICM算法。
CN201610940596.2A 2016-10-24 2016-10-24 物体识别方法及装置 Active CN106886781B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010157201.8A CN111523552A (zh) 2016-10-24 2016-10-24 物体识别方法及装置
CN201610940596.2A CN106886781B (zh) 2016-10-24 2016-10-24 物体识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610940596.2A CN106886781B (zh) 2016-10-24 2016-10-24 物体识别方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202010157201.8A Division CN111523552A (zh) 2016-10-24 2016-10-24 物体识别方法及装置

Publications (2)

Publication Number Publication Date
CN106886781A CN106886781A (zh) 2017-06-23
CN106886781B true CN106886781B (zh) 2020-03-10

Family

ID=59176501

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010157201.8A Pending CN111523552A (zh) 2016-10-24 2016-10-24 物体识别方法及装置
CN201610940596.2A Active CN106886781B (zh) 2016-10-24 2016-10-24 物体识别方法及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202010157201.8A Pending CN111523552A (zh) 2016-10-24 2016-10-24 物体识别方法及装置

Country Status (1)

Country Link
CN (2) CN111523552A (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077352A (zh) * 2014-05-27 2014-10-01 浙江大学 基于能量模型的图像语义标注方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077352A (zh) * 2014-05-27 2014-10-01 浙江大学 基于能量模型的图像语义标注方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Word Co-occurrence and Markov Random Fields for Improving Automatic Image Annotation;Escalante H,Montes M,Sucar L;《Proceedings of the 18th British Machine Vision Conference》;20071231;1-10 *
基于上下文相关模型的图像语义标注;田东平;《小型微型计算机系统》;20160430;全文 *

Also Published As

Publication number Publication date
CN106886781A (zh) 2017-06-23
CN111523552A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
US10921957B1 (en) User interface for context labeling of multimedia items
US9633045B2 (en) Image ranking based on attribute correlation
CN110019896B (zh) 一种图像检索方法、装置及电子设备
EP3779774A1 (en) Training method for image semantic segmentation model and server
US10223727B2 (en) E-commerce recommendation system and method
JP6398510B2 (ja) 実体のリンク付け方法及び実体のリンク付け装置
CN110232403B (zh) 一种标签预测方法、装置、电子设备及介质
CN109902672B (zh) 图像标注方法及装置、存储介质、计算机设备
CN110851641B (zh) 跨模态检索方法、装置和可读存储介质
CN108269122B (zh) 广告的相似度处理方法和装置
US10163036B2 (en) System and method of analyzing images using a hierarchical set of models
US20130204835A1 (en) Method of extracting named entity
CN113657087B (zh) 信息的匹配方法及装置
CN103530403B (zh) 一种结构化的图像描述方法
CN110765882A (zh) 一种视频标签确定方法、装置、服务器及存储介质
CN111325200A (zh) 图像标注方法、装置、设备及计算机可读存储介质
JP2018169972A (ja) 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法
CN114168768A (zh) 图像检索方法及相关设备
CN111985616B (zh) 一种图像特征提取方法、图像检索方法、装置及设备
Zhuang et al. A novel outdoor scene-understanding framework for unmanned ground vehicles with 3D laser scanners
CN108694398B (zh) 一种图像分析方法及装置
CN110442674B (zh) 标签传播的聚类方法、终端设备、存储介质及装置
CN110674388A (zh) 推送项目的配图方法、装置、存储介质和终端设备
CN106886781B (zh) 物体识别方法及装置
CN113282781B (zh) 图像检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.