CN103810303B

CN103810303B - 一种基于焦点对象识别和主题语义的图像搜索方法及系统

Info

Publication number: CN103810303B
Application number: CN201410101483.4A
Authority: CN
Inventors: 朱巧明; 康杨杨; 洪宇
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2014-03-18
Filing date: 2014-03-18
Publication date: 2017-01-18
Anticipated expiration: 2034-03-18
Also published as: CN103810303A

Abstract

一种基于焦点对象识别和主题语义的图像搜索方法及系统。所述方法包括以下步骤。S1、对待搜索图像进行底层特征语义提取，并形成高维特征向量空间后，进行图像分割，获得待搜索图像的元素。S2、将待搜索图像的元素进行元素识别后抽象至语义概念层，并根据不同元素的相对距离及共现概率，判断待搜索图像中的不同元素是否相关，若是，将相关元素组合成对象。S3、计算对象的相对空间位置及占比面积，并计算各对象的兴趣指数及重要指数，根据计算结果，从不同对象中识别出焦点对象。S4、根据焦点对象，构建待搜索图像的主题语义模型，并获取具有焦点对象的现有图像，通过KL距离度量待搜索图像与现有图像之间的相似度，并输出相似度较高的现有图像。

Description

一种基于焦点对象识别和主题语义的图像搜索方法及系统

技术领域

本发明本属于图像处理技术领域，具体涉及一种基于焦点对象识别和主题语义的图像搜索方法及系统。

背景技术

随着移动互联网的兴起与蓬勃发展，各类智能终端设备迅速普及。移动开发者推出大量移动场景下的应用程序（app），如微信、来往、SnapChat、Instagram等客户端社交应用软件，以及淘宝、天猫和京东等客户端电子商务软件。这类软件不但会产生大量内容丰富的图像数据，而且会产生各种图像搜索需求。尤其是随着电子商务的发展，O2O(Online ToOffline)模式的快速布局，“手机拍照+以图搜图+比价购物”的新兴移动搜索形式对传统图像检索提出了巨大的挑战。当前，互联网图像数据规模已呈现指数级增长，面对海量的图像数据，如何有效管理庞大的图像资源库，利用相似图像检索技术，快速准确的检索出满足用户查询意图的图像信息，仍然是当前学术界、工业界亟需解决的难题。

纵观图像检索技术的发展历程，可分为两个阶段：基于文本的图像检索技术和基于内容的图像检索技术。换一个角度，也就是关键词搜图和以图搜图。

其中，基于文本的图像检索（Text-based Image Retrieval,TBIR）技术是通过人工对图像添加标注，或通过网络挖掘图片的环绕文本，构成图片的描述性信息。然后对这些文本信息构建索引，建立图像与文本之间的映射关系，便于搜索引擎或系统采用关键词匹配的方式进行图像检索。这种图像检索方法简单、易于理解、选择了简单的文本处理进行替代，回避了深入图像内部处理的复杂过程。但该方法存在以下问题：人工无法对海量的图像数据进行标注，且主观性强；当图像内容较丰富时，很难准确地用文字描述。

基于内容的图像检索（Content-based Image Retrieval，CBIR）技术充分考虑了图像自身蕴含的丰富语义信息，其返回的检索结果分为两大类：一是基于精确匹配得到的包含匹配图面的页面及对应的链接；二是基于模糊匹配得到的相似图像。本发明仅适用于以图搜图方式下的相似图像搜索。

CBIR技术可划分为三个层次：基于特征语义（视觉特征）的图像检索技术、基于对象和空间关系语义的图像检索技术和基于高层语义（场景语义、行为语义、情感语义）的图像检索技术。其中，基于低层语义的图像检索技术，提取了图像的颜色、纹理、形状等视觉特征，用以判断图像之间的相似性。但是这种方法仅仅考虑了简单的视觉特征，而忽略了图片蕴含的丰富语义，与人们对图像的认知存在差异，容易产生语义鸿沟（semantic gap）。

基于对象和空间关系语义的图像检索技术，对图像进行分割并识别出图像中的对象，度量对象之间的位置关系、朝向关系（如上、下、左、右等）、拓扑关系（如相邻、覆盖等）和结构关系（如边缘密度、边缘方向等）。该方法也存在一定不足，其仅引入了图像的部分语义信息，虽然考察了对象之间的空间位置关系，但这仍不足以表征图像的语义信息。

基于高层语义的图像检索技术，其进一步对图像中的语义要素进行了抽象，不但要考虑场景语义（如蓝天、白云、沙滩），还要进一步考虑对象的行为语义（如唱歌、击打、微笑）以及情感语义（如开心、难过、沮丧）等。图像语义的提取过程是由低层特征向高层语义转化的过程。高层语义虽然能够很好的刻画图像的语义信息，满足用户真实的搜索意图，但目前相关抽取语义描述的技术仍处在初始阶段，有待进一步的发展和突破。

目前，传统的图像检索方法，如基于特征语义、基于对象和空间关系语义的图像检索方法，采用的均是精确匹配技术。而精确匹配由于其规则限制条件比较严格，导致图像检索系统的扩展性差。例如，分别在百度图片搜索引擎和谷歌图片搜索引擎中，上传一张“黑色皮鞋”图片进行搜索，此时百度返回的搜索结果是外观相似的黑色皮鞋，谷歌返回的结果则是包含匹配图片的页面。对两种图片搜索引擎返回的结果分析可以看出：百度的搜索结果体现出一定的模糊匹配，但不够模糊，导致扩展性差，没有上升到“皮鞋”这一概念层进行匹配，仅局限于满足特征语义（颜色、纹理、形状），并且没有返回包含精确匹配该图片的网页；而谷歌的搜索结果，虽然既包含精确匹配该图片的网页，也包含外观类似的图片，但这些外观类似的图片中出现了“黑色的U盘、黑色的笔记本、黑色的望远镜”等不相关的图片，反映了谷歌的模糊匹配策略因过于模糊而致匹配不准。因此，目前代表业界最高水平的图片检索系统（百度图片搜索引擎、谷歌图片搜索引擎），在相似图像搜索上的性能也并不能令用户满意。

鉴于上述原因，本发明提供一种基于焦点对象识别和主题语义的图像搜索方法及系统，通过挖掘图片背后的语义关联，判断图片间的相似性，从而实现图像搜索领域的新突破。

为了更好的阐述发明内容，以下对本发明涉及的下列名词作出说明：元素、对象、焦点对象和主题语义。

其中，元素是指图像中独立的连续区域块，即有具体含义的物体，如太阳、人、沙滩、比基尼，元素是图像中的最小语义单元。对象是由单个或多个元素组合成的一个有物理含义的整体，组成某个对象的多个元素总是在空间位置上毗邻且经常在图像中共现，比如比基尼与美女可以构成一个穿着比基尼的美女对象。多个对象的组合便形成场景。

由于一张图像中往往包含一个或多个对象，其中最重要且能吸引用户视觉焦点的对象称为焦点对象。比如一张图是“在大草原上走太空步的小马驹”，这时对象有“草原、小马驹、蓝天、大山”，但最能吸引用户的是“小马驹”，因为其“太空步”的行为动作附着在小马驹身上，突出诙谐、搞笑的语义。此时，对象“小马驹”就是焦点对象，是整张图像的焦点。而其他如“草原、蓝天、大山”构成一个场景。场景在这里并不是图像想要突出的重点，如果将其置换到“沙滩”“农场”这类场景，也不会影响图像的意境效果。

此外，主题语义是指由焦点对象的集合、焦点对象间的关联、焦点对象分布的重要程度来描述的主题。

发明内容

本发明提供一种基于焦点对象识别和主题语义的图像搜索方法，包括以下步骤：

S1、对待搜索图像进行底层特征语义提取，并形成高维特征向量空间后，进行图像分割，获得所述待搜索图像的元素；

S2、将所述待搜索图像的元素进行元素识别后抽象至语义概念层，并根据不同元素的相对距离及共现概率，判断所述待搜索图像中的不同元素是否相关，若是，则将相关元素组合成对象；

S3、计算所述对象的相对空间位置及占比面积，并计算各对象的兴趣指数及重要指数，根据计算结果，从不同对象中识别出焦点对象；

S4、根据所述焦点对象，构建待搜索图像的主题语义模型，并获取具有所述焦点对象的现有图像，通过KL距离度量待搜索图像与现有图像之间的相似度，并输出相似度较高的现有图像。

优选的，在步骤S2中，若待搜索图像的元素的空间位置为坐标(xi,yi)，则元素e和元素g的相对距离表示为，其中P_width表示图像P的宽度，P_length表示图像P的长度。

优选的，在步骤S2中，元素e和元素g的共现概率表示为，其中：，且P(e,g)表示元素e和元素g在图像库中共同出现的概率，c(e,g)表示元素e和元素g在图像库中共同出现的次数；，且P(e)表示元素e在图像库中出现的概率，c(e)表示元素e在图像库中出现的次数。

优选的，在步骤S2中，判断所述待搜索图像中的不同元素是否相关的依据为：

f (e, g) = \{\begin{matrix} 1, if [α_{low} \leq MI (e, g) \leq α_{high} and β_{low} \leq p (e, g) \leq β_{high}] \\ 0, else \end{matrix}

；其中，α和β的边界通过在图像库中训练得到。

优选的，在步骤S2中，若待搜索图像中的不同元素不相关，则将所述不同元素分别划分为独立的对象。

优选的，在步骤S3中，所述对象的相对空间位置指对象的中心点和图像的中心点之间的相对距离，所述对象的占比面积表示为

优选的，在步骤S3中，对象Ti的兴趣指数表示为

Interest (T_{i}) = \frac{Σ_{j = 1}^{M} sim (T_{i}, T_{j})}{M} (M = 10),

重要指数表示为

Weight (T_{i}) = \frac{n}{N},

且依据公式Kernel(T_i)=Interest(T_i)*Weight(T_i)识别出焦点对象，其中，M表示彼此最相似的对象个数，n表示与Ti最相似的对象个数，N表示n个对象在图像中出现的次数。

优选的，步骤S4中，在现有图像中，焦点对象出现的概率为：

优选的，在步骤S4中，图片p和q之间的KL距离计算为：

D_{KL} (P | | Q) = \underset{I}{Σ} \ln (\frac{P (i)}{Q (i)}) p (i) .

本发明还提供一种基于焦点对象识别和主题语义的图像搜索系统，包括元素获取模块、元素抽象模块、对象获取模块、焦点对象识别模块及主题语义模块，所述元素获取模块连接元素抽象模块，元素抽象模块连接对象获取模块，对象获取模块连接焦点对象识别模块，焦点对象识别模块连接主题语义模块。所述元素获取模块，用于对待搜索图像进行底层特征语义提取，并进行图像分割，获得所述待搜索图像的元素。所述元素抽象模块，用于将所述待搜索图像的元素进行元素识别后抽象至语义概念层。所述对象获取模块，用于根据不同元素的相对距离及共现概率，判断所述待搜索图像中的不同元素是否相关，若是，则将相关元素组合成对象。所述焦点对象识别模块，用于计算所述对象的相对空间位置及占比面积，并计算各对象的兴趣指数及重要指数，根据计算结果，从不同对象中识别出焦点对象。所述主题语义模块，用于根据所述焦点对象，构建待搜索图像的主题语义模型，并获取具有所述焦点对象的现有图像，通过KL距离度量待搜索图像与现有图像之间的相似度。

根据本发明提供的基于焦点对象识别和主题语义的图像搜索方法及系统，根据不同元素的相对距离及共现概率将相关元素组合成对象，在主题语义层进行焦点对象一致性的匹配，能够挖掘图片背后的语义关联，更加符合、满足用户的查询意图。当图像中包含多个对象时，识别出其中的焦点对象，然后根据焦点对象生成的主题语义，并计算图片间的相似性。如此，避免了精确匹配带来的扩展性差或过于模糊匹配带来的匹配不准的缺陷，更能突出图像的焦点，从而满足用户的搜索意图。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明较佳实施例提供的基于焦点对象识别和主题语义的图像搜索方法流程图；

图2是本发明较佳实施例提供的基于焦点对象识别和主题语义的图像搜索系统示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1是本发明较佳实施例提供的基于焦点对象识别和主题语义的图像搜索方法流程图。如图1所示，本发明较佳实施例提供的基于焦点对象识别和主题语义的图像搜索方法包括步骤S1～S4。

步骤S1：对待搜索图像进行底层特征语义提取，并形成高维特征向量空间后，进行图像分割，获得所述待搜索图像的元素。

具体而言，所述特征包括颜色特征（例如直方图、累计直方图或局部直方图）、纹理特征（例如统计法、频谱法或结构法）、形状特征（例如面积、周长或拐点数），以及其它有效特征。于此，为了防止某些特征权重过大，需要对上述特征进行归一化处理。同时，对这些特征进行合理的拆分、组合处理，形成高维特征向量空间。本实施例中，具体的特征提取方法、特征权重的归一化处理、特征的拆分和组合可以采用任何现有的成熟技术，然而本发明对此并不做限制。

接下来，利用提取到的高维特征向量，训练基于支持向量机（SVM）的有监督的分类器，得到元素的最优分割曲面，对图像进行分割。同时，需要对获得的背景区域尤其是一些离散的小块，采用区域融合的方法，将其拼接成为一个完整的目标区域。于此，分类器也可以采用其它的机器学习模型，包括区域融合方法等，然而本发明对此并不做限制。

步骤S2：将所述待搜索图像的元素进行元素识别后抽象至语义概念层，并根据不同元素的相对距离及共现概率，判断所述待搜索图像中的不同元素是否相关，若是，则将相关元素组合成对象。

具体而言，图像分割之后得到的每个独立的区域单元即为元素。元素是有具体物理意义的个体，需要通过元素识别，用具体的文字来说明元素的含义。如果图像中的元素是一条白色的裤子，那么元素识别的过程就是获取该元素的文字说明，即“白色的裤子”。具体的识别方法为，通过查询图像-文字映射关系表，key值为元素图像，采用精确匹配的图像检索方法。其中，关系映射表通过网络自动挖掘构建，通过该方法，可以将图像转化成为文字说明。接下来，根据获取的说明文字将其抽象至语义概念层。例如将“白色的裤子”抽象成“裤子”概念，即忽略其颜色、形状或纹理等底层特征属性。

本步骤中计算不同元素的相对距离及共现概率的过程如下。

首先选取图像的一个直角点为坐标系原点，构成该直角的两条相邻边为坐标系的横坐标、纵坐标。比如对图像P中的元素e，沿着其轮廓边缘游走，随机采样n个点，坐标记为(xi,yi)，i∈(1,n)，那么元素e的中心点表示为。即若待搜索图像的元素的空间位置为坐标(xi,yi)，则元素e和元素g的相对距离为，其中P_width表示图像P的宽度，P_length表示图像P的长度。

如上所述，接下来需要在整个图像库中统计元素之间的共现概率。例如统计比基尼和女人在图像中共现的概率，考虑到具体的比基尼颜色或纹理会带来数据稀疏问题，所以元素之间共现概率是基于其语义概念层的计算。于

此，元素e和元素g的共现概率表示为，其中：，且P(e,g)表示元素e和元素g在图像库中共同出现的概率，c(e,g)表示元素e和元素g在图像库中共同出现的次数；，且P(e)表示元素e在图像库中出现的概率，c(e)表示元素e在图像库中出现的次数。

本步骤中，判断所述待搜索图像中的不同元素是否相关的依据为：

f (e, g) = \{\begin{matrix} 1, if [α_{low} \leq MI (e, g) \leq α_{high} and β_{low} \leq p (e, g) \leq β_{high}] \\ 0, else \end{matrix}

；其中，α和β的边界通过在图像库中训练得到。若不同元素相关，则将图像中的元素进行组合构成对象。若待搜索图像中的不同元素不相关，则将所述不同元素分别划分为独立的对象。

步骤S3：计算所述对象的相对空间位置及占比面积，并计算各对象的兴趣指数及重要指数，根据计算结果，从不同对象中识别出焦点对象。

具体而言，所述对象的相对空间位置指对象的中心点和图像的中心点之间的相对距离，通常主题对象距离图像中心点距离较近。所述对象的占比面积表示为，通常一个对象的面积越大，所占整个图像的比例越大，其成为主题对象的概率就越大。

本实施例是基于大规模的图片搜索引擎历史记录数据进行统计，借鉴信息检索中在查询与点击之间随机游走的策略，针对单个用户，获取其某次检索session中的所有点击图片（同一个session的检索过程中，用户点击的图片均认为搜索意图一致），并分割图片获得大量对象。对于每个对象，计算其与其它对象之间的相似度，选取最相似的M个对象。于此，对象Ti的兴趣指数表示为

Interest (T_{i}) = \frac{Σ_{j = 1}^{M} sim (T_{i}, T_{j})}{M} (M = 10),

重要指数表示为

Weight (T_{i}) = \frac{n}{N},

且依据公式Kernel(T_i)=Interest(T_i)*Weight(T_i)识别出焦点对象，其中，M表示彼此最相似的对象个数，n表示与Ti最相似的对象个数，N表示n个对象在图像中出现的次数。最终，结合基于图片内容和基于用户协作两个角度，可以识别出图片的焦点对象。

步骤S4：根据所述焦点对象，构建待搜索图像的主题语义模型，并获取具有所述焦点对象的现有图像，通过KL距离度量待搜索图像与现有图像之间的相似度，并输出相似度较高的现有图像。

具体而言，从生成模型的角度，每个具有实际场景意义的图片均是以一定概率选择了某个主题语义，并从这个主题语义中以一定概率选择了某个焦点对象，生成一个图片。

在现有图像中，焦点对象出现的概率为：如前所述，从图像中可以识别出焦点对象。

本实施例中，若给定两张图片p和q，则图片p和q之间的KL距离计算为：

D_{KL} (P | | Q) = \underset{I}{Σ} \ln (\frac{P (i)}{Q (i)}) p (i) .

图2是本发明较佳实施例提供的基于焦点对象识别和主题语义的图像搜索系统示意图。如图2所示，本发明较佳实施例提供的基于焦点对象识别和主题语义的图像搜索系统包括元素获取模块1、元素抽象模块2、对象获取模块3、焦点对象识别模块4及主题语义模块5，所述元素获取模块1连接元素抽象模块2，元素抽象模块2连接对象获取模块3，对象获取模块3连接焦点对象识别模块4，焦点对象识别模块4连接主题语义模块5。所述元素获取模块1，用于对待搜索图像进行底层特征语义提取，并进行图像分割，获得所述待搜索图像的元素。所述元素抽象模块2，用于将所述待搜索图像的元素进行元素识别后抽象至语义概念层。所述对象获取模块3，用于根据不同元素的相对距离及共现概率，判断所述待搜索图像中的不同元素是否相关，若是，则将相关元素组合成对象。所述焦点对象识别模块4，用于计算所述对象的相对空间位置及占比面积，并计算各对象的兴趣指数及重要指数，根据计算结果，从不同对象中识别出焦点对象。所述主题语义模块5，用于根据所述焦点对象，构建待搜索图像的主题语义模型，并获取具有所述焦点对象的现有图像，通过KL距离度量待搜索图像与现有图像之间的相似度。关于上述系统的操作流程与上述方法类似，故于此不再赘述。

综上所述，根据本发明较佳实施例提供的基于焦点对象识别和主题语义的图像搜索方法及系统，对待搜索图像进行分割得到元素，并根据元素间的相对距离及共现概率，组合元素形成对象并获取焦点对象，能够更好搜索出不同场景中同一主题语义的图片。同时，根据生成模型构建主题语义，并根据KL距离计算图片间的相似性，避免了传统基于特征语义的精确匹配带来的可扩展性不强的缺陷。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于焦点对象识别和主题语义的图像搜索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，在步骤S2中，若待搜索图像的元素的空间位置为坐标(xi,yi)，则元素e和元素g的相对距离表示为，其中P_width表示图像P的宽度，P_length表示图像P的长度。

3.根据权利要求1所述的方法，其特征在于，在步骤S2中，元素e和元素g的共现概率表示为，其中：，且P(e,g)表示元素e和元素g在图像库中共同出现的概率，c(e,g)表示元素e和元素g在图像库中共同出现的次数；，且P(e)表示元素e在图像库中出现的概率，c(e)表示元素e在图像库中出现的次数。

4.根据权利要求1至3任一项所述的方法，其特征在于，在步骤S2中，判断所述待搜索图像中的不同元素是否相关的依据为：

f (e, g) = \{\begin{matrix} 1, if [α_{low} \leq MI (e, g) \leq α_{high} and β_{low} \leq p (e, g) \leq β_{high}] \\ 0, else \end{matrix}

；其中，α和β的边界通过在图像库中训练得到。

5.根据权利要求1所述的方法，其特征在于，在步骤S2中，若待搜索图像中的不同元素不相关，则将所述不同元素分别划分为独立的对象。

6.根据权利要求1所述的方法，其特征在于，在步骤S3中，所述对象的相对空间位置指对象的中心点和图像的中心点之间的相对距离，所述对象的占比面积表示为

7.根据权利要求1所述的方法，其特征在于，在步骤S3中，对象Ti的兴趣指数表示为

Interest (T_{i}) = \frac{Σ_{j = 1}^{M} sim (T_{i}, T_{j})}{M} (M = 10),

重要指数表示为

Weight (T_{i}) = \frac{n}{N},

8.根据权利要求1所述的方法，其特征在于，步骤S4中，在现有图像中，焦点对象出现的概率为：

9.根据权利要求1所述的方法，其特征在于，在步骤S4中，图片p和q之间的KL距离计算为：

D_{KL} (P | | Q) = \underset{I}{Σ} \ln (\frac{P (i)}{Q (i)}) p (i) .

10.一种基于焦点对象识别和主题语义的图像搜索系统，其特征在于，包括元素获取模块、元素抽象模块、对象获取模块、焦点对象识别模块及主题语义模块，所述元素获取模块连接元素抽象模块，元素抽象模块连接对象获取模块，对象获取模块连接焦点对象识别模块，焦点对象识别模块连接主题语义模块，

所述元素获取模块，用于对待搜索图像进行底层特征语义提取，并进行图像分割，获得所述待搜索图像的元素；

所述元素抽象模块，用于将所述待搜索图像的元素进行元素识别后抽象至语义概念层；

所述对象获取模块，用于根据不同元素的相对距离及共现概率，判断所述待搜索图像中的不同元素是否相关，若是，则将相关元素组合成对象；

所述焦点对象识别模块，用于计算所述对象的相对空间位置及占比面积，并计算各对象的兴趣指数及重要指数，根据计算结果，从不同对象中识别出焦点对象；

所述主题语义模块，用于根据所述焦点对象，构建待搜索图像的主题语义模型，并获取具有所述焦点对象的现有图像，通过KL距离度量待搜索图像与现有图像之间的相似度。