CN105320694A - 多模态图像检索方法 - Google Patents
多模态图像检索方法 Download PDFInfo
- Publication number
- CN105320694A CN105320694A CN201410374703.0A CN201410374703A CN105320694A CN 105320694 A CN105320694 A CN 105320694A CN 201410374703 A CN201410374703 A CN 201410374703A CN 105320694 A CN105320694 A CN 105320694A
- Authority
- CN
- China
- Prior art keywords
- image
- dtri
- retrieved
- feature
- color characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明提供一种多模态图像检索方法,包括以下步骤:S1、输入待检索图像;S21、提取待检索图像的颜色特征;S22、提取待检索图像的边界角度;特征;S3、融合颜色特征和边界角度特征,得到多模态特征;S4、比较待检索图像与数据库中图像的多模态特征;S5、输出检索结果。实施本发明的多模态图像检索方法,将图像分成子图像,通过不同的通道进行颜色和角度特征的提取,从而实现了在保持图片细节的前提下提取图片的颜色、纹理以及形状特征。尤其适用于布料和時装图像检索。
Description
技术领域
本发明涉及图像处理的检索技术,更具体地说,涉及一种多模态图像检索方法。
背景技术
图像检索是计算机视觉和模式识别的主要研究热点之一,图像检索技术主要分为两类:基于文本的图像检索技术(Text-basedimageretrieval,简称TBIR)和基于内容的图像检索技术(Content-basedimageretrieval,简称CBIR)。
基于文本的图像检索技术的研究始于20世纪70年代,利用文本描述的方式描述图像的特征,如绘画作品的尺寸,流派,年代,作者及画中的实物等。基于文本的图像检索一般以关键词的形式提问查询图像,或根据等级目录的形式查找特征类目下的图像,因此,图像的标记信息直接影响图片的检索效果。显而易见的是,不同的人对同一幅图像可能有不同的理解,从而不可避免的造成了标记信息的多义性。并且,在实际应用中,关键字很难完整的表达图像的本身信息,同时,随着图像的不断增多,人工标注的工作量也会急剧攀升。因此,基于文本的图像检索技术很难满足信息化时代图像检索的要求。
基于内容的图像检索技术是一种近些年发展起来的利用图像本身的颜色,纹理,布局等本身特征信息进行图像检索的技术。图像的特征分为低层物理特征(如颜色、纹理、形状、轮廓等)和高层语意特征(如人对图像概念的反应以及人对图片的个人理解)。目前条件下,高层语意特征一般通过人工标注的方法实现,也就是基于文本的图像检索方法。而颜色、纹理、形状等低层物理特征相对比较容易提取,也可客观地反应图像之间的差别。然而,目前的颜色、纹理、形状等低层物理特征都是基于图片的整体统计直方图特征,这种基于统计直方图的特征不可避免的丢失了图片的局部细节特征,在一定程度上减弱了图像之间的差别,进而影响图像的检索效果。
发明内容
本发明的目的在于,针对现有的基于内容的图像检索技术中,基于统计直方图的特征会丢失图片的局部细节,导致检索结果不够精确的问题,提供一种能够反映图片局部细节特征的多模态图像检索方法。
本发明解决上述问题的方案是,提供一种多模态图像检索方法,包括以下步骤:
S1、输入待检索图像;
S21、提取待检索图像的颜色特征;
S22、提取待检索图像的边界角度特征;
S3、融合颜色特征和边界角度特征,得到多模态特征;
S4、比较待检索图像与数据库中图像的多模态特征;
S5、输出检索结果。
本发明的多模态图像检索方法,所述步骤S21包括:
待检索图像转换成多个通道的图像;
对每个通道的图像分割成块;
将图像块堆叠成向量集;
依据向量集求解转换矩阵;
依据转换矩阵计算图像的二维颜色特征。
本发明的多模态图像检索方法,所述步骤S22包括:
计算各个通道图像的梯度向量;
依据所述各个通道图像的梯度向量计算边界角度图像;
依据所述边界角度图像得到待检索图像的二维边界角度特征。
本发明的多模态图像检索方法,所述待检索图像为RGB图像f(x,y),所述RGB图像f(x,y)包括3个通道图像f′(x,y),所述f′(x,y)包括R通道图像fR(x,y)、G通道图像fG(x,y)、B通道图像fB(x,y)。
本发明多模态图像检索方法,所述步骤S21包括:
将f′(x,y)的图像分割成p1×p2块;X′={f′1,f′2,...,f′p}为f′(x,y)的子图像集;
取X′中的任意元素进行堆叠,形成向量集;
求解最优化方程
其中,J(W)为关于W的目标函数,W是最大化目标函数得到的降维变换矩阵,E是每个元素都是1的矩阵,I是单位矩阵,trace是矩阵的迹函数;
由W和yri=WTxri得到关于xri的颜色特征。
本发明的多模态图像检索方法,所述步骤S22包括:
对三个通道fR(x,y)、fG(x,y)、fB(x,y)的图像进行梯度运算;
像素p(x,y)的角度θ(x,y)为:
其中,
依据θ(x,y)得到待检索图像的二维边界角度特征。
本发明的多模态图像检索方法,所述步骤S4还包括:
引入多模态相似度量:
本发明的多模态图像检索方法,还包括进行完检索后,将图像的相关参数保存到数据库中。
实施本发明的多模态图像检索方法,将图像分成子图像,通过不同的通道进行颜色和角度特征的提取,从而实现了在保持图片细节的前提下提取图片的颜色、纹理以及形状特征。尤其适用于布料和时装图像的检索。
附图说明
以下结合附图对本发明进行说明,其中:
图1为本发明多模态图像检索方法一则优选实施例的流程图;
图2为本发明待检索图像分解为RGB通道图像的示意图;
图3为本发明多模态图像检索方法中颜色特征提取方法的流程图;
图4为本发明多模态图像检索方法中边界角度特征提取方法的流程图。
具体实施方式
本发明针对现有的图像检索方法会在统计直方图的特征时丢失图片细节,导致检索结果不够精确的缺陷,提供一种基于多模态局部PCA特征描述算子,在保持图片细节的前提下提取图片的颜色、纹理或形状特征,提高检索的准确性。
以下将结合附图和具体实施方式,详细说明基于本发明的思想,如何进行图像的检索。
如图1所示为本实施例的图像检索方法流程图。首先在步骤S1中,输入一个待检索的图像,对于这个平面图像,将其数值化处理。例如,在计算机系统中,图像可以以不同的格式输入,例如bmp图像,jpg图像等。为了方便在计算机系统中对图像进行描述,以下均以f(x,y)的函数形式来表述图像,其中(x,y)分别表示X坐标和Y坐标。由于现在的图像通常以不同的通道来表述图像,例如常见的有RGB、CMYK等,若在RGB图像中,对于给定的一点(x,y),其f(x,y)一般包括3个分量,分别表示R、G、B的数值。
对于转换好,并以f(x,y)形式表示的图像,分别在步骤S21提取其颜色特征和在步骤S22提取边界角度特征。为了直观地显示如何提取出颜色特征和边界特征,现在以一个RGB图像为例进行说明。
首先提取出图像的颜色特征,其步骤如图3所示。对于一个尺寸为m×n的如图2所示RGB图像,该待检索图像100可以用数学表示成:f(x,y)∈Rm×n×3,该公式表示f(x,y)在一个m×n×3的实数范围内取值,若考虑到每一个R、G、B通道,则有:fR(x,y)∈Rm×n,fG(x,y)∈Rm×n,fB(x,y)∈Rm×n,分别对应图中的R通道图像101、G通道图像102、B通道图像103;在本实施例中,对R通道图像fR(x,y)进行处理,阐述如何提取该通道图像的颜色特征。
将fR(x,y)的图像分割成p=p1×p2的小块,其中p1,p2分别是行和列对应的子块数,记XR={fR1,fR2,...,fRp}为fR(x,y)∈Rm×n的子图像集,这里其中m1=m/p1,n1=n/p2。
然后取XR中的任意元素进行堆叠,形成向量,用数学符号表示如下:
堆叠成向量,fRi∈Rq,(q=m1×n1),得到一个XR对应的向量集。
接着需要通过XR来得到颜色特征,此步骤中,需要一个转换矩阵W来得到,而该矩阵W是通过一个最优化方程来求解的:
其中,J(W)为关于W的目标函数,W是最大化目标函数得到的降维变换矩阵,d为提取的主要特征个数,E是每个元素都是1的矩阵,I是单位矩阵,trace是矩阵的迹函数。
当通过上述的有优化方程得到W之后,则可以通过yri=WTxri得到关于xri的颜色特征,继而可以得到Xr对应的颜色特征集Yr={yr1,yr2,...,yrp},然后对上述的颜色特征集的元素进行排序:对yri,(i=1,2...,p),按照图像子集的空间几何位置进行排序,得到fR(x,y)对应的2D颜色特征,该特征可用数学符号表示称:
以上得到了R通道的颜色特征YR,通过相似的处理步骤对G通道fG(x,y)和B通道进行处理,得到另外两个颜色通道的颜色特征YG和YB。
以上的步骤通过对每个子图像进行特征提取,保持图像的局部细节特征,因此相对于目前现有技术中基于统计直方图的颜色特征,上述的方法能够更多的保持图像本身的内容信息,进而保持不同图像之间的差别性。
此后,提取图像的边界角度特征,具体如图4所示。对全彩图像f(x,y)∈Rm×n×3,进行每个像素点的方向信息采集:
根据索贝尔算子分别计算对三个通道fR(x,y)、fG(x,y)、fB(x,y)的图像进行梯度运算。具体如下:
首先令:
然后计算以下的三个值:
那样,像素p(x,y)的角度θ(x,y)则为:
进而得到整个全彩图像f(x,y)对应的边界角度图像fθ(x,y);对所有通道都像素的角度计算后,得到全彩图像的二维边界角度特征Yθ(x,y)。
通过上述的步骤,得到了关于全彩图像的二维边界角度特征,相比于现有技术中将整幅图像的边界角度量化统计直方图,上述的边界角度特征计算更能够保持图像的细节信息,增强不同图像之间的差异性。
本发明通过上述的步骤分别获得了颜色特征和角度特征,在步骤S3中,将这两个特征融合为图像的多模态特征,在后续的检索过程中则只要比较多模态特征即可。在步骤S4中,将上述的两个特征相结合,作为图像的多模态特征,进行比较。而为了确认两幅图像的相似程度,引入一个多模态相似度量:
其中,λ1-λ4为检索参数,Y1R、Y1G、Y1B、Y1θ为待检索图像的R通道颜色特征、G通道颜色特征、B通道颜色特征和边界角度特征;Y2R、Y2G、Y2B、Y2θ为数据库中被比较图像R通道颜色特征、G通道颜色特征、B通道颜色特征和边界角度特征。对应于不同的待检索图像,通过调节λ1-λ4,来获得最佳的检索效果。例如如果只根据方向纹理特征计算相似度量:λ1=λ2=λ3=0,λ4=1;如果只根据颜色特征进行计算相似度量:λ1=λ2=λ3=1,λ4=0;如根据颜色和方向纹理特征计算相似度量:λ1=λ2=λ3=λ4=1。
当比较两幅图像的值越小,则两幅图像越相似。当对数据库中的所有图像进行检索后,值最小的即为最相似的图像,在步骤S5中,将该图像进行输出。
以上的实施例中给出了RGB图像。若使用CMYK图像,则上述的方法步骤中需要对应修改为4个通道的图像,对应的,的计算也需要适应性的进行修改。
较佳的,对于检索时,一般对的值进行限定范围,只要检索的值落在该范围内,就将相关的图像输出。以保证相似的图像都能够被检索得到。
较佳的,在对待检索的图像进行完检索后,将图像的相关参数保存到数据库中,以便以后进行检索时,直接从数据库中调取相关的图像数据。
本发明通过将图像分成子图像,通过不同的通道进行颜色和角度特征的提取,从而实现了在保持图片细节的前提下提取图片的颜色、纹理以及形状特征。尤其适用于布料和时装图像的检索。
以上仅为本发明具体实施方式,不能以此来限定本发明的范围,本技术领域内的一般技术人员根据本发明所作的均等变化,以及本领域内技术人员熟知的改变,都应仍属本发明涵盖的范围。
Claims (8)
1.一种多模态图像检索方法,其特征在于,包括以下步骤:
S1、输入待检索图像;
S21、提取待检索图像的颜色特征;
S22、提取待检索图像的边界角度特征;
S3、融合颜色特征和边界角度特征,得到多模态特征;
S4、比较待检索图像与数据库中图像的多模态特征;
S5、输出检索结果。
2.根据权利要求1所述的多模态图像检索方法,其特征在于,所述S21包括:
S211、待检索图像转换成多个通道的图像;
S212、对每个通道的图像分割成块;
S213、将图像块堆叠成向量集;
S214、依据向量集求解转换矩阵;
S215、依据转换矩阵计算图像的二维颜色特征。
3.根据权利要求2所述的多模态图像检索方法,所述S22包括:
S221、计算各个通道图像的梯度向量;
S222、依据所述各个通道图像的梯度向量计算边界角度图像;
S223、依据所述边界角度图像得到待检索图像的二维边界角度特征。
4.根据权利要求1所述的多模态图像检索方法,其特征在于,所述待检索图像为RGB图像f(x,y),所述RGB图像f(x,y)包括3个通道图像f′(x,y),所述f′(x,y)包括R通道图像fR(x,y)、G通道图像fG(x,y)、B通道图像fB(x,y)。
5.根据权利要求4所述的多模态图像检索方法,其特征在于,所述S21包括:
将f′(x,y)的图像分割成p1×p2块;X′={f′1,f′2,...,f′p}为f′(x,y)的子图像集;
取X′中的任意元素进行堆叠,形成向量集;
求解最优化方程
其中,J(W)为关于W的目标函数,W是最大化目标函数得到的降维变换矩阵,E是每个元素都是1的矩阵,I是单位矩阵,trace是矩阵的迹函数,q为f′(x,y)的图像分割成p1×p2块后,每块图像的维数,d为提取特征个数;
由W和yri=WTxri得到关于xri的颜色特征。
6.根据权利要求5所述的多模态图像检索方法,其特征在于,所述S22包括:
对三个通道fR(x,y)、fG(x,y)、fB(x,y)的图像进行梯度运算;
像素p(x,y)的角度θ(x,y)为:
其中,
依据θ(x,y)得到待检索图像的二维边界角度特征。
7.根据权利要求6所述的多模态图像检索方法,所述步骤S4还包括:
引入多模态相似度量:
其中,λ1-λ4为检索参数,Y1R、Y1G、Y1B、Y1θ为待检索图像的R通道颜色特征、G通道颜色特征、B通道颜色特征和边界角度特征;Y2R、Y2G、Y2B、Y2θ为数据库中被比较图像R通道颜色特征、G通道颜色特征、B通道颜色特征和边界角度特征。
8.根据权利要求1的多模态图像检索方法,其特征在于,还包括进行完检索后,将图像的相关参数保存到数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410374703.0A CN105320694A (zh) | 2014-07-31 | 2014-07-31 | 多模态图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410374703.0A CN105320694A (zh) | 2014-07-31 | 2014-07-31 | 多模态图像检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105320694A true CN105320694A (zh) | 2016-02-10 |
Family
ID=55248094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410374703.0A Pending CN105320694A (zh) | 2014-07-31 | 2014-07-31 | 多模态图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105320694A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107316053A (zh) * | 2017-05-25 | 2017-11-03 | 华东理工大学 | 一种布料图像快速匹配检索方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004361987A (ja) * | 2003-05-30 | 2004-12-24 | Seiko Epson Corp | 画像検索システム、画像分類システム、画像検索プログラム及び画像分類プログラム、並びに画像検索方法及び画像分類方法 |
CN101763429A (zh) * | 2010-01-14 | 2010-06-30 | 中山大学 | 一种基于颜色和形状特征的图像检索方法 |
CN101770578A (zh) * | 2010-03-24 | 2010-07-07 | 上海交通大学 | 图像特征提取方法 |
CN102662949A (zh) * | 2012-02-27 | 2012-09-12 | 安科智慧城市技术(中国)有限公司 | 一种基于多特征融合的指定目标检索方法及系统 |
CN102622420B (zh) * | 2012-02-22 | 2013-10-30 | 哈尔滨工程大学 | 基于颜色特征和形状上下文的商标图像检索方法 |
CN103744885A (zh) * | 2013-12-23 | 2014-04-23 | 哈尔滨工程大学 | 一种基于子块的融合颜色和方向特征的图像检索方法 |
-
2014
- 2014-07-31 CN CN201410374703.0A patent/CN105320694A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004361987A (ja) * | 2003-05-30 | 2004-12-24 | Seiko Epson Corp | 画像検索システム、画像分類システム、画像検索プログラム及び画像分類プログラム、並びに画像検索方法及び画像分類方法 |
CN101763429A (zh) * | 2010-01-14 | 2010-06-30 | 中山大学 | 一种基于颜色和形状特征的图像检索方法 |
CN101770578A (zh) * | 2010-03-24 | 2010-07-07 | 上海交通大学 | 图像特征提取方法 |
CN102622420B (zh) * | 2012-02-22 | 2013-10-30 | 哈尔滨工程大学 | 基于颜色特征和形状上下文的商标图像检索方法 |
CN102662949A (zh) * | 2012-02-27 | 2012-09-12 | 安科智慧城市技术(中国)有限公司 | 一种基于多特征融合的指定目标检索方法及系统 |
CN103744885A (zh) * | 2013-12-23 | 2014-04-23 | 哈尔滨工程大学 | 一种基于子块的融合颜色和方向特征的图像检索方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107316053A (zh) * | 2017-05-25 | 2017-11-03 | 华东理工大学 | 一种布料图像快速匹配检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Uijlings et al. | Video classification with densely extracted hog/hof/mbh features: an evaluation of the accuracy/computational efficiency trade-off | |
US11416710B2 (en) | Feature representation device, feature representation method, and program | |
US9449026B2 (en) | Sketch-based image search | |
EP2955645A1 (en) | System for automated segmentation of images through layout classification | |
Alidoost et al. | A CNN-based approach for automatic building detection and recognition of roof types using a single aerial image | |
Agarwal et al. | Multi-channel local ternary pattern for content-based image retrieval | |
CN104156433B (zh) | 一种基于语义映射空间构建的图像检索方法 | |
Yin et al. | Multiview clustering via unified and view-specific embeddings learning | |
US20160132498A1 (en) | Color Sketch Image Searching | |
Hor et al. | Image retrieval approach based on local texture information derived from predefined patterns and spatial domain information | |
Zhang et al. | Image retrieval using the extended salient region | |
Ahmad et al. | Multi-scale local structure patterns histogram for describing visual contents in social image retrieval systems | |
Seetharaman et al. | Statistical distributional approach for scale and rotation invariant color image retrieval using multivariate parametric tests and orthogonality condition | |
Strait et al. | Landmark-constrained elastic shape analysis of planar curves | |
Mzoughi et al. | Semantic-based automatic structuring of leaf images for advanced plant species identification | |
Liu et al. | Exploiting deep textures for image retrieval | |
Sitaula et al. | Unsupervised deep features for privacy image classification | |
CN102831161A (zh) | 用于图像检索的基于流形正则化的半监督排序学习方法 | |
CN110781817B (zh) | 一种解决部件不对齐的行人再识别方法 | |
Bhoir et al. | A review on recent advances in content-based image retrieval used in image search engine | |
CN105320694A (zh) | 多模态图像检索方法 | |
Shabbir et al. | Tetragonal Local Octa-Pattern (T-LOP) based image retrieval using genetically optimized support vector machines | |
Meenakshi et al. | A novel image recognition using Fuzzy C-Means and content-based fabric image retrieval | |
Lee et al. | Content-based image retrieval using spatial-color and Gabor texture on a mobile device | |
Tayade et al. | An efficient face recognition and retrieval using LBP and SIFT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160210 |