CN103377381B - 识别图像的内容属性的方法和装置 - Google Patents
识别图像的内容属性的方法和装置 Download PDFInfo
- Publication number
- CN103377381B CN103377381B CN201210127099.2A CN201210127099A CN103377381B CN 103377381 B CN103377381 B CN 103377381B CN 201210127099 A CN201210127099 A CN 201210127099A CN 103377381 B CN103377381 B CN 103377381B
- Authority
- CN
- China
- Prior art keywords
- image
- contents attribute
- weights
- training
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
提供了一种识别图像的内容属性的方法和装置。该方法包括步骤:从训练图像库中查找与待标注图像最相似的前K个训练图像作为待标注图像的邻近图像,其中K>1;以下述方式确定邻近图像的权值:基于这些权值对邻近图像的图像特征进行加权平均得到的结果最接近待标注图像的图像特征;以及根据利用所确定的权值对邻近图像的内容属性进行加权而得到的加权和来确定至少一个内容属性作为所识别的内容属性。其中,通过以下方式得到邻近图像的权值:计算K×K相关矩阵C,其第m行、n列的元素为其中为图像的特征,为第i个邻近图像的特征;求解线性方程其中为权值向量,为各元素均为1的向量;以及将的归一化的元素值确定为相应邻近图像的权值。
Description
技术领域
本发明一般涉及图像处理,更具体地,涉及识别图像的内容属性的方法和装置。
背景技术
随着数字摄像设备特别是具有摄像功能的智能手机的迅速发展和普及,在各个应用领域和场合下,每天会产生数以亿计的数字图像和视频。另外,例如微博、flickr等的社交网络的发展极大地推动了图像和视频的共享,人们已经习惯于将自己拍摄的图像和视频上载到网络上以供他人浏览。因此,在这些社交网站上积累了大量的图像和视频。然而,如何对这些图像和视频进行快速、准确的检索已成为制约内容共享的一个关键问题。
图像内容属性识别(图像标注)是实现图像和视频管理的一个有效的方法,其基本思路为:给定一个标注好的图像库(也称为训练数据库,数据库中的每个图像都按其内容标注了一些文本关键词作为内容属性,即标签),根据该图像库的内容,为一个新图像自动生成文本关键词,即,识别新图像的内容属性。图像标注技术可以有很多种应用方式,例如:在图像检索中,利用生成的内容属性信息对图像进行检索,由于利用文本匹配代替了传统的图像特征的匹配,因此可以大大提高检索的效率;在社交网站中,可以为用户上载的内容自动生成标签,从而减轻了终端用户的工作。
较常用的图像标注方法是基于投票的方法,该方法主要包含两个部分:(1)获得邻近图像,即根据待标注图像的特征从训练图像库中查找与其最相似的前K个图像;(2)以K邻近图像的内容属性信息对待标注图像进行投票(即,针对K邻近图像的相应内容属性信息进行求和),票数最多的标签即为待标注图像的标注结果。
下面结合图1所示的示例说明现有技术的基于投票的图像标注方法。
假设K=5,如图中所示出的,与待标注图像最相似的前5个邻近图像的内容属性分别为:
(1)golden,gate,bridge;
(2)Sanfrancisco,California,CA,bridge,traffic;
(3)favorite,Sanfrancisco,bridge,golden,gate;
(4)USA,California,presidio,golden,bridge,gate;
(5)golden,river,sight,2006,bridge。
以这5个图像的内容属性进行投票,得到的结果如下:bridge(5),golden(4),gate(3),Sanfrancisco(2),California(2),CA(1),traffic(1),favorite(1),USA(1),presidio(1),river(1),sight(1),2006(1)。将得票数最多的内容属性确定为待标注图像的标签,例如,如果取得票数最多的前3个内容属性,则结果为bridge,golden,gate,从而完成图像的内容属性识别。
发明内容
然而,这种简单的K邻近图像投票的图像标注方法存在两个主要的问题:
(1)K邻近图像以同等的方式被看待,就是说,每个图像的重要性是一样的。然而事实上,给定待标注图像后,这些K邻近图像和待标注图像的关系是不同的。为此,需要利用待标注图像和K邻近图像的相似度为K邻近图像确定权值;
(2)投票过程中没有考虑标签的相关性,也就是说,每个内容属性是完全独立的。然而事实上,内容属性之间是相关的,例如“建筑”和“房子”的相关性比“建筑”和“动物”的相关性要大。
本发明的目的在于提供一种用于识别图像的内容属性的方法和装置,其能够至少部分地解决现有技术中存在的上述问题。
根据本发明的一个实施例,提供一种识别图像的内容属性的方法,包括步骤:从训练图像库中查找与所述图像最相似的前K个训练图像作为所述图像的邻近图像,其中K>1;以下述方式确定所述邻近图像的权值:基于所述权值对所述邻近图像的图像特征进行加权平均得到的结果最接近所述图像的图像特征;以及根据利用所确定的权值对所述邻近图像的内容属性进行加权而得到的加权和来确定至少一个所述内容属性作为所识别的内容属性。其中,通过以下方式得到邻近图像的权值:计算K×K相关矩阵C,其第m行、n列的元素为其中为图像的特征,为第i个邻近图像的特征,·表示点积;求解线性方程其中为权值向量,为各元素均为1的向量,*表示相乘;以及将的归一化的元素值确定为相应邻近图像的权值。
根据本发明的另一个实施例,提供一种识别图像的内容属性的装置,包括:邻近图像查找部分,被配置为从训练图像库中查找与所述图像最相似的前K个训练图像作为所述图像的邻近图像,其中K>1;权值确定部分,被配置为以下述方式确定所述邻近图像的权值:基于所述权值对所述邻近图像的图像特征进行加权平均得到的结果最接近所述图像的图像特征;以及内容属性识别部分,被配置为根据利用所确定的权值对所述邻近图像的内容属性进行加权而得到的加权和来确定至少一个所述内容属性作为所识别的内容属性。其中,权值确定部分被配置为通过以下方式得到邻近图像的权值:计算K×K相关矩阵C,其第m行、n列的元素为其中为图像的特征,为第i个邻近图像的特征,·表示点积;求解线性方程其中为权值向量,为各元素均为1的向量,*表示相乘;以及将的归一化的元素值确定为相应邻近图像的权值。
附图说明
参照以下结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。为了避免因不必要的细节而模糊了本发明,在附图中仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其它细节。
图1是示出现有技术的基于投票的图像标注方法的示例的说明图;
图2是图解根据本发明实施例的识别图像的内容属性的方法的流程图;
图3是图解根据本发明的一个实施例的识别图像的内容属性的方法的流程图;
图4是图解根据本发明实施例的识别图像的内容属性的装置的配置示例的框图;
图5是图解根据本发明的一个实施例的识别图像的内容属性的装置的配置示例的框图;以及
图6是示出实现本发明的装置和方法的计算机的示例性结构的框图。
具体实施方式
下面参照附图说明本发明的实施例。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
图2是图解根据本发明实施例的识别图像的内容属性的方法的流程图。在步骤S210,从训练图像库中查找与待标注图像最相似的前K个训练图像作为待标注图像的邻近图像,其中K>1;在步骤S220,以下述方式确定邻近图像的权值:邻近图像的图像特征的基于这些权值的加权平均最接近待标注图像的图像特征;在步骤S230,根据利用所确定的权值对邻近图像的内容属性进行加权而得到的加权和来确定至少一个内容属性作为所识别的内容属性。
假设训练图像的特征(即,由例如颜色直方图、纹理或形状特征等图像特征构成的向量空间中的向量)为i=1,…,N,其中N为训练图像的数目。在步骤S210中,从训练图像集中查找与待标注图像最相似(即,在向量空间中与待标注图像距离最近)的前K个邻近图像。例如可以采用简单的欧氏距离等方式来实现邻近图像的计算。
接下来,在步骤S220,根据待标注图像与其K邻近图像的相似性,为每个邻近图像生成权值,即,得到一个权值向量其中Wi为第i个邻近图像的权值。将这些权值确定为使得邻近图像的特征 的基于这些权值的加权平均最接近待标注图像的特征。
设待标注图像的特征为针对该图像在训练图像中查找出的K邻近图像的特征为根据一个具体实施例,按照以下方式确定权值:
计算大小为K×K的相关矩阵C,该矩阵中第m行、n列的元素为:
其中,·表示点积;
可以采用已有方法求解线形方程(其中为各元素均为1的向量,*表示相乘),从而得到权值向量
将权值归一化,即,将权值向量中每个元素的值除以所有这些元素的和,从而使所有元素的和为1。
本领域技术人员能够明白,也可以采用其它方法确定使邻近图像的图像特征的加权平均最接近待标注图像的图像特征的权值。
接下来,在步骤S230,根据在步骤S220中得到的邻近图像的权值以及邻近图像的内容属性,通过针对相应内容属性计算加权和来确定待标注图像的内容属性。具体地,假设待标注图像的某个邻近图像的权值为wi,并且该邻近图像的有D个内容属性,分别为t1 i,t2 i,...,tD i,则在计算加权和时,内容属性t1 i,t2 i,...,tD i中的每个被赋予权值wi。在针对全部K邻近图像的内容属性完成加权求和时,将加权和最高的一个或更多个内容属性确定为待标注图像的内容属性,从而完成图像内容属性识别。
在根据本发明的另一个实施例的图像内容属性识别方法中,在查找邻近图像的步骤之前还可以包括步骤:通过变换矩阵对图像特征的向量空间进行变换,使得训练图像库中训练图像间的相似度和/或训练图像的内容属性集合间的相似度满足预定标准的训练图像的向量间距减小。
在根据本发明的又一个实施例的图像内容属性识别方法中,在通过加权和确定所识别的内容属性的步骤之前还可以包括步骤:计算训练图像库中的训练图像的内容属性的相关性,并且在通过加权和确定所识别的内容属性的步骤中,将被计算为与邻近图像的内容属性具有相关性的内容属性添加为相应邻近图像的内容属性,并且根据所计算的相关性以及相应邻近图像的权值来确定所添加的内容属性在加权和中的权值。
图3是图解根据本发明一个实施例的包含对图像特征的向量空间进行变换的步骤和计算训练图像库中的训练图像的内容属性的相关性的步骤的图像内容属性识别方法的流程图。应注意,虽然图3所示的方法中同时包括对向量空间进行变换的步骤S310和计算内容属性的相关性的步骤S340,然而本领域技术人员能够明白,在另外的实施例中,可以只包括对向量空间进行变换的步骤和计算内容属性的相关性的步骤之一。
步骤S310进行的向量空间变换实际上是进行距离尺度学习,距离尺度学习的目标是将原始的图像特征变换为另一种形式,使得在后续的步骤中得到的K邻近图像更为合理。一般来说,可以采用一些现有的算法完成距离尺度学习,例如局部保留投影(Locality Preserved Projection,LPP)方法。
距离尺度学习的结果是一个变换矩阵T,它将原有的图像特征向量变换为一个新的向量。后续的计算,包括K邻近图像查找和邻近图像权值计算均在新的特征上完成。
假设训练图像的原始特征为i=1,…,N,其中N为训练图像的数目;尺度变换矩阵为T,经变换后的新特征记为i=1,…,N,即,下面,以局部保留投影为例,具体说明距离尺度学习的步骤:
(1)对于训练集合中的任意两个图像,计算其相似度。其中,相似度计算可以基于图像特征,即基于训练图像本身的相似度;可以基于训练图像的内容属性信息,即基于训练图像的内容属性集合的相似度;也可以综合利用图像特征及内容属性信息,即基于训练图像本身的相似度以及训练图像的内容属性集合的相似度。如上所述,训练图像本身的相似度可以对应于在图像特征的向量空间中的距离。另外,训练图像的内容属性的相似度可以基于内容属性的语义确定,如本领域已知的,可以利用同义词词典等确定内容属性的相似度(例如根据Wordnet中的语义距离),或者可以基于统计信息、根据词语的相关性来确定内容属性的相似度。
(2)构建邻近相似矩阵S,该矩阵的大小为N×N,矩阵中的行和列均对应于训练图像。给定任何一个训练图像,查找与其相似度最高的前K’个邻近图像,并将矩阵S中的相应位置设置为它们的相似度。将矩阵S中不对应于邻近图像的元素的值设为0。应注意,可以选用其它的标准确定邻近图像,例如,可以选取图像特征的相似度高于预定阈值的所有图像作为邻近图像,在这种情况下,对于每个训练图像而言,其邻近图像的数目的值可以不同。
(3)构建优化函数以求解变换矩阵,优化函数例如可以具有以下形式:
可以通过现有的方法求解上面的优化问题,从而得到变换矩阵T。
可以理解,在通过上述变换矩阵对图像特征的向量空间进行变换后,训练图像库中图像相似度和/或内容属性相似度满足预定标准的训练图像(例如,最相似的前K’个训练图像或者相似度高于预定阈值的训练图像)的向量间的距离减小。
接下来,在步骤S320,基于经变换的向量空间,在训练图像库中查找与待标注图像最相似的前K个邻近图像。具体地,在经变换的向量空间中,待标注图像的特征由变换为而训练图像的特征变为i=1,…,N,其中并且,查找出前K个邻近图像。
接下来,在步骤S330,根据待标注图像与其K邻近图像的相似性,为每个邻近图像生成权值。步骤S330与上面描述的步骤S220类似,并且也可以采用构建相关矩阵的方式确定权值,其中以经变换的特征和代替特征和其具体过程不再赘述。
接下来,在步骤S340,计算训练图像库中的训练图像的内容属性的相关性。该步骤的目的在于,在进行图像内容属性识别的过程中考虑到训练图像的内容属性在语义上的相关性。
可以通过多种方法确定内容属性的相关性,例如:通过语义网(例如,WordNet)直接得到各内容属性的关系,并根据这些关系计算内容属性的相关值。此外,还可以根据训练图像集中各内容属性共同出现的频度(co-occurrence,即共生相似性)来计算内容属性之间的相关性。
下面以共生相似性的方法为例说明计算内容属性的相关性的过程。给定训练集,假设所有独立的内容属性构成的集合为T={t1,…,tM},其中,M为互不相同的内容属性的数目。
可以按如下方式计算任意两个内容属性ti和tj的相关性:
计算内容属性ti和tj在图像集合中的出现频度。假设图像集合中的图像数目为N,这些图像中具有内容属性ti和tj的数目分别为p和q,那么,内容属性ti和tj的频度为:
f(ti)=p/N,f(tj)=q/N
计算内容属性ti和tj同时出现的频度。即,在图像集合的所有N个图像中,同时具有内容属性ti和tj的图像所占的比例,记为f(ti,tj)。
根据下式计算内容属性ti和tj的共生距离:
将内容属性ti和tj相关性计算为:
s(ti,tj)=exp(-d(ti,tj))
接下来,在步骤S350,根据在步骤S340中计算的内容属性的相关性,将与邻近图像的内容属性具有相关性的内容属性添加为相应邻近图像的内容属性,利用在步骤S330确定的权值和在步骤S340确定的相关性计算邻近图像的内容属性的加权和,并根据该加权和来确定待标注图像的内容属性。即,在步骤S350中,将上述计算得到的图像的权值和内容属性相关性信息结合在一起,用加权求和的方式,确定待标注图像的内容属性。
具体来说,对于待标注图像,假设某个邻近图像为yi,其权值为wi,此外,该邻近图像的D个内容属性为t1 i,t2 i,...,tD i。首先,根据内容属性相关性矩阵得到与内容属性t1 i,t2 i,...,tD i相对应的D行数据,其中,与tn i(n=1,2,…,D)相对应的数据行包含M个元素(如上所述,M为训练集中互不相同的内容属性的数目),其中每个元素表示内容属性tn i与相应内容属性间的相关性;然后,将这D行数据按列相加,得到一个M维的向量第i个邻近图像对加权和的贡献为针对邻近图像的内容属性及其相关内容属性计算加权和,并从中选取加权和较高的一个或更多个内容属性作为待标注图像的内容属性识别结果。
下面举例说明用所确定的权值和相关性而得到的邻近图像的内容属性及其相关内容属性的加权和来确定待标注图像的内容属性的过程。
假设训练集合中共有7个互不相同的内容属性,即:大海、建筑、沙滩、汽车、道路、海豚、动物园。根据共生相似性统计得到的这些内容属性的相关性如下面的表1所示。
表1
大海 | 建筑 | 沙滩 | 汽车 | 道路 | 海豚 | 动物园 | |
大海 | 1 | 0.6 | 0.9 | 0.1 | 0.3 | 0.4 | 0.05 |
建筑 | 0.6 | 1 | 0.7 | 0.8 | 0.9 | 0 | 0.2 |
沙滩 | 0.9 | 0.7 | 1 | 0.2 | 0.4 | 0.3 | 0.1 |
汽车 | 0.1 | 0.8 | 0.2 | 1 | 0.8 | 0.1 | 0.3 |
道路 | 0.3 | 0.9 | 0.4 | 0.8 | 1 | 0.1 | 0.4 |
海豚 | 0.4 | 0 | 0.3 | 0.1 | 0.1 | 1 | 0.7 |
动物园 | 0.05 | 0.2 | 0.1 | 0.3 | 0.4 | 0.7 | 1 |
对于某一待标注图像,假设其有3个邻近训练图像,这3个图像的权值分别被计算为0.2、0.3和0.5,而这3个训练图像的内容属性分别为{建筑、沙滩}、{大海、沙滩、海豚}、{建筑、汽车}。
第一个邻近图像的内容属性为建筑、沙滩,根据表1,与之对应的相关性矩阵中的数据为:
{0.6,1,0.7,0.8,0.9,0,0.2};
{0.9,0.7,1,0.2,0.4,0.3,0.1},
将这两个向量相加得到一个向量,即:
{1.5,1.7,1.7,1.0,1.3,0.3,0.3}。
将上面的向量与该邻近图像的权值0.2相乘,得到:
{0.3,0.34,0.34,0.2,0.26,0.06,0.06},
该向量即为第一个邻近图像的加权和结果。
利用类似的过程处理第二个邻近图像,即,将相似性矩阵中与大海、沙滩、海豚对应的数据相加,并乘以权值0.3,得到:
{0.69,0.39,0.66,0.12,0.24,0.51,0.255},
此即为第二个邻近图像的加权和结果。
与此类似,得到第三个邻近图像的加权和结果:
{0.35,0.9,0.45,0.9,0.85,0.05,0.25}。
将上述3个加权和结果和在一起,得到:
{1.34,1.63,1.45,1.22,1.35,0.62,0.565}。
也就是说,7个内容属性{大海、建筑、沙滩、汽车、道路、海豚、动物园}的加权和别为1.34、1.63、1.45、1.22、1.35、0.62、0.565。
按照加权和对这7个内容属性进行排序,得到:{建筑、沙滩、道路、大海、汽车、海豚、动物园}。可以从中选择加权和较高的一个或更多个的内容属性,作为最终所识别的内容属性。
图4是图解根据本发明实施例的识别图像的内容属性的装置400的配置示例的框图。装置400包括:邻近图像查找部分410、权值确定部分420以及内容属性识别部分430。
邻近图像查找部分410被配置为从训练图像库中查找与待标注图像最相似的前K个训练图像作为待标注图像的邻近图像,其中K>1;
权值确定部分420被配置为以下述方式确定邻近图像的权值:邻近图像的图像特征的基于这些权值的加权平均最接近待标注图像的图像特征;
内容属性识别部分430被配置为根据利用所确定的权值对邻近图像的内容属性进行加权而得到的加权和来确定至少一个内容属性作为所识别的内容属性。
根据一个实施例,权值确定部分420被配置为通过以下方式得到邻近图像的权值:
计算大小为K×K的相关矩阵C,其第m行、n列的元素为其中为待标注图像的特征,为第i个邻近图像的特征;求解线性方程其中为系数向量,为各元素均为1的向量;以及将的归一化的元素值确定为相应邻近图像的权值。
图5是图解根据本发明的一个实施例的识别图像的内容属性的装置500的配置示例的框图。装置500包括距离尺度学习部分510、邻近图像查找部分520、权值确定部分530、相关性计算部分540以及内容属性识别部分550。
距离尺度学习部分510被配置为利用变换矩阵对图像特征的向量空间进行变换,使得训练图像库中训练图像间的相似度和/或训练图像的内容属性集合间的相似度满足预定标准的训练图像的向量间的距离减小。
根据一个实施例,距离尺度学习部分510利用局部保留投影方法、根据训练图像间的相似度和/或训练图像的内容属性集合间的相似度来确定变换矩阵。
邻近图像查找部分520基于经变换的图像特征向量空间从训练图像库中查找与待标注图像最相似的前K个训练图像作为待标注图像的邻近图像。
权值确定部分530被配置为以下述方式确定邻近图像的权值:基于这些权值对邻近图像的图像特征进行加权平均得到的结果最接近待标注图像的图像特征。
相关性计算部分540被配置为计算训练图像库中的训练图像的内容属性的相关性。
内容属性识别部分550被配置为根据相关性计算部分540计算的相关性,将与邻近图像的内容属性相关的内容属性添加为相应邻近图像的内容属性,并根据对邻近图像的内容属性进行加权而得到的加权和来确定至少一个内容属性作为所识别的内容属性,其中,根据权值确定部分530针对相应邻近图像确定的权值以及相关性计算部分540计算的相关性来确定内容属性在加权和中的权值。
根据一个实施例,相关性计算部分540基于内容属性在训练图像中的共同出现频度来计算内容属性间的相关性。
应注意,虽然图5所示的装置500中同时包含距离尺度学习部分510和相关性计算部分540,然而本领域技术人员能够明白,在另外的实施例中,可以只包含距离尺度学习部分510和相关性计算部分540之一。
所属技术领域的技术人员知道,本发明可以体现为装置、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即,可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者软件部分与硬件部分的组合。此外,本发明还可以采取体现在任何有形的表达介质中的计算机程序产品的形式,该介质中包含计算机可用的程序码。
可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质,计算机可读存储介质例如可以是,但不限于,电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的有形介质。
用于执行本发明的操作的计算机程序码,可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++之类,还包括常规的过程式程序设计语言—诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户的计算机,或者,可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。
图6是示出实现本发明的设备和方法的计算机600的示例性结构的框图。
在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中,也根据需要存储当CPU 601执行各种处理等等时所需的数据。
CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。
下述部件连接到输入/输出接口605:输入部分606,包括键盘、鼠标等等;输出部分607,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分608,包括硬盘等等;和通信部分609,包括网络接口卡比如LAN卡、调制解调器等等。通信部分609经由网络比如因特网执行通信处理。
根据需要,驱动器610也连接到输入/输出接口605。可移除介质611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上,使得从中读出的计算机程序根据需要被安装到存储部分608中。
在通过软件实现上述步骤和处理的情况下,从网络比如因特网或存储介质比如可移除介质611安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与方法相分离地分发以向用户提供程序的可移除介质611。可移除介质611的例子包含磁盘、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD))和半导体存储器。或者,存储介质可以是ROM 602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的方法一起被分发给用户。
权利要求中的对应结构、操作以及所有功能性限定的装置或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构或操作。所给出的对本发明的描述其目的在于示意和描述,并非是穷尽性的,也并非是要把本发明限定到所表述的形式。对于所属技术领域的普通技术人员来说,在不偏离本发明范围和精神的情况下,显然可以作出许多修改和变型。对实施例的选择和说明,是为了最好地解释本发明的原理和实际应用,使所属技术领域的普通技术人员能够明了,本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。
Claims (9)
1.一种识别图像的内容属性的方法,包括步骤:
从训练图像库中查找与所述图像最相似的前K个训练图像作为所述图像的邻近图像,其中K>1;
以下述方式确定所述邻近图像的权值:基于所述权值对所述邻近图像的图像特征进行加权平均得到的结果最接近所述图像的图像特征;以及
根据利用所确定的权值对所述邻近图像的内容属性进行加权而得到的加权和来确定至少一个所述内容属性作为所识别的内容属性,
其中,通过以下方式得到所述邻近图像的所述权值:
计算K×K相关矩阵C,其第m行、n列的元素为m,n=1....K,其中为所述图像的特征,为第i个邻近图像的特征,·表示点积;
求解线性方程其中为权值向量,为各元素均为1的向量,*表示相乘;以及
将的归一化的元素值确定为相应邻近图像的权值。
2.如权利要求1所述的识别图像的内容属性的方法,其中,在查找所述邻近图像的步骤之前还包括步骤:通过变换矩阵对所述图像特征的向量空间进行变换,使得所述训练图像库中训练图像间的相似度和/或训练图像的内容属性集合间的相似度满足预定标准的训练图像的向量间的距离减小。
3.如权利要求2所述的识别图像的内容属性的方法,其中,利用局部保留投影方法,根据训练图像间的相似度和/或训练图像的内容属性集合间的相似度来确定所述变换矩阵。
4.如权利要求1至3中任一项所述的识别图像的内容属性的方法,其中,
在通过加权和确定所识别的内容属性的步骤之前还包括步骤:计算所述训练图像库中的训练图像的内容属性的相关性,并且
在通过加权和确定所识别的内容属性的步骤中,将被计算为与所述邻近图像的内容属性具有相关性的内容属性添加为相应邻近图像的内容属性,并且根据所计算的相关性以及相应邻近图像的所述权值来确定所添加的内容属性在所述加权和中的权值。
5.如权利要求4所述的识别图像的内容属性的方法,其中,基于内容属性在训练图像中的共同出现频度来计算所述内容属性间的相关性。
6.一种识别图像的内容属性的装置,包括:
邻近图像查找部分,被配置为从训练图像库中查找与所述图像最相似的前K个训练图像作为所述图像的邻近图像,其中K>1;
权值确定部分,被配置为以下述方式确定所述邻近图像的权值:基于所述权值对所述邻近图像的图像特征进行加权平均得到的结果最接近所述图像的图像特征;以及
内容属性识别部分,被配置为根据利用所确定的权值对所述邻近图像的内容属性进行加权而得到的加权和来确定至少一个所述内容属性作为所识别的内容属性,
其中,所述权值确定部分被配置为通过以下方式得到所述邻近图像的所述权值:
计算K×K相关矩阵C,其第m行、n列的元素为m,n=1....K,其中为所述图像的特征,为第i个邻近图像的特征,·表示点积;
求解线性方程其中为权值向量,为各元素均为1的向量,*表示相乘;以及
将的归一化的元素值确定为相应邻近图像的权值。
7.如权利要求6所述的识别图像的内容属性的装置,还包括:
距离尺度学习部分,被配置为利用变换矩阵对所述图像特征的向量空间进行变换,使得所述训练图像库中训练图像间的相似度和/或训练图像的内容属性集合间的相似度满足预定标准的训练图像的向量间的距离减小。
8.如权利要求7所述的识别图像的内容属性的装置,其中,所述距离尺度学习部分利用局部保留投影方法、根据训练图像间的相似度和/或训练图像的内容属性集合间的相似度来确定所述变换矩阵。
9.如权利要求6至8中任一项所述的识别图像的内容属性的装置,还包括相关性计算部分,被配置为计算所述训练图像库中的训练图像的内容属性的相关性,并且所述内容属性识别部分将被计算为与所述邻近图像的内容属性具有相关性的内容属性添加为相应邻近图像的内容属性,并且根据所计算的相关性以及相应邻近图像的所述权值来确定所添加的内容属性在所述加权和中的权值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210127099.2A CN103377381B (zh) | 2012-04-26 | 2012-04-26 | 识别图像的内容属性的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210127099.2A CN103377381B (zh) | 2012-04-26 | 2012-04-26 | 识别图像的内容属性的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103377381A CN103377381A (zh) | 2013-10-30 |
CN103377381B true CN103377381B (zh) | 2016-09-28 |
Family
ID=49462463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210127099.2A Active CN103377381B (zh) | 2012-04-26 | 2012-04-26 | 识别图像的内容属性的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103377381B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631889B (zh) * | 2013-11-15 | 2017-04-12 | 北京奇虎科技有限公司 | 一种图像识别方法和装置 |
WO2015070678A1 (zh) * | 2013-11-15 | 2015-05-21 | 北京奇虎科技有限公司 | 一种图像识别方法、挖掘图像主体信息方法及装置 |
CN109325148A (zh) * | 2018-08-03 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 生成信息的方法和装置 |
CN112036659B (zh) * | 2020-09-09 | 2021-10-01 | 中国科学技术大学 | 基于组合策略的社交网络媒体信息流行度预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1936892A (zh) * | 2006-10-17 | 2007-03-28 | 浙江大学 | 图像内容语义标注方法 |
CN102222239A (zh) * | 2011-06-03 | 2011-10-19 | 哈尔滨工程大学 | 基于视觉和标注字相关信息的标注图像场景聚类方法 |
CN102402621A (zh) * | 2011-12-27 | 2012-04-04 | 浙江大学 | 一种基于图像分类的图像检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5521881B2 (ja) * | 2010-08-12 | 2014-06-18 | 富士ゼロックス株式会社 | 画像識別情報付与プログラム及び画像識別情報付与装置 |
-
2012
- 2012-04-26 CN CN201210127099.2A patent/CN103377381B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1936892A (zh) * | 2006-10-17 | 2007-03-28 | 浙江大学 | 图像内容语义标注方法 |
CN102222239A (zh) * | 2011-06-03 | 2011-10-19 | 哈尔滨工程大学 | 基于视觉和标注字相关信息的标注图像场景聚类方法 |
CN102402621A (zh) * | 2011-12-27 | 2012-04-04 | 浙江大学 | 一种基于图像分类的图像检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103377381A (zh) | 2013-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10949744B2 (en) | Recurrent neural network architectures which provide text describing images | |
Hu et al. | A natural language processing and geospatial clustering framework for harvesting local place names from geotagged housing advertisements | |
US20180285700A1 (en) | Training Image-Recognition Systems Using a Joint Embedding Model on Online Social Networks | |
US20230208793A1 (en) | Social media influence of geographic locations | |
Bagheri et al. | ADM-LDA: An aspect detection model based on topic modelling using the structure of review sentences | |
US10083379B2 (en) | Training image-recognition systems based on search queries on online social networks | |
US20190188285A1 (en) | Image Search with Embedding-based Models on Online Social Networks | |
Xu et al. | Remote sensing image scene classification based on generative adversarial networks | |
WO2020237856A1 (zh) | 基于知识图谱的智能问答方法、装置及计算机存储介质 | |
WO2021139191A1 (zh) | 数据标注的方法以及数据标注的装置 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
US20190108228A1 (en) | Translating Search Queries on Online Social Networks | |
CN106844518B (zh) | 一种基于子空间学习的不完整跨模态检索方法 | |
US20190034816A1 (en) | Methods and system for associating locations with annotations | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN102930048A (zh) | 使用参考和视觉数据的语义自动发现的数据丰富 | |
Gao et al. | A hierarchical recurrent approach to predict scene graphs from a visual‐attention‐oriented perspective | |
CN103377381B (zh) | 识别图像的内容属性的方法和装置 | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
CN117891939A (zh) | 粒子群算法结合cnn卷积神经网络的文本分类方法 | |
Wajid et al. | Neutrosophic-CNN-based image and text fusion for multimodal classification | |
CN109472197A (zh) | 一种视频人脸标记方法 | |
Ma et al. | A new multi-scale backbone network for object detection based on asymmetric convolutions | |
Sheng et al. | A Markov network based passage retrieval method for multimodal question answering in the cultural heritage domain | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |