CN104166982A - 基于典型相关性分析的图像优化聚类方法 - Google Patents

基于典型相关性分析的图像优化聚类方法 Download PDF

Info

Publication number
CN104166982A
CN104166982A CN201410304578.6A CN201410304578A CN104166982A CN 104166982 A CN104166982 A CN 104166982A CN 201410304578 A CN201410304578 A CN 201410304578A CN 104166982 A CN104166982 A CN 104166982A
Authority
CN
China
Prior art keywords
image
feature
semantic
img
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410304578.6A
Other languages
English (en)
Inventor
张玥杰
毛文辉
朱勤恩
李杨
金城
薛向阳
张涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201410304578.6A priority Critical patent/CN104166982A/zh
Publication of CN104166982A publication Critical patent/CN104166982A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于跨媒体信息技术领域,具体为一种基于典型相关性分析的图像优化聚类方法。本发明主要是采用典型相关性分析,同时考虑媒体数据不同模态下的内容特征,通过子空间映射算法,将媒体数据不同模态下的特征同时映射到一个统一维数的同构子空间,然后通过优化聚类算法得到最终聚簇结果。本发明克服多媒体领域中只是使用数据的单模态特征限制,有效解决不同模态下媒体数据在底层特征上的异构性问题,实现不同模态之间媒体对象信息的统一度量,并在大规模图像数据集中得到更准确、更有效、更加符合需求的图像聚类结果,在跨媒体信息处理与检索领域中具有广泛的应用价值。

Description

基于典型相关性分析的图像优化聚类方法
技术领域
本发明属于跨媒体信息技术领域,具体涉及一种基于典型相关性分析的图像优化聚类方法。 
背景技术
随着Internet和信息化的发展,数字图像的容量和数量都在高速增长,每天都有海量图像数据产生。图像的增多虽然提供更多资源,但人们发现想要获得自己所需要的图像信息却变得越来越困难,这就意味着给网络上图像组织、管理、处理带来一个越来越难以解决的难题。在这样的一个背景下,通过有效算法对大量图像进行组织和管理,并为人们提供有效获取图像服务的途径显得尤为重要[1]。 
现在网络上的图像组织和管理体系中,可获得两类不同的信息,即基于图像标注的语义信息和基于图像底层视觉特征的视觉信息[2,3]。这两类信息从不同角度对图像进行描述,只利用其中任何一种信息都只是从单一视角去理解图像,很难对图像有一个整体上的认识,综合多类信息和跨越多个模态去对图像认知,能对图像形成一个更好的、整体性的理解,很好地利用这两类信息毫无疑问对于处理图像的相关工作都能带来很好的效果[4,5,6]。 
然而,图像标注的语义信息和图像的底层视觉信息是在两个不同视角上描述图像的信息,又考虑到两类信息对图像描述的异构性存在,很难为语义信息和视觉信息直接建立相应的对应关系,这就迫切需要研究一种算法能够在对图像的相关处理时很好地将两类信息都应用起来。支持不同模态的跨媒体信息表示方法,能够同时有效的顾及地图像标注得到的语义信息和从图像中提取得到的底层视觉信息,突破传统的只是基于单模态数据的限制[6,7]。 
采用图像底层的多模态信息,即图像的语义特征和视觉特征来表示图像的内容 [8,9,10,11],需要建立一种统一的数据模型,以反映数据集之间的潜在关系[12,13]。如果不同类别的数据集被映射到一个统一的表达框架中,但破坏数据集之间的相互关系,那么在此基础上得到的跨媒体数据集将受到严重影响。因此,在用统一的模型来表达不同类别的信息时,应尽可能地发现和保持数据之间潜在相关性[14]。 
在当前的跨媒体聚类方法中,都通过建立一个数据模型框架来很好的表达多类信 息。如ZhenyongFu等利用图像数据的成对约束这种弱化的监督关系,通过建立多图上的映射关系,利用多图上的随机游走算法来传递少量的成对约束关系到每个数据节点,得到多模态下成对约束传递后的相似度矩阵,再通过利用谱聚类算法得到最终的聚簇结果[15,16]。ManjeetRege等通过三部图建立语义信息、图像和视觉信息之间的映射关系,然后通过等周图分割算法得到最终的聚簇结果[17,18,19]。上述方法都是通过寻找视觉信息、语义信息及图像之间的相关性,建立它们之间的映射关系,。但图的建立和保存都会要求大量的内存支持,随着数量的增多、维数的增大都会给当前问题带来新的困难和影响。 
典型相关性分析(Canonical Correlation Analysis,CCA)是一种用于多视角信息数据维数约减的方法,被广泛的应用于跨媒体信息处理与检索领域的相关问题研究中。如在文献[20]中,作者采用图像的标注信息生成文本特征空间特征,从而通过CCA的方法来优化图像分类结果;而文献[21]则采用一种有监督的CCA方法,该方法利用图像标注信息来实现图像检索。事实上,CCA算法在很多方面与PCA算法有相似之处,但PCA算法只能解决单一视角信息的空间降维问题,而CCA算法则能够应用在两个或多个数据空间的组合维数约减问题中。因此,对于多模态图像信息融合而言,CCA是一个更好的办法[22,23,24]。 
聚类分析是一个应用很广泛的无监督学习方法,在机器学习、模式识别、数据挖掘等领域中,数据的聚类分析是一个极其重要的工具[25,26,27,28]。因为聚类分析是不需要任何的监督信息就可识别出数据的主要模式和类的总体分布,早期对于图像的聚类被看作为一个文本聚类问题,图像的语义信息用来参与聚类,但是图像并非实实在在的文本文档,所以这并不是一个很好的解决方案。因而,跨模态的数据聚类应运而生,开始崭露头角,对于跨模态数据的聚类研究也越来越受到领域内各专家学者的重视。 
对于跨模态数据的聚类分析除要建立一个符合跨媒体特性的数据表达机制,建立统一的数据模型,聚类的技术和方法也异常重要。因为在现实生活当中,数据的爆炸性增长迫切要求能在可接受的时间和空间复杂性内尽量快地得到聚簇结果。 
聚类算法所使用的两种不同基本策略,可以将聚类算法分成以下两类。 
(1)一类称为层次或凝聚式算法,这类算法一开始将每一个点看成一个簇,簇与簇之间按照接近度来组合,而接近度可以基于“接近”的不同含义采用不同的定义。当进一步的组合导致多个原因之一下的非期望结果时,上述组合过程就接受。如当达到预先给定的簇数目时就停止聚类,或者也可以使用簇的紧密度测度方法,一旦两个 小簇组合后得到簇内点分散区域较大就停止簇的构建。 
(2)另一类算法涉及点分配过程,即按照某个顺序依次考虑每个点,并将它分配到最适合的簇中。该过程通常都有一个短暂的初始簇估计阶段,一些变形算法允许临时的簇合并或分裂过程,或者当点为离群点(离当前任何簇的距离都很远的点)时允许不将该点分配到任何簇中。 
聚类算法也可以按照如下方式来分类。 
(a)是否假定在欧式空间下的聚类?或者算法是否在任意距离测度下都有效? 
(b)算法是否假设数据足够小能够放入内存?或者是否必须主要存放在二级存储器? 
传统的k-means算法是一个假定在欧式空间下,并假定最终簇的数目k事先已知的经典聚类算法,k-means算法在聚类算法中是一种速度较快的算法,但在数据规模极其巨大的情况下,其执行效率依然会因为大量的重复计算而显得低下。 
因此,非常有必要借鉴当前已有的相关成熟技术,同时从各方面考虑当前一些跨媒体融合信息表示方法与聚类技术。 
发明内容
为了克服现有技术的不足,本发明从聚类的有效性、信息的利用性及时间空间的复杂性出发,使用典型相关性分析和优化聚类方法,进而对跨媒体信息处理与检索领域的图像聚类进行改进优化。本发明的目的在于提出一种能够同时利用图像的多模态信息进行图像优化聚类的方法。 
本发明提出的图像多模态信息优化聚类方法,首先基于典型相关性分析寻找图像的多模态信息相关性。其核心思想是寻找两个变量场V、S对应的两组基向量P、Q,使V、S在P、Q上投影后的结果最大程度地保持与V、S之间的相关性一致;然后,通过基于三角不等式规则的优化聚类方法得到最终的聚簇。其具体步骤为: 
(1)从多媒体数据集中采集不同模态的数据对象,即得到图像和图像标注数据,整理图像标注数据中不常出现或者无用的标注词; 
(2)提取图像底层视觉特征,并通过视觉特征构建方法将高维视觉特征映射到一个低维空间中,得到特征向量的稀疏表示; 
(3)提取图像标注的语义特征,利用语义特征构建方法将图像语义特征映射到一个统一维度空间中,得到特征向量的稀疏描述; 
(4)采用典型相关性分析算法,得到图像视觉特征和语义特征的典型相关性; 
(5)构建跨模态融合特征,将图像的视觉特征向量和语义特征向量映射到同维度下的同构子空间中并构建跨模态融合特征,实现媒体数据不同模态信息的统一表示; 
(6)采用优化聚类算法高效地对同构子空间下的数据信息进行聚类。 
较之当前已有的相关跨媒体多模态聚类而言,本发明所提出的方法在聚类中存在三大优势,即相关性高、适用性强、聚类速度快。其相关性高体现在典型相关性分析过程中通过最大限度地提取两个模态之间的相关性,经由基向量进行投影后的结果最大程度地保持与原向量之间的相关性一致。适用性强表现在典型相关性分析是一种用于多视角信息数据维数约减的方法,能够应用于两个或多个数据空间中的组合维数约减问题中,使得映射后的同构子空间中具有较低的维数,这样在那些数据量较大、维数较高的数据集中能更好地适用。聚类速度快在于优化聚类算法中利用了三角不等式规则很好地避免一些不必要的重复运算,使得数据在较快的时间内得到传统聚类算法相同的结果。本发明在不同的数据规模中都取得了较好效果。本发明的算法还可利用到图像的检索和推荐中,聚类的结果会直接影响图像的检索和推荐效果。 
下面详细介绍本发明在针对跨媒体信息聚类中所进行的多模态信息融合与优化聚类的整体流程框架及涉及的核心算法。 
(1)从多媒体数据集中采集不同模态的数据对象,即得到图像和图像标注数据,整理图像标注数据中不常出现或者无用的标注词。 
在取得的多媒体数据集中,图像标注数据存在着很多噪音信息,为能够让文本标注很好表达图像的内容,必须将其中一些没有意义的标注进行去除处理,如单词中夹杂数字的无用标注。一个图像标注可能还涉及十几个或者几十个的标注,数量多并且有些标注其实对于图像并没有太大的意义,所以通过统计整个数据集中的标注,在统计中将相同标注的单词数加1,统计完整个数据集后会得到每个单词在数据集中出现的次数,最后去除那些低频出现的单词,留下那些在数据集中单词出现频度较高的单词作为图像最后的图像标注。 
(2)提取图像底层视觉特征,并通过视觉特征构建方法将高维视觉特征映射到一个低维空间中,得到特征向量的稀疏表示。 
尺度不变特征转换(SIFT)是一种描述图像的局部性特征的算法,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量,这些特征点与图像的大小、旋转无关。利用SIFT方法提取出的特征点具有一些很好的抗干扰性,对噪声、光线变化、 仿射变化也具有很强的鲁棒性。对每幅图像通过SIFT算法提取出128维的SIFT描述子,得到图像的底层视觉特征,然后采用矢量量化(VQ)编码方式将每个图像的视觉特征表示为一个视觉特征向量。 
(3)提取图像标注的语义特征,利用语义特征构建方法将图像语义特征映射到一个统一维度空间中,得到特征向量的稀疏描述。 
图像标注中包含着图像中存在实体的语义概念,获取准确的语义特征有利于增加图像跨模态聚类的准确性,能更加有利于图像高层含义的表达,基于标注文本构建的关联网络能够表征图像标注中的重要关联关系。基于共现频率层次内的关联关系不仅有利于表达图像标注中的关联关系,又有利于语义特征的相似性度量。两个标注概念之间没有明显的语义关系,但是两者经常同时出现在同一张图像中,则仍然认为两者之间具有较强的关联关系。基于共现关系关联网络中的节点可以与其他任意节点相关联。但是,一些标注语义之间的共现频率很低,则认为其共现关系很弱,因此可不出现在关联网络中。消除弱的共现关联关系可专注于语义标注之间较强的共现关联关系,从而使所构建的跨模态聚类模型更加准确有效。 
为获得对语义特征的更好度量,引入TF-IDF统计方法来构造语义特征的优化编码模型。为进一步获得更加准确的语义特征表示,设计一种基于共现关系的编码方法。共现关系由共现关联网络获得。 
(4)采用典型相关性分析算法,得到图像视觉特征和语义特征的典型相关性。 
将(2)中得到的图像底层视觉特征向量拼成一个视觉特征矩阵将(3)中得到的图像语义特征向量拼成一个语义特征矩阵其中数据集中共n个样本图像。令为视觉特征空间的基向量矩阵,为语义特征空间的基向量矩阵,通过求取视觉特征矩阵和语义特征矩阵的最大相关性得到其相应的空间基向量矩阵。空间基向量矩阵最大化地保持图像视觉特征和语义特征的相关性,并提供其映射到同构子空间的映射关系。 
(5)构建跨模态融合特征,将图像的视觉特征向量和语义特征向量映射到同维度下的同构子空间中并构建跨模态融合特征,实现媒体数据不同模态信息的统一表示。 
通过典型相关性分析得到两组空间基向量矩阵P(即)和Q(即),然 后通过线性加权方式来对视觉特征与语义特征组合并得到最终的跨模态融合特征矩阵。 
(6)采用优化聚类算法高效地对同构子空间下的数据信息进行聚类。 
优化聚类算法主要在于利用三角不等式规则来避免传统k-means算法的一些不必要重复计算,从而减少聚类所花费的时间,其基本的思想与传统的k-means一致,所以优化聚类算法对数据的聚类在迭代次数和每轮迭代得出的结果与传统k-means算法一致。其优越性就在于聚类时所花费的时间。 
三角不等式规则是几何不等式中最基础的结论,将向量x和聚类中心b、c作为空间的三个点,则都存在d(x,c)≤d(x,b)+d(b,c),如果能得到d(x,c)必定是小于或等于d(x,b)即d(x,c)≤d(x,b)的关系,那么就能够避免对d(x,b)的计算。所以,在三角不等式规则的基础上进行以下两个推论: 
推论1让x为数据集中的一个向量,b、c分别为聚类中心,如果d(b,c)≥2d(x,c),那么必定d(x,c)≤d(x,b)。 
推论2让x为数据集中的一个向量,b、c分别为聚类中心,d(x,b)≥max{0,d(x,c)-d(b,c)}。 
基于三角不等式规则的优化聚类算法依然会具有传统的k-means的特性,即 
(1)初始中心的选择仍然没有k-means算法要求的其他以外特意条件; 
(2)对于选择与k-means同样的初始点与聚类个数,加速k-means得到的结果应与其一样; 
(3)能用任意的距离度量标准,不局限于欧几里德距离空间。 
附图说明
图1为基于典型相关性分析的图像优化聚类系统的基本流程图示。 
图2为共现关联网络的可视化表示及关联实例。 
图3为数据集Core130K中的两张图像及其图像标注相关展示。 
图4为基于典型相关性分析的优化聚类方法在数据集Core130K中应用的部分聚类结果。 
图5为数据集NusWide中的两张图像及其图像标注相关展示。 
图6为基于典型相关性分析的优化聚类方法在数据集NusWide中应用的部分聚类结 果。 
具体实施方式
下面结合附图,详细介绍本发明基于典型相关性分析的图像优化聚类方法。 
(一)采集数据对象 
采集数据对象,即得到图像和图像标注数据,整理图像标注数据中在整个数据集里不常出现或者无用的标注词。一股在取得的数据集中,其中带有很多的噪音数据,所以在使用这些数据进行特征提取之前就应该对其进行适当的处理和过滤。对于图像而言,得到的图像都是统一的JPG格式,不需要做任何变换。对于图像的文本标注而言,得到的图像标注含有很多的无意义单词,如单词加数字没有任何含义的单词。有些图像标注多至几十个,为了让图像标注很好地描述图像的主要信息,应舍弃那些无用的、无意义的标注。因此,所采取的处理方法步骤如下: 
步骤1:统计数据集标注中所有单词在数据集中出现的频率; 
步骤2:过滤掉那些单词中带有数字的无意义单词; 
步骤3:对于每个图像标注中在整个数据集中出现频率较少的单词,将其认为是图像中比较次要的信息,并允以删除。 
通过上述步骤,便可得到处理后的图像标注。对于步骤3中去除频率较少的单词,其理由在于图像聚类里同一类图像的标注还是存在很多相同、意义相近的单词。因此按照出现频率来对其进行过滤完全合理。 
(二)提取图像底层视觉特征 
提取图像的底层视觉特征采用SIFT局部特征提取方法,SIFT特征对抗干扰性,噪声、光线变化、仿射变化具有很强的鲁棒性。提取得到的图像SIFT特征是一组128维的SIFT描述子,考虑到高维并且占用大量存储空间的矩阵之间计算相似度消耗资源较大,直接将SIFT特征应用到聚类中显然不合适。所以,需要将高维的特征矩阵进行编码降维,易于稍后的处理。矢量量化(VQ)是基本的编码方法,应用也是相当广泛,因而这里采用VQ编码将SIFT特征映射到codebook中以达到降维目的。 
假设图像的SIFT特征矩阵为:R=(r1,r2,...,rm),其中ri为128维的SIFT描述子,码矢量:B=(b1,b2,...,bn).则最终的特征向量表示为A=(a1,a2,...,an)。矢量量化(VQ)步骤如下: 
步骤1:对于图像SIFT的每一个描述子ri,找出其与码矢量bj之间欧式距离算法 下最近的矢量bk,将最终特征向量相应位置k的值ak加l; 
步骤2:对其得到的特征向量A进行归一化。 
(三)提取图像语义特征 
图像标注包含着图像中存在的一些实体的语义概念,获取一个更加准确的语义特征,对于图像聚类具有重要作用。通过基于共现关系的关联网络和语义特征优化编码可得到更加准确的语义特征。 
基于共现关系的关联网络主要由以下两个部分组成: 
(1)与数据集标注相关的语义概念集; 
(2)语义概念之间的共现关系。 
关联网络中的语义概念不仅需要反映图像的语义特征,还需要长期稳定地在图像标注中出现,高频标注对于图像而言意味着人们对于图像物体或者场景形象具有高度而集中关注。因此,这里共现网络中的语义概念集合即选为图像数据集中的高频语义标注。 
实现跨模态聚类需要构建语义特征的相似性度量方法,而层次间关联关系是一种固有关联,很难进行量化。所以,主要考虑基于共现频率进行度量层次内共现关联关系。即使两个标注概念之间没有明显的语义关系,但是两者经常同时出现在同一张图像中,也仍然认为两者之间具有较强的关联关系,比如boat和river。因而,图像数据集中两个语义标注Ci和Cj之间的共现概率可以通过公式(10)来计算: 
P ( IMG Ci , IMG Cj ) = | IMG Ci ∩ IMG Cj | | IMG Ci ∪ IMG Cj | - - - ( 10 )
P(IMGCi,IMGCj)表示共同包含Ci和Cj的图像与仅包含其中一个语义标注的数目比值,其 
中IMGCi表示包含Ci的图像数据集,类似地,IMGCj则表示包含Cj的图像数据集。 
引入TF-IDF统计方法来构造语义特征的优化编码模型可获得对语义特征的更好度量。 
假设S是一个数量为N的图像数据集,共包含D个不同的语义标注,表示第i个语义标注Tag(i)在第j幅图像Image(j)中的度量结果。考虑到在不同的图像中语义标注往往具有不同的重要性,令如果否则,如果Tag(i)∈lmage(j),公式(11)来实现对于语义标注的编码过程。 
Q i j = 1 Σ k = 0 D BL IMG j ( Tag k ) · log N / Σ p = 0 N BL IMG p ( Tag i ) - - - ( 11 )
其中,当Tag(i)属于Image(j)时,的值为1,否则的值为0。 
为进一步获得更加准确的语义特征表示,设计一种基于共现关系的编码优化方法。共现关系可通过上述的共现关联网络获得,公式(12)描述了编码优化的具体算法: 
arg min &Sigma; j = 1 N &Sigma; i = 1 D ( | | C j i - Q j i | | 2 + &Sigma; k = 0 D &omega; ik | | C j i - C j k | | 2 ) s . t . 0 &le; C j i < 1 - - - ( 12 )
其中,是最终的编码优化的结果;ωik表示两个语义标注Ci和Ck在共现关联网络中的权重,如公式(13)所示: 
&omega; ik = P ( IMG Ci , IMG Ck ) , P ( IMG Ci , IMG Ck ) > &tau; 0 , P ( IMG Ci , IMG Ck ) &le; &tau; - - - ( 13 )
其中,τ是一个预先设定的阈值,即可完成了对语义特征的构建过程。 
典型相关性分析 
在典型相关性分析的基础上,学习得到一个低维的同构子空间,最大程度地保留原始特征向量之间的相关性。上述方法得到图像的底层视觉特征和语义特征,并都映射成向量,将所有的向量拼成特征向量矩阵其中n为数据集中样本图像总数。令为视觉特征空间的基向量矩阵,为语义特征空间的基向量矩阵,提取特征向量矩阵最大相关性就是对ρ的最优化,也等价于对PTCvsQ求取最大值,可用拉格朗日公式构造G函数,可得公式(14): 
G=PTCvsQ-λ1(LTL-1)-λ2(MTM-1)    (14) 
其中,Cvs的映射后的矩阵;L和M分别是视觉特征矩阵和语义特征矩阵在子空间的特征矩阵,维数均为Dr。 
公式(14)的方程在约束,v(L)=LTL=PTVTVP=1和 v(M)=MTM=QTSTSQ=1下求得解为CvsCss -1CsvP=λ2CvvP。为保证矩阵满秩可逆,加上一个很小的正则化因子ρI,得到Cvs(Css+ρI)-1CsvP=λ2CvvP,从而典型相关性分析算法可总结为以下步骤: 
步骤1:定义映射关系Cvv=VTV,Cvs=VTS,Csv=STV,Css=ST
步骤2:构造典型相关性方程(Cvv+ρI)-1Cvs(Css+ρl)-1CsvP=λ2
步骤3:利用特征值分解方法求解步骤2方程得到特征值及特征向量 
子空间基向量P和Q在通过特征值求解方法得到的矩阵维数分别是Dv和Ds,但需要的子空间是Dr并且要求Dr<Dv,Dr<Ds,因此有必要进行裁剪这些特征向量矩阵,按照特征值的大小递减排序特征向量矩阵中的特征向量,留下较大的前Dr个特征向量拼成相应的子空间特征矩阵
(四)构建跨模态融合特征 
构建跨模态融合特征在于通过典型相关性分析得到的子空间基向量将图像的底层视觉特征矩阵和语义矩阵映射到同一子空间中,并利用线性加权方法将两个特征矩阵融合为一个跨模态特征矩阵。 
在进行特征矩阵融合方法中,将会设置视觉特征和语义特征的权重α∈(0,1)与(1-α)∈(0,1),然后根据式CF=αV*P+(1-α)S*Q得到跨模态融合特征矩阵 
(五)优化聚类算法 
优化聚类方法是基于传统的k-means聚类方法利用几何基础结论的三角不等式的简单推论进行,其特点相比于传统k-means算法在于避免大量重复计算时间,但又能保证与传统k-means迭代的次数与每次迭代的结果保持一致。这样,对于大规模数据集的聚类来说缩短大量的时间,又能得到同样的聚类结果,因此优化聚类算法在聚类算法中尤其是数据规模较大的情况下应用相当广泛。 
优化聚类算法具体实施过程如下: 
步骤1:初始化聚类中心点,对于每一个向量x划分给最近的中心点c(x)=arg min d(x,c),其中使用推论来避免冗余的计算。每当d(x,c)被计算时,上界u(x)=min d(x,c)。 
重复直到收敛: 
步骤2:对于所有中心c和c′,计算d(c,c′)。对于所有的中心c,计算  s ( c ) = 1 2 min c &NotEqual; c ' d ( c , c ' ) .
步骤3:识别出所有满足u(x)≤s(c(x))的数据向量x。 
步骤4:计算d(x,c(x)),对所有剩下的向量x与中心c。 
对于条件r(x)同时满足: 
条件1:c≠c(x) 
条件2:u(x)>d(x,c(x)) 
条件3: u ( x ) > 1 2 d ( c ( x ) , c )
(i)如果r(x)为真,则计算d(x,c(x)),并更新上界u(x)=d(x,c(x));置 
r(x)=false; 
否则,d(x,c(x))=u(x)。 
(ii)如果为真,计算d(x,c); 
如果d(x,c)<d(x,c(x)),c(x)=c,u(x)=d(x,c)。 
步骤5:对于所有的中心点c,m(c)为以c为中心的所有向量的平均值。 
步骤6:对每个向量x,置u(x)=u(x)+d(m(c(x)),c(x)),r(x)=true。 
步骤7:将每个中心c以m(c)替换。 
在步骤4中,只要c(x)改变或者d(x,c(x))被计算,上界u(x)就被更新。步骤4(i)中r(x)为真,那么u(x)过期,即可能u(x)≠d(x,c(x)),否则,没必要计算d(x,c(x))。为避免就计算d(x,c),步骤4重复核对r(x)的条件。 
(六)应用示例 
图2是共现关联网络可视化表示及关联实例,基于共现关系的关联网络节点可以与任意节点想关联,但一些标注语义之间的共现关系很低,所以将其消除,让其不出现在关联网络中。整个共现关联网络及不同视角的三维图如附图2所示。 
图3是基于Core130K的两张以waves为聚类主题的例子,其中包括聚类前的图像标注和处理后的图像标注以及相应图像的展示。 
图4是基于Core130K的部分waves为聚类主题的聚类结果。 
图5是基于NusWide的两张以flowers为聚类主题的例子,其中包括聚类前的图像 标注和处理后的图像标注以及相应图像的展示。 
图6是基于NusWide的部分以flowers为聚类主题的聚类结果。 
参考文献 
Datta,R.,Joshi,D.,Li,J.,and Wang,J.Z.2008.Image retrieval:Ideas,influences,and trends of the new age.ACM Computing Surveys(CSUR),40(2):Article5. 
A.Gordoa,J.A.Rodriguez-Serrano,F.Perronnin,and E.Valveny.Leveraging category-levellabels for instance-level image retrieval.IEEE Conferenceon Computer Vision and Pattern Recognition,pages3045-3052,June2012. 
G.Csurka,C.Dance,L.Fan,J.Willamowski,and C.Bray.Visual categorizationwith bags of keyPoints.European Conference on Computer Vision Workshop on Statistical Learning in ComputerVision,pages59-74,May2004. 
Ron Bekkerman and JiwoonJeon.Multi-modal clustering for multimedia collections.IEEE Conference on Computer Vision and Pattern Recognition,pages l-8,June2007. 
Liangliang Cao,Jie Yu,Jiebo Luo,andThomas S.Huang.Enhancing semantic and geographicannotation of web images via logistic canonical correlationregression.ACM international conference on Multimedia,pages125-134,October2009. 
J.Sivic and A.Zisserman.Video google:a text retrieval approach to object matchingin videos.IEEE International Conference on ComputerVision,2:1470-1477,October2003. 
Yangqing Jia,Mathieu Salzmann,andTrevor Darrell.Learning cross-modality similarity formultinomial data.IEEE International Conference on Computer Vision,pages2407-24l4,November2011. 
Albert Gordo,Josˊe A.Rodrˊ1guez-Serrano,Florent Perronnin and Ernest Valveny.Leveraging Category-Level Labels For Instance-Level Image Retrieval.In CVPR,2012. 
S.Lazebnik,C.Schmid,andJ.Ponce.Beyond bags of features:Spatial pyramidmatching for recognizing natural scene categories.IEEEComputer Society Conference on Computer Vision andPattern Recognition,2:2169-2178,October2006. 
Jinjun Wang,Jianchao Yang,Kai Yu,Fengjun Lv,T.Huang,and Yihong Gong.Localityconstrained linear coding for image classification.IEEEConference on Computer Vision and Pattern Recognition,pages3360-3367,June2010. 
Jianchao Yang,Kai Yu,Yihong Gong,and T.Huang.Linear spatial pyramid matching using sparse coding for image classification.IEEE Conferenceon Computer Vision and Pattern Recognition,pages1794-1801,June2009. 
H.Hotelling.Relations between two setsof variates.Biometrika,28(3/4):321-377,December1936. 
Y.T.Zhuang,Y.Yang and F.Wu.Mining Semantic Correlation of HeterogeneousMultimedia Data for Cross-media retrieval[J].IEEE Transaction on Multimedia,2008,10(2):221-229. 
Jia-Yu Pan,Hyung Jeong Yang,ChristosFaloutsos,and Pinar Duygulu.Automatic  multimediacross-modal correlation discovery.ACM SIGKDD international conference on Knowledge discovery and data mining,pages653-658,August2004. 
von Luxburg,U.:A tutorial on spectral clustering.Statistics and Computing17,395-416(2007) 
Zhenyong Fu,Horace Ho-Shing Ip,Hongtao Lu,Zhiwu Lu.Multi-modal constraint propagation for heterogeneous image clustering.Proceedings of the19th International Conference on Multimedea2011. 
L.Grady and E.L.Schwartz.Isoperimetric partitioning:A new algorithm for graph partitioning.SIAM Journal on Scientific Computing,27(6):1844-1866,2006. 
Gao,B.,Liu,T.Y.,Qin,T.,Zheng,X.,Cheng,Q.S.,&Ma,W.Y.Web image clustering by consistent utilization of visual features and surrounding texts[A].In Proceedings of the13th annual ACM international conference on Multimedia[C].New York,NY,USA:ACM,2005:112-121. 
Manjeet Rege,Ming Dong,Jing Hua.Graph theoretical framework for simultaneously integrating visual and textual features for efficient web image clustering.Proceedings of the17th International Conference on World Wide Web,WWW2008. 
K.Grauman and T.Darrell.The pyramid match kernel:Discriminative classification with sets of image features.IEEE International Conference on Computer Vision,2:1458-1465,October2005. 
Yunchao Gong,Svetlana Lazebnik,Albert Gordo,Florent Perronnin.Iterative Quantization:A Procrustean Approach to Learning Binary Codes for Large-scale Image Retrieval.TPAMI,2012. 
Kamalika Chaudhuri,Sham M.Kakade,Karen Livescu,and Karthik Sridharan.Multiview clustering via canonical correlation analysis.International Conference on Machine Learning,pages129-136,June2009. 
Nikhil Rasiwasia,Jose CostaPereira,Emannuele Coviello,Gabriel Doyle,Gert R.G.Lanckriet,Roger Levy,and Nuno Vasconcelos.A new approach to cross-modal multimedia retrieval.InternationalConference on Multimedia,pages25l-260,October2010. 
Y.Gong,S.Lazebnik,A.Gordo,andF.Perronnin.Iterative quantization:A procrustean approach to learning binary codes for large-scale image retrieval.IEEE Transactions on Pattern Analysis and Machine Intelligence,PP(99):l,September2012. 
Arai,K.,&Barakbah,A.R.Hierarchical K-means:an algorithm for centroids initialization for K-means[J].Reports of the Faculty of Science and Engineering,2007,36(1):25-31. 
Drake,J.,&Hamerly,G.Accelerated k-means with adaptive distance bounds[A].In5th NIPS Workshop on Optimization for Machine Learning[C].Cambridge,MA,USA:MIT Press,2012:1-4. 
Hamerly,G.Making k-means Even Faster[A].In SIAM International Conference on Data Mining[C].Philadelphia,PA,USA:SIAM,2010:130-140. 
Charles Elkan.Using the Triangle Inequality to Accelerate k-Means,Proceedings of  the Twentieth International Conference on Machine Learning(ICML-2003),Washington DC,2003。 

Claims (6)

1.一种基于典型相关性分析的图像优化聚类方法,其特征在于具体步骤如下:
(1)从多媒体数据集中采集不同模态的数据对象,得到图像和图像标注数据,整理图像标注数据集中不常出现或者无用的标注词;
(2)提取图像底层视觉特征,并通过视觉特征构建方法将高维视觉特征映射到一个低维空间中得到特征向量的稀疏表示;
(3)提取图像标注的语义特征,利用语义特征构建方法将图像语义特征映射到一个统一维度空间中得到特征向量的稀疏描述;
(4)采用典型相关性分析算法,得到图像视觉特征和语义特征的典型相关性;
(5)构建跨模态融合特征,将图像的视觉特征向量和语义特征向量映射到同维度下的同构子空间中并构建跨模态融合特征,实现媒体数据不同模态信息的统一表示;
(6)采用优化聚类算法高效地对同构子空间下的数据信息进行聚类。
2.根据权利要求1所述的方法,其特征在于:步骤(2)中,所述提取图像底层视觉特征采用SIFT局部特征提取方法,提取得到的图像SIFT特征是一组128维的SIFT描述子;将每一个SIFT特征描述子看作一个视觉关键字,然后基于codebook通过矢量量化VQ编码方法将其分配到一个或几个codebook下的特征点;
假设图像的SIFT特征描述子:R=(r1,r2,...,rm),码矢量:B=(b1,b2,...,bn),最终的特征向量表示为A=(a1,a2,...,an),VQ的过程描述为:
(1)对于图像SIFT的每一个描述子ri找出其与码矢量bi在欧式距离算法下最近的码矢量bk,将最终特征向量相应位置k的值ak加l;
(2)对特征向量A进行归一化。
3.根据权利要求1所述的方法,其特征在于,步骤(3)中,所述提取图像标注的语义特征,是通过提取图像标注,并将图像标注通过基于共现关系的关联网络和语义特征优化编码来构建准确的语义特征,所述基于共现关系的关联网络主要由以下两个部分组成:
(1)与数据集标注相关的语义概念集;
(2)语义概念之间的共现关系;
共现网络中的语义概念集为图像数据集中的高频语义标注,图像数据集中两个语义标注Ci和Cj之间的共现概率可以通过式(1)来计算:
P ( IMG Ci , IMG Cj ) = | IMG Ci &cap; IMG Cj | | IMG Ci &cup; IMG Cj | - - - ( 1 )
P(IMGCi,IMGCj)表示共同包含Ci和Cj的图像与仅包含其中一个语义标注的数目比值,其中,IMGCi表示包含ci的图像数据集,IMGCj表示包含Cj的图像数据集;
为获得对语义特征的更好度量,引入TF-IDF统计方法来构造语义特征的优化编码模式;
假设S是一个规模数量为N的图像数据集,共包含D个不同的语义标注,表示第i个语义标注Tag(i)在第j张图像Image(j)中的度量结果;考虑到在不同的图像中语义标注往往具有不同的重要性,令如果否则如果Tag(i)∈Image(j),式(2)来实现对于语义标注的编码过程;
Q i j = 1 &Sigma; k = 0 D BL IMG j ( Tag k ) &CenterDot; log N / &Sigma; p = 0 N BL IMG p ( Tag i ) - - - ( 2 )
其中,当Tag(i)属于Image(j)时,的值为1,否则的值为0;
为进一步获得更加准确的语义特征表示,设计一种基于共现关系的编码优化方法;共现关系可通过上述的共现关联网络获得,公式(3)描述编码优化的具体算法:
arg min &Sigma; j = 1 N &Sigma; i = 1 D ( | | C j i - Q j i | | 2 + &Sigma; k = 0 D &omega; ik | | C j i - C j k | | 2 ) s . t . 0 &le; c j i < 1 - - - ( 3 )
其中,是最终的编码优化结果,ωik表示两个语义标注Ci和Ck在共现关联网络中的权重,如公式(4)所示:
&omega; ik = P ( IMG Ci , IMG Ck ) , P ( IMG Ci , IMG Ck ) > &tau; 0 , P ( IMG Ci , IMG Ck ) &le; &tau; - - - ( 4 )
其中,τ是一个预先设定的阈值,便可完成对语义特征的构建过程。
4.根据权利要求1所述的方法,其特征在于,步骤(4)中,采用典型相关性分析算法,得到图像视觉特征和语义特征之间的典型相关性;典型相关性分析同时学习视觉特征矩阵和语义特征矩阵以最大限度提取V和S之间相关性的主要特征为准则,从V中提取组合变量L,从S中提取组合变量M,如公式(5)所示:
V ( n &times; D v ) &RightArrow; P ( D v &times; D r ) L ( n &times; D r )
S ( n &times; D s ) &RightArrow; Q ( D s &times; D r ) M ( n &times; D r ) , ( D r < D v , D r < D s ) - - - ( 5 )
&rho; = r ( L , M ) = P T C vs Q P T C vv P Q T C ss Q , ( C ( v , s ) = C vv C vs C sv C ss )
其中,P,Q为线性变换,又称为空间基向量;V表示一个n×Dv的图像的视觉特征矩阵,S表示一个n×Ds的语义特征矩阵,n为样本的个数;L表示视觉特征在子空间的特征矩阵,维数为Dr,M表示语义特征在子空间的特征矩阵,维数也为Dr;子空间的维数均比视觉特征的维数和语义特征的维数要小,ρ为相关系数,即表示特征矩阵L和M的相关性r(L,M);Cvv、Cvs、 Csv、Css的映射关系为Cvv=VTV,Cvs=VTS,Csv=STV,Css=STS,T表示矩阵的转置;
最大限度提取V和S之间的相关性,转化为在式(5)和式(6)的约束下对ρ最优化:
v(L)=LTL=PTVTVP=1
v(M)=MTM=QTSTSQ=1           (6)
其中,v(L)和v(M)表示空间特征矩阵L、M的变换后的矩阵,增加此约束在于避免P和Q同时扩大n倍(n表示任意实数)仍然符合条件的解情况出现,此时对ρ的最优化用拉格朗日公式构造G函数,得公式(7):
G=r(L,M)-λ1(LTL-1)-λ2(MTM-1)     (7)
求解公式(7)并根据r(L,M)=r(M,L),证明λ1=λ2,得到方程CvsCss -1CsvP=λ2CvvP,求取这一方程的特征根即得到空间基向量矩阵P和Q。
5.根据权利要求1所述的方法,其特征在于:步骤(5)中,构建跨模态融合特征,将图像的特征向量和语义特征向量同时映射到一个同构子空间中并进行组合,实现统一表示的方法在于在典型相关性分析基础上得到同维子空间,使得在这一子空间能最大限度的保持图像视觉特征和语义特征的相关性,通过线性加权方法如公式(8)构造这些同构子空间下的特征向量得到最终的跨模态融合特征:
CF=aV*P+(1-α)S*Q        (8)
其中,α为线性组合中对于视觉特征的权重。
6.根据权利要求1所述的方法,其特征在于,步骤(6)中,利用三角不等式的基础理论,减少一些不必要的计算来缩短聚类的时间,使得数据较大的情况下也能在较短的时间内得到与传统k-means聚类相同的结果;优化聚类算法如下:
步骤1:初始化聚类中心点,对于每一个向量x划分给最近的中心点c(x)=arg mind(x,c),其中使用推论避免冗余的计算,每当d(x,c)计算时,上界u(x)=mind(x,c);重复直到收敛:
步骤2:对于所有中心c和c′,计算d(c,c′)。对于所有的中心c,计算 s ( c ) = 1 2 min c &NotEqual; c ' d ( c , c ' ) ;
步骤3:识别出所有满足u(x)≤s(c(x))的数据向量x;
步骤4:计算d(x,c(x)),对所有剩下的向量x与中心c;
对于条件r(x)同时满足:
条件1:c≠c(x)
条件2:u(x)>d(x,c(x))
条件3: u ( x ) > 1 2 d ( c ( x ) , c )
(i)如果r(x)为真,则计算d(x,c(x)),并更新上界u(x)=d(x,c(x)),置
r(x)=false;
否则d(x,c(x))=u(x);
(ii)如果为真,计算d(x,c);
如果d(x,c)<d(x,c(x)),c(x)=c,u(x)=d(x,c).
步骤5:对于所有的中心点c,m(c)为以c为中心的所有向量的平均值;
步骤6:对每个向量x,置u(x)=u(x)+d(m(c(x)),c(x)),r(x)=true;
步骤7:将每个中心c以m(c)替换。
CN201410304578.6A 2014-06-30 2014-06-30 基于典型相关性分析的图像优化聚类方法 Pending CN104166982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410304578.6A CN104166982A (zh) 2014-06-30 2014-06-30 基于典型相关性分析的图像优化聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410304578.6A CN104166982A (zh) 2014-06-30 2014-06-30 基于典型相关性分析的图像优化聚类方法

Publications (1)

Publication Number Publication Date
CN104166982A true CN104166982A (zh) 2014-11-26

Family

ID=51910773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410304578.6A Pending CN104166982A (zh) 2014-06-30 2014-06-30 基于典型相关性分析的图像优化聚类方法

Country Status (1)

Country Link
CN (1) CN104166982A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679902A (zh) * 2015-03-20 2015-06-03 湘潭大学 一种结合跨媒体融合的信息摘要提取方法
CN104820696A (zh) * 2015-04-29 2015-08-05 山东大学 一种基于多标签最小二乘哈希算法的大规模图像检索方法
CN105095912A (zh) * 2015-08-06 2015-11-25 北京奇虎科技有限公司 数据聚类的方法及装置
CN105389326A (zh) * 2015-09-16 2016-03-09 中国科学院计算技术研究所 基于弱匹配概率典型相关性模型的图像标注方法
CN105574539A (zh) * 2015-12-11 2016-05-11 中国联合网络通信集团有限公司 一种dns日志分析方法及装置
CN105701227A (zh) * 2016-01-15 2016-06-22 北京大学 一种基于局部关联图的跨媒体相似性度量方法和检索方法
CN106777937A (zh) * 2016-12-05 2017-05-31 深圳大图科创技术开发有限公司 一种智能医疗综合检测系统
CN106951509A (zh) * 2017-03-17 2017-07-14 中国人民解放军国防科学技术大学 多标签核化典型相关分析检索方法
CN107644427A (zh) * 2017-09-08 2018-01-30 上海理工大学 一种基于msew‑ca结合灰度直方图的多模态图像分割方法
CN107766394A (zh) * 2016-08-23 2018-03-06 阿里巴巴集团控股有限公司 业务数据处理方法及其系统
CN108509596A (zh) * 2018-04-02 2018-09-07 广州市申迪计算机系统有限公司 文本分类方法、装置、计算机设备和存储介质
CN109074363A (zh) * 2016-05-09 2018-12-21 华为技术有限公司 数据查询方法、数据查询系统确定方法和装置
CN109271539A (zh) * 2018-08-31 2019-01-25 华中科技大学 一种基于深度学习的图像自动标注方法及装置
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN110456985A (zh) * 2019-07-02 2019-11-15 华南师范大学 面向多模态网络大数据的层次型存储方法及系统
CN110517328A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于相关双自编码器在零次学习上的运用方法
CN111709473A (zh) * 2020-06-16 2020-09-25 腾讯科技(深圳)有限公司 对象特征的聚类方法及装置
WO2020206850A1 (zh) * 2019-04-09 2020-10-15 华为技术有限公司 基于高维图像的图像标注方法和装置
CN112989218A (zh) * 2021-03-12 2021-06-18 西华大学 基于多级属性嵌入和约束典型相关分析的身份链接方法
CN113032672A (zh) * 2021-03-24 2021-06-25 北京百度网讯科技有限公司 多模态poi特征的提取方法和装置
CN113157871A (zh) * 2021-05-27 2021-07-23 东莞心启航联贸网络科技有限公司 应用人工智能的新闻舆情文本处理方法、服务器及介质
CN113378942A (zh) * 2021-06-16 2021-09-10 中国石油大学(华东) 基于多头特征协作的小样本图像分类方法
CN115374191A (zh) * 2022-10-26 2022-11-22 国网湖北省电力有限公司信息通信公司 一种多源数据驱动的数据中心异构设备群聚类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
US7814040B1 (en) * 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
CN102663015A (zh) * 2012-03-21 2012-09-12 上海大学 基于特征袋模型和监督学习的视频语义标注方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7814040B1 (en) * 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN102663015A (zh) * 2012-03-21 2012-09-12 上海大学 基于特征袋模型和监督学习的视频语义标注方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BöRKUR SIGURBJöRNSSON: "Flickr Tag Recommendation based on Collective Knowledge", 《 IN PROCEEDINGS OF THE 17TH INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》 *
CHARLES ELKAN: "Using the Triangle Inequality to Accelerate k-Means", 《PROCEEDINGS OF THE TWENTIETH INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
YUEJIE ZHANG: "Multimodal Association Mining for Personalized Image Browsing", 《JOURNAL OF COMPUTATIONAL INFORMATION SYSTEMS》 *
张鸿: "基于相关性挖掘的跨媒体检索研究", 《中国博士学位论文全文数据库 信息科技辑》 *
陆文婷: "《图像检索中的特征表示模型和多信息源融合方式的研究》", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679902B (zh) * 2015-03-20 2017-11-28 湘潭大学 一种结合跨媒体融合的信息摘要提取方法
CN104679902A (zh) * 2015-03-20 2015-06-03 湘潭大学 一种结合跨媒体融合的信息摘要提取方法
CN104820696A (zh) * 2015-04-29 2015-08-05 山东大学 一种基于多标签最小二乘哈希算法的大规模图像检索方法
CN104820696B (zh) * 2015-04-29 2018-06-05 山东大学 一种基于多标签最小二乘哈希算法的大规模图像检索方法
CN105095912A (zh) * 2015-08-06 2015-11-25 北京奇虎科技有限公司 数据聚类的方法及装置
CN105389326B (zh) * 2015-09-16 2018-08-31 中国科学院计算技术研究所 基于弱匹配概率典型相关性模型的图像标注方法
CN105389326A (zh) * 2015-09-16 2016-03-09 中国科学院计算技术研究所 基于弱匹配概率典型相关性模型的图像标注方法
CN105574539A (zh) * 2015-12-11 2016-05-11 中国联合网络通信集团有限公司 一种dns日志分析方法及装置
CN105574539B (zh) * 2015-12-11 2018-09-21 中国联合网络通信集团有限公司 一种dns日志分析方法及装置
CN105701227A (zh) * 2016-01-15 2016-06-22 北京大学 一种基于局部关联图的跨媒体相似性度量方法和检索方法
CN105701227B (zh) * 2016-01-15 2019-02-01 北京大学 一种基于局部关联图的跨媒体相似性度量方法和检索方法
CN109074363A (zh) * 2016-05-09 2018-12-21 华为技术有限公司 数据查询方法、数据查询系统确定方法和装置
CN107766394A (zh) * 2016-08-23 2018-03-06 阿里巴巴集团控股有限公司 业务数据处理方法及其系统
CN106777937A (zh) * 2016-12-05 2017-05-31 深圳大图科创技术开发有限公司 一种智能医疗综合检测系统
CN106951509A (zh) * 2017-03-17 2017-07-14 中国人民解放军国防科学技术大学 多标签核化典型相关分析检索方法
CN106951509B (zh) * 2017-03-17 2019-08-09 中国人民解放军国防科学技术大学 多标签核化典型相关分析检索方法
CN107644427A (zh) * 2017-09-08 2018-01-30 上海理工大学 一种基于msew‑ca结合灰度直方图的多模态图像分割方法
CN107644427B (zh) * 2017-09-08 2021-06-25 康达洲际医疗器械有限公司 一种基于msew-ca结合灰度直方图的多模态图像分割方法
CN108509596A (zh) * 2018-04-02 2018-09-07 广州市申迪计算机系统有限公司 文本分类方法、装置、计算机设备和存储介质
CN108509596B (zh) * 2018-04-02 2021-06-04 广州市申迪计算机系统有限公司 文本分类方法、装置、计算机设备和存储介质
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN109271539A (zh) * 2018-08-31 2019-01-25 华中科技大学 一种基于深度学习的图像自动标注方法及装置
CN111797653A (zh) * 2019-04-09 2020-10-20 华为技术有限公司 基于高维图像的图像标注方法和装置
CN111797653B (zh) * 2019-04-09 2024-04-26 华为技术有限公司 基于高维图像的图像标注方法和装置
WO2020206850A1 (zh) * 2019-04-09 2020-10-15 华为技术有限公司 基于高维图像的图像标注方法和装置
CN110456985A (zh) * 2019-07-02 2019-11-15 华南师范大学 面向多模态网络大数据的层次型存储方法及系统
CN110517328B (zh) * 2019-07-12 2020-08-25 杭州电子科技大学 一种基于相关双自编码器在零次学习上的运用方法
CN110517328A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于相关双自编码器在零次学习上的运用方法
CN111709473A (zh) * 2020-06-16 2020-09-25 腾讯科技(深圳)有限公司 对象特征的聚类方法及装置
CN111709473B (zh) * 2020-06-16 2023-09-19 腾讯科技(深圳)有限公司 对象特征的聚类方法及装置
CN112989218A (zh) * 2021-03-12 2021-06-18 西华大学 基于多级属性嵌入和约束典型相关分析的身份链接方法
CN112989218B (zh) * 2021-03-12 2022-06-28 西华大学 基于多级属性嵌入和约束典型相关分析的身份链接方法
CN113032672A (zh) * 2021-03-24 2021-06-25 北京百度网讯科技有限公司 多模态poi特征的提取方法和装置
CN113157871B (zh) * 2021-05-27 2021-12-21 宿迁硅基智能科技有限公司 应用人工智能的新闻舆情文本处理方法、服务器及介质
CN113157871A (zh) * 2021-05-27 2021-07-23 东莞心启航联贸网络科技有限公司 应用人工智能的新闻舆情文本处理方法、服务器及介质
CN113378942A (zh) * 2021-06-16 2021-09-10 中国石油大学(华东) 基于多头特征协作的小样本图像分类方法
CN113378942B (zh) * 2021-06-16 2022-07-01 中国石油大学(华东) 基于多头特征协作的小样本图像分类方法
CN115374191A (zh) * 2022-10-26 2022-11-22 国网湖北省电力有限公司信息通信公司 一种多源数据驱动的数据中心异构设备群聚类方法
CN115374191B (zh) * 2022-10-26 2023-01-31 国网湖北省电力有限公司信息通信公司 一种多源数据驱动的数据中心异构设备群聚类方法

Similar Documents

Publication Publication Date Title
CN104166982A (zh) 基于典型相关性分析的图像优化聚类方法
Isola et al. Learning visual groups from co-occurrences in space and time
Zheng et al. Topic modeling of multimodal data: an autoregressive approach
Bu et al. 3D shape recognition and retrieval based on multi-modality deep learning
Ren et al. 3d-a-nets: 3d deep dense descriptor for volumetric shapes with adversarial networks
Chen et al. Discriminative soft bag-of-visual phrase for mobile landmark recognition
Lim et al. Context by region ancestry
CN112417289B (zh) 一种基于深度聚类的资讯信息智能推荐方法
CN103473307B (zh) 跨媒体稀疏哈希索引方法
Zhu et al. Weighting scheme for image retrieval based on bag‐of‐visual‐words
Abdul-Rashid et al. Shrec’18 track: 2d image-based 3d scene retrieval
Oluwasammi et al. Features to text: a comprehensive survey of deep learning on semantic segmentation and image captioning
CN113094534B (zh) 一种基于深度学习的多模态图文推荐方法及设备
CN103617609A (zh) 基于图论的k-means非线性流形聚类与代表点选取方法
CN105389588B (zh) 基于多语义码本图像特征表示方法
Liao et al. An oil painters recognition method based on cluster multiple kernel learning algorithm
Zareapoor et al. Deep semantic preserving hashing for large scale image retrieval
Wang et al. Hierarchical space tiling for scene modeling
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
Mettes et al. Hyperbolic deep learning in computer vision: A survey
Ding et al. An efficient 3D model retrieval method based on convolutional neural network
Li et al. Cross-Model Hashing Retrieval Based on Deep Residual Network.
Gezawa et al. A Deep Learning Approach to Mesh Segmentation.
CN113408650B (zh) 基于一致性训练的半监督三维形状识别方法
Guo Deep learning for visual understanding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141126