CN103577537A - 面向图像分享网站图片的多重配对相似度确定方法 - Google Patents

面向图像分享网站图片的多重配对相似度确定方法 Download PDF

Info

Publication number
CN103577537A
CN103577537A CN201310442438.0A CN201310442438A CN103577537A CN 103577537 A CN103577537 A CN 103577537A CN 201310442438 A CN201310442438 A CN 201310442438A CN 103577537 A CN103577537 A CN 103577537A
Authority
CN
China
Prior art keywords
similarity
attribute
picture
value
sharing website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310442438.0A
Other languages
English (en)
Other versions
CN103577537B (zh
Inventor
徐哲
张娅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Media Intelligence Technology Co., Ltd.
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201310442438.0A priority Critical patent/CN103577537B/zh
Publication of CN103577537A publication Critical patent/CN103577537A/zh
Application granted granted Critical
Publication of CN103577537B publication Critical patent/CN103577537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Abstract

本发明公开一种面向图像分享网站图片的多重配对相似度确定方法,包括如下步骤:第一步,提取图片的上下文属性特征和图像视觉特征;第二步,随后计算属性取值之间的相似度,由属性内和属性间两部分组成;所述的属性内相似度,是指仅考虑此属性自身,相似度由自身物理意义或属性值共生矩阵来计算;所述的属性间相似度,是指考虑除此属性x外,其他属性对该属性取值相似度的影响;第三步,然后将属性值相似度转换成图片相似度;第四步,再利用图片相似度进行图像分享网站图片集的分析,包括图片聚类、图片标注、网络分析和图片发掘。

Description

面向图像分享网站图片的多重配对相似度确定方法
技术领域
本发明涉及图像处理技术领域,具体的说,涉及的是一种面向图像分享网站图片的多重配对相似度确定方法。
背景技术
在如今的信息时代,互联网上众多的图片分享社区(如Flickr,Tumblr,Instagram等)每天都产生了海量的用户上传图片,如何有效地管理与检索这些图片开始得到了人们的重视。传统的图片搜索引擎主要使用图片周边的宏信息(metadata),尤其是其中的文字(textual)信息来进行检索,并取得了一定的效果。当遇到文字标注不完备或不存在的情况时,就需要使用图片的视觉(visual)信息来辅助检索功能。在机器视觉领域,语义鸿沟(semantic gap)是一个很著名的概念,它指出低层的视觉特征与高层的语义特征之间存在着很大的区别。
针对海量的互联网图片,目前研究的主要方向是使用图模型或概率模型来进行分析。图模型的方法主要分两类。第一类是传播模型(graph propagation),即从初始查询开始,通过对时间、地点、文字和视觉特征量化并计算相似度,进而找到最相近的图片、关键词或用户。重复这一过程,得到与查询最相近的图片集,通过它们的标注信息即可为查询图片进行标注。第二类是分割模型(graph partition),主要想法是使用图分割算法,把图片分类成几种。根据图模型的不同建立方法(如二部图或三部图)和不同的分割算法(最小切Mincut、隐狄利克雷分布LDA等),算法有很多种演变。
另一个引人注目的发展是社交网络信息在图片搜索中的应用。许多图片搜索网站都存在社交网络的特征,用户可以通过分享或喜欢朋友上传的图片来进行互动,社交网络的出现大大影响了用户对图片的获取和分析结果。目前也有一些方法对这方面进行了研究。
针对图像聚类、图像标注、标签网络分析等内容,学术界进行了广泛的尝试。但是很少的工作能够做到把这些问题统一到一个框架中。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种面向图像分享网站图片的多重配对相似度确定方法,可以用于图像聚类、图像标注、标签网络分析等。
本发明针对图像聚类、图像标注、标签网络分析等内容,指出“相似度”这一概念是所有问题中共通的核心内容。为此,引用Wang et al.2011年的一篇文章”Couplednominal similarity in unsupervised learning”中提出的配对相似度(coupledsimilarity)的概念。配对相似度的构成包括两方面,其一是取决于属性内取值的相似度(如标签是一个属性,barack和obama常常共同出现,他们的相似度会很高),另一个是取决于不同属性间协同关系的相似度(如”香蕉”和”梨”两个标签,他们对应的图片在颜色上会很相似)。配对相似度通过衡量这两种相似度共同作用的结果,最后获得两个目标(这里是图片)之间的相似度。
在原始的配对相似度确定方法中,每个物体与属性之间的关系是一一对应关系(如每张图片对应一个上传时间)。但在社交网络图片分析这一应用中,图片与标签之间的关系是一个一对多关系,一张图片可能包含着几个甚至几十个标签。为此,本发明设计了一个针对物体与属性取值间一对多关系的改进方法。
除图片-图片相似度外,本发明也可以得到每个属性不同取值之间的相似度,如两个标签的相似度或两个用户的相似度等。这些相似度一起构成了整体系统的基础,进而应用于图像聚类、图像标注等问题上。
本发明通过以下技术方案实现的,本发明在计算图片相似度时,考虑其每项属性的相似度,综合考虑属性内相似度(Inter-coupled similarity)和属性间相似度(Intra-coupledsimilarity)。
具体的,一种面向图像分享网站图片的多重配对相似度确定方法,包括如下步骤:
第一步,提取图片的上下文属性特征和图像视觉特征;
第二步,随后计算属性取值之间的相似度,由属性内和属性间两部分组成;
第三步,然后将属性值相似度转换成图片相似度;
第四步,再利用图片相似度进行图像分享网站图片集的分析,包括图片聚类、图片标注、网络分析和图片发掘。
所述的属性内相似度
Figure BDA0000386474300000021
代表属性f的两个取值ai,aj间的相似度,是指仅考虑此属性自身,相似度由自身物理意义(图像视觉特征)或属性值共生矩阵(标签)来计算。
所述的属性间相似度
Figure BDA0000386474300000031
代表属性f的两个取值ai,aj的相似度,考虑除此属性(记为属性f)外,其他属性对该属性取值相似度的影响。计算属性f上的两个取值ai和aj的相似度,其过程为:
(1)根据整体数据集,分别获得ai和aj对应的所有图片;
(2)对这些图片,获得其在其他属性中的一个(记为属性g)上的取值分布;
(3)计算ai和aj对应于属性g上取值分布的相似度
Figure BDA0000386474300000032
(4)重复以上(1)-(3)步骤,直到遍历所有的属性,最后求平均,即得到ai和aj的相似度
Figure BDA0000386474300000033
本发明中,图片与属性的对应关系不只存在一对一对应(图片对应上传用户和图片对应上传时间等),还存在有一对多对应(图片对应标签)。存在一对多对应的关系时,每个图片对应的该属性特征被看作一个向量。首先计算单个属性取值之间的相似度,再使用候选淘汰机制计算向量间的相似度。
所述的单个属性取值之间的相似度,其方法参照权利要求2,即 δ f Ie - sgl ( a i , a j ) = δ f Ie ( a i , a j ) , 表示属性间相似度,
Figure BDA0000386474300000036
表示单个属性取值之间的相似度。
所述的候选淘汰机制,对两个图片对应的属性向量A(a1,...,am)和B(b1,...,bn),计算其相似度
Figure BDA0000386474300000037
其步骤为:
(1)遍历A和B中的每个属性值,获得相似度最高的一对属性值ai和bj
(2)总相似度
Figure BDA0000386474300000038
中增加ai和bj的相似度
(3)分别从A和B中剔除ai和bj
(4)重复(1)-(3)直到A或B为空。
本发明提供的方法,可以用于图片聚类、图片标注、图片发掘、网络分析等,核心均在于多重配对相似度的确定,可以分别使用了k-modes,KNN等算法加以辅助。
与现有技术相比,本发明具有如下的有益效果:
本发明可提供一个统计的算法框架用于以上所述的应用场景中,可提供给社交网络更人性化的图片呈现方案、图片发掘机制等。考虑到相似度为一个局部的概念,图片呈现方案可以有自顶向下和自底向上两种选择。通过把相似的图片聚类在一起,并用一幅或多幅代表图片表示,用户可更直观地了解到整体图片集的内容和构成。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明方法流程图;
图2是本发明的原始数据实例;
图3是本发明的系统界面示意图;
图4是本发明的聚类结果与现有代表算法的结果的比较;
图5是本发明得到的标签网络结果;CP为本发明结果,I为按相似图像推荐,T为热门标签推荐,M为现有方法结果比较。
图6是本发明的图像标注性能与现有方法的比较。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,本实施例提供一种对图片分享网站中用户上传的图片进行自动分析,进而实现聚类、标注、发掘等功能的方法。图像分享网站(以Flickr为例)是由用户分享图片,并与其他用户交流的社区网站。这种网站中的图片除本身的视觉信息外,还包含丰富的上下文信息,包括用户、标签、上传时间、评论、转发等。利用这些信息,可以更好地理解社交网络中与图像相关的语义层面的行为。为此,本实施例中使用一种基于多重配对相似度(Multi-Entrance Coupled Object Similarity,MeCOS)的方法,确定图片之间、标签之间、用户之间的相似度,进而实现了一种更好的图像内容呈现与发掘方式。
本实施例中,多重配对相似度的方法具体步骤为:
1.以Flickr群组为例,得到一个群组里的图片,并获得所有图片的属性(即上下文信息,如用户、标签、时间等),提取图像特征(颜色、纹理、SIFT等)。
2.对每个属性的所有取值,计算其两两之间的属性内相似度(Intra-coupled AttributeValue Similarity)和属性外相似度(Inter-coupled Attribute Value Similarity)。二者相乘得到属性值相似度(Coupled Attribute Value Similarity)。
3.针对一对多映射的情况,计算两两属性向量之间的相似度(Coupled AttributeVector Similarity)。
4.遍历所有属性,得到两两图片间的相似度(Coupled Object Similarity)。
5.利用2-4中得到了不同层面上的相似度,进行图像聚类、图像标注、标签网络分析、图像发掘等应用。
应用实例
如图2所示,本实施例针对图片分享网站中的图片分析,使用Flickr群组进行训练与测试。Flickr群组是由有相同兴趣的用户自发组织形成的社交团体,主要行为包括分享图片、建立讨论与评论等。本实施例共选用了7个Flickr群组,内容包含自然、旅游、艺术、新闻等不同的主题。
本实施例包括如下步骤:
第一步骤,爬取Flickr群组的图片内容与图片属性,每个群组选用最新上传的3000张图片。为了分析图片分享网站中的图片,对每张图片提取了以下几种属性:
(1)视觉特征:包括颜色直方图、颜色矩、LBP、SIFT等特征描述子,用于对颜色、形状、纹理等不同方向进行图像视觉特征的描述;
(2)用户:上传此图片的用户;
(3)标签:描述图片的文字标签;
(4)上传时间:用于分析与时序相关的事件等。
第二步骤,实施上述的多重配对相似度确定方法(MeCOS)计算图片间相似度与属性间相似度。
具体实施过程中,标签属性与图片为多对一关系,故采用属性向量的形式计算相似度,其他属性均采用属性值的形式计算相似度。
整个系统的原始数据可由信息表<U,A,V,f>表示。其中U={u1,...,um}代表目标物体集合;A={a1,...,an}代表所有属性的集合;Vj是属性aj的所有可能取值的集合;fj:U→Vj指目标物体在某属性上取值这一映射。
针对与物体间存在多对一映射关系的属性,设其为Ak,增加定义T=Vk其中Qj(1≤j≤m)为第j个物体对应的属性取值向量,其取值为T的子集,P(T)为T的幂集。
对于物体和属性关系为一对一映射的情况,定义的信息函数、转移概率与相似度计算等,请参照Wang et al.的文章中的计算方法。
针对一对多映射的情况,定义三个集合信息函数(SIFs):
f k * ( { u r 1 , . . . , u rt } ) = { f k ( u r 1 ) , . . . , { f k ( u rt ) }
gk(x)={ui|x∈fk(ui),1≤i≤m}
g k * ( W ) = { &cup; u i | f k ( u i ) &cap; W &NotEqual; &Phi; , 1 &le; i &le; m }
其中, u i , u r 1 , . . . , u rt &Element; U , W &SubsetEqual; T .
转移信息函数(IIF):
&phi; j &RightArrow; k ( x ) = f k * ( g i ( x ) )
为从属性j传递到属性k的函数,该式表示在属性j上取值为x的所有物体在属性k上的取值集合。
信息传递概率函数(ICP):
P k | j ( W | x ) = F W ( g k * ( W ) &cap; g i ( x ) ) F T ( g j ( x ) )
表示属性j取值为x的物体集合中,在属性k上与某一属性值集合W的交集非空的概率。
其中FW(O)为取值频数函数(VCF),表示在属性取值子集
Figure BDA0000386474300000069
中的所有属性值在物体子集
Figure BDA00003864743000000610
中总共出现的个数。计算时遍历所有w∈W,o∈O,统计总共出现的次数。
F W ( O ) = &Sigma; w &Element; W , o &Element; O L w ( o )
L w ( o ) = 1 , w &Element; Q o 0 , w &NotElement; Q o
其中Qo为物体o的属性取值向量。例:物体x在属性k上的取值为[1,2,4,6],则L2(x)=1,L3(x)=0,F[1,2,3,4]([x])=1+1+0+1=3。
信息传递概率函数的形式与Wang et al.的文章有很大的修改,主要是为了在物体属性对应关系为一对多的情况下保证概率归一化仍然成立:
&Sigma; i P k | j ( t I | x ) = 1
其中x∈Vj,ti∈T,∪iti=T.
所述的属性内相似度
Figure BDA0000386474300000072
是指仅考虑此属性自身,相似度由自身物理意义(图像视觉特征)或属性值共生矩阵(标签)来计算出的属性f的两个取值ai,aj间的相似度。使用共生矩阵计算时, &delta; f Ia ( a i , a j ) = max ( P ( ( a i , a j ) | a i ) + P ( ( a i , a j ) | a j ) - 1,0 ) . 其中,P((ai,aj)|ai)表示在属性值ai发生条件下,ai和aj同时出现的概率。算法要求最后得到的相似度结果非负,即属性值之间只存在不相关,而不存在逆相关(一方出现造成另一方不出现的概率升高)的情况。
所述的属性间相似度
Figure BDA0000386474300000074
是指考虑除此属性(记为属性f)外,其他属性对该属性取值相似度的影响而计算出的相似度。计算属性f上的两个取值ai和aj的相似度,其过程为:
(1)根据整体数据集,分别获得ai和aj对应的所有图片;
(2)对这些图片,获得其在其他属性中的一个(记为属性g)上的取值分布;
(3)计算ai和aj对应于属性g上取值分布的相似度
(4)重复以上(1)-(3)步骤,直到遍历所有的属性,最后求平均,即得到ai和aj的相似度
Figure BDA0000386474300000076
用公式表述为:
&delta; j | k I ( x , y ) = &Sigma; w &Element; &cap; min { P k | j ( w | k ) , P k | j ( w | y ) }
其中x,y∈Vj,w∈∩代表w∈(∪φj→k(x))∩(∪φj→k(y))
Figure BDA0000386474300000078
为属性k对属性j作用产生的属性j的取值x和y的相似度。计算过程通过上述提到的转移信息函数φj→k(x)和信息传递概率函数Pk|j(w|x),构建了属性j上的两个取值x,y,其对应物体在属性k上的取值分布的相似度。对不同的属性间相似度计算方法的详细介绍与比较请参见Wang et al.的文章对应章节。
属性取值相似度由属性内相似度和属性间相似度相乘得到。
本发明中,图片与属性的对应关系不只存在一对一对应(图片对应上传用户和图片对应上传时间等),还存在有一对多对应(图片对应标签)。存在一对多对应的关系时,每个图片对应的该属性特征被看作一个向量。首先计算单个属性取值之间的相似度,再使用候选淘汰机制计算向量间的相似度。
所述的候选淘汰机制,对两个图片对应的属性向量A(a1,...,ap)和B(b1,...,bq),其步骤为:
(1)遍历A和B中的每个属性值,获得相似度最高的一对,如ai和bj
(2)总相似度中增加ai和bj的相似度;
(3)分别从A和B中剔除ai和bj
(4)重复(1)-(3)直到A或B为空。
表1为案例构成信息表,其中ui为物体,fj为属性(其中f2为对应多对一关系的属性),A,B,C分别为每个属性对应的属性取值。举例如u1在f1属性上的值为A1,在f2属性上取值为B1,B2
U/A f1 f2 f3
u1 A1 B1,B2 C1
u2 A2 B1,B3 C1
u3 A2 B2,B4 C2
u4 A3 B1,B2,B3 C2
u5 A4 B2,B3 C2
u6 A4 B1,B2,B4 C3
考虑多重配对相似度,以属性f2为研究对象。本例中,属性内相似度 &delta; f Ie ( B 1 , B 2 ) = 3 4 + 3 5 - 1 = 0.35 . 属性间相似度 &delta; 3 | 2 Ia ( B 1 , B 2 ) = 0.65 , &delta; 2 | 3 Ia ( C 1 , C 2 ) = 0.64 .
第三步骤,具体应用。
在Flickr群组上,本实施例共设计了三种应用情景。
(1)图片聚类
基于图片相似度,采用K-modes算法进行聚类,类别内的图片具有较高的相似度。聚类的结果可使图片的呈现更具有对用户友好的特性。
(2)图片标注
基于图片相似度,使用最近邻算法,用相似度最高的图片的标签来为测试图片进行标注。图片标注丰富了图片的可用信息,为其他的操作提供了便利。
(3)标签网络
针对某个群组,研究群组中出现的所有标签之间的关系,得到一个语义层面上的标签网络。用户网络也可相似地得出,用于为用户推荐好友等。
(4)图片发掘
根据图片在不同属性维度上的相似度,以二维相似矩阵的形式推荐数据库中与输入图片相似的图片,并于多次迭代中逐步趋近用户希望找到的图片特征。
实施效果
依据上述步骤,对爬取的Flickr群组样本进行实验。实验以多重配对相似度确定方法(MeCOS)为基础,并用本发明的方法与现有的具有代表性的技术进行了比较。
图3是对群组“Fascinating Nature:Level1”进行图片聚类得到的结果,图例显示系统的示意界面。本发明方法按照图像特征、用户、标签等属性把群组内的图片分为6类,代表图片如(a)显示。下方为群组的标签云(tag cloud),文字的大小与出现频率正相关。点击某个类别的图片则进入(b)显示的组内代表图片界面。该界面显示了某类中的10个最具代表性的图片,并附上拥有者、上传时间、标签等上下文信息供用户参考。整体的系统与现有的按上传时间排列的显示方式相比,更好地概括了群组的特性与主要内容。
图4是本发明与现有代表技术的比较。其中(a)为本发明的结果。对Flickr群组“News-Photojournalism”的聚类结果说明,虽然两种方法均提取出了事件驱动这一新闻群组的特性,但本发明方法(MeCOS)选出的代表图片更有代表性。
图5为本发明在7个不同群组上的图像标注性能。评价标准为P10(前10个推荐标签的正确率)。相比于按图像特征推荐和按热门标签推荐,本发明的推荐性能有大幅的提升。
图6是在Flickr群组“The Southwest United States”中提取的标签网络示意图。可以看出网络结构具有很强的语义特征。这其中既包括了字面意义上的相似对(如nm和new mexico),也涵盖了群组特有的相似关系(coloradowildlife和deer)。与传统的共生矩阵方法相比,本发明的方法得到的标签网络去除了因高频率出现标签造成的伪相似现象,使得标签网络更加干净易懂。用户网络也可用相似方法构建。
所有实验均在PC计算机Linux环境下用Matlab和C++实现。
从以上实验可以看出,利用本发明的选样方法,可以在图像聚类、图像标注、标签网络等应用上获得理想的性能。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (6)

1.一种面向图像分享网站图片的多重配对相似度确定方法,其特征在于包括如下步骤:
第一步,提取图片的上下文属性特征和图像视觉特征,二者共同组成图像的属性向量;
第二步,随后计算属性取值之间的相似度,由属性内和属性间两部分组成;
所述的属性内相似度
Figure FDA0000386474290000011
代表属性f的两个取值ai,aj间的相似度,是指仅考虑此属性f自身,相似度由自身物理意义或属性值共生矩阵来计算;
所述的属性间相似度
Figure FDA0000386474290000012
代表属性f的两个取值ai,aj间的相似度,是指考虑除此属性f外,其他属性对该属性取值相似度的影响;
第三步,然后将属性值相似度转换成图片相似度;
第四步,再利用图片相似度进行图像分享网站图片集的分析,包括图片聚类、图片标注、网络分析和图片发掘。
2.根据权利要求1所述的面向图像分享网站图片的多重配对相似度确定方法,其特征是,所述的属性间相似度
Figure FDA0000386474290000013
计算属性f上的两个取值ai和aj的相似度,其过程为:
(1)根据整体数据集,分别获得ai和aj对应的所有图片;
(2)对这些图片,获得其在其他属性中的一个属性g上的取值分布;
(3)计算ai和aj对应于属性g上取值分布的相似度
Figure FDA0000386474290000014
(4)重复以上(1)-(3)步骤,直到遍历所有的属性,最后求平均,即得到ai和aj的相似度
Figure FDA0000386474290000015
3.根据权利要求2所述的面向图像分享网站图片的多重配对相似度确定方法,其特征是,所述图片与属性的对应关系不只存在一对一对应,还存在有一对多对应,存在一对多对应的关系时,每个图片对应的该属性特征被看作一个向量,首先计算单个属性取值之间的相似度,再使用候选淘汰机制计算向量间的相似度。
4.根据权利要求3所述的面向图像分享网站图片的多重配对相似度确定方法,其特征是,所述的单个属性取值之间的相似度,其方法参照权利要求2,即 &delta; f Ie - sgl ( a i , a j ) = &delta; f Ie ( a i , a j ) ,
Figure FDA0000386474290000017
表示属性间相似度,
Figure FDA0000386474290000018
表示单个属性取值之间的相似度。
5.根据权利要求3所述的面向图像分享网站图片的多重配对相似度确定方法,其特征是,所述的候选淘汰机制,对两个图片对应的属性向量A(a1,...,am)和B(b1,...,bn),其步骤为:
(1)遍历A和B中的每个属性值,获得相似度最高的一对属性值ai和bj
(2)总相似度
Figure FDA0000386474290000021
中增加ai和bj的相似度
Figure FDA0000386474290000022
(3)分别从A和B中剔除ai和bj
(4)重复(1)-(3)直到A或B为空。
6.根据权利要求1-5任一项所述的面向图像分享网站图片的多重配对相似度确定方法,其特征是,所述图片聚类、图片标注、图片发掘、网络分析,在采用多重配对相似度确定的同时,分别使用了k-modes,KNN算法加以辅助。
CN201310442438.0A 2013-09-24 2013-09-24 面向图像分享网站图片的多重配对相似度确定方法 Active CN103577537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310442438.0A CN103577537B (zh) 2013-09-24 2013-09-24 面向图像分享网站图片的多重配对相似度确定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310442438.0A CN103577537B (zh) 2013-09-24 2013-09-24 面向图像分享网站图片的多重配对相似度确定方法

Publications (2)

Publication Number Publication Date
CN103577537A true CN103577537A (zh) 2014-02-12
CN103577537B CN103577537B (zh) 2016-08-17

Family

ID=50049313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310442438.0A Active CN103577537B (zh) 2013-09-24 2013-09-24 面向图像分享网站图片的多重配对相似度确定方法

Country Status (1)

Country Link
CN (1) CN103577537B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317867A (zh) * 2014-10-17 2015-01-28 上海交通大学 对搜索引擎返回的网页图片进行实体聚类的系统
CN105653701A (zh) * 2015-12-31 2016-06-08 百度在线网络技术(北京)有限公司 模型生成方法及装置、词语赋权方法及装置
CN106777030A (zh) * 2016-12-08 2017-05-31 北京小米移动软件有限公司 信息推送方法及装置
CN108205810A (zh) * 2016-12-16 2018-06-26 富士通株式会社 图像比较装置及方法、电子设备
CN108399551A (zh) * 2017-02-08 2018-08-14 阿里巴巴集团控股有限公司 一种确定用户标签和推送信息的方法及系统
CN109104570A (zh) * 2018-08-28 2018-12-28 广东小天才科技有限公司 一种基于可穿戴设备的拍摄方法及可穿戴设备
CN109740101A (zh) * 2019-01-18 2019-05-10 杭州凡闻科技有限公司 数据配置方法、公众号文章清洗方法、装置及系统
CN110380954A (zh) * 2017-04-12 2019-10-25 腾讯科技(深圳)有限公司 数据分享方法和装置,存储介质及电子装置
CN112765601A (zh) * 2021-01-18 2021-05-07 西安博达软件股份有限公司 基于云端的网站首页结构监测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1926575A (zh) * 2004-03-03 2007-03-07 日本电气株式会社 图像相似度计算系统、图像搜索系统、图像相似度计算方法和图像相似度计算程序
CN101038668A (zh) * 2006-03-18 2007-09-19 辽宁师范大学 基于重要位平面的图像检索新方法
US7805010B2 (en) * 2006-07-25 2010-09-28 Christian Posse Cross-ontological analytics for alignment of different classification schemes
US20110191283A1 (en) * 2010-02-03 2011-08-04 Siemens Corporation Method and System for Medical Decision Support Using Organ Models and Learning Based Discriminative Distance Functions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1926575A (zh) * 2004-03-03 2007-03-07 日本电气株式会社 图像相似度计算系统、图像搜索系统、图像相似度计算方法和图像相似度计算程序
CN101038668A (zh) * 2006-03-18 2007-09-19 辽宁师范大学 基于重要位平面的图像检索新方法
US7805010B2 (en) * 2006-07-25 2010-09-28 Christian Posse Cross-ontological analytics for alignment of different classification schemes
US20110191283A1 (en) * 2010-02-03 2011-08-04 Siemens Corporation Method and System for Medical Decision Support Using Organ Models and Learning Based Discriminative Distance Functions

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317867A (zh) * 2014-10-17 2015-01-28 上海交通大学 对搜索引擎返回的网页图片进行实体聚类的系统
CN104317867B (zh) * 2014-10-17 2018-02-09 上海交通大学 对搜索引擎返回的网页图片进行实体聚类的系统
CN105653701A (zh) * 2015-12-31 2016-06-08 百度在线网络技术(北京)有限公司 模型生成方法及装置、词语赋权方法及装置
US10565253B2 (en) 2015-12-31 2020-02-18 Baidu Online Network Technology (Beijing) Co., Ltd. Model generation method, word weighting method, device, apparatus, and computer storage medium
CN105653701B (zh) * 2015-12-31 2019-01-15 百度在线网络技术(北京)有限公司 模型生成方法及装置、词语赋权方法及装置
CN106777030A (zh) * 2016-12-08 2017-05-31 北京小米移动软件有限公司 信息推送方法及装置
CN108205810A (zh) * 2016-12-16 2018-06-26 富士通株式会社 图像比较装置及方法、电子设备
CN108399551A (zh) * 2017-02-08 2018-08-14 阿里巴巴集团控股有限公司 一种确定用户标签和推送信息的方法及系统
CN110380954A (zh) * 2017-04-12 2019-10-25 腾讯科技(深圳)有限公司 数据分享方法和装置,存储介质及电子装置
CN109104570A (zh) * 2018-08-28 2018-12-28 广东小天才科技有限公司 一种基于可穿戴设备的拍摄方法及可穿戴设备
CN109740101A (zh) * 2019-01-18 2019-05-10 杭州凡闻科技有限公司 数据配置方法、公众号文章清洗方法、装置及系统
CN112765601A (zh) * 2021-01-18 2021-05-07 西安博达软件股份有限公司 基于云端的网站首页结构监测方法
CN112765601B (zh) * 2021-01-18 2023-04-18 西安博达软件股份有限公司 基于云端的网站首页结构监测方法

Also Published As

Publication number Publication date
CN103577537B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN103577537B (zh) 面向图像分享网站图片的多重配对相似度确定方法
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN105760507B (zh) 基于深度学习的跨模态主题相关性建模方法
US9600499B2 (en) System for collecting interest graph by relevance search incorporating image recognition system
CN102902821B (zh) 基于网络热点话题的图像高级语义标注、检索方法及装置
GB2544379B (en) Structured knowledge modeling, extraction and localization from images
CN109086375B (zh) 一种基于词向量增强的短文本主题抽取方法
CN106599226A (zh) 一种内容推荐方法及内容推荐系统
CN109947987B (zh) 一种交叉协同过滤推荐方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN104834693A (zh) 基于深度搜索的视觉图像检索方法及系统
CN102637163A (zh) 一种基于语义的多层次本体匹配的控制方法及系统
CN112559684A (zh) 一种关键词提取及信息检索方法
CN112948575B (zh) 文本数据处理方法、装置和计算机可读存储介质
Mishra et al. Image mining in the context of content based image retrieval: a perspective
Noel et al. Applicability of Latent Dirichlet Allocation to multi-disk search
Gonçalves et al. Semantic guided interactive image retrieval for plant identification
Wang et al. Remote-sensing image retrieval by combining image visual and semantic features
CN106776827A (zh) 用于自动化扩展层次化本体知识库的方法
CN105893573A (zh) 一种基于地点的多模态媒体数据主题提取模型
Sharma et al. High‐level feature aggregation for fine‐grained architectural floor plan retrieval
CN103064907A (zh) 基于无监督的实体关系抽取的主题元搜索系统及方法
Zhu et al. Multimodal sparse linear integration for content-based item recommendation
Gururaj et al. Content based image retrieval system implementation through neural network
CN112765490A (zh) 一种基于知识图谱和图卷积网络的信息推荐方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181016

Address after: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Co-patentee after: Wang Yanfeng

Patentee after: Zhang Ya

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Patentee before: Shanghai Jiao Tong University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181121

Address after: Room 387, Building 333, Hongqiao Road, Xuhui District, Shanghai 200030

Patentee after: Shanghai Media Intelligence Technology Co., Ltd.

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Co-patentee before: Wang Yanfeng

Patentee before: Zhang Ya