CN103198117A - 基于内容的图像伪相关重排序方法 - Google Patents

基于内容的图像伪相关重排序方法 Download PDF

Info

Publication number
CN103198117A
CN103198117A CN2013101101876A CN201310110187A CN103198117A CN 103198117 A CN103198117 A CN 103198117A CN 2013101101876 A CN2013101101876 A CN 2013101101876A CN 201310110187 A CN201310110187 A CN 201310110187A CN 103198117 A CN103198117 A CN 103198117A
Authority
CN
China
Prior art keywords
sample
mark
grade
content
spurious correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101101876A
Other languages
English (en)
Other versions
CN103198117B (zh
Inventor
冀中
苏育挺
于颜儒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jingfa Cultural Media Co.,Ltd.
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201310110187.6A priority Critical patent/CN103198117B/zh
Publication of CN103198117A publication Critical patent/CN103198117A/zh
Application granted granted Critical
Publication of CN103198117B publication Critical patent/CN103198117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于内容的图像伪相关重排序方法,首先根据查询词得到基于文本的检索结果,即样本群;对所检索到的样本群计算伪相关排序等级;根据计算出的伪相关排序等级对检索到的样本重新排序,得到最终重新排序的样本结果。本发明提出了一种新的排序算法,高效地利用了基于内容的图象特征,与用户查询相关的图像优先呈现给用户,提高了检索排序的准确性。本发明主要针对在线检索过程查询与检索结果不相关或者相关性较小的问题提出的重排序算法,人为的加入少量标注信息,充分利用基于内容的图像特征,达到对所有的结果进行有效的排序目。

Description

基于内容的图像伪相关重排序方法
技术领域
本发明涉及一种图像排序算法。特别是涉及一种面向多媒体领域的基于内容的图像伪相关重排序方法。
背景技术
随着多媒体技术的飞速发展,大量的数字图像涌现进人们的日常生活。人们迫切需要一种从海量图像中搜索到自己感兴趣图像的检索工具,由此基于内容的图像检索排序技术应运而生。
在过去的十几年中,人们提出了大量的图像排序算法。流形排序算法是其中一个经典的算法,首先构建K最邻近图,针对相关反馈,分别设计了具有正反馈(提供给用户的检索结果都被用户标记为相关)的情况及正负反馈都有的情况的对应方法,但是此算法只能针对训练集合,对于查询样例位于数据库之外的情况虽然给出了说明,但需要扩展相似矩阵W之后再重新计算归一化相似矩阵S,比较费时,不适合用于在线查询。
多媒体检索相关领域数据中存在着大量排序信息。排序信息是指排序学习中的训练数据集合所提供的可用于学习排序模型的监督信息,包括数据的相关性等级信息、数据的优先级关系信息以及建立其之上的关系对、关系序列等信息。排序信息可以通过人工标或者相关反馈等途径获取。
图像搜索重排序是根据初始的基于文本搜索结果结合图像视觉信息训练排序模型,利用新的排序模型对检索结果重新排序的过程,其目的是为了改善检索的准确性以提高用户体验和满意度。根据信息利用的方式不同,图像搜索重排序可分为三个研究方向:(1)利用标注图像/视频查询样例进行重排序,(2)利用预训练的概念检测器进行重排序,(3)不利用附加信息的重排序。
在信息检索领域中,相关性等级信息广泛应用于信息检索中的模型训练中,例如文本与多媒体检索,问答系统,视觉搜索重排序,协同过滤等。在大多数情况下,根据与查询的相关性的高低手动地或自动地对每个文档进行不同等级的标注,例如“非常相关”、“相关”、“一般相关”、“不相关”等,这些描述样本与查询相关程度的度量叫做样本的相关性等级信息。
样本的相关性等级信息不同于传统的类标号信息,前者是在信息检索中用来衡量文档与查询之间的相关程度的度量,后者指的是机器学习与模式识别领域中一类事物的所共同具有的属性。例如在传统的模式分类任务中,同一类的事物会具有共同的特征,不同类的事物具有不同的特征。在排序应用中,由于样本按照与查询相关的程度分为不同的相关性等级,这样即使不同相关性等级的样本之间,也可能由于都与查询相关而存不同程度的相关性,基于此,我们根据样本之间有无相关性及相关性的大小,将样本进行重新排序,相关性高的排在前面,相关性低的排在后面.但是由于检索结果数量巨大,往往不能获得所有的相关等级信息,而且用户体验不够快速准确,所以我们通过对检索结果进行少量标注,达到对所有的结果进行有效的排序目的,以此来提高用户满意度。
发明内容
本发明所要解决的技术问题是,提供一种既能减少在排序学习过程中的庞大数据量,又能得到较高的检索效果的基于内容的图像伪相关重排序方法。
本发明所采用的技术方案是:一种基于内容的图像伪相关重排序方法,首先根据查询词得到基于文本的检索结果,即样本群;对所检索到的样本群计算伪相关排序等级;根据计算出的伪相关排序等级对检索到的样本重新排序,得到最终重新排序的样本结果。
所述的对所检索到的样本群计算伪相关排序等级包括如下步骤:
1)设定基于文本的检索结果样本群为X={xl,…xn}CRm,xi表示查询中的一个样本,i表示查询结果中第i个样本,n是查询结果中样本的个数;
2)对步骤1)中的检索结果样本群X={x1,…xn}CRm标注相关性等级:在这n个样本中选出3×k个样本进行标注,其余的不进行标注,用Y*={y1 *,…y3×k *}表示相关性等级,yi *∈{0,1,2},建立数据袋X*={x1 *,…x3×k *},X*表示标注的样本群,x*表示标注样本群中的一个样本;
3)计算相似矩阵W:为每一个未标注的样本在数据袋中寻找t个近邻,其中t≤k,并计算每一个未标注的样本xi与所对应的近邻的相似距离:
Figure BDA00002988679800021
其中d(xi,xj)=||xi,xj||2,i∈(0,n-3k),j∈0,3k),
Figure BDA00002988679800022
并组成相似矩阵WCR(n-3k)×3k;
4)计算重构系数矩阵:S=D-1W,其中DCR(n-3k)×(n-3k)为对角阵,
Figure BDA00002988679800023
5)记算伪相关性等级:Y=SY*;
6)以Y作为排序分数按照从大到小的顺序排序。
对3×k个样本进行标注是,在3×k个样本中,最相关的k个标注等级为2,不相关的标注等级为0,介于最相关的等级与不相关的等级之间的为一般相关标注等级为1。
由步骤4)能够得到表示近邻贡献大小的重构系数ci:
ci∈[0,1],∑ci=1,与第个近邻越相似,ci越大,从而得到重构系数的计算方法:
Figure BDA00002988679800024
其中ci表示未知样本xj的第个近邻的重构系数。
步骤5)所述的伪相关性等级Y={y1,…yn},其中yi∈[0,2],yi越大表示相关性等级越高。
本发明的基于内容的图像伪相关重排序方法,提出了一种新的排序算法,高效地利用了基于内容的图象特征,与用户查询相关的图像优先呈现给用户,提高了检索排序的准确性。本发明主要针对在线检索过程查询与检索结果不相关或者相关性较小的问题提出的重排序算法,人为的加入少量标注信息,充分利用基于内容的图像特征,达到对所有的结果进行有效的排序目。其优势主要体现在:
1、新颖性:从以往的检索模型可以看出,用来对査询和文档的相关性进行排序,所考虑的因素并不多,主要是利用词频、逆文档频率和文档长度等文本特征,本发明加入了基于内容的图像特征和与查询相关与否的相关等级特征;
2、简化性:对于有监督机器学习来说,首先需要大量的训练数据,在此基础上才可能自动学习排序模型,单靠人工标注大量的训练数据不太现实,本发明没有传统的排序学习过程,所以不需要大量的训练数据,只要少量的标注即可。
3、快捷性:减少了排序学习中准备训练数据和训练排序模型的过程,大大缩短了排序所需要的时间。
4、实用性:本发明的简化性与快捷性致使排序过程操作容易,并且实时性更好,使得在线排序得以实现,在图像检索过程中用户只需标注少量等级信息即可实现重排序。
附图说明
图1是本发明的基于内容的图像重排序的流程图;
图2是本发明计算伪相关的等级算法的系统流程。
具体实施方式
下面结合实施例和附图对本发明的基于内容的图像伪相关重排序方法做出详细说明。
本发明的基于内容的图像伪相关重排序方法,是在少量样本的相关性等级基础上,对其他的样本进行伪相关等级的计算。在线检索过程中得到所有样本的相关性等级是不现实的,数据量庞大并且用户不能样本进行一一标注,所以本发明通过对少量样本进行相关等级标注,以这些标注过的样本为例,根据其他样本与这些样本的距离得到所有样本的伪相关性等级,最后根据等级的高低进行重排序,具体是首先根据查询词得到基于文本的检索结果,即样本群;对所检索到的样本群计算伪相关排序等级;根据计算出的伪相关排序等级对检索到的样本重新排序,得到最终重新排序的样本结果。
如图1、图2所示,所述的对所检索到的样本群计算伪相关排序等级包括如下步骤:
1)设定基于文本的检索结果样本群为X={x1,…xn}CRm,xi表示查询中的一个样本,i表示查询结果中第i个样本,n是查询结果中样本的个数;
2)对步骤1)中的检索结果样本群X={x1,…xn}CRm标注相关性等级:在这个样本中选出3×k个样本进行标注,其余的不进行标注,对3×k个样本进行标注是,在3×k个样本中,最相关的k个标注等级为2,不相关的标注等级为0,介于最相关的等级与不相关的等级之间的为一般相关标注等级为1,每个等级都标注k个。用Y*={y1 *,…y3×k *}表示相关性等级,yi *∈{0,1,2},建立数据袋X*={x1 *,…x3×k *},X*表示标注的样本群,x*表示标注样本群中的一个样本;
未标注样本的相关性等级应该介于0-2之间,等级越大表明相关性越强。未标注样本与已标注样本进行对比,如果与标注为2的样本更相似表明与查询非常相关;如果与标注为1的样本更相似,表明与查询一般相关;如果与标注为2或者1的样本都不相似表明与查询不相关。
3)计算相似矩阵W:对于未标注的样本xi我们逐一计算与数据袋中样本xi *的相似距离,为每一个未标注的样本在数据袋中寻找个近邻,其中t≤k并计算每一个未标注的样本xi与所对应的近邻的相似距离:
Figure BDA00002988679800041
其中:d(xi,xj)=||xi,xj||2,i∈(0,n-3k),j∈(0,3k),
Figure BDA00002988679800042
并组成相似矩阵WCR(n-3k)×3k
4)计算重构系数矩阵:S=D-1W,其中DCR(n-3k)×(n-3k)为对角阵,
能够得到表示近邻贡献大小的重构系数ci:
ci∈[0,1],∑ci=1,与第个近邻越相似,ci越大,从而得到重构系数的计算方法:,其中ci表示未知样本xj的第个近邻的重构系数。
5)记算伪相关性等级:Y=SY*,用近邻的标注信息与重构系数就可以得到这一系列样本与查询的相关性等级信息Y={y1,…yn}其中yi∈[0,2],yi越大表示相关性等级越高。在重排序时应该排的越靠前。构造未标注样本的伪相关排序等级:其中y表示待计算样本的伪相关性等级,yi *表示数据袋中标注样本的相关性等级。
6)以F作为排序分数按照从大到小的顺序排序。
由此,本发明得到基于内容的伪相关等级排序需要准备数据、计算近邻、求解重构系数三个阶段。前期的准备包括提供检索结果、确定相关性的等级、样本标注三个过程;计算近邻包括计算样本之间的热核距离,对热核距离进行排序、选取近邻等几个过程;在求解重构系数时,需要根据计算热核距离的结果构建相似矩阵,并且对相似矩阵进行归一化,进而得到重构系数。

Claims (5)

1.一种基于内容的图像伪相关重排序方法,其特征在于,首先根据查询词得到基于文本的检索结果,即样本群;对所检索到的样本群计算伪相关排序等级;根据计算出的伪相关排序等级对检索到的样本重新排序,得到最终重新排序的样本结果。
2.根据权利要求1所述的基于内容的图像伪相关重排序方法,其特征在于,所述的对所检索到的样本群计算伪相关排序等级包括如下步骤:
1)设定基于文本的检索结果样本群为X={x1,…xn}CRm,xi表示查询中的一个样本,i表示查询结果中第i个样本,n是查询结果中样本的个数;
2)对步骤1)中的检索结果样本群X={x1,…xn}CRm标注相关性等级:在这n个样本中选出3×k个样本进行标注,其余的不进行标注,用Y*={y1 *,…y3×k *}表示相关性等级,yi *∈{0,1,2},建立数据袋X*={x1 *,…x3×k *},X*表示标注的样本群,x*表示标注样本群中的一个样本;
3)计算相似矩阵W:为每一个未标注的样本在数据袋中寻找t个近邻,其中t≤k,并计算每一个未标注的样本xi与所对应的近邻的相似距离:
Figure FDA00002988679700011
其中:d(xi,xj)=‖xi,xj2,i∈(0,n-3k),j∈(0,3k),
Figure FDA00002988679700012
并组成相似矩阵WCR(n-3k)×3k
4)计算重构系数矩阵:S=D-1W,其中DCR(n-3k)×(n-3k)为对角阵,
Figure FDA00002988679700013
5)记算伪相关性等级:Y=SY*
6)以Y作为排序分数按照从大到小的顺序排序。
3.根据权利要求2所述的基于内容的图像伪相关重排序方法,其特征在于,对3×k个样本进行标注是,在3×k个样本中,最相关的k个标注等级为2,不相关的标注等级为0,介于最相关的等级与不相关的等级之间的为一般相关标注等级为1。
4.根据权利要求2所述的基于内容的图像伪相关重排序方法,其特征在于,由步骤4)能够得到表示近邻贡献大小的重构系数ci
ci∈[0,1],∑ci=1,与第i个近邻越相似,ci越大,从而得到重构系数的计算方法:
Figure FDA00002988679700014
其中ci表示未知样本xj的第i个近邻的重构系数。
5.根据权利要求2所述的基于内容的图像伪相关重排序方法,其特征在于,步骤5)所述的伪相关性等级Y={y1,…yn},其中yi∈[0,2],yi越大表示相关性等级越高。
CN201310110187.6A 2013-03-29 2013-03-29 基于内容的图像伪相关重排序方法 Active CN103198117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310110187.6A CN103198117B (zh) 2013-03-29 2013-03-29 基于内容的图像伪相关重排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310110187.6A CN103198117B (zh) 2013-03-29 2013-03-29 基于内容的图像伪相关重排序方法

Publications (2)

Publication Number Publication Date
CN103198117A true CN103198117A (zh) 2013-07-10
CN103198117B CN103198117B (zh) 2016-01-27

Family

ID=48720675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310110187.6A Active CN103198117B (zh) 2013-03-29 2013-03-29 基于内容的图像伪相关重排序方法

Country Status (1)

Country Link
CN (1) CN103198117B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268227A (zh) * 2014-09-26 2015-01-07 天津大学 基于逆向k近邻的图像搜索中高质量相关样本自动选取法
CN108520038A (zh) * 2018-03-31 2018-09-11 大连理工大学 一种基于排序学习算法的生物医学文献检索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075263A (zh) * 2007-06-28 2007-11-21 北京交通大学 融合伪相关反馈与检索技术的自动图像标注方法
US20120123976A1 (en) * 2010-11-16 2012-05-17 Microsoft Corporation Object-Sensitive Image Search
CN102629279A (zh) * 2012-03-23 2012-08-08 天津大学 一种用于图像或视频搜索重排序的方法
CN102750347A (zh) * 2012-06-08 2012-10-24 天津大学 一种用于图像或视频搜索重排序的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075263A (zh) * 2007-06-28 2007-11-21 北京交通大学 融合伪相关反馈与检索技术的自动图像标注方法
US20120123976A1 (en) * 2010-11-16 2012-05-17 Microsoft Corporation Object-Sensitive Image Search
CN102629279A (zh) * 2012-03-23 2012-08-08 天津大学 一种用于图像或视频搜索重排序的方法
CN102750347A (zh) * 2012-06-08 2012-10-24 天津大学 一种用于图像或视频搜索重排序的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268227A (zh) * 2014-09-26 2015-01-07 天津大学 基于逆向k近邻的图像搜索中高质量相关样本自动选取法
CN104268227B (zh) * 2014-09-26 2017-10-10 天津大学 基于逆向k近邻的图像搜索中高质量相关样本自动选取法
CN108520038A (zh) * 2018-03-31 2018-09-11 大连理工大学 一种基于排序学习算法的生物医学文献检索方法
CN108520038B (zh) * 2018-03-31 2020-11-10 大连理工大学 一种基于排序学习算法的生物医学文献检索方法

Also Published As

Publication number Publication date
CN103198117B (zh) 2016-01-27

Similar Documents

Publication Publication Date Title
CN108280155B (zh) 基于短视频的问题检索反馈方法、装置及其设备
WO2018010365A1 (zh) 一种跨媒体检索方法
CN104834693B (zh) 基于深度搜索的视觉图像检索方法及系统
CN104317834B (zh) 一种基于深度神经网络的跨媒体排序方法
CN102750347B (zh) 一种用于图像或视频搜索重排序的方法
CN103793697A (zh) 一种人脸图像的身份标注方法及人脸身份识别方法
CN104991959A (zh) 一种基于内容检索相同或相似图像的方法与系统
CN102968419B (zh) 交互式互联网实体名称的消歧方法
CN104036002A (zh) 一种智能推荐数据的技术方法
CN103186538A (zh) 一种图像分类方法和装置、图像检索方法和装置
CN110737805A (zh) 图模型数据的处理方法、装置和终端设备
CN109871379A (zh) 一种基于数据块学习的在线哈希最近邻查询方法
CN111966899B (zh) 搜索排序方法、系统及计算机可读存储介质
CN103198117B (zh) 基于内容的图像伪相关重排序方法
CN113821679A (zh) 一种视频帧定位方法、电子设备及计算机可读存储介质
CN105069136A (zh) 一种大数据环境下的图像识别方法
CN109241315A (zh) 一种基于深度学习的快速人脸检索方法
CN116312745B (zh) 一种肠道菌群超级供体画像信息检测生成方法
CN103049570B (zh) 基于相关保持映射和一分类器的图像视频搜索排序方法
CN104077419B (zh) 结合语义与视觉信息的长查询图像检索重排序方法
CN110472088A (zh) 一种基于草图的图像检索方法
JP2016014990A (ja) 動画像検索方法、動画像検索装置及びそのプログラム
CN110275990B (zh) Kv存储的键与值的生成方法及装置
Bhairnallykar et al. Content based medical image retrieval with SVM classification and relevance feedback
JP7316477B1 (ja) 処理実行システム、処理実行方法、及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221108

Address after: Room 312, Comprehensive Building, Science and Technology Innovation Park, Liangshan Economic Development Zone, Jining City, Shandong Province, 272600

Patentee after: Liangshan Economic Development Investment Group Co.,Ltd.

Address before: 510000 2414-2416 of the main building 371, five mountain road, Tianhe District, Guangzhou, Guangdong.

Patentee before: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Effective date of registration: 20221108

Address after: 510000 2414-2416 of the main building 371, five mountain road, Tianhe District, Guangzhou, Guangdong.

Patentee after: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Address before: 300072 Tianjin City, Nankai District Wei Jin Road No. 92

Patentee before: Tianjin University

TR01 Transfer of patent right
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230512

Address after: No. 1 Taifu Road, Quanpu Town, Liangshan County, Jining City, Shandong Province, 272613

Patentee after: Liangshan Xingyuan Trading Co.,Ltd.

Address before: Room 312, Comprehensive Building, Science and Technology Innovation Park, Liangshan Economic Development Zone, Jining City, Shandong Province, 272600

Patentee before: Liangshan Economic Development Investment Group Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240119

Address after: 272622 Science and Technology Innovation Park, Liangshan County Economic Development Zone, Jining City, Shandong Province

Patentee after: Shandong Jingfa Cultural Media Co.,Ltd.

Address before: No. 1 Taifu Road, Quanpu Town, Liangshan County, Jining City, Shandong Province, 272613

Patentee before: Liangshan Xingyuan Trading Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Content based image pseudo correlation reordering method

Granted publication date: 20160127

Pledgee: Shandong Liangshan Rural Commercial Bank Co.,Ltd.

Pledgor: Shandong Jingfa Cultural Media Co.,Ltd.

Registration number: Y2024980004363