CN108764258A - 一种用于群体图像插入的最优图像集选取方法 - Google Patents

一种用于群体图像插入的最优图像集选取方法 Download PDF

Info

Publication number
CN108764258A
CN108764258A CN201810507679.1A CN201810507679A CN108764258A CN 108764258 A CN108764258 A CN 108764258A CN 201810507679 A CN201810507679 A CN 201810507679A CN 108764258 A CN108764258 A CN 108764258A
Authority
CN
China
Prior art keywords
image
sift feature
feature vector
vision word
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810507679.1A
Other languages
English (en)
Other versions
CN108764258B (zh
Inventor
吴炜
许冬梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201810507679.1A priority Critical patent/CN108764258B/zh
Publication of CN108764258A publication Critical patent/CN108764258A/zh
Application granted granted Critical
Publication of CN108764258B publication Critical patent/CN108764258B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种用于群体图像插入的最优图像集选取方法,旨在为待插入图像选取出与其相似度最高的图像集,实现步骤为:提取训练图像的SIFT特征;建立视觉词典;取群体图像每个图像集中各图像的SIFT特征;获取每个图像集的视觉单词直方图;获取待插入图像的视觉单词直方图;计算待插入图像与群体图像中每个图像集的相似性;选取最优插入图像集。本发明发掘了待插入图像与图像集之间的关系,可以为添加到群体图像中的图像选取出与其相似度最高的图像集,可用于云端群体图像管理以及图像数据库管理的场景中插入图像的情况。

Description

一种用于群体图像插入的最优图像集选取方法
技术领域
本发明属于图像编码技术领域,涉及一种最优图像集选取方法,具体涉及一种用于群体图像插入的基于词包模型的最优图像集选取方法,可用于云端群体图像管理以及图像数据库管理的场景中向群体图像中插入图像的情况,可以为待插入的图像选取出与其相似度最高的图像集。
背景技术
在最近十年中.随着互联网相关产业的飞速发展,数字图像等多媒体内容也呈现出爆炸式的增长。据全球最大社交网络服务公司Facebook报告,其存储的照片己经超过二千二百亿张,并正以每天三亿张的速度增加。规模巨大的图像视频数据为带宽存储等方面带来了极大的压力。为此,研究者一直在努力改进数字图像压缩技术。相同场景下拍摄的很多图片具有很大的相似性,但他们的单独采用JPEG或JPEG-2000对图像进行编码,将会造成存储空间大、编码效率不够高。因此,对于相似图像的压缩存储很有必要。群体图像编码利用存在于群体图像之间的相关性,通过一系列处理从而得到伪视频序列,最后通过该序列进行视频压缩编码的方法可以获得更高的图像压缩比。群体图像中存在多个图像集,每个图像集中包含多张图像,每个图像集中的图像具有一定的相似性,会整体进行编码。因此群体图像对于图像的添加缺少了灵活性,需要进行图像集的管理。对于向群体图像中添加图像来说,首先需要找到与添加图像相似度最高的图像集。目前一般通过人眼进行主观判断,效率较低。
词包模型最初被应用于文本信息检索领域中,忽略文档中单词的位置信息和语义信息,统计单词在文档中出现的频率,利用构建的单词分布直方图来描述文档的语义内容,通过文档到数值向量的转化将文本语言的处理分析转化为数学向量的问题,方便计算机快速的检索文本。
在图像场景分类和检索的领域中,词包模型仿照由单词分布特性来表达文档内容的原理,提取图像的局部特征,通过对图像的局部特征进行训练生成合适的视觉单词,通过统计视觉单词的分布特性来表达图像的语义信息。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷,提出了一种用于群体图像插入的最优图像集选取方法,旨在提高查找与插入到群体图像中的图像相似度最高的图像集的效率。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)提取多张训练图像的SIFT特征:
从图像样本库中选取多张训练图像,并提取每张训练图像的SIFT特征,得到训练图像的SIFT特征向量集合;
(2)建立视觉词典:
对训练图像的SIFT特征向量集合中的SIFT特征向量进行聚类,得到多个聚类簇,并将每个聚类簇的聚类中心作为一个视觉单词,得到由多个视觉单词组成的视觉词典;
(3)提取群体图像每个图像集中各图像的SIFT特征:
分别提取群体图像中每个图像集中各图像的SIFT特征,得到每个图像集的SIFT特征向量集合;
(4)获取每个图像集的视觉单词直方图:
(4a)对每个图像集的SIFT特征向量集合中的各SIFT特征向量进行最近邻搜索,得到每个SIFT特征向量在视觉词典中对应的距离最近的视觉单词;
(4b)统计每个视觉单词在图像集SIFT特征向量集合中出现的次数,并将每个视觉单词出现的次数作为被统计的SIFT特征向量集合对应的图像集的视觉单词直方图;
(5)获取待插入图像的视觉单词直方图:
(5a)提取待插入图像的SIFT特征,得到待插入图像的SIFT特征向量集合,并对待插入图像中的每个SIFT特征向量进行最近邻搜索,得到多个SIFT特征向量在视觉词典中对应的距离最近的视觉单词;
(5b)统计每个视觉单词在待插入图像的SIFT特征向量集合中出现的次数,并将其作为待插入图像的视觉单词直方图;
(6)计算待插入图像与群体图像中每个图像集的相似性:
采用余弦相似度计算待插入图像视觉单词直方图与每个图像集视觉单词直方图之间的余弦值,并将每一个余弦值作为待插入图像与余弦值对应的图像集的相似性,得到多个待插入图像与图像集的相似性;
(7)选取最优插入图像集:
从群体图像的所有图像集中选取与待插入图像相似性最大的图像集作为最优的插入图像集。
本发明与现有技术相比,具有以下优点:
本发明通过引用词包模型可以生成待插入图像的视觉单词直方图与图像集的视觉单词直方图,并通过待插入图像的视觉单词直方图与图像集的视觉单词直方图的相似性判定,解决了待插入图像与图像集之间相似性判定的问题,可以直接对图像集进行检索,与现有技术只能通过人眼进行主观判断的情况下相比查找效率更高,节省更多的人力。
附图说明
图1是本发明的实现流程框图;
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述:
参照图1,本发明包括如下步骤:
步骤1)提取训练图像的SIFT特征:
根据需求从图像样本库中选取多张训练图像,使用opencv库中提供的SIFT特征提取函数分别提取每张训练图像的SIFT特征,保存提取到的SIFT特征向量到一个训练图像的SIFT特征向量集合中;
步骤2)建立视觉词典:
对训练图像的SIFT特征向量集合中的SIFT特征向量进行聚类,得到多个聚类簇,并将每个聚类簇的聚类中心作为一个视觉单词,得到由多个视觉单词组成的视觉词典;
其中,聚类采用K-means聚类方法对SIFT特征向量进行聚类,K-means聚类的实现步骤如下:
步骤2a)对聚类参数进行初始化:
给定最大迭代次数KMEANS_MAX_ITERATION的值为4,令初始迭代次数t为1,从训练图像的SIFT特征向量集合中随机选取k个SIFT特征向量作为初始的聚类中心,k的值为10000;
步骤2b)遍历所有SIFT特征向量,计算每个SIFT特征向量到各个聚类中心的距离,距离最近的作为该SIFT特征向量的聚类中心,并将该SIFT特征向量纳入聚类中心所在的聚类簇中;为各个SIFT特征向量选择聚类中心时,采用穷举法精确度较高,但因SIFT特征向量数量巨大,因此采用最近邻搜索,即在寻找每个对象最近的聚类中心时使用KD-Tree树结构来加速查找;首先,对聚类中心建立KD-Tree索引,KD-Tree是对二叉搜索树的推广;然后,通过KD-Tree索引对聚类中心进行最近邻搜索得到各个SIFT特征向量的聚类中心;
步骤2c)对每个聚类簇的聚类中心进行更新:
对于每个聚类簇,计算聚类簇中SIFT特征向量的平均值,并将其作为该聚类簇新的聚类中心;
步骤2d)令t=t+1,并判断新的聚类中心的值与更新前的聚类中心的值是否相同,若是,则输出每个新的聚类中心的值;否则,执行步骤(2e);
步骤2e)判断当前迭代次数是否大于最大迭代次数,若是,迭代停止,输出每个新的聚类中心的值;否则执行步骤(2b);
步骤3)提取群体图像每个图像集中各图像的SIFT特征:
使用opencv库中提供的SIFT特征提取函数分别提取每个图像集中各图像的SIFT特征,得到每个图像集的SIFT特征向量集合;
步骤4)获取每个图像集的视觉单词直方图:
步骤4a)对每个图像集的SIFT特征向量集合中的各SIFT特征向量进行最近邻搜索,得到每个SIFT特征向量在视觉词典中对应的距离最近的视觉单词,最近邻搜素采用欧式距离进行距离判定;
步骤4b)统计每个视觉单词在图像集SIFT特征向量集合中出现的次数,并将每个视觉单词出现的次数作为被统计的SIFT特征向量集合对应的图像集的视觉单词直方图;
步骤5)获取待插入图像的视觉单词直方图:
步骤5a)提取待插入图像的SIFT特征,得到待插入图像的SIFT特征向量集合,并对待插入图像中的每个SIFT特征向量进行最近邻搜索,得到多个SIFT特征向量在视觉词典中对应的距离最近的视觉单词;
步骤5b)统计每个视觉单词在待插入图像的SIFT特征向量集合中出现的次数,并将其作为待插入图像的视觉单词直方图;
步骤6)计算待插入图像与群体图像中每个图像集的相似性:
本发明需要计算的是图像与图像集之间的相似性,各图像集由于所包含的图像数量不同,因此其视觉单词直方图中元素的数值可能差异较大,而且图像的视觉单词直方图向量与图像集的视觉单词直方图向量中元素的数值可能根本不在同一数量级上,为了更好的表示图像和图像集之间的相似性和实现的可能性,本发明采用余弦相似度来计算待插入图像视觉单词直方图和图像集的视觉单词直方图之间的余弦值,依次计算待插入图像视觉单词直方图与每个图像集的视觉单词直方图之间的余弦值,并将每一个余弦值作为待插入图像与余弦值对应的图像集的相似性,其中余弦值的计算公式为
其中G为图像集的视觉单词直方图向量,P为待插入图像的视觉单词直方图向量,Gi表示图像集视觉单词直方图向量第i个元素的值,Pi表示待插入图像视觉单词直方图向量第i个元素的值,n表示视觉单词直方图向量中元素的个数;
步骤7)选取最优插入图像集:
从群体图像的所有图像集中选取与待插入图像相似性最大的图像集作为最优的插入图像集。
以下结合仿真试验,对本发明的效果作进一步说明:
1)实验条件:
本发明仿真实验是在windows Server 2008系统,处理器Intel(R)Xeon(R)CPUE5-2650v2@2.60GHz,RAM 64GB的环境下进行的。编程语言是C++,编程软件为VS2010。
实验测试图像集的详细信息如表1所示:
表1
这些图像集中的图像在亮度和拍摄角度上均有一定的差异。
2)实验内容及结果分析:
分别从表1所示的图像集中抽取出某些图像作为待插入图像,图像集中剩余图像构成群体图像中的图像集。采用本发明得到待插入图像与各个图像集视觉单词直方图之间的余弦相似度,结果只保留了与待插入图像最相似图像集和次相似图像集的结果值,如表2所示。
表2
通过对比分析,本发明选取出的最相似图像集与人眼主观判定情况一致。而且最相似图像集和次相似图像集与插入图像的余弦相似度一般具有较大差异,因此本发明适用于为群体图像中插入图像选取与其相似度最高的图像集。

Claims (3)

1.一种用于群体图像插入的最优图像集选取方法,其特征在于,包括如下步骤:
(1)提取多张训练图像的SIFT特征:
从图像样本库中选取多张训练图像,并提取每张训练图像的SIFT特征,得到训练图像的SIFT特征向量集合;
(2)建立视觉词典:
对训练图像的SIFT特征向量集合中的SIFT特征向量进行聚类,得到多个聚类簇,并将每个聚类簇的聚类中心作为一个视觉单词,得到由多个视觉单词组成的视觉词典;
(3)提取群体图像每个图像集中各图像的SIFT特征:
分别提取群体图像中每个图像集中各图像的SIFT特征,得到每个图像集的SIFT特征向量集合;
(4)获取每个图像集的视觉单词直方图:
(4a)对每个图像集的SIFT特征向量集合中的各SIFT特征向量进行最近邻搜索,得到每个SIFT特征向量在视觉词典中对应的距离最近的视觉单词;
(4b)统计每个视觉单词在图像集SIFT特征向量集合中出现的次数,并将每个视觉单词出现的次数作为被统计的SIFT特征向量集合对应的图像集的视觉单词直方图;
(5)获取待插入图像的视觉单词直方图:
(5a)提取待插入图像的SIFT特征,得到待插入图像的SIFT特征向量集合,并对待插入图像中的每个SIFT特征向量进行最近邻搜索,得到多个SIFT特征向量在视觉词典中对应的距离最近的视觉单词;
(5b)统计每个视觉单词在待插入图像的SIFT特征向量集合中出现的次数,并将其作为待插入图像的视觉单词直方图;
(6)计算待插入图像与群体图像中每个图像集的相似性:
采用余弦相似度计算待插入图像视觉单词直方图与每个图像集视觉单词直方图之间的余弦值,并将每一个余弦值作为待插入图像与余弦值对应的图像集的相似性,得到多个待插入图像与图像集的相似性;
(7)选取最优插入图像集:
从群体图像的所有图像集中选取与待插入图像相似性最大的图像集作为最优的插入图像集。
2.根据权利要求1所述的一种用于群体图像插入的最优图像集选取方法,其特征在于,步骤(2)中所述的对训练图像的SIFT特征向量集合中的SIFT特征向量进行聚类,实现步骤为:
(2a)对聚类参数进行初始化:
给定最大迭代次数的值,令初始迭代次数t为1,随机分配k个SIFT特征向量作为聚类中心;
(2b)建立聚类中心的KD-Tree索引,遍历每个SIFT特征向量,通过KD-Tree索引对聚类中心进行最近邻搜索,得到每次进行最近邻搜索的SIFT特征向量的聚类中心,并将与聚类中心对应的SIFT特征向量纳入聚类中心所在的聚类簇中;
(2c)对每个聚类簇的聚类中心进行更新:
对于每个聚类簇,计算聚类簇中SIFT特征向量的平均值,并将其作为该聚类簇新的聚类中心;
(2d)令t=t+1,并判断新的聚类中心的值与更新前的聚类中心的值是否相同,若是,则输出每个新的聚类中心的值;否则,执行步骤(2e);
(2e)判断当前迭代次数是否大于最大迭代次数,若是,迭代停止,输出每个新的聚类中心的值;否则执行步骤(2b)。
3.根据权利要求1所述的一种用于群体图像插入的最优图像集选取方法,其特征在于,步骤(6)中所述的采用余弦相似度计算待插入图像视觉单词直方图与每个图像集视觉单词直方图之间的余弦值,计算公式为:
其中G为图像集的视觉单词直方图,P为待插入图像的视觉单词直方图,Gi表示图像集视觉单词直方图中第i个元素的值,Pi表示待插入图像视觉单词直方图中第i个元素的值,n表示视觉单词直方图中元素的个数。
CN201810507679.1A 2018-05-24 2018-05-24 一种用于群体图像插入的最优图像集选取方法 Active CN108764258B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810507679.1A CN108764258B (zh) 2018-05-24 2018-05-24 一种用于群体图像插入的最优图像集选取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810507679.1A CN108764258B (zh) 2018-05-24 2018-05-24 一种用于群体图像插入的最优图像集选取方法

Publications (2)

Publication Number Publication Date
CN108764258A true CN108764258A (zh) 2018-11-06
CN108764258B CN108764258B (zh) 2022-03-04

Family

ID=64005499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810507679.1A Active CN108764258B (zh) 2018-05-24 2018-05-24 一种用于群体图像插入的最优图像集选取方法

Country Status (1)

Country Link
CN (1) CN108764258B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110519608A (zh) * 2019-07-13 2019-11-29 西安电子科技大学 针对插入图像后图像集的编码结构调整方法
CN111818364A (zh) * 2020-07-30 2020-10-23 广州云从博衍智能科技有限公司 视频融合方法、系统、设备及介质
US20220292809A1 (en) * 2020-03-17 2022-09-15 Samsung Electronics Co., Ltd. Methods and systems for grouping of media based on similarities between features of the media

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120162244A1 (en) * 2010-12-28 2012-06-28 Microsoft Corporation Image search color sketch filtering
US20130148881A1 (en) * 2011-12-12 2013-06-13 Alibaba Group Holding Limited Image Classification
CN103593677A (zh) * 2013-12-02 2014-02-19 中国科学院自动化研究所 一种近似重复图像检测方法
CN103745200A (zh) * 2014-01-02 2014-04-23 哈尔滨工程大学 一种基于词带模型的人脸图像识别方法
CN104361135A (zh) * 2014-12-11 2015-02-18 浪潮电子信息产业股份有限公司 一种图像检索方法
CN104615676A (zh) * 2015-01-20 2015-05-13 同济大学 一种基于最大相似度匹配的图片检索方法
CN104778284A (zh) * 2015-05-11 2015-07-15 苏州大学 一种空间图像查询方法和系统
CN105469096A (zh) * 2015-11-18 2016-04-06 南京大学 一种基于哈希二值编码的特征袋图像检索方法
CN106156374A (zh) * 2016-09-13 2016-11-23 华侨大学 一种基于视觉词典优化和查询扩展的图像检索方法
CN106228181A (zh) * 2016-07-12 2016-12-14 广东智嵌物联网技术有限公司 一种基于视觉词典的图像分类方法及系统
CN107103002A (zh) * 2016-02-22 2017-08-29 南京中兴新软件有限责任公司 图像的检索方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120162244A1 (en) * 2010-12-28 2012-06-28 Microsoft Corporation Image search color sketch filtering
US20130148881A1 (en) * 2011-12-12 2013-06-13 Alibaba Group Holding Limited Image Classification
CN103593677A (zh) * 2013-12-02 2014-02-19 中国科学院自动化研究所 一种近似重复图像检测方法
CN103745200A (zh) * 2014-01-02 2014-04-23 哈尔滨工程大学 一种基于词带模型的人脸图像识别方法
CN104361135A (zh) * 2014-12-11 2015-02-18 浪潮电子信息产业股份有限公司 一种图像检索方法
CN104615676A (zh) * 2015-01-20 2015-05-13 同济大学 一种基于最大相似度匹配的图片检索方法
CN104778284A (zh) * 2015-05-11 2015-07-15 苏州大学 一种空间图像查询方法和系统
CN105469096A (zh) * 2015-11-18 2016-04-06 南京大学 一种基于哈希二值编码的特征袋图像检索方法
CN107103002A (zh) * 2016-02-22 2017-08-29 南京中兴新软件有限责任公司 图像的检索方法及装置
CN106228181A (zh) * 2016-07-12 2016-12-14 广东智嵌物联网技术有限公司 一种基于视觉词典的图像分类方法及系统
CN106156374A (zh) * 2016-09-13 2016-11-23 华侨大学 一种基于视觉词典优化和查询扩展的图像检索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SIMONE SANTINI AND RAMESH JAIN: "Integrated Browsing and Querying for Image Databases", 《IEEE MULTIMEDIA》 *
WEI DONG等: "Efficiently Matching Sets of Features with Random Histograms", 《PROCEEDINGS OF THE 16TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
刘保东: "基于多特征和相关反馈的图像检索技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王宇新等: "用于图像场景分类的空间视觉词袋模型", 《计算机科学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110519608A (zh) * 2019-07-13 2019-11-29 西安电子科技大学 针对插入图像后图像集的编码结构调整方法
US20220292809A1 (en) * 2020-03-17 2022-09-15 Samsung Electronics Co., Ltd. Methods and systems for grouping of media based on similarities between features of the media
US12020484B2 (en) * 2020-03-17 2024-06-25 Samsung Electronics Co., Ltd. Methods and systems for grouping of media based on similarities between features of the media
CN111818364A (zh) * 2020-07-30 2020-10-23 广州云从博衍智能科技有限公司 视频融合方法、系统、设备及介质
CN111818364B (zh) * 2020-07-30 2021-08-06 广州云从博衍智能科技有限公司 视频融合方法、系统、设备及介质

Also Published As

Publication number Publication date
CN108764258B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN108694225B (zh) 一种图像搜索方法、特征向量的生成方法、装置及电子设备
US8232996B2 (en) Image learning, automatic annotation, retrieval method, and device
CN106777038B (zh) 一种基于序列保留哈希的超低复杂度图像检索方法
Bekkerman et al. Multi-modal clustering for multimedia collections
CN111241345A (zh) 一种视频检索方法、装置、电子设备和存储介质
CN110399895A (zh) 图像识别的方法和装置
CN110175249A (zh) 一种相似图片的检索方法及系统
US7401062B2 (en) Method for resource allocation among classifiers in classification systems
Le et al. NII-HITACHI-UIT at TRECVID 2016.
CN111368133A (zh) 一种视频库的索引表建立方法、装置、服务器及存储介质
WO2023024749A1 (zh) 视频检索的方法、装置、设备及存储介质
CN102156686B (zh) 基于组示多示例学习模型的视频特定包含语义检测方法
Wang et al. Loss switching fusion with similarity search for video classification
CN108764258A (zh) 一种用于群体图像插入的最优图像集选取方法
CN104317946A (zh) 一种基于多张关键图的图像内容检索方法
CN112561976A (zh) 一种图像主颜色特征提取方法、图像检索方法、存储介质及设备
US8150212B2 (en) System and method for automatic digital image orientation detection
CN104778272B (zh) 一种基于区域挖掘和空间编码的图像位置估计方法
CN114490923A (zh) 相似文本匹配模型的训练方法、装置、设备及存储介质
CN111988668B (zh) 一种视频推荐方法、装置、计算机设备及存储介质
Pham et al. Towards a large-scale person search by vietnamese natural language: dataset and methods
Gao et al. Data-driven lightweight interest point selection for large-scale visual search
KR20240052055A (ko) 교차-모달 검색 방법 및 관련 디바이스

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant