CN106096065A - 一种多媒体对象的相似检索方法及装置 - Google Patents

一种多媒体对象的相似检索方法及装置 Download PDF

Info

Publication number
CN106096065A
CN106096065A CN201610613829.8A CN201610613829A CN106096065A CN 106096065 A CN106096065 A CN 106096065A CN 201610613829 A CN201610613829 A CN 201610613829A CN 106096065 A CN106096065 A CN 106096065A
Authority
CN
China
Prior art keywords
point
dimensional
feature vector
data
multimedia object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610613829.8A
Other languages
English (en)
Other versions
CN106096065B (zh
Inventor
李晖
陈梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University
Original Assignee
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University filed Critical Guizhou University
Priority to CN201610613829.8A priority Critical patent/CN106096065B/zh
Publication of CN106096065A publication Critical patent/CN106096065A/zh
Application granted granted Critical
Publication of CN106096065B publication Critical patent/CN106096065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多媒体对象的相似检索方法及装置,通过对多媒体对象进行特征提取,获取多媒体对象的d维特征向量,对d维特征向量进行降维处理,提取待检索多媒体对象的d维特征向量,并通过iDistance算法,将待检索多媒体对象的d维特征向量映射为一维键值及数据空间中的查询点q,根据查询点q、查询空间及距离度量,修剪掉不需查询的Partition分区及不需查询的数据点,在经过修剪后的数据点中,确定包含于所述查询空间内的数据点,根据所述一维键值及查询点与对所述查询空间内的数据点进行查询,以查询待检索多媒体对象的d维特征向量。本发明减少无效的I/O查询,并以三角剪枝的方式降低计算开销,进而提高查询效率。

Description

一种多媒体对象的相似检索方法及装置
技术领域
本发明涉及相似性检索领域,尤其涉及一种多媒体对象的相似检索方法及装置。
背景技术
现如今许多数据处理应用需要处理结构更为松散甚至无结构的数据。很多实际应用更是需要处理基于样本的检索,例如基于内容的图像检索等。而这些应用都可以归结到相似性检索的范畴,尤其在多媒体应用中,基于多媒体数据的内容进行相似搜索的技术,也变得越来越重要。
为了提升多媒体相似性检索的处理效率,通常针对多媒体对象的高维特征建立高维索引。多年来,研究者们已经设计和开发了很多高维索引技术用于组织视频、图像、音频等多媒体数据的特征向量,以提升检索性能。由于“维度灾难”的存在,当数据量很大,维度很高时,提升多媒体检索任务的性能仍然是一项艰巨的工作,现有技术中的高维索引技术,当数据规模较大,维度较高时,I/O开销及计算开销均会变大,降低了索引查询的性能。
发明内容
本发明提供一种多媒体对象的相似检索方法及装置,解决现有技术中高维索引技术当数据规模较大,维度较高时,I/O开销及计算开销均会变大,降低了索引查询的性能的技术问题。
本发明的目的是通过以下技术方案实现的:
一种多媒体对象的相似检索方法,包括:
通过对多媒体对象进行特征提取,获取多媒体对象的d维特征向量;
将d维特征向量的数据空间划分为M个区域,通过iDistance算法,将d维特征向量映射为一维键值,并通过一维索引结构存储所述一维键值及所述d维特征向量,以获得查询数据库,其中,所述数据空间中包括d维特征向量对应的数据点;
提取待检索多媒体对象的d维特征向量,并通过iDistance算法,将待检索多媒体对象的d维特征向量映射为一维键值及数据空间中的查询点q;
根据查询点q、查询空间及距离度量,修剪掉不需查询的Partition分区及不需查询的数据点;
在经过修剪后的数据点中,确定包含于所述查询空间内的数据点,根据所述一维键值,对所述查询空间内的数据点进行查询,以查询待检索多媒体对象的d维特征向量。
前述的多媒体对象的相似检索方法,所述特征提取包括SIFT特征提取、HARRIS特征提取和SUSAN特征提取。
前述的多媒体对象的相似检索方法,所述将d维特征向量划分为M个区域,通过iDistance算法,将d维特征向量映射为一维键值,并通过一维索引结构存储所述一维键值及所述d维特征向量,以获得查询数据库,包括:
将多个d维特征向量的数据空间划分为m个分区P0、P1、…、Pm-1;
为每个分区选定参照点Q0、Q1、…、Qm-1;
根据d维特征向量对应的数据点p到参照点Qi的距离,将d维特征向量映射为一维键值,其中,一维键值y=i×c+dist(p,Qi),0≤i≤m-1,c为弹性系数,dist(p,Qi)为d维特征向量对应的数据点p到参照点Qi的距离;
采用映射后的一维键值y建立B+-tree的索引结构,以存储所述一维键值y及所述d维特征向量。
前述的多媒体对象的相似检索方法,所述根据查询点q、查询空间及距离度量,修剪掉不需查询的Partition分区及不需查询的数据点的步骤,包括:
将所述查询点q与查询半径r所形成的超球扩展成超立方体;
判断每个Partition是否与所述超立方体相交;
当所述Partition与所述超立方体不相交时,修剪掉不需查询的所述Partition,并扩大查询半径r,重新进行修剪判断,直至KNN检索结束;
当KNN检索结束后,对未修剪的Partition中的数据点p增加数据点到数据空间中心的距离dist(p,center),判断所述查询点q到数据空间中心的距离dist(q,center)及查询半径r,是否满足dist(p,center)≤r+dist(q,center),当不满足时,修剪掉数据点p。
前述的多媒体对象的相似检索方法,在经过修剪后的数据点中,确定包含于所述查询空间内的数据点,根据所述一维键值,对所述查询空间内的数据点进行查询,以查询待检索多媒体对象的d维特征向量的步骤,包括:
当第一种情况时,根据查询范围,向B+-Tree树的叶子节点两边进行遍历,查询待检索多媒体对象的d维特征向量对应的数据点p,其中,所述第一种情况为当前Partition包含查询点q;
当第二种情况时,根据查询范围及Partition的半径,向B+-Tree树的叶子节点内部进行遍历,其中,所述第二种情况为查询点q在当前Partition外,且所述查询点q与查询半径r所形成的超球与Partition相交。
一种多媒体对象的相似检索装置,包括:
特征向量提取模块,用于通过对多媒体对象进行特征提取,获取多媒体对象的d维特征向量;
降维模块,用于将d维特征向量的数据空间划分为M个区域,通过iDistance算法,将d维特征向量映射为一维键值,并通过一维索引结构存储所述一维键值及所述d维特征向量,以获得查询数据库,其中,所述数据空间中包括d维特征向量对应的数据点;
映射模块,用于提取待检索多媒体对象的d维特征向量,并通过iDistance算法,将待检索多媒体对象的d维特征向量映射为一维键值及数据空间中的查询点q;
剪枝模块,用于根据查询点q、查询空间及距离度量,修剪掉不需查询的Partition分区及不需查询的数据点;
查询模块,用于在经过修剪后的数据点中,确定包含于所述查询空间内的数据点,根据所述一维键值,对所述查询空间内的数据点进行查询,以查询待检索多媒体对象的d维特征向量。
前述的多媒体对象的相似检索装置,所述降维模块包括:
分区单元,用于将多个d维特征向量的数据空间划分为m个分区P0、P1、…、Pm-1;
映射单元,用于为每个分区选定参照点Q0、Q1、…、Qm-1,根据d维特征向量对应的数据点p到参照点Qi的距离,将d维特征向量映射为一维键值,其中,一维键值y=i×c+dist(p,Qi),0≤i≤m-1,c为弹性系数,dist(p,Qi)为d维特征向量对应的数据点p到参照点Qi的距离;
索引单元,用于采用映射后的一维键值y建立B+-tree的索引结构,以存储所述一维键值y及所述d维特征向量。
前述的多媒体对象的相似检索装置,所述剪枝模块包括:
变换单元,用于将所述查询点q与查询半径r所形成的超球扩展成超立方体;
判断单元,用于判断每个Partition是否与所述超立方体相交;
第一修剪单元,用于当所述Partition与所述超立方体不相交时,修剪掉不需查询的所述Partition,并扩大查询半径r,重新进行修剪判断,直至KNN检索结束;
第二修剪单元,用于当KNN检索结束后,对未修剪的Partition中的数据点p增加数据点到数据空间中心的距离dist(p,center),判断所述查询点q到数据空间中心的距离dist(q,center)及查询半径r,是否满足dist(p,center)≤r+dist(q,center),当不满足时,修剪掉数据点p。
前述的多媒体对象的相似检索装置,所述查询模块包括:
查询执行单元,用于在经过修剪后的数据点中,确定包含于所述查询空间内的数据点,根据所述一维键值及查询点q与当前partition的情况,对所述查询空间内的数据点进行查询,其中,查询点q与当前partition的情况包括第一种情况和第二种情况;
第一遍历单元,用于当第一种情况时,根据查询范围,向B+-Tree树的叶子节点两边进行遍历,查询待检索多媒体对象的d维特征向量对应的数据点p,其中,所述第一种情况为当前Partition包含查询点q;
第二遍历单元,用于当第二种情况时,根据查询范围及Partition的半径,向B+-Tree树的叶子节点内部进行遍历,其中,所述第二种情况为查询点q在当前Partition外,且所述查询点q与查询半径r所形成的超球与Partition相交。
本发明的技术效果为:
通过优化I/O开销的分区剪枝PP算法,剪掉无效的分区,减少无效的I/O查询,提高查询效率;通过优化计算开销的基于三角不等式的剪枝LP算法,筛除一部分数据点,以三角剪枝的方式降低计算开销,进而提高查询效率。
附图说明
图1为本发明实施例提供的一种多媒体对象的相似检索方法的流程图;
图2为本发明实施例提供的kNN检索遍历策略三种情况的示意图;
图3为本发明实施例中基于PP算法的剪枝示意图;
图4为本发明实施例提供的一种多媒体对象的相似检索装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,为本发明实施例中的一种多媒体对象的相似检索方法,包括:
步骤101、通过对多媒体对象进行特征提取,获取多媒体对象的d维特征向量;
其中,特征提取是相似性检索的基础之一。其通过特定的算法,提取重要的特征,并结合特征提取函数F,将其映射到d维空间,目的在于将多媒体对象转化为特征向量,所述特征提取包括SIFT特征提取、HARRIS特征提取和SUSAN特征提取。
步骤102、对d维特征向量进行降维处理;
其中,将d维特征向量的数据空间划分为M个区域,通过iDistance算法,将d维特征向量映射为一维键值,并通过一维索引结构存储所述一维键值及所述d维特征向量,以获得查询数据库,其中,所述数据空间中包括d维特征向量对应的数据点;
其中,步骤102还可以包括:
步骤102-1、将多个d维特征向量的数据空间划分为m个分区P0、P1、…、Pm-1;
步骤102-2、为每个分区选定参照点Q0、Q1、…、Qm-1;
步骤102-3、根据d维特征向量对应的数据点p到参照点Qi的距离,将d维特征向量映射为一维键值,其中,一维键值y=i×c+dist(p,Qi),0≤i≤m-1,c为弹性系数,dist(p,Qi)为d维特征向量对应的数据点p到参照点Qi的距离;
其中,c不小于d=dist(p,Qi)。
步骤102-4、采用映射后的一维键值y建立B+-tree的索引结构,以存储所述一维键值y及所述d维特征向量。
步骤103、提取待检索多媒体对象的d维特征向量,并通过iDistance算法,将待检索多媒体对象的d维特征向量映射为一维键值及数据空间中的查询点q;
其中,步骤103的具体映射方式与步骤102相同。
步骤104、根据查询点q、查询空间及距离度量,修剪掉不需查询的Partition分区及不需查询的数据点;
其中,步骤104还可以包括:
步骤104-1、将所述查询点q与查询半径r所形成的超球扩展成超立方体;
步骤104-2、判断每个Partition是否与所述超立方体相交;
步骤104-3、当所述Partition与所述超立方体不相交时,修剪掉不需查询的所述Partition,并扩大查询半径r,重新进行修剪判断,直至KNN检索结束;
其中,基于iDistance的kNN检索与传统的kNN检索策略一致,首先选定初始查询半径进行查询,再逐渐扩大半径,直到k个查询对象都被找到,其查询停止的标记为:k个对象内最远对象离查询点的距离不大于查询半径。因每个区域内点的键值在每个页上是顺序存储的,对于查询点q,映射到B+-Tree后,根据查询范围与查询约束,向叶子结点的两边遍历。这种技术的优势是,当查询半径逐渐增大时,同个区域内可以通过这种方式递归查询。对于每个区域如何选择kNN检索遍历策略,包括如下情况:
三种情况:
第一种情况(Situation1):当前区域包含查询点q,双向遍历(Outward andInward);
第二种情况(Situation2):查询点q在当前区域外,但是所形成的超球与区域相交,向内遍历(Inward);
第三种情况(Situation3):查询点q在当前区域外,其所形成的超球与区域不相交,该区域不需遍历。
如图2为kNN检索遍历策略三种情况的示意图,其中,给定三个分区划分P1、P2、P3,对于查询点q,P1需要双向遍历、P2需要内向遍历,P3不需要遍历。
如图3所示,查询点q与查询半径r所形成的圆扩展成正方形,不难看出正方形与P2不存在交叉,即满足PP算法中的剪枝情况,不必对原本需要查询的page进行查询,减少了一部分I/O的开销。
步骤104-4、当KNN检索结束后,对未修剪的Partition中的数据点p增加数据点到数据空间中心的距离dist(p,center),判断所述查询点q到数据空间中心的距离dist(q,center)及查询半径r,是否满足dist(p,center)≤r+dist(q,center),当不满足时,修剪掉数据点p。
其中,为每个叶子节点增加了一个属性,该属性记录该点到数据空间中心的距离。剪枝算法通过该点到与中心点的距离、该点到参考点的距离、查询半径作为参数,以三角剪枝的达到降低计算开销的目的,进而提高查询效率
为数据空间内的全部数据点增加一个属性字段(包括查询点q),记录该点到DS中心center的距离。例如采用欧氏距离作为度量标准,p为DS内某个与查询区域相交的page中的的数据点,则存在以下三角不等式规则,可作为剪枝依据:
dist(p,q)-dist(q,center)≤dist(p,center)≤dist(p,q)+dist(q,center);
当规定查询点q的查询半径r时,对于q查询半径内的所有候选点p,必须满足:dist(p,center)≤r+dist(q,center),否则,page内的点将被筛除,以减少I/O开销。
步骤105、在经过修剪后的数据点中,确定包含于所述查询空间内的数据点,根据所述一维键值及查询点与对所述查询空间内的数据点进行查询,以查询待检索多媒体对象的d维特征向量。
其中,步骤105还可以包括:
步骤105-1、在经过修剪后的数据点中,确定包含于所述查询空间内的数据点,根据所述一维键值及查询点q与当前partition的情况,对所述查询空间内的数据点进行查询,其中,查询点q与当前partition的情况包括第一种情况和第二种情况;
步骤105-2、当第一种情况时,根据查询范围,向B+-Tree树的叶子节点两边进行遍历,查询待检索多媒体对象的d维特征向量对应的数据点p,其中,所述第一种情况为当前Partition包含查询点q;
步骤105-3、当第二种情况时,根据查询范围及Partition的半径,向B+-Tree树的叶子节点内部进行遍历,其中,所述第二种情况为查询点q在当前Partition外,且所述查询点q与查询半径r所形成的超球与Partition相交。
本发明实施例提出的一种多媒体对象的相似检索方法,通过同时优化I/O开销和计算的高维索引技术AP-iDistance(Advanced pruning iDistance)开销。在判断是否遍历当前partition之前,先判断该查询范围所扩展而成的超立方体是否与当前partition相交,以减少无效的I/O查询,提高查询效率;并在遍历每个page中数据点之前,通过三角剪枝的方法筛除一部分数据点。该方案为每个叶子结点增加了一个属性,该属性记录该点到数据空间中心的距离。剪枝算法通过该点到与中心点的距离、该点到参考点的距离、查询半径作为参数,以三角剪枝的达到降低计算开销的目的,进而提高查询效率。
本发明实施例还提供一种多媒体对象的相似检索装置,如图4,包括:
特征向量提取模块410,用于通过对多媒体对象进行特征提取,获取多媒体对象的d维特征向量;
降维模块420,用于将d维特征向量的数据空间划分为M个区域,通过iDistance算法,将d维特征向量映射为一维键值,并通过一维索引结构存储所述一维键值及所述d维特征向量,以获得查询数据库,其中,所述数据空间中包括d维特征向量对应的数据点;
映射模块430,用于提取待检索多媒体对象的d维特征向量,并通过iDistance算法,将待检索多媒体对象的d维特征向量映射为一维键值及数据空间中的查询点q;
剪枝模块440,用于根据查询点q、查询空间及距离度量,修剪掉不需查询的Partition分区及不需查询的数据点;
查询模块450,用于在经过修剪后的数据点中,确定包含于所述查询空间内的数据点,根据所述一维键值,对所述查询空间内的数据点进行查询,以查询待检索多媒体对象的d维特征向量。
其中,所述降维模块420包括:
分区单元421,用于将多个d维特征向量的数据空间划分为m个分区P0、P1、…、Pm-1;
映射单元422,用于为每个分区选定参照点Q0、Q1、…、Qm-1,根据d维特征向量对应的数据点p到参照点Qi的距离,将d维特征向量映射为一维键值,其中,一维键值y=i×c+dist(p,Qi),0≤i≤m-1,c为弹性系数,dist(p,Qi)为d维特征向量对应的数据点p到参照点Qi的距离;
索引单元423,用于采用映射后的一维键值y建立B+-tree的索引结构,以存储所述一维键值y及所述d维特征向量。
所述剪枝模块440包括:
变换单元441,用于将所述查询点q与查询半径r所形成的超球扩展成超立方体;
判断单元442,用于判断每个Partition是否与所述超立方体相交;
第一修剪单元443,用于当所述Partition与所述超立方体不相交时,修剪掉不需查询的所述Partition,并扩大查询半径r,重新进行修剪判断,直至KNN检索结束;
第二修剪单元444,用于当KNN检索结束后,对未修剪的Partition中的数据点p增加数据点到数据空间中心的距离dist(p,center),判断所述查询点q到数据空间中心的距离dist(q,center)及查询半径r,是否满足dist(p,center)≤r+dist(q,center),当不满足时,修剪掉数据点p。
所述查询模块450包括:
查询执行单元451,用于在经过修剪后的数据点中,确定包含于所述查询空间内的数据点,根据所述一维键值及查询点q与当前partition的情况,对所述查询空间内的数据点进行查询,其中,查询点q与当前partition的情况包括第一种情况和第二种情况;
第一遍历单元452,用于当第一种情况时,根据查询范围,向B+-Tree树的叶子节点两边进行遍历,查询待检索多媒体对象的d维特征向量对应的数据点p,其中,所述第一种情况为当前Partition包含查询点q;
第二遍历单元453,用于当第二种情况时,根据查询范围及Partition的半径,向B+-Tree树的叶子节点内部进行遍历,其中,所述第二种情况为查询点q在当前Partition外,且所述查询点q与查询半径r所形成的超球与Partition相交。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种多媒体对象的相似检索方法,其特征在于,包括:
通过对多媒体对象进行特征提取,获取多媒体对象的d维特征向量;
将d维特征向量的数据空间划分为M个区域,通过iDistance算法,将d维特征向量映射为一维键值,并通过一维索引结构存储所述一维键值及所述d维特征向量,以获得查询数据库,其中,所述数据空间中包括d维特征向量对应的数据点;
提取待检索多媒体对象的d维特征向量,并通过iDistance算法,将待检索多媒体对象的d维特征向量映射为一维键值及数据空间中的查询点q;
根据查询点q、查询空间及距离度量,修剪掉不需查询的Partition分区及不需查询的数据点;
在经过修剪后的数据点中,确定包含于所述查询空间内的数据点,根据所述一维键值,对所述查询空间内的数据点进行查询,以查询待检索多媒体对象的d维特征向量。
2.根据权利要求1所述的多媒体对象的相似检索方法,其特征在于,所述特征提取包括SIFT特征提取、HARRIS特征提取和SUSAN特征提取。
3.根据权利要求2所述的多媒体对象的相似检索方法,其特征在于,所述将d维特征向量划分为M个区域,通过iDistance算法,将d维特征向量映射为一维键值,并通过一维索引结构存储所述一维键值及所述d维特征向量,以获得查询数据库,包括:
将多个d维特征向量的数据空间划分为m个分区P0、P1、…、Pm-1;
为每个分区选定参照点Q0、Q1、…、Qm-1;
根据d维特征向量对应的数据点p到参照点Qi的距离,将d维特征向量映射为一维键值,其中,一维键值y=i×c+dist(p,Qi),0≤i≤m-1,c为弹性系数,dist(p,Qi)为d维特征向量对应的数据点p到参照点Qi的距离;
采用映射后的一维键值y建立B+-tree的索引结构,以存储所述一维键值y及所述d维特征向量。
4.根据权利要求3所述的多媒体对象的相似检索方法,其特征在于,所述根据查询点q、查询空间及距离度量,修剪掉不需查询的Partition分区及不需查询的数据点的步骤,包括:
将所述查询点q与查询半径r所形成的超球扩展成超立方体;
判断每个Partition是否与所述超立方体相交;
当所述Partition与所述超立方体不相交时,修剪掉不需查询的所述Partition,并扩大查询半径r,重新进行修剪判断,直至KNN检索结束;
当KNN检索结束后,对未修剪的Partition中的数据点p增加数据点到数据空间中心的距离dist(p,center),判断所述查询点q到数据空间中心的距离dist(q,center)及查询半径r,是否满足dist(p,center)≤r+dist(q,center),当不满足时,修剪掉数据点p。
5.根据权利要求4所述的多媒体对象的相似检索方法,其特征在于,在经过修剪后的数据点中,确定包含于所述查询空间内的数据点,根据所述一维键值,对所述查询空间内的数据点进行查询,以查询待检索多媒体对象的d维特征向量的步骤,包括:
在经过修剪后的数据点中,确定包含于所述查询空间内的数据点,根据所述一维键值及查询点q与当前partition的情况,对所述查询空间内的数据点进行查询,其中,查询点q与当前partition的情况包括第一种情况和第二种情况;
当第一种情况时,根据查询范围,向B+-Tree树的叶子节点两边进行遍历,查询待检索多媒体对象的d维特征向量对应的数据点p,其中,所述第一种情况为当前Partition包含查询点q;
当第二种情况时,根据查询范围及Partition的半径,向B+-Tree树的叶子节点内部进行遍历,其中,所述第二种情况为查询点q在当前Partition外,且所述查询点q与查询半径r所形成的超球与Partition相交。
6.一种多媒体对象的相似检索装置,其特征在于,包括:
特征向量提取模块,用于通过对多媒体对象进行特征提取,获取多媒体对象的d维特征向量;
降维模块,用于将d维特征向量的数据空间划分为M个区域,通过iDistance算法,将d维特征向量映射为一维键值,并通过一维索引结构存储所述一维键值及所述d维特征向量,以获得查询数据库,其中,所述数据空间中包括d维特征向量对应的数据点;
映射模块,用于提取待检索多媒体对象的d维特征向量,并通过iDistance算法,将待检索多媒体对象的d维特征向量映射为一维键值及数据空间中的查询点q;
剪枝模块,用于根据查询点q、查询空间及距离度量,修剪掉不需查询的Partition分区及不需查询的数据点;
查询模块,用于在经过修剪后的数据点中,确定包含于所述查询空间内的数据点,根据所述一维键值,对所述查询空间内的数据点进行查询,以查询待检索多媒体对象的d维特征向量。
7.根据权利要求6所述的多媒体对象的相似检索装置,其特征在于,所述降维模块包括:
分区单元,用于将多个d维特征向量的数据空间划分为m个分区P0、P1、…、Pm-1;
映射单元,用于为每个分区选定参照点Q0、Q1、…、Qm-1,根据d维特征向量对应的数据点p到参照点Qi的距离,将d维特征向量映射为一维键值,其中,一维键值y=i×c+dist(p,Qi),0≤i≤m-1,c为弹性系数,dist(p,Qi)为d维特征向量对应的数据点p到参照点Qi的距离;
索引单元,用于采用映射后的一维键值y建立B+-tree的索引结构,以存储所述一维键值y及所述d维特征向量。
8.根据权利要求7所述的多媒体对象的相似检索装置,其特征在于,所述剪枝模块包括:
变换单元,用于将所述查询点q与查询半径r所形成的超球扩展成超立方体;
判断单元,用于判断每个Partition是否与所述超立方体相交;
第一修剪单元,用于当所述Partition与所述超立方体不相交时,修剪掉不需查询的所述Partition,并扩大查询半径r,重新进行修剪判断,直至KNN检索结束;
第二修剪单元,用于当KNN检索结束后,对未修剪的Partition中的数据点p增加数据点到数据空间中心的距离dist(p,center),判断所述查询点q到数据空间中心的距离dist(q,center)及查询半径r,是否满足dist(p,center)≤r+dist(q,center),当不满足时,修剪掉数据点p。
9.根据权利要求8所述的多媒体对象的相似检索装置,其特征在于,所述查询模块包括:
查询执行单元,用于在经过修剪后的数据点中,确定包含于所述查询空间内的数据点,根据所述一维键值及查询点q与当前partition的情况,对所述查询空间内的数据点进行查询,其中,查询点q与当前partition的情况包括第一种情况和第二种情况;
第一遍历单元,用于当第一种情况时,根据查询范围,向B+-Tree树的叶子节点两边进行遍历,查询待检索多媒体对象的d维特征向量对应的数据点p,其中,所述第一种情况为当前Partition包含查询点q;
第二遍历单元,用于当第二种情况时,根据查询范围及Partition的半径,向B+-Tree树的叶子节点内部进行遍历,其中,所述第二种情况为查询点q在当前Partition外,且所述查询点q与查询半径r所形成的超球与Partition相交。
CN201610613829.8A 2016-07-29 2016-07-29 一种多媒体对象的相似检索方法及装置 Active CN106096065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610613829.8A CN106096065B (zh) 2016-07-29 2016-07-29 一种多媒体对象的相似检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610613829.8A CN106096065B (zh) 2016-07-29 2016-07-29 一种多媒体对象的相似检索方法及装置

Publications (2)

Publication Number Publication Date
CN106096065A true CN106096065A (zh) 2016-11-09
CN106096065B CN106096065B (zh) 2019-10-29

Family

ID=57479887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610613829.8A Active CN106096065B (zh) 2016-07-29 2016-07-29 一种多媒体对象的相似检索方法及装置

Country Status (1)

Country Link
CN (1) CN106096065B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460123A (zh) * 2018-02-24 2018-08-28 湖南视觉伟业智能科技有限公司 高维数据检索方法、计算机设备和存储介质
CN109189819A (zh) * 2018-07-12 2019-01-11 华南师范大学 一种移动k近邻差异化查询方法、系统及装置
CN113792172A (zh) * 2021-11-15 2021-12-14 西安热工研究院有限公司 基于三角不等式的图像检索方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020147703A1 (en) * 2001-04-05 2002-10-10 Cui Yu Transformation-based method for indexing high-dimensional data for nearest neighbour queries
CN102306202A (zh) * 2011-09-30 2012-01-04 中国传媒大学 一种基于街区距离的高维向量快速检索算法
CN104933154A (zh) * 2015-06-25 2015-09-23 北京邮电大学 一种基于分布式网络实现图像按内容快速检索的方法
CN105574214A (zh) * 2016-03-04 2016-05-11 湖南工业大学 一种基于IDistance的细粒度位码过滤的相似性检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020147703A1 (en) * 2001-04-05 2002-10-10 Cui Yu Transformation-based method for indexing high-dimensional data for nearest neighbour queries
CN102306202A (zh) * 2011-09-30 2012-01-04 中国传媒大学 一种基于街区距离的高维向量快速检索算法
CN104933154A (zh) * 2015-06-25 2015-09-23 北京邮电大学 一种基于分布式网络实现图像按内容快速检索的方法
CN105574214A (zh) * 2016-03-04 2016-05-11 湖南工业大学 一种基于IDistance的细粒度位码过滤的相似性检索方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460123A (zh) * 2018-02-24 2018-08-28 湖南视觉伟业智能科技有限公司 高维数据检索方法、计算机设备和存储介质
CN108460123B (zh) * 2018-02-24 2020-09-08 湖南视觉伟业智能科技有限公司 高维数据检索方法、计算机设备和存储介质
CN109189819A (zh) * 2018-07-12 2019-01-11 华南师范大学 一种移动k近邻差异化查询方法、系统及装置
CN109189819B (zh) * 2018-07-12 2021-08-24 华南师范大学 一种移动k近邻差异化查询方法、系统及装置
CN113792172A (zh) * 2021-11-15 2021-12-14 西安热工研究院有限公司 基于三角不等式的图像检索方法、系统、设备及存储介质
CN113792172B (zh) * 2021-11-15 2022-02-11 西安热工研究院有限公司 基于三角不等式的图像检索方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN106096065B (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
CN103377252B (zh) 在物联网中进行数据过滤的方法和装置
Zhang et al. Trajspark: A scalable and efficient in-memory management system for big trajectory data
EP2804114A1 (en) Database controller, method, and program for managing a distributed data store
CN103853769B (zh) 一种地图查询请求处理方法及装置
CN103577440A (zh) 一种非关系型数据库中的数据处理方法和装置
CN106095863B (zh) 一种多维度数据查询和存储系统和方法
CN107391502A (zh) 时间间隔的数据查询方法、装置及索引构建方法、装置
US9852182B2 (en) Database controller, method, and program for handling range queries
CN106095920B (zh) 面向大规模高维空间数据的分布式索引方法
WO2017076297A1 (zh) 设备存放位置的查找方法及装置
CN106096065A (zh) 一种多媒体对象的相似检索方法及装置
CN110321446A (zh) 相关数据推荐方法、装置、计算机设备及存储介质
CN110134683A (zh) 关系数据库中海量要素存储的分区优化研究方法及系统
CN104346444A (zh) 一种基于路网反空间关键字查询的最佳选址方法
CN109241236A (zh) 海洋地理空间多维时变场数据分布式组织与查询处理方法
CN103500165B (zh) 一种结合聚类和双key值的高维向量检索方法
CN103365923A (zh) 用于评估数据库的分区方案的方法和装置
Gulzar et al. Skyline query processing for incomplete data in cloud environment
CN109726219A (zh) 数据查询的方法及终端设备
JP4440246B2 (ja) 空間インデックス方法
JP3938815B2 (ja) ノード作成方法、画像検索方法及び記録媒体
WO2023273082A1 (en) Method for constructing feature base library, feature retrieval method, and related device
CN110347676A (zh) 基于关系r树的不确定性时态数据管理与查询方法
CN106326295A (zh) 语义数据的存储方法及装置
Wang et al. Efficient aggregate farthest neighbour query processing on road networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant