CN104462503B - 确定数据点的相似度的方法 - Google Patents

确定数据点的相似度的方法 Download PDF

Info

Publication number
CN104462503B
CN104462503B CN201410805905.6A CN201410805905A CN104462503B CN 104462503 B CN104462503 B CN 104462503B CN 201410805905 A CN201410805905 A CN 201410805905A CN 104462503 B CN104462503 B CN 104462503B
Authority
CN
China
Prior art keywords
data point
node
similarity
data points
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410805905.6A
Other languages
English (en)
Other versions
CN104462503A (zh
Inventor
陈世峰
杜书泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201410805905.6A priority Critical patent/CN104462503B/zh
Publication of CN104462503A publication Critical patent/CN104462503A/zh
Application granted granted Critical
Publication of CN104462503B publication Critical patent/CN104462503B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供一种确定数据点的相似度的方法,包括:(a)将所有数据点进行线性投影;(b)基于线性投影后的数据点来构建包括预定数量的具有预定深度的树的随机森林,其中,按照测试函数将随机森林的每个分割结点中的数据点分割到左孩子结点或右孩子结点;(c)获取每个数据点在每颗树上的分割路径;(d)根据获取的分割路径来确定数据点的哈希码,并根据确定的哈希码来确定数据点的相似度。在根据本发明示例性实施例的确定数据点的相似度的方法中,生成的哈希码的长度突破了原始数据点的维度的限制,比现有的哈希编码方法更加灵活,可以更好地应用于各种数据的相似性的比较。

Description

确定数据点的相似度的方法
技术领域
本发明总体说来涉及近似查找技术,具体说来,涉及一种确定数据点的相似度的方法。
背景技术
随着网络上大量的图像和其它媒介数据的产生,近似最近邻搜索变得越来越重要。它现在已成为机器学习中最重要的问题之一,已经被用于许多计算机视觉任务,比如图像检索。在这个领域内,基于哈希的近似最近邻是一个普遍被使用的方法。这种方法把高维的数据点编码成紧凑的二值码,这些二值码保留了高维数据点的相似性,而且可以让内存容下更大的数据集,同时能够实现高效率的相似性搜索。
大量的用于学习相似性保留的二值码方法已经被提出。在这些方法中,位置敏感哈希(LSH)是最流行的哈希编码方法之一,它利用随机投影来产生二值码。但是为了达到好的性能,它通常需要较长的二值码。文献“Inductive hashing on manifolds”(F.Shen,C.Shen,Q.Shi,A.van den Hengel,and Z.Tang.In CVPR 2013)的作者应用流形学习紧凑的二值嵌入。谱哈希(SH)(文献“Spectral hashing”(Y.Weiss,A.Torralba,andR.Fergus.In Advances in Neural Information Processing Systems,2008))基于一个可分割的Laplacian特征函数学习出哈希函数。SH方法使用较小的二值码时,能够取得比较好的性能,但是当码长增加时,它表现得不太理想。汉明距离通常被用来计算二值码之间的距离。
在传统的基于主分量分析(PCA)的哈希方法中,数据点被假设为零中心化的,哈希函数定义为:
b(x)=sgn(W·x),
这里,W∈Rc×d是投影矩阵。这个函数把输入的d-维数据点x∈Rd映射到二值码b(x)∈{0,1}c上。在PCA-哈希(PCAH)方法中,W的行对应于数据协方差矩阵的具有最大特征值的c个特征向量。给定一个含有n个数据点的集合X={xi},i=1,...,n,一个数据点xi∈Rd形成了数据矩阵X∈Rd×n的第i列。矩阵X假定已被规范化零均值,也就是哈希机制映射每一个数据点xi到一个c维的二值向量yi∈{0,1}c。一般来说,我们需要学习c个哈希函数去生成这个c-维的二值向量。在线性投影哈希方法里面,在零均值假设下,第k个哈希函数定义为:
这里,wk是投影向量,如果x≥0,则sgn(x)=1;否则的话sgn(x)=0。yi的第k位等于hk(xi)。记W=[w1,...,wc]∈Rd×c,那么yi=sgn(WT·xi)。
为了产生c位的二值码,PCAH用数据协方差矩阵XXT的特征值最大的c个特征向量作为矩阵W的列。迭代量化(ITQ)哈希模型用一个正交的c×c的矩阵R旋转PCA投影矩阵来学习哈希函数,以最小化把PCA投影后的数据映射到二值码过程中的量化损失。在这种情形下,公式yi=sgn(WT·xi)可以重写为yi=sgn((WR)T·xi)。从这些模型里,可以容易地发现二值码的长度不会超过原始的数据维度d。
这样就导致当原始的数据点维度较低时,这些模型并不能达到满意的结果。另外,在高维的情形下,有时直接通过阈值来二值化投影值不是一个好的选择,就像直接使用符合函数。为了得到较长的二值码,投影矩阵W不得不足够地大。
而对数据无关的哈希方法来说,它们的性能会随着码长的增加而逐渐提高。在位置敏感哈希模型里,W是一个高斯随机矩阵。二值码通过投影原始的数据点到一些随机平面上而得到。位移不变核哈希(SKLSH)是一个LSH的扩展版本,它使用随机余弦函数产生二值码。这个方法可以保证理论上的收敛。然而,为了工作良好,矩阵W必须足够的大,这就导致算法需要更多的时间去做投影运算。
已有的基于汉明的方法产生的二值码通常由哈希函数的符号决定。虽然大多数情况下,它都能达到好的性能,在某些情形下,尤其是处理高维数据时,由符号决定不是一个好的选择。文献“Random forest based feature induction”(C.Vens and F.Costa.InIEEE 11th International Conference on Data Mining,2011)使用森林中所有的结点编码原始数据。如果一个结点出现在数据点从根结点落到叶子结点的路径上,对应的比特位被标记为1,不在路径上的则为0。使用汉明函数计算这些二值码间的距离。这样的做法会产生非常高维的二值码(维数等于森林中结点的个数)。
由此可见,在现有技术中,哈希编码长度通常由原始数据点的维度决定,针对不同维度的数据,难以通过改变哈希编码的长度来提升性能。二值码通常通过符号函数来实现,而在很多时候,特别是处理高维度数据时,符号函数不是一个很好的选择。现有基于随机森林的方法会产生过高维度的二值编码。相应地,在确定数据点的相似度方面,会付出较大的运算代价,对硬件系统的要求过高,也不利于快速有效的进行检索。
发明内容
本发明的示例性实施例在于提供一种确定数据点的相似度的方法,以解决至少一个上述的问题。
根据本发明示例性实施例的一方面,提供一种确定数据点的相似度的方法,包括:(a)将所有数据点进行线性投影;(b)基于线性投影后的数据点来构建包括预定数量的具有预定深度的树的随机森林,其中,按照测试函数将随机森林的每个分割结点中的数据点分割到左孩子结点或右孩子结点;(c)获取每个数据点在每颗树上的分割路径;(d)根据获取的分割路径来确定数据点的哈希码,并根据确定的哈希码来确定数据点的相似度。
在上述方法中,针对随机森林的第s个分割结点中的第i个数据点,测试函数可表示为如下定义的
其中,表示随机森林的第s个分割结点中的第i个数据点的向量,分别表示的第h1个分量和第h2个分量,sl和sr分别表示第s个分割结点的左孩子结点和右孩子结点,表示第s个分割结点中的所有数据点的di(h1,h2)的均值。
在上述方法中,h1和h2可指示数据点的向量的分量标号中使得第s个分割结点中的所有数据点对应的di(h1,h2)的方差最大的分量标号。
在上述方法的步骤(d)中,可根据以下算式来确定第i个数据点的哈希码:
其中,T表示所述预定数量,yi表示第i个数据点的哈希码,ukj表示第i个数据点在第k颗树的分割路径中的第j个结点的标签,m表示所述预定深度,其中,左孩子结点的标签为“0”,右孩子结点的标签为“1”。
在上述方法的步骤(d)中,可根据以下算式来确定第i个数据点的哈希码:
其中,yi表示第i个数据点的哈希码,ukl表示第i个数据点在第k颗树的分割路径中的第l个结点的标签,m表示所述预定深度,其中,左孩子结点的标签为“0”,右孩子结点的标签为“1”。
在上述方法的步骤(d)中,根据以下算式来确定第i个数据点与第j个数据点的相似度:
其中,表示第i个数据点与第j个数据点的相似度,T表示所述预定数量,cnt表示计算向量中1的数量的计数函数,符号“⊕”表示位间异或运算,“∨”表示位间或运算。
在根据本发明示例性实施例的确定数据点的相似度的方法中,生成的哈希码的长度突破了原始数据点的维度的限制,可以通过增加随机森林中树的数量或者增长树的深度来扩展哈希码的长度,比现有的哈希编码方法更加灵活,可以更好地应用于各种数据的相似性的比较。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本发明示例性实施例的目的和特点将会变得更加清楚,其中:
图1示出根据本发明示例性实施例的确定数据点的相似度的方法的流程图;
图2示出根据本发明示例性实施例的构建的随机森林的示例图;
图3示出根据本发明示例性实施例的确定数据点的相似度的方法与其他方法的性能比较图;
图4示出根据本发明另一示例性实施例的确定数据点的相似度的方法与其他方法的性能比较图。
具体实施方式
现将详细参照本发明的示例性实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述示例性实施例,以便解释本发明。
图1示出根据本发明示例性实施例的确定数据点的相似度的方法的流程图。这里,所述数据点指示需要进行相似度分析的对象的元素,例如图像的局部特征点。所述数据点可被表示为向量,向量中的每个分量表示所述对象元素的一个属性值。所述方法可通过计算机程序来以软件方式实现。
参照图1,在步骤S10,将所有数据点进行线性投影。可以利用现有技术中的各种线性投影的方法来对数据点进行线性投影,线性投影后的数据点仍然可被表示为向量。
在步骤S20,基于线性投影后的数据点来构建包括预定数量的具有预定深度的树的随机森林,其中,按照测试函数将随机森林的每个分割结点中的数据点分割到左孩子结点或右孩子结点。图2示出根据本发明示例性实施例的构建的随机森林的示例图。如图2所示,所述随机森林包括预定数量(T)的树201,每棵树201具有预定深度(m),每棵树201的结点包括分割结点202和叶子结点203,所有的叶子结点203都在相同的深度上,每个分割结点202都有两个孩子结点(即左孩子结点204和右孩子结点205)。在步骤S20,从每颗树201中包含有所有数据点的根结点206开始按自顶向下的方式构造随机森林。在每个分割结点202处,按照测试函数将该分割结点202中的数据点分割到左孩子结点204或右孩子结点205。然后再将左孩子结点204或右孩子结点205作为新的分割结点,继续分割数据点,直到所有的数据点都到达了预定深度m时,停止树的增长。
这里,测试函数可以是任意可将数据进行分类的函数。可选地,针对随机森林的第s个分割结中的第i个数据点,测试函数表示为如式(1)定义的
其中,表示随机森林的第s个分割结点中的第i个数据点的向量,分别表示的第h1个分量和第h2个分量,sl和sr分别表示第s个分割结点的左孩子结点和右孩子结点,表示第s个结点中的所有数据点的di(h1,h2)的均值。
这里,h1和h2可以是随机选择的分量标号。优选地,h1和h2指示数据点的向量的分量标号中使得第s个分割结点中的所有数据点对应的di(h1,h2)的方差最大的分量标号。可以通过在步骤S20中,针对第s个分割结点,随机选择预定对数不同的(h1,h2),计算第s个分割结点中的所有数据点对应的di(h1,h2)的方差,选出使所述方差最大的那对(h1,h2)。
在步骤S30,获取每个数据点在每颗树上的分割路径。所述分割路径为数据点从树的根结点到叶子结点的路径。为了方便记录该分割路径,可以将左孩子结点标记为“0”,将右孩子结点标记为“1”。
在步骤S40,根据获取的分割路径来确定数据点的哈希码,并根据确定的哈希码来确定数据点的相似度。
这里,可以根据各种编码方式来确定数据点的哈希码,并且可以根据不同的算法来根据确定的哈希码来确定数据点的相似度。
以下将列举两种的确定数据点的哈希码的编码方式以及相应的确定数据点的相似度的算法。
作为示例,在步骤S40中,可根据式(2)来确定第i个数据点的哈希码。
其中,T表示所述预定数量,yi表示第i个数据点的哈希码,ukj表示第i个数据点在第k颗树的分割路径中的第j个结点的标签,m表示所述预定深度,其中,左孩子结点的标签为“0”,右孩子结点的标签为“1”。
相应地,作为示例,在步骤S40中,可根据式(3)来确定第i个数据点与第j个数据点的相似度。
其中,表示第i个数据点与第j个数据点的相似度,T表示所述预定数量,cnt表示计算向量中“1”的数量的计数函数,
作为另一示例,在步骤S40中,可根据式(4)来确定第i个数据点的哈希码。
其中,yi表示第i个数据点的哈希码,ukl表示第i个数据点在第k颗树的分割路径中的第l个结点的标签,m表示所述预定深度,其中,左孩子结点的标签为“0”,右孩子结点的标签为“1”。
相应地,作为示例,在步骤S40中,可根据式(5)来确定第i个数据点与第j个数据点的相似度。
其中,表示第i个数据点与第j个数据点的相似度,T表示所述预定数量,cnt表示计算向量中“1”的数量的计数函数,符号“⊕”表示位间异或运算,“∨”表示位间或运算。
在根据本发明示例性实施例的确定数据点的相似度的方法中,生成的用于对比数据点的相似度的哈希码,其长度取决于随机森林中的树的数量(即预定数量)以及树的深度(预定深度),而预定数据以及预定深度可以被灵活地设置,所以哈希码的长度可以自由调整,不受数据点的维度限制。因此根据本发明示例性实施例的确定数据点的相似度的方法可以适用于各种不同的数据点的相似性的对比。
此外,在根据本发明示例性实施例的确定数据点的相似度的方法中,基于随机森林的方法来生成的用于对比数据点的相似度的哈希码,不使用现有的符号函数,使得生成的哈希码有更强的鲁棒性,更适合高维数据,并且效率更高。
此外,在根据本发明示例性实施例的确定数据点的相似度的方法中,根据式(4)和式(5)来确定数据的相似度,由于只需要做少量的异或预算,而位运算的速度非常快,相比其他确定数据的相似度的算法,耗时更短。由于如果两个点在一棵树的一层落到不同的结点,则它们在下一层也不会落到相同的结点内,因此,在近邻查找的应用中,当仅需要查找排序在前面的近邻时,可根据哈希码中体现分割路径中靠近根结点的部分路径的位数据来确定数据点的相似度,例如可通过式(6)来确定第i个数据点与第j个数据点的相似度,这样可以减小运算量,提高效率。
其中m'<m,其他字母或符号的含义同式(5)。
以下将结合图3和图4来描述根据本发明示例性实施例的确定数据点的相似度的方法与其他方法的性能对比。
以下将分别在两个较大的数据集SIFT1M和GIST1M上评估上述各方法的性能。数据集SIFT1M包含一百万个从一个大的自然图像集中提取出的128维的局部SIFT描述符,另外提供了10K的带有真实最近邻的查询描述符。GIST1M由100万的960维GIST特征和额外1000个特征组成。对每一个查询点,它的基准(真实最近邻)定义为据欧式距离得到的K个最近邻点。通过用Recall@N来对比上述各方法的性能。Recall@N定义为:
K代表每一个查询点的依欧氏距离计算出的K个最近邻,设置K=10。根据本发明示例性实施例的确定数据点的相似度的方法,分别基于迭代量化哈希(ITQ)或基于主分量分析的哈希(PCAH)输出的投影数据(维度为64)构造随机森林。将根据本发明示例性实施例的基于PCAH和ITQ的随机森林编码方法分别命名为PCA_RF和ITQ_RF,并跟其他方法做对比。
图3示出了根据本发明示例性实施例的PCA_RF和ITQ_RF与其他方法(位移不变核哈希(SKLSH)、位置敏感哈希方法(LSH)和谱哈希方法(SH))在数据集SIFT1M上的性能对比,可以看到根据本发明示例性实施例的PCA_RF和ITQ_RF性能优于SH和SKLSH,另外,它们非常接近LSH的性能。LSH在这个数据集上的性能表现得很好,但是它需要一个大的随机投影矩阵,这就限制了它的编码速度和检索速度。而根据本发明示例性实施例的PCA_RF和ITQ_RF,投影矩阵较小(由64个投影向量组成),检索速度较快。
图4示出了根据本发明示例性实施例PCA_RF和ITQ_RF与其他方法(SKLSH、LSH、SH、ITQ、PCAH和K-means哈希方法(KMH))在数据集GIST1M上的性能对比。可以看出,根据本发明示例性实施例的ITQ_RF的性能超越了其它的方法。根据本发明示例性实施例的PCA_RF和ITQ_RF的性能大大超越了PCAH和ITQ方法。另外,相对于根据本发明示例性实施例的PCA_RF和ITQ_RF只用了64个投影向量,PCAH和ITQ用了更多的向量。因此编码一个查询点时,相对于PCAH和ITQ,根据本发明实施例的方法可以消耗更少的测试时间。SKLSH在这个数据集上表现得很好,但是它在数据集SIFT1M上表现得很差,说明它的适应性不高。根据本发明示例性实施例PCA_RF和ITQ_RF在这两个数据集都取得了很好的性能,表明它对不同的数据集有较好的鲁棒性。
由于树形结构的使用,根据本发明示例性实施例的方法生成哈希码的速度非常快,使用未优化的C++代码,生成一个查询点的哈希码大约花费0.1ms的时间。若使用现代CPU上的并行处理,这个时间可以进一步缩短。分别使用512个、64个投影向量做投影运算大约消耗1ms和0.1ms的时间。生成512-比特的二值码,根据本发明示例性实施例的方法生成哈希码的时间大约为0.2ms,而LSH大约消耗了1ms,根据本发明示例性实施例的方法比LSH更高效。
应注意,本发明的以上各个实施例仅仅是示例性的,而本发明并不受限于此。本领域技术人员应该理解:在不脱离本发明的原理和精神的情况下,可对这些实施例进行改变,其中,本发明的范围在权利要求及其等同物中限定。

Claims (5)

1.一种确定数据点的相似度的方法,其特征在于,包括:
(a)将所有数据点进行线性投影;
(b)基于线性投影后的数据点来构建包括预定数量的具有预定深度的树的随机森林,其中,按照测试函数将随机森林的每个分割结点中的数据点分割到左孩子结点或右孩子结点;
(c)获取每个数据点在每颗树上的分割路径;
(d)根据获取的分割路径来确定数据点的哈希码,并根据确定的哈希码来确定数据点的相似度;
针对随机森林的第s个分割结点中的第i个数据点,测试函数表示为如下定义的
其中,表示随机森林的第s个分割结点中的第i个数据点的向量,分别表示的第h1个分量和第h2个分量,sl和sr分别表示第s个分割结点的左孩子结点和右孩子结点,表示第s个分割结点中的所有数据点的di(h1,h2)的均值。
2.根据权利要求1所述的方法,其特征在于,h1和h2指示数据点的向量的分量标号中使得第s个分割结点中的所有数据点对应的di(h1,h2)的方差最大的分量标号。
3.根据权利要求1所述的方法,其特征在于,在步骤(d)中,根据以下算式来确定第i个数据点的哈希码:
<mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>=</mo> <mo>&amp;lsqb;</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>T</mi> <mo>)</mo> </mrow> </msubsup> <mo>&amp;rsqb;</mo> <mo>,</mo> </mrow>
其中,T表示所述预定数量,yi表示第i个数据点的哈希码, 表示第i个数据点在第k颗树的分割路径中的第j个结点的标签,m表示所述预定深度,其中,左孩子结点的标签为“0”,右孩子结点的标签为“1”。
4.根据权利要求1所述的方法,其特征在于,在步骤(d)中,根据以下算式来确定第i个数据点的哈希码:
<mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>=</mo> <mo>&amp;lsqb;</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mn>1</mn> </msubsup> <mo>,</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mn>2</mn> </msubsup> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>m</mi> </msubsup> <mo>&amp;rsqb;</mo> <mo>,</mo> </mrow>
其中,yi表示第i个数据点的哈希码,ukl表示第i个数据点在第k颗树的分割路径中的第l个结点的标签,m表示所述预定深度,其中,左孩子结点的标签为“0”,右孩子结点的标签为“1”。
5.根据权利要求4所述的方法,其特征在于,在步骤(d)中,根据以下算式来确定第i个数据点与第j个数据点的相似度:
其中,表示第i个数据点与第j个数据点的相似度,T表示所述预定数量,cnt表示计算向量中1的数量的计数函数,符号表示位间异或运算,“∨”表示位间或运算。
CN201410805905.6A 2014-12-19 2014-12-19 确定数据点的相似度的方法 Active CN104462503B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410805905.6A CN104462503B (zh) 2014-12-19 2014-12-19 确定数据点的相似度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410805905.6A CN104462503B (zh) 2014-12-19 2014-12-19 确定数据点的相似度的方法

Publications (2)

Publication Number Publication Date
CN104462503A CN104462503A (zh) 2015-03-25
CN104462503B true CN104462503B (zh) 2018-01-09

Family

ID=52908538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410805905.6A Active CN104462503B (zh) 2014-12-19 2014-12-19 确定数据点的相似度的方法

Country Status (1)

Country Link
CN (1) CN104462503B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109166615B (zh) * 2018-07-11 2021-09-10 重庆邮电大学 一种随机森林哈希的医学ct图像存储与检索方法
CN109522435B (zh) * 2018-11-15 2022-05-20 中国银联股份有限公司 一种图像检索方法及装置
CN111178083A (zh) * 2019-12-12 2020-05-19 广州地理研究所 一种bim和gis的语义匹配方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Randomized Clustering Forests for Image Classification;Frank Moosmann等;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20080930;第30卷(第9期);第1634-1641页 *
Similarity_Search_in_High_Dimensions_via_Hashing;Aristides Gionis等;《International conference on Very Large Data Bases》;20000531;第8卷(第2期);全文 *
基于弱随机映射的目标检索技术研究;赵永威;《中国优秀硕士学位论文全文数据库》;20130630;全文 *
基于随机森林的目标检测与定位;刘足华;《计算机工程》;20120731;第38卷(第13期);全文 *

Also Published As

Publication number Publication date
CN104462503A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
Melekhov et al. Siamese network features for image matching
He et al. Hashing as tie-aware learning to rank
Deng et al. Two-stream deep hashing with class-specific centers for supervised image search
Shen et al. Supervised discrete hashing
Sablayrolles et al. How should we evaluate supervised hashing?
Wu et al. Scalable face image retrieval with identity-based quantization and multireference reranking
Ge et al. Graph cuts for supervised binary coding
Donoser et al. Discriminative feature-to-point matching in image-based localization
Maji et al. Max-margin additive classifiers for detection
Shen et al. Inductive hashing on manifolds
Jia et al. Optimizing kd-trees for scalable visual descriptor indexing
Shi et al. Asymmetric discrete graph hashing
An et al. Fast and incremental loop closure detection with deep features and proximity graphs
KR20140102038A (ko) 영상 정합 장치 및 영상 정합 방법
Do et al. Simultaneous feature aggregating and hashing for large-scale image search
Tiakas et al. MSIDX: multi-sort indexing for efficient content-based image search and retrieval
Zhou et al. Kernel-based supervised hashing for cross-view similarity search
Wang et al. Hamming compatible quantization for hashing
CN104462503B (zh) 确定数据点的相似度的方法
Lee et al. Quadra-embedding: Binary code embedding with low quantization error
Yu et al. Scalable forest hashing for fast similarity search
Wang et al. A multi-label least-squares hashing for scalable image search
Sabahi et al. Perceptual image hashing using random forest for content-based image retrieval
Silva et al. Bog: A new approach for graph matching
Mehta et al. Adaptive Near Duplicate Image Retrieval Using SURF and CNN Features.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant