CN112307225A - 基于改进哈希学习算法的大规模数据检索方法 - Google Patents

基于改进哈希学习算法的大规模数据检索方法 Download PDF

Info

Publication number
CN112307225A
CN112307225A CN202011202256.2A CN202011202256A CN112307225A CN 112307225 A CN112307225 A CN 112307225A CN 202011202256 A CN202011202256 A CN 202011202256A CN 112307225 A CN112307225 A CN 112307225A
Authority
CN
China
Prior art keywords
quantization
projection
hash
algorithm
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011202256.2A
Other languages
English (en)
Inventor
曹媛
刘峻玮
桂杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202011202256.2A priority Critical patent/CN112307225A/zh
Publication of CN112307225A publication Critical patent/CN112307225A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于改进哈希学习算法的大规模数据检索方法。该方法基于哈希学习算法,首先将数据映射到投影点,得到投影维数;分析每个投影维数的重要性,并将重要性定义为判别力,选取一个具有高分辨力的投影维数子集,并用最小方差算法将其分组;对于同一组中的投影维数,用两步迭代算法自适应地学习阈值,将它们划分成相同数目的区域;将上述S4得到的区域进行量化,再将每个区域替换为其代表点;计算两个量化哈希码之间的曼哈顿距离并按从小到大的顺序排序,完成搜索,输出搜索结果。本发明在大规模检索中能保持良好性能,相较于现有算法能够显著提高搜索精度。

Description

基于改进哈希学习算法的大规模数据检索方法
技术领域
本发明属于深度学习技术领域,具体涉及一种基于改进哈希学习算法的大规模数据检索方法。
背景技术
最近邻搜索是许多应用中的基本问题,如机器学习、信息检索、模式识别和计算机视觉。近几年来我们见证了大数据的兴起,其特点是高维、持续增长的数据集的流行。随着信息时代的到来,多媒体数据量急剧增加,对多模式数据的高效检索成为迫切需要。传统的单一模式的数据检索,如图像检索和文本检索,已经不能适应多媒体数据逐渐多样化的现实。考虑到所涉及的时间,在如此大的数据集中很难进行精确的最近邻搜索。因此,出现了大量的近似最近邻搜索方法,其中哈希算法以其具有吸引力的时间和存储优势吸引了最广泛的研究兴趣。
由于施加在所述哈希码上的离散约束使得哈希优化非常具有挑战性,即NP (Non-Deterministic Polynomial,NP)难题,许多哈希算法使用两步框架来学习哈希码:投影和量化。投影步骤可以降低数据维数,保持原始数据的成对相似性。量化步骤可以进一步压缩数据以压缩二进制码,从而提供具有汉明距离的高效人工神经网络搜索。
大多数哈希算法重点学习更有效的投影函数。然而,对最终的搜索精度同样重要的量化步骤中的精度损失却被忽略,很少有人研究。一般的哈希方法可以通过三种主要的度量来估计近似最近邻搜索应用中两个原点之间的相似度:欧几里德距离、核距离和语义距离。对于欧几里德相似性,最著名的哈希算法之一是局部敏感哈希(LSH),这是一种独立于数据的哈希方法,它使用几个遵循高斯分布的随机函数将相似点分配给同一个桶。由于它需要较长的代码和较多的哈希表才能达到可接受的精度,考虑到时间和存储,很难将其扩展到数百万个点。因此,许多依赖数据的哈希算法已经被提出来学习紧凑的哈希码。谱哈希(SH)利用一维拉普拉斯算子的阈值特征向量子集作为哈希函数,类似于图划分,可以获得更高的精度和可扩展性。迭代量化(ITQ)被提出学习投影数据的旋转矩阵,以最小化投影空间和二进制空间之间的量化误差。用简单有效的交替最小化算法学习零中心数据的旋转矩阵。对于核相似性,核化局部敏感哈希(KLSH)将局部敏感哈希推广到适应任意核函数,使算法保持亚线性时间相似性搜索成为可能,保证了一类有用的相似函数。锚图哈希(AGH)提出了一种新的基于图的哈希方法,它可以自动发现数据中固有的邻域结构,从而学习合适的紧凑代码。在语义相似性方面,半监督哈希(SSH)提出了一种半监督哈希方法,该方法将标记数据上的经验误差最小化,同时使标记数据和未标记数据的哈希位的方差和独立性最大化。Wang等提出了一种新的哈希方法,称为序列投影学习哈希(SPLH),其中每个哈希函数被设计成顺序地纠正前一个哈希函数所造成的错误。监督核哈希算法(KSH)提出了一种基于核的监督哈希算法,将数据映射到紧凑的二进制代码中,在相似对上汉明距离最小,在不同对上最大化。
上述大多数哈希方法将每个投影维数量化为一个具有一个阈值的哈希比特,并用汉明距离对哈希码进行排序,称为单比特量化(SBQ)。单比特量化的一个问题是阈值总是位于最高点密度的区域,因此许多接近阈值的相邻点将被哈希为不同的比特。锚图哈希是第一篇发现单比特量化问题的论文,提出了一种新的量化方法,称为分层哈希(HH)。分层哈希用三个阈值将每个投影维分成四个区域,并用两个哈希比特对每个区域进行编码。然而,两个最远区域内的点之间的汉明距离等于相邻两个区域内的点之间的汉明距离,这显然是不合理的。此外,还不清楚分层哈希是否可以应用于其他投影函数以获得更高的精度。双比特量化(DBQ) 使用两个自适应学习阈值将每个投影维度量化为三个区域,并用双比特('00'、'01'和'10') 对每个区域进行编码。在原双比特量化空间中,通过省略两个点之间的关系,可以更好地保持原代码的相似性。汉明兼容量化(HCQ)是另一种基于汉明距离的量化方法。汉明兼容量化解决了分层哈希和双比特量化在量化过程中只考虑投影维数的问题,忽略了欧氏空间中原始数据的邻域结构。汉明兼容量化在考虑原始数据邻域结构的情况下,通过最小化距离误差函数,保持了欧几里德空间和汉明空间之间的相似度量能力。这是第一个通过将汉明距离引入高效有影响的哈希技术中明确制定和解决量化问题的工作。
曼哈顿哈希(MH)(用多个位的自然二进制码对每个投影维进行编码,并计算出哈希码之间的曼哈顿距离以进行近似最近邻搜索。由于曼哈顿哈希能够有效地保持数据中的邻域结构以达到哈希的目的,因此它的性能优于上述三种基于汉明距离的量化方法。
然而,上述所有量化方法均为每个投影维度分配相同数量的比特,且都存在搜索精度偏低的问题。
发明内容
本发明的目的是提供一种基于改进哈希学习算法的大规模数据检索方法,以弥补现有技术的不足。
为达到上述目的,本发明采取的具体技术方案为:
一种基于改进哈希学习算法的大规模数据检索方法,包括以下步骤:
S1:获取数据;
S2:基于哈希学习算法,首先将数据映射到投影点,得到投影维数;
S3:分析每个投影维数的重要性,并将重要性定义为判别力,选取一个具有高分辨力的投影维数子集,并用最小方差(MV)算法将其分组;
S4:对于同一组中的投影维数,用两步迭代算法自适应地学习阈值,将它们划分成相同数目的区域;
S5:将上述S4得到的区域进行量化,再将每个区域替换为其代表点;
S6:计算两个量化哈希码之间的曼哈顿距离并按从小到大的顺序排序,完成搜索,输出搜索结果。
其中,所述S5,在量化步骤中,基于可变码本量化(VCQ)算法,每个区域都用其对应的码本值进行量化,将区分能力较大的组划分为更多的区域;或基于可变整数的量化(VIQ)算法中,用整数量化区域,将区分能力较大的组划分为更多的区域。
进一步的,所述S2具体为:对于数据库点xi∈Rd,首先将它映射到投影点ui∈Rk;令
Figure BDA0002755717950000031
Figure BDA0002755717950000032
为n维数据点,μ表示数据平均值,P∈Rd×k表示谱哈希、主成分分析哈希和迭代量化中学习的投影矩阵,对于任何xi∈X,计算第j投影维数:
uij=p′j(xi-μ) (1)
其中pj表示P的第j列,集中X的目的是确保每个投影维度上的偏差基于零。
进一步的,所述S3中:采用类似于主成分分析(PCA)的分析模型分析每个投影维数的重要性,并将重要性定义为判别力;令U={{uij}n i=1}k j=1∈Rn×k为投影矩阵,公式
Figure BDA0002755717950000033
为U的协方差矩阵,利用类似于主成分分析原理的egi(S,k)函数计算协方差矩阵S的k个最大特征值L=diag(l11,l22,…,lkk)作为判别幂:L=eig(S,k);实验表明,特征值{l11,l22,…,lkk}表现为l11>l22>…>lkk,表示L如下:
Figure BDA0002755717950000034
进一步的,所述S3中:所述最小方差算法是将投影维数分成几个组,同一组中的投影尺寸应尽可能相似,将其表述如下:
Figure BDA0002755717950000035
Figure BDA0002755717950000041
gr,mr∈N
Figure BDA0002755717950000042
其中R表示分组的个数,Gr表示第r个组,gr表示Gr中投影维数的个数,θr表示Gr中l的平均值;因此,目标函数使每个群中的投影维数尽可能紧凑;同时,(3)应满足上述约束条件,其中mr表示Gr组嵌入的哈希比特数,k表示哈希比特总数,N表示自然数集合;
放松约束后,得到:
Figure BDA0002755717950000084
subject to:3g1+2g2+g3=k
g1,g2,g3∈N, (4)
由于k很小,上式能够被穷举算法有效地求解。
进一步的,所述S4中:对于上述Gr组中的每个投影维,将其嵌入mr个哈希比特,即用
Figure BDA0002755717950000044
个自适应学习阈值将其分成
Figure BDA0002755717950000045
个区域,提出以下目标函数来学习阈值和码本,以尽可能接近投影空间中的原始数据分布:
Figure BDA0002755717950000046
其中
Figure BDA0002755717950000047
Figure BDA0002755717950000048
分别代表Gr组的
Figure BDA0002755717950000049
个阈值和
Figure BDA00027557179500000410
个码本;
Re(f)表示第f区域的投影点集,并定义为
Figure BDA00027557179500000411
再采用两步迭代算法求解:首先通过随机抽样投影点来初始化t;然后,对于固定的t,更新c以最小化平方失真误差E:
Figure BDA00027557179500000412
其中D(*)表示投影尺寸的分布,用离散输入点近似;
Figure BDA00027557179500000413
表示学习码书的量化步骤;公式(7)的目标是使离散码本c尽可能符合u的分布,对于固定c,
Figure BDA00027557179500000414
由以下内容更新:
Figure BDA0002755717950000051
问题(5)通过固定c的t优化和反之亦然的替代方案来解决,如果相对失真小于10-7,优化将终止。
进一步的,所述S5量化步骤中:可变码本量化(VCQ)算法为:学习了一个标签(整数) 向量
Figure BDA0002755717950000052
其中Z表示整数集:
Figure BDA0002755717950000053
使bij下降到
Figure BDA0002755717950000054
的目的是节省存储,因为bij只需要mr位;对于基于可变整数的量化(VIQ),bi是一个量化的整数向量,它可以保持数据之间的曼哈顿距离;而对于可变码本量化(VCQ),bi是一个标签向量,用于索引对应的码本。
进一步的,对于S1获得的数据经过投影和量化处理后,对于数据点qi∈Rd,以用于数据库点的投影矩阵P∈Rd×k的前g列将其映射到
Figure BDA0002755717950000055
其中
Figure BDA0002755717950000056
表示投影维数的总数;在基于可变整数的量化(VIQ)中,用一个整数向量
Figure BDA0002755717950000057
进一步量化vi
Figure BDA0002755717950000058
进一步的,所述S6:计算xi和qi之间的基于可变整数量化(VIQ)的曼哈顿距离:
Figure BDA0002755717950000059
或可变码本量化(VCQ)的曼哈顿距离:
Figure BDA00027557179500000510
上述搜索方法尤其适用于图像数据搜索。
本发明的优点和技术效果:
本发明提出的最小方差算法,将最重要的投影维数分配到不同的组中;两步迭代算法来自适应地学习每个投影维数的阈值;本发明分析了不同投影维数的重要性,采取了适用于任意主成分分析投影函数的变量量化方法(可变整数量化和可变码本量化);且两种变量量化算法都能较好地保持数据间的邻域结构,进一步减小量化误差,从而优于现有的量化方法。
通过五个常见的公共数据集上的验证实验,并对它们的时间和空间性能进行了详细的分析,证明了本发明在大规模检索中能保持良好性能,显著提高搜索精度。
附图说明
图1为本发明基于可变整数量化(VIQ)的过程示意图。
图2为本发明可变码本量化(VCQ)的过程示意图。
图3为本发明与经典的单比特量化(SBQ)、双比特量化(DBQ)和曼哈顿哈希(MH)之间的平均精度均值(MAP)实验比较效果图(基于SIFT10K数据集)。
图4为本发明与经典的单比特量化(SBQ)、双比特量化(DBQ)和曼哈顿哈希(MH)之间的平均精度均值(MAP)实验比较效果图(基于SIFT1M数据集)。
图5为本发明与经典的单比特量化(SBQ)、双比特量化(DBQ)和曼哈顿哈希(MH)之间的平均精度均值(MAP)实验比较效果图(基于CIFAR10数据集)。
图6为本发明与经典的单比特量化(SBQ)、双比特量化(DBQ)和曼哈顿哈希(MH)之间的平均精度均值(MAP)实验比较效果图(基于MNIST数据集)。
图7为本发明与经典的单比特量化(SBQ)、双比特量化(DBQ)和曼哈顿哈希(MH)之间的平均精度均值(MAP)实验比较效果图(基于NUS-WIDE数据集)。
图8为本发明与经典的单比特量化(SBQ)、双比特量化(DBQ)和曼哈顿哈希(MH)之间的精确率-召回率(precision-recall)曲线实验比较效果图(基于SIFT10K数据集)。
图9为本发明与经典的单比特量化(SBQ)、双比特量化(DBQ)和曼哈顿哈希(MH)之间的精确率-召回率(precision-recall)曲线实验比较效果图(基于SIFT1M数据集)。
图10为本发明与经典的单比特量化(SBQ)、双比特量化(DBQ)和曼哈顿哈希(MH)之间的精确率-召回率(precision-recall)曲线实验比较效果图(基于CIFAR10数据集)。
图11为本发明与经典的单比特量化(SBQ)、双比特量化(DBQ)和曼哈顿哈希(MH)之间的精确率-召回率(precision-recall)曲线实验比较效果图(基于MNIST数据集)。
图12为本发明与经典的单比特量化(SBQ)、双比特量化(DBQ)和曼哈顿哈希(MH)之间的精确率-召回率(precision-recall)曲线实验比较效果图(基于NUS-WIDE数据集)。
具体实施方式
以下通过具体实施例并结合附图对本发明进一步解释和说明。
实施例1:
一种基于改进哈希学习算法的大规模数据检索方法,包括以下步骤:
步骤1:其中现有的投影矩阵在谱哈希、主成分分析哈希和迭代量化中学习,如图1和图2上半区左边部分的投影过程所示进行投影;
步骤2:分析每个投影维数的重要性,并将重要性定义为判别力,选取一个具有较高分辨力的投影维数子集,并用最小方差(MV)算法(如图1和图2上半区中间部分的分组过程) 将其分组;
步骤3:对于同一组中的投影维数,它们具有相似的分辨能力,我们用两步迭代算法自适应地学习阈值,将它们划分成相同数目的区域;
步骤4:在量化步骤中,为了更好地保持数据间的邻域结构,将区分能力较大的组划分为更多的区域;最后,将每个区域替换为其代表点;在基于可变整数的量化(VIQ)算法中,用整数量化区域(如图1上半区右边部分的量化过程),以保持数据之间的相似性;在可变码本量化(VCQ)算法中,每个区域都用其对应的码本值进行量化(如图2上半区右边部分的量化过程);
步骤5:对于查询数据利用上述两种可变量化方法之一进行投影和量化(如图1和图2 的下半区的投影和量化过程);
步骤6:计算两个量化哈希码之间的曼哈顿距离并按从小到大的顺序排序(如图1和图2 的曼哈顿距离计算和排序过程),完成搜索,输出结果。
实施例2:
实施例1检索方法的具体算法和步骤如下:
步骤1:对于数据库点xi∈Rd,我们首先将它映射到投影点ui∈Rk(如图1和图2上半区左边部分的投影过程所示)。令
Figure BDA0002755717950000071
为n维数据点。μ表示数据平均值,P∈Rd×k表示谱哈希、主成分分析哈希和迭代量化中学习的投影矩阵。对于任何xi∈X,计算第j投影维数:
uij=p′j(xi-μ) (1)
其中pj表示P的第j列,集中X的目的是确保每个投影维度上的偏差基于零。
步骤2:用一个类似于主成分分析(PCA)的分析模型分析每个投影维数的重要性,并将重要性定义为判别力。令U={{uij}n i=1}k j=1∈Rn×k为投影矩阵,
Figure BDA0002755717950000033
为U的协方差矩阵,利用类似于主成分分析原理的egi(S,k)函数计算协方差矩阵S的k个最大特征值L=diag (l11,l22,…,lkk)作为判别幂:L=eig(S,k)。实验表明,特征值{l11,l22,…,lkk}表现为l11>l22>…>lkk,尤其是基于PCA的哈希方法,例如谱哈希、主成分分析哈希和迭代量化。现在,我们表示L如下:
Figure BDA0002755717950000073
步骤3:选取一个具有高分辨力的投影维数子集,并用最小方差(MV)算法将其分组(如图1和图2上半区中间部分的分组过程)。最小方差算法是将投影维数分成几个组,同一组中的投影尺寸应尽可能相似。
现将其表述如下:
Figure BDA0002755717950000081
Figure BDA0002755717950000082
gr,mr∈N
Figure BDA0002755717950000083
其中R表示分组的个数,Gr表示第r个组,gr表示Gr中投影维数的个数,θr表示Gr中l的平均值。因此,目标函数使每个群中的投影维数尽可能紧凑。同时,(3)应满足上述约束条件,其中mr表示Gr组嵌入的哈希比特数,k表示哈希比特总数,N表示自然数集合。
放松约束后,得到:
Figure BDA0002755717950000084
subject to:3g1+2g2+g3=k
g1,g2,g3∈N, (4)
由于k很小,上式很容易被穷举算法有效地求解。
步骤4:阈值和码书学习。对于Gr组中的每个投影维,将其嵌入mr个哈希比特,即用
Figure BDA0002755717950000085
个自适应学习阈值将其分成
Figure BDA0002755717950000086
个区域。提出了以下目标函数来学习阈值和码本,以尽可能接近投影空间中的原始数据分布:
Figure BDA0002755717950000087
其中
Figure BDA0002755717950000088
Figure BDA0002755717950000089
分别代表Gr组的
Figure BDA00027557179500000810
个阈值和
Figure BDA00027557179500000811
个码本;
Re(f)表示第f区域的投影点集,并定义为
Figure BDA00027557179500000812
(5)采用两步迭代算法求解。首先通过随机抽样投影点来初始化t。然后,对于固定的t,我们更新c以最小化平方失真误差E:
Figure BDA00027557179500000813
Figure BDA0002755717950000091
其中D(*)表示投影尺寸的分布,可以用离散输入点近似;
Figure BDA0002755717950000092
表示学习码书的量化步骤。(7)的目标是使离散码本c尽可能符合u的分布。对于固定c,
Figure BDA0002755717950000093
由以下内容更新:
Figure BDA0002755717950000094
问题(5)可以通过固定c的t优化和反之亦然的替代方案来解决,该方案可以证明是全局最优的。在实验中,如果相对失真小于10-7,优化将终止。
步骤5:同时,还学习了一个标签(整数)向量
Figure BDA0002755717950000095
(如图1和图2上半区右边部分的量化过程),其中Z表示整数集:
Figure BDA0002755717950000096
使bij下降到
Figure BDA00027557179500000914
的目的是节省存储,因为bij只需要mr位。对于基于可变整数的量化(VIQ),bi是一个量化的整数向量,它可以保持数据之间的曼哈顿距离。对于可变码本量化(VCQ),bi是一个标签向量,用于索引对应的码本。
在线查询:
步骤6:对于查询点qi∈Rd,以用于数据库点的投影矩阵P∈Rd×k的前g列将其映射到
Figure BDA0002755717950000097
Figure BDA0002755717950000098
(如图1和图2下半区左边部分的投影过程),其中
Figure BDA0002755717950000099
表示投影维数的总数。在基于可变整数的量化(VIQ)中,我们用一个整数向量
Figure BDA00027557179500000910
进一步量化vi(如图1 下半区的量化过程):
Figure BDA00027557179500000911
步骤7:计算xi和qi之间的基于可变整数量化(VIQ)的曼哈顿距离(如图1下半区的曼哈顿距离计算):
Figure BDA00027557179500000912
或可变码本量化(VCQ)的曼哈顿距离(如图2下半区的曼哈顿距离计算):
Figure BDA00027557179500000913
实施例3:(验证实例)
我们在五个常见的公共数据集SIFT-10K、SIFT-1M、CIFAR10、MNIST和NUS-WIDE-SCENE 上进行了实验。SIFT数据集是评估集,特别是对于最近邻搜索应用。SIFT数据库中的描述符为10000个,其中训练点为35000个。
查询集是包含100个点的训练集的子集。SIFT-1M也由128-D SIFT描述符组成,但比 SIFT-10K大,它包含100000个训练点、1000000个数据库点和10000个查询点。
对于SIFT-10K和SIFT-1M数据集,分别在100×100和10000×100的真实邻居矩阵中提供每个查询点的100个精确的最近邻。
CIFAR10是微型图像数据集的一个子集。它由60000幅32×32像素的图像组成,分为10 类:飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。数据集被划分为包含59000个图像的数据库集和1000个图像的查询集。从数据库集中选择包含3000个样本的训练集。由于原始图像是32×32彩色图像,因此我们用3个不同尺度(8,8,4)计算的384-D灰度主旨描述子和从稠密SIFT特征量化的300-D视觉单词组合表示,得到684-D向量。使用到第50个最近邻居的平均欧几里德距离的名义阈值来确定数据库图像对于给定的查询图像是否为最近邻居中的一个。
MNIST是NIST提供的一组更大的手写数字的子集。它包含70000张28×28像素的图像。训练集与包含60000幅图像的数据库集相同。其他10000个图像用作查询集。所有图像均由 784维特征向量表示。我们计算到第300个最近邻居的平均欧几里德距离作为名义阈值来评估返回的图像是否是查询图像的最近邻之一。
NUS-WIDE-SCENE是NUS-WIDE的精简版。它由34926幅图像组成,其中17463幅图像用于训练和数据库,其余17463幅图像用于测试。数据集包括:从这些图像中提取的6种低层特征,包括64维颜色直方图、144维颜色相关图、73维边缘方向直方图、128维小波纹理、 225维分块颜色矩和基于SIFT描述的500维单词包。在实验中,使用了255维分块颜色矩的低级特征。名义阈值被设置为到第100个最近邻居的平均欧几里德距离,以确定返回的数据库图像是否为最近邻居中的一个。
通过三个标准来评估系统的性能:准确度、召回率和平均平均准确度(MAP)。精确度和召回率可通过以下公式计算:
Figure BDA0002755717950000101
其中N表示返回点的数目,T表示前N个返回点中的真邻居的数目,M表示总的真邻居的数目。
MAP是所有M个真邻域的精度值的平均值:
Figure BDA0002755717950000111
将本申请的两种可变量化算法与三种最先进的基线进行比较:单比特量化(SBQ)、双比特量化(DBQ)和曼哈顿散列(MH)。由于量化方法应该与投影方法相结合,我们用三种值得注意的投影方法:谱哈希(SH)、迭代量化(ITQ)和主成分分析哈希(PCAH)进行了实验,以验证我们的可变码本量化(VCQ)算法可以与不同的投影方法相结合来提高精度。
在SIFT数据集上的结果分析:
图3显示了SIFT-10K中四种量化方法结合谱哈希(SH)、迭代量化(ITQ)和主成分分析哈希(PCAH)投影方法的平均精度均值(MAP)直方图。
水平轴表示16到128位的代码长度。实际上,对于曼哈顿哈希(MH)和可变码本量化(VCQ),它们并没有充分利用长度。从图3中可以看出,双比特量化(DBQ)和曼哈顿哈希(MH)的性能都优于单比特量化(SBQ)。然而,可变码本量化(VCQ)明显优于三个基线,尤其是在较长的代码长度下。原因是可变码本量化(VCQ)算法利用了前几个更重要的投影维数,同时减少了量化步骤中产生的累积误差。
图8显示了SIFT-10K中四种量化方法与三种投影方法相结合的精度召回曲线,水平轴代表召回值,纵轴代表相同返回点数(N)下的相应精度值。图8显示,在短码长(如16位)下,双比特量化(DBQ)和曼哈顿哈希(MH)无法获得比单比特量化(SBQ)更好的性能。尽管如此,可变码本量化(VCQ)即使嵌入到短代码中也得到了明显的改进。如图8第二行所示,结合迭代量化(ITQ)投影方法的两个量化基线(双比特量化(DBQ)和曼哈顿哈希(MH))不能提供相对于单比特量化(SBQ)的任何改进。可变码本量化(VCQ)方法与迭代量化(ITQ) 投影法相结合的改进也不如谱哈希(SH)和主成分分析哈希(PCAH)投影法大。这是因为对于迭代量化(ITQ)哈希方法,在投影步骤中,量化误差得到了平衡,与其他量化方法相结合,改进有限。
为了进一步评估本发明在更大的数据集上的性能,在SIFT-1M上进行了实验。
图4显示了SIFT-1M中四种量化方法与三种投影方法相结合的平均精度直方图,可以看到,在100万点的大数据集上,可变码本量化(VCQ)算法在所有码长下都能获得比三种基线更高的精度。与单比特量化(SBQ)、双比特量化(DBQ)和曼哈顿哈希(MH)相比,改进后的平均精度均值(MAP)增益分别达到62.24%、42.63%和39.73%。图9给出了SIFT-1M中四种量化方法与三种投影方法相结合的精度召回曲线,可以看到与图8类似的结果。
在CIFAR10数据集上的结果:
图5显示了CIFAR10中四种量化方法结合谱哈希(SH)、迭代量化(ITQ)和主成分分析哈希(PCAH)投影方法的平均精度均值(MAP)直方图。发现,在较短的码长(如16位和32位)下,双比特量化(DBQ)并不能提供更高的改进,有时甚至比单比特量化(SBQ)性能更差。然而,可变码本量化(VCQ)算法通常可以优于三个基线。图10显示了CIFAR10中四种量化方法与三种投影方法相结合的精度召回曲线。可以看到,在短代码长度下,双比特量化 (DBQ)与单比特量化(SBQ)的性能几乎相同,曼哈顿哈希(MH)的改进有限。然而,很明显,可变码本量化(VCQ)算法有明显的更好的精确度。随着代码长度的增加,这种优势变得更加显著。
在MNIST数据集上的结果:
图6显示了MNIST中四种量化方法结合谱哈希(SH)、迭代量化(ITQ)和主成分分析哈希(PCAH)投影方法的平均精度均值(MAP)直方图。结果表明,与其他三个数据集的性能相似。还发现双比特量化(DBQ)与迭代量化(ITQ)相结合的性能一直不如单比特量化(SBQ) 与迭代量化(ITQ)的结合。图11显示了MNIST中四种量化方法与三种投影方法相结合的精度召回曲线。总的来说,曼哈顿哈希(MH)的表现优于单比特量化(SBQ)和双比特量化(DBQ)。可变码本量化(VCQ)算法比三种最先进的量化方法表现得更好,尤其是在较长的码长下。
在NUS-WIDE-SCENE数据集上的结果:
图7显示了NUS-WIDE-SCENE中四种量化方法结合谱哈希(SH)、迭代量化(ITQ)和主成分分析哈希(PCAH)投影方法的平均精度均值(MAP)直方图。可以看到,可变码本量化(VCQ) 比三个基线有更好的性能,特别是与主成分分析哈希(PCAH)投影方法相结合时。随着代码大小的增加,性能差距变得更大。可变码本量化(VCQ)比单比特量化(SBQ)和双比特量化 (DBQ)和曼哈顿哈希(MH)结合主成分分析哈希(PCAH)投影法分别提高54.48%、46.68%、 44.12%。图12显示了四种量化方法结合三种投影方法在NUS-WIDE场景中的精确召回曲线。我们发现,总体而言,哈顿哈希(MH)的表现优于单比特量化(SBQ)和双比特量化(DBQ),可变码本量化(VCQ)始终优于三个基线。
表1给出了三种量化方法(曼哈顿哈希(MH)、于可变整数量化(VIQ)和可变码本量化 (VCQ))与三种投影方法(谱哈希(SH)、迭代量化(ITQ)和主成分分析哈希(PCAH))在5 个数据集(SIFT-10K、SIFT-1M、CIFAR10、MNIST和NUS-WIDENCE)上的测试时间和映射性能。如图3-11所示,曼哈顿哈希(MH)始终获得比单比特量化(SBQ)和双比特量化(DBQ)更高的精度。同时,由于曼哈顿哈希(MH)、于基于可变整数量化(VIQ)和可变码本量化(VCQ) 都是基于曼哈顿距离的量化方法,在这一部分中,将可变整数量化(VIQ)和可变码本量化(VCQ) 与曼哈顿哈希(MH)基线进行比较。从表1中,可以发现VCQ的表现一直优于基于可变整数量化(VIQ)。然而,为了加速搜索过程,提出了基于可变整数量化(VIQ)。表1显示,基于可变整数量化(VIQ)通常比曼哈顿哈希(MH)性能更好,耗时更少。在SIFT-10K、SIFT-1M、 CIFAR10和MNIST中,VIQ的精度提高分别比曼哈顿哈希(MH)提高了17.6%、4.1%和14.3%。然而,使用基于可变整数量化(VIQ)测试时间几乎是曼哈顿哈希(MH)测试时间的三分之一。
三种量化方法(曼哈顿哈希(MH)、基于可变整数量化(VIQ)和可变码本量化(VCQ))与三种投影方法(谱哈希(SH)、迭代量化(ITQ)和主成分分析哈希(PCAH))在5个数据集(SIFT-10K、SIFT-1M、CIFAR10、MNIST和NUS-WIDENCE)上的测试时间和映射性能如下表(表1)所示:表1
Figure BDA0002755717950000131
综上,本发明依赖于维数分析和最小方差算法来将投影维数分配到不同的组中。对于每个组,本发明提出了一个两步迭代算法来学习阈值和码本。在基于可变整数量化(VIQ)中,用整数量化每个投影维。在可变码本量化(VCQ)中,每个投影维都用码本量化。基于可变整数量化(VIQ)和可变码本量化(VCQ)都能较好地保持数据间的邻域结构。
实验结果表明,基于可变整数量化(VIQ)和可变码本量化(VCQ)算法可以持续地优于其他量化方法,即单比特量化(SBQ)、双比特量化(DBQ)和曼哈顿哈希(MH)。且在三种基于曼哈顿距离的量化方法(曼哈顿哈希、基于可变整数量化和可变码本量化)中,基于可变整数量化(VIQ)的近似最近邻(ANN)搜索效率更高。

Claims (10)

1.一种基于改进哈希学习算法的大规模数据检索方法,其特征在于,该检索方法包括以下步骤:
S1:获取数据;
S2:基于哈希学习算法,首先将数据映射到投影点,得到投影维数;
S3:分析每个投影维数的重要性,并将重要性定义为判别力,选取一个具有高分辨力的投影维数子集,并用最小方差算法将其分组;
S4:对于同一组中的投影维数,用两步迭代算法自适应地学习阈值,将它们划分成相同数目的区域;
S5:将上述S4得到的区域进行量化,再将每个区域替换为其代表点;
S6:计算两个量化哈希码之间的曼哈顿距离并按从小到大的顺序排序,完成搜索,输出搜索结果。
2.如权利要求1所述的大规模数据检索方法,其特征在于,所述S5,在量化步骤中,基于可变码本量化算法,每个区域都用其对应的码本值进行量化,将区分能力较大的组划分为更多的区域;或基于可变整数的量化算法中,用整数量化区域,将区分能力较大的组划分为更多的区域。
3.如权利要求1所述的大规模数据检索方法,其特征在于,所述S2具体为:对于数据库点xi∈Rd,首先将它映射到投影点ui∈Rk;令
Figure FDA0002755717940000011
为n维数据点,μ表示数据平均值,P∈Rd×k表示谱哈希、主成分分析哈希和迭代量化中学习的投影矩阵,对于任何xi∈X,计算第j投影维数:
uij=p′j(xi-μ) (1)
其中pj表示P的第j列,集中X的目的是确保每个投影维度上的偏差基于零。
4.如权利要求1所述的大规模数据检索方法,其特征在于,所述S3中:采用主成分分析的分析模型分析每个投影维数的重要性,并将重要性定义为判别力;令U={{uij}ni=1}kj=1∈Rn×k为投影矩阵,公式
Figure FDA0002755717940000012
为U的协方差矩阵,利用egi(S,k)函数计算协方差矩阵S的k个最大特征值L=diag(l11,l22,…,lkk)作为判别幂:L=eig(S,k)。
5.如权利要求4所述的大规模数据检索方法,其特征在于,所述S3中:所述最小方差算法是将投影维数分成几个组,同一组中的投影尺寸应尽可能相似,将其表述如下:
Figure FDA0002755717940000013
Figure FDA0002755717940000021
gr,mr∈N
Figure FDA0002755717940000022
其中R表示分组的个数,Gr表示第r个组,gr表示Gr中投影维数的个数,θr表示Gr中l的平均值;(3)应满足上述约束条件,其中mr表示Gr组嵌入的哈希比特数,k表示哈希比特总数,N表示自然数集合;
放松约束后,得到:
Figure 1
subject to:3g1+2g2+g3=k
g1,g2,g3∈N, (4)。
6.如权利要求5所述的大规模数据检索方法,其特征在于,所述S4中:对于上述Gr组中的每个投影维,将其嵌入mr个哈希比特,即用
Figure FDA0002755717940000024
个自适应学习阈值将其分成
Figure FDA0002755717940000025
个区域,提出以下目标函数来学习阈值和码本:
Figure FDA0002755717940000026
其中
Figure FDA0002755717940000027
Figure FDA0002755717940000028
分别代表Gr组的
Figure FDA0002755717940000029
个阈值和
Figure FDA00027557179400000210
个码本;
Re(f)表示第f区域的投影点集,并定义为
Figure FDA00027557179400000211
再采用两步迭代算法求解:首先通过随机抽样投影点来初始化t;然后,对于固定的t,更新c以最小化平方失真误差E:
Figure FDA00027557179400000212
其中D(*)表示投影尺寸的分布,用离散输入点近似;
Figure FDA00027557179400000213
表示学习码书的量化步骤;公式(7)的目标是使离散码本c尽可能符合u的分布,对于固定c,
Figure FDA00027557179400000214
由以下内容更新:
Figure FDA0002755717940000031
问题(5)通过固定c的t优化和反之亦然的替代方案来解决,如果相对失真小于10-7,优化将终止。
7.如权利要求2所述的大规模数据检索方法,其特征在于,所述S5量化步骤中:可变码本量化算法为:学习了一个标签(整数)向量
Figure FDA0002755717940000032
其中Z表示整数集:
Figure FDA0002755717940000033
使bij下降到
Figure FDA0002755717940000034
的目的是节省存储,因为bij只需要mr位;对于基于可变整数的量化(VIQ),bi是一个量化的整数向量;而对于可变码本量化,bi是一个标签向量。
8.如权利要求1所述的大规模数据检索方法,其特征在于,对于S1获得的数据经过投影和量化处理后,对于数据点qi∈Rd,以用于数据库点的投影矩阵P∈Rd×k的前g列将其映射到
Figure FDA0002755717940000035
其中
Figure FDA0002755717940000036
表示投影维数的总数;在基于可变整数的量化(VIQ)中,用一个整数向量
Figure FDA0002755717940000037
进一步量化vi
Figure FDA0002755717940000038
9.如权利要求8所述的大规模数据检索方法,其特征在于,所述S6:计算xi和qi之间的基于可变整数量化的曼哈顿距离:
Figure FDA0002755717940000039
或可变码本量化的曼哈顿距离:
Figure FDA00027557179400000310
10.权利要求1-9所述的大规模数据检索方法能够应用于图像数据搜索。
CN202011202256.2A 2020-11-02 2020-11-02 基于改进哈希学习算法的大规模数据检索方法 Pending CN112307225A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011202256.2A CN112307225A (zh) 2020-11-02 2020-11-02 基于改进哈希学习算法的大规模数据检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011202256.2A CN112307225A (zh) 2020-11-02 2020-11-02 基于改进哈希学习算法的大规模数据检索方法

Publications (1)

Publication Number Publication Date
CN112307225A true CN112307225A (zh) 2021-02-02

Family

ID=74333439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011202256.2A Pending CN112307225A (zh) 2020-11-02 2020-11-02 基于改进哈希学习算法的大规模数据检索方法

Country Status (1)

Country Link
CN (1) CN112307225A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535788A (zh) * 2021-07-12 2021-10-22 中国海洋大学 一种面向海洋环境数据的检索方法、系统、设备及介质
CN115658307A (zh) * 2022-10-26 2023-01-31 中国人民大学 一种基于压缩数据直接计算的智能负载处理方法和系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899326A (zh) * 2015-06-19 2015-09-09 四川大学 一种基于二进制多索引哈希技术的图像检索方法
CN105512273A (zh) * 2015-12-03 2016-04-20 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN106777038A (zh) * 2016-12-09 2017-05-31 厦门大学 一种基于序列保留哈希的超低复杂度图像检索方法
CN108681721A (zh) * 2018-05-22 2018-10-19 山东师范大学 基于图像分割二维双向数据线性相关组合的人脸识别方法
CN109697474A (zh) * 2018-12-30 2019-04-30 陕西师范大学 基于迭代贝叶斯的合成孔径雷达影像变化检测方法
CN109815440A (zh) * 2019-01-16 2019-05-28 江西师范大学 联合图优化和投影学习的维数约简方法
CN110990596A (zh) * 2019-12-04 2020-04-10 山东师范大学 一种基于自适应量化多模态哈希检索方法及系统
CN111461157A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于自学习的跨模态哈希检索方法
CN111460077A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于类语义引导的跨模态哈希检索方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899326A (zh) * 2015-06-19 2015-09-09 四川大学 一种基于二进制多索引哈希技术的图像检索方法
CN105512273A (zh) * 2015-12-03 2016-04-20 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN106777038A (zh) * 2016-12-09 2017-05-31 厦门大学 一种基于序列保留哈希的超低复杂度图像检索方法
CN108681721A (zh) * 2018-05-22 2018-10-19 山东师范大学 基于图像分割二维双向数据线性相关组合的人脸识别方法
CN109697474A (zh) * 2018-12-30 2019-04-30 陕西师范大学 基于迭代贝叶斯的合成孔径雷达影像变化检测方法
CN109815440A (zh) * 2019-01-16 2019-05-28 江西师范大学 联合图优化和投影学习的维数约简方法
CN111461157A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于自学习的跨模态哈希检索方法
CN111460077A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于类语义引导的跨模态哈希检索方法
CN110990596A (zh) * 2019-12-04 2020-04-10 山东师范大学 一种基于自适应量化多模态哈希检索方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WENRUI ZHOU, YUAN CAO,ETC: ""An Effective Network Intrusion Detection Framework Based on Learning to Hash "", 《2019 IEEE INTERNATIONAL CONFERENCE ON SMART INTERNET OF THINGS》 *
费伦科 等: ""近似最近邻大数据检索哈希散列方法综述"", 《广东工业大学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535788A (zh) * 2021-07-12 2021-10-22 中国海洋大学 一种面向海洋环境数据的检索方法、系统、设备及介质
CN113535788B (zh) * 2021-07-12 2024-03-05 中国海洋大学 一种面向海洋环境数据的检索方法、系统、设备及介质
CN115658307A (zh) * 2022-10-26 2023-01-31 中国人民大学 一种基于压缩数据直接计算的智能负载处理方法和系统
CN115658307B (zh) * 2022-10-26 2023-04-18 中国人民大学 一种基于压缩数据直接计算的智能负载处理方法和系统

Similar Documents

Publication Publication Date Title
Lu et al. Latent semantic minimal hashing for image retrieval
Norouzi et al. Minimal loss hashing for compact binary codes
Wang et al. Hashing for similarity search: A survey
Kong et al. Double-bit quantization for hashing
Wang et al. Semi-supervised hashing for scalable image retrieval
Wang et al. Order preserving hashing for approximate nearest neighbor search
Kong et al. Manhattan hashing for large-scale image retrieval
Moosmann et al. Randomized clustering forests for image classification
Wu et al. Semi-supervised nonlinear hashing using bootstrap sequential projection learning
Ge et al. Graph cuts for supervised binary coding
US8428397B1 (en) Systems and methods for large scale, high-dimensional searches
Avrithis et al. Approximate gaussian mixtures for large scale vocabularies
Hu et al. Pseudo label based unsupervised deep discriminative hashing for image retrieval
Yang et al. Dynamic match kernel with deep convolutional features for image retrieval
Huang et al. Object-location-aware hashing for multi-label image retrieval via automatic mask learning
Song et al. Deep memory network for cross-modal retrieval
Passalis et al. Learning neural bag-of-features for large-scale image retrieval
CN112307225A (zh) 基于改进哈希学习算法的大规模数据检索方法
Cao et al. Learning to match images in large-scale collections
Zhang et al. Autoencoder-based unsupervised clustering and hashing
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
Liu et al. Online optimized product quantization
CN112241475B (zh) 基于维度分析量化器哈希学习的数据检索方法
Cao et al. Hash learning with variable quantization for large-scale retrieval
Duan et al. Minimizing reconstruction bias hashing via joint projection learning and quantization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210202