CN104616012B - 获取紧凑全局特征描述子的方法 - Google Patents

获取紧凑全局特征描述子的方法 Download PDF

Info

Publication number
CN104616012B
CN104616012B CN201410182901.7A CN201410182901A CN104616012B CN 104616012 B CN104616012 B CN 104616012B CN 201410182901 A CN201410182901 A CN 201410182901A CN 104616012 B CN104616012 B CN 104616012B
Authority
CN
China
Prior art keywords
bit
global characteristics
binaryzation
description
gradient vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410182901.7A
Other languages
English (en)
Other versions
CN104616012A (zh
Inventor
段凌宇
林杰
王哲
杨爽
陈杰
黄铁军
高文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201410182901.7A priority Critical patent/CN104616012B/zh
Publication of CN104616012A publication Critical patent/CN104616012A/zh
Application granted granted Critical
Publication of CN104616012B publication Critical patent/CN104616012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种获取紧凑全局特征描述子的方法,其中,所述方法包括:获取待处理图像的可伸缩全局特征描述子;根据所述可伸缩全局特征描述子中每一维度上的数值,对所述可伸缩全局特征描述子进行二值化处理,得到包括比特的二值化后的可伸缩全局特征描述子;根据预设的比特选择表,从包括比特的二值化后的可伸缩全局特征描述子中选择若干个比特,将选择的若干个比特组成紧凑全局特征描述子。上述方法能够将可伸缩全局特征描述子压缩成长度很小检索性能很优的紧凑全局特征描述子,相比现有技术中的全局特征描述子压缩技术,时间复杂度更低,内存占用量更少。

Description

获取紧凑全局特征描述子的方法
技术领域
本发明涉及计算技术,尤其涉及一种获取紧凑全局特征描述子的方法。
背景技术
在图像检索领域,业内人士通过将图像的局部特征描述子聚合成全局特征描述子,进而实现图像的检索。当前,Fisher Vector(简称FV向量)为一种全局特征描述子,且Fisher Vector在图像检索和分类中都获得了比较好的性能。
在图像检索过程中,为了降低全局特征描述子的存储复杂度,以及传输过程中的带宽延迟,需要采用码表将全局特征描述子压缩。现有技术中对全局特征描述子压缩的方法包括:使用乘积量化将全局特征描述子分成多个不重叠的子向量,根据码表将每个子向量量化成一个标识符。
然而,上述压缩方法需要预先训练好的码表,码表会占用较大的存储空间,使内存有限的移动设备难以承受。
另一方面,为将全局特征描述子压缩到较小的长度,量化的质量会受到影响,使全局特征描述子的表达能力降低,从而影响检索的性能。
发明内容
为解决现有技术中的缺陷,本发明提供一种获取紧凑全局特征描述子的方法,用于将现有技术中全局特征描述子压缩到较小的长度,且提高了紧凑全局特征描述子的表达能力。
本发明提供一种获取紧凑全局特征描述子的方法,包括:
获取待处理图像的可伸缩全局特征描述子;
根据所述可伸缩全局特征描述子中每一维度上的数值,对所述可伸缩全局特征描述子进行二值化处理,得到包括比特的二值化后的可伸缩全局特征描述子;
根据预设的比特选择表,从包括比特的二值化后的可伸缩全局特征描述子中选择若干个比特,将选择的若干个比特依次连接得到紧凑全局特征描述子。
可选地,所述根据所述可伸缩全局特征描述子中每一维度上的数值,所述可伸缩全局特征描述子进行二值化处理,得到包括比特的二值化后的可伸缩全局特征描述子,包括:
若所述可伸缩全局特征描述子中一维度上的数值为正数,则该维度对应的比特的值为1;
若所述可伸缩全局特征描述子中一维度上的数值为负数或0,则该维度对应的比特的值为0。
可选地,所述获取待处理图像的可伸缩全局特征描述子,包括:
获取待处理图像的局部特征描述子,并对所述局部特征描述子进行降维;
根据高斯混合模型,对降维后的局部特征描述子进行聚合,获取所述图像的一个全局特征描述子;
根据预设规则,对所述全局特征描述子进行处理,获取所述待处理图像的可伸缩全局特征描述子;
其中,所述可伸缩全局特征描述子的字节大小根据所述预设规则中参数值的变化而变化。
可选地,根据预设规则,对所述全局特征描述子进行处理,获取所述待处理图像的可伸缩全局特征描述子,包括:
根据高斯混合模型中每个高斯密度函数对应的第一累积梯度向量的所有维度数值的标准差,对所有高斯密度函数按照所述标准差由大到小的顺序排序,选取排序中排在前面的若干个高斯密度函数,并将选取的高斯密度函数对应的第一累积梯度向量和/或第二累积梯度向量依次首尾相连得到可伸缩全局特征描述子;
其中,所述高斯混合模型通过M个独立的高斯密度函数线性叠加得到的,所述M等于512;
所述第一累积梯度向量是所述待处理图像的对数似然函数对所述高斯密度函数对应的均值求一阶偏导得到的;
所述第二累积梯度向量是所述待处理图像的对数似然函数对所述高斯密度函数对应的方差求一阶偏导得到的。
可选地,所述可伸缩全局特征描述子包括:选取的高斯密度函数对应的第一累积梯度向量和/或第二累积梯度向量;
所述根据所述可伸缩全局特征描述子中每一维度上的数值,对所述可伸缩全局特征描述子进行二值化处理,得到包括比特的二值化后的可伸缩全局特征描述子,包括:
对所述选取的高斯密度函数对应的第一累积梯度向量和/或第二累积梯度向量进行二值化,得到包括比特的二值化后的第一累积梯度向量和/或第二累积梯度向量;
将包括比特的二值化后的所述第一累积梯度向量和/或第二累积梯度向量首尾依次相连得到包括比特的二值化后的可伸缩全局特征描述子。
可选地,对所述选取的高斯密度函数对应的第一累积梯度向量和/或第二累积梯度向量进行二值化,包括:
若所述第一累积梯度向量的一维度的数值为正数,则该维度对应的比特的值为1;
若所述第一累积梯度向量的一维度的数值为负数或0,则该维度对应的比特的值为0;
若所述第二累积梯度向量的一维度的数值为正数,则该维度对应的比特的值为1;
若所述第二累积梯度向量的一维度的数值为负数或0,则该维度对应的比特的值为0。
可选地,所述根据预设的比特选择表,从包括比特的二值化后的可伸缩全局特征描述子中选择若干个比特,将选择的若干个比特依次相连得到紧凑全局特征描述子,包括:
根据预设的比特选择表,从包括比特的二值化后的所述第一累积梯度向量中选择部分比特,将选择的部分比特依次相连得到紧凑全局特征描述子。
其中,包括比特的二值化后的第一累积梯度向量为32维,包括比特的二值化后的第二累积梯度向量为32维。
可选地,所述预设的比特选择表的获取方式包括:
训练预设的图像数据集,得到每一高斯密度函数对应的第一累积梯度向量,对所有的第一累积梯度向量进行二值化处理,得到每一高斯密度函数对应的,包括比特的二值化后的第一累积梯度向量;
采用统计方式计算每一高斯密度函数对应的包括比特的二值化后的第一累积梯度向量中每一比特的重要性,选择重要性大的若干比特,根据选择的若干比特对应的比特位设置比特选择表对应位的值;
每一高斯密度函数对应一个比特选择表;
将所有高斯密度函数对应的比特选择表转换为对应的整数。
可选地,所述根据预设的比特选择表,从包括比特的二值化后的所述第一累积梯度向量中选择部分比特,将选择的部分比特依次连接得到紧凑全局特征描述子,包括:
若所述整数的二进制表达的第j位为1,则选择所述高斯密度函数的第j个比特;若所述整数对应的二进制表达的第j位为0,则不选择所述高斯密度函数的第j个比特;其中,j为1至32之间的自然数;
所述高斯密度函数的第j个比特为,所述高斯密度函数对应的包括比特的二值化后的第一累积梯度向量中的第j个比特。
可选地,所述待处理图像的视觉特征描述子由紧凑全局特征描述子、紧凑局部特征描述子和每一紧凑局部特征描述子对应待处理图像的位置信息构成;
若所述待处理图像的视觉特征描述子长度范围在462字节和562字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量依次首尾相连得到;并根据比特选择表,分别从所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量中选择24个比特,构成紧凑全局特征描述子;
若所述待处理图像的视觉特征描述子长度范围在924字节和1124字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量依次首尾相连得到,所述二值化后的可伸缩全局特征描述子构成紧凑全局特征描述子;
若所述待处理图像的视觉特征描述子长度范围在1848字节和2248字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量依次首尾相连得到,所述二值化后的可伸缩全局特征描述子构成紧凑全局特征描述子;
若所述待处理图像的视觉特征描述子长度范围在3696字节和4496字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量和包括比特的二值化后的第二累积梯度向量依次首尾相连得到,所述二值化后的可伸缩全局特征描述子构成紧凑全局特征描述子;
若所述待处理图像的视觉特征描述子长度范围在7392字节和8992字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量和包括比特的二值化后的第二累积梯度向量依次首尾相连得到,所述二值化后的可伸缩全局特征描述子构成紧凑全局特征描述子;
若所述待处理图像的视觉特征描述子长度范围在14784字节和17984字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量和包括比特的二值化后的第二累积梯度向量依次首尾相连得到,所述二值化后的可伸缩全局特征描述子构成紧凑全局特征描述子。
由上述技术方案可知,本发明的获取紧凑全局特征描述子的方法,通过对可伸缩全局特征描述子中每一维度上的数值进行二值化,得到包括比特的二值化后的可伸缩全局特征描述子。根据预设的比特选择表,从包括比特的二值化后的可伸缩全局特征描述子中选取若干个比特,进而选择的若干个比如组成紧凑全局特征描述子,进而将可伸缩全局特征描述子压缩成长度很小的紧凑全局特征描述子,提高了紧凑全局特征描述子的表达能力;进一步地,上述压缩过程不依赖于任何额外的码表和数据,进而可大大降低现有技术压缩过程中的时间复杂度和内存占用量。
附图说明
图1为本发明一实施例提供的获取紧凑全局特征描述子的方法的流程示意图;
图2为本发明一实施例提供的梯度方向直方图向量的示意图。
具体实施方式
图1示出了本发明一实施例提供的获取紧凑全局特征描述子的方法的流程示意图,如图1所示,本实施例的全局特征描述子的聚合方法如下所示。
101、获取待处理图像的可伸缩全局特征描述子;
举例来说,步骤101可包括下述的图中未示出的子步骤。
1011、获取待处理图像的局部特征描述子,并对所述局部特征描述子进行降维;
1012、根据高斯混合模型,对降维后的局部特征描述子进行聚合,获取所述图像的一个全局特征描述子;
1013、根据预设规则,对所述全局特征描述子进行处理,获取所述待处理图像的可伸缩全局特征描述子;
可理解的是,所述可伸缩全局特征描述子的字节大小根据所述预设规则中参数值的变化而变化。
例如,根据高斯混合模型中每个高斯密度函数对应的第一累积梯度向量的所有维度数值的标准差,对所有高斯密度函数按照所述标准差由大到小的顺序排序,选取排序中排在前面的若干个高斯密度函数,并将选取的高斯密度函数对应的第一累积梯度向量和/或第二累积梯度向量依次首尾相连得到可伸缩全局特征描述子;
上述的第一累积梯度向量是所述待处理图像的对数似然函数对与所述高斯密度函数对应的均值求一阶偏导得到的。
上述第二累积梯度向量是所述待处理图像的对数似然函数对所述高斯密度函数对应的方差求一阶偏导得到的。
所述高斯混合模型通过M个独立的高斯密度函数线性叠加得到的,所述M等于512。
特别地,第一累积梯度向量为,
第二累积梯度向量为,
第i个高斯密度函数对应的第一累积梯度向量的所有维度的数值的标准差为:
其中,λ为高斯混合模型的参数集合,i=1...M,M=512。ωi为第i个高斯分量的混合权重,μi为第i个高斯分量的均值向量,σi为第i个高斯分量的方差向量,为在第i个高斯分量产生第t个降维后的局部特征描述子xt的概率。X为包含N个所述降维后的局部特征描述子的集合用于表示待处理图像,即X={xt,t=1...N},xt为第t个降维后的局部特征描述子,维度为d,N为局部特征描述子的个数。本实施例中,N=300,d=32。L(X|λ)表示待处理图像的对数似然函数,如式(1)所示,
为高斯混合模型的似然函数,pi(xt|λ)为第i个高斯分量的概率密度函数。
高斯混合模型包括512个高斯密度函数,每一高斯密度函数对应的第一累积梯度向量的维度为32维,每一高斯密度函数对应的第二累积梯度向量的维度为32维。
102、根据所述可伸缩全局特征描述子中每一维度上的数值,对所述可伸缩全局特征描述子进行二值化处理,得到包括比特的二值化后的可伸缩全局特征描述子;
具体来说,所述可伸缩全局特征描述子中每一维度上的数值均由一个浮点型实数表达。
若所述可伸缩全局特征描述子中一维度上的数值为正数,则该维度对应的比特的值为1;若所述可伸缩全局特征描述子中一维度上的数值为负数或0,则该维度对应的比特的值为0。
由于前述101步骤中举例说明的可伸缩全局特征描述子可由选取的高斯密度函数对应的第一累积梯度向量组成。由此,对所述可伸缩全局特征描述子进行二值化处理可为对所述选取的高斯密度函数对应的第一累积梯度向量和/或第二累积梯度向量进行二值化,具体地:
此外,上述步骤102可包括下述的图中未示出的子步骤:
1021、对所述选取的高斯密度函数对应的第一累积梯度向量和/或第二累积梯度向量进行二值化处理,得到包括比特的二值化后的第一累积梯度向量和/或第二累积梯度向量。
若所述第一累积梯度向量和/或第二累积梯度向量的一维度的数值为正数,则该维度对应的比特为1;若所述第一累积梯度向量和/或第二累积梯度向量的一维度的数值为负数或0,则该维度对应的比特为0。
通常,第一累积梯度向量和/或第二累积梯度向量的一个维度上有一个数值。
1022、将包括比特的二值化后的所述第一累积梯度向量和/或第二累积梯度向量首尾依次相连得到包括比特的二值化后的可伸缩全局特征描述子。
103、根据预设的比特选择表,从包括比特的二值化后的可伸缩全局特征描述子中选择若干个比特,将选择的若干个比特依次连接得到紧凑全局特征描述子。
例如,可根据预设的比特选择表,从包括比特的二值化后的所述第一累积梯度向量中选择部分比特,将选择的部分比特依次相连得到紧凑全局特征描述子。其中,包括比特的二值化后的第一累积梯度向量为32维,包括比特的二值化后的第二累积梯度向量为32维。
在本实施例中,上述的一个比特选择表可对应一个整数。例如,在具体应用中,可将上述整数存储在移动终端,或者客户端中,方便在获取紧凑全局特征描述子的时候使用。
当前,上述整数的二进制表达中的一个“位”称为一个比特,每个比特的取值为0或者1。
由于高斯混合模型包括512个高斯密度函数,且每个高斯密度函数对应的第一累积梯度向量的维度为32。相应地,二值化后的第一累积梯度向量包含32个比特。
由于每个高斯函数对应一个比特选择表,且每个比特选择表用一个整数表示:
若所述整数的二进制表达的第j位为1,则选择所述高斯密度函数的第j个比特;
若所述整数的二进制表达的第j位为0,则不选择所述高斯密度函数的第j个比特;其中,j为1至32之间的自然数;
本实施例的获取紧凑全局特征描述子的方法,通过对可伸缩全局特征描述子中每一维度上的数值进行二值化,得到包括比特的二值化后的可伸缩全局特征描述子。根据预设的比特选择表,从包括比特的二值化后的可伸缩全局特征描述子中选取若干个比特,进而选择的若干个比如组成紧凑全局特征描述子,进而将可伸缩全局特征描述子压缩成长度很小的紧凑全局特征描述子。以上压缩过程不依赖于任何额外的码表和数据,进而可大大降低现有技术压缩过程中的时间复杂度和内存占用量。
举例来说,前述步骤101中获取待处理图像局部特征描述子的方式如下所述。
第一步:将待处理图像I与一组高斯滤波器卷积得到图像I在高斯尺度空间中不同尺度下的高斯模糊图像;
其中σ为高斯的标准差,表达所述高斯尺度空间中每一高斯模糊图像对应的尺度。σ以2的指数幂取值,第k个尺度为σk,且k=0,...,K其中σ0为初始尺度,取值为1.6,K表示对尺度空间采样的层数,即所述高斯滤波器的个数。那么,第k个高斯模糊图像为Ik,对应的尺度为σk,且Ik=I*g(σk),k=0,...,K。
第二步:在所述高斯尺度空间中,每一所述高斯模糊图像再与尺度规范化的拉普拉斯滤波器卷积得到高斯拉普拉斯尺度空间响应其中为拉普拉斯算子。
第三步:在所述高斯拉普拉斯尺度空间中,获取局部极大值或极小值点作为候选的兴趣点。所述兴趣点包括三个属性,即所述兴趣点在对应的高斯模糊图像中的位置坐标x,y和对应的尺度σk
第四步:对所述兴趣点,获取其对应的相同尺度的高斯模糊图像Ik上以x,y为中心,以mσ为半径的圆形区域,其中m=3.96。然后,对所述圆形区域内的像素,按以下公式计算其每个像素的梯度,包括梯度模长和梯度方向
将所述圆形区域内的每个像素的梯度方向按最近距离规则量化到圆周36等分的方向上。每个方向以梯度模长为权重做加权累计,得到一个36维的梯度方向直方图。
第五步:选取直方图中累计最大的方向作为该兴趣点的主方向θ。同时,如果有其他方向的累计值超过主方向累计值的80%,复制扩展该兴趣点为一个新的兴趣点,并用该方向作为新兴趣点的主方向。
可选地,对于所述兴趣点,按照其位置x,y,尺度σ,方向θ等属性进行重要性排序,筛选出所需要的点数M供后续的全局特征计算。
此外,对于检测到的所述兴趣点,获取的相同尺度的高斯模糊图像Ik上以x,y为中心,且坐标系旋转至与主方向θ对齐,以3σ为半径的正方形区域。然后,将所述正方形区域均匀地划分成4*4的图像块,对所述图像块中的每个像素求梯度后,将梯度方向量化到圆周8等分的方向上并计算梯度方向直方图,其累计过程采用三线性插值的方式,然后按照从左到右、从上到下的顺序拼接每个图像块的梯度方向直方图对应的8维的向量,如图2所示,获得4*4*8=128的梯度方向直方图向量。
对产生的128维梯度方向直方图向量进行一次L2归一化。然后,对每一维度进行截断操作,即对每一维度的值,如果大于0.2,则截断取值为0.2。接着,再对截断后的向量进行一次L2归一化。最终产生前述步骤101中所述的局部特征描述子。
若梯度向量直方图向量为h,hi为h第i个维度的数值,i=0,...,127,所述L2归一化的具体形式为:h′i为h经过L2归一化后第i个维度的数值。
可选地,获取待处理图像的一个或多个局部特征描述子可以在上述局部特征描述子的获取方式的基础上进行特征选择等处理,选择一幅图像对应的全部局部特征描述子的一个或多个。
另外,本实施例中对获取前述步骤103中的比特选择表进行如下的详细说明。
A01、训练预设的图像数据集,得到每一高斯密度函数对应的第一累积梯度向量,对所有的第一累积梯度向量进行二值化处理,得到每一高斯密度函数对应的,包括比特的二值化后的第一累积梯度向量。
A02、采用统计方式计算每一高斯密度函数对应的包括比特的二值化后的第一累积梯度向量中每一比特的重要性,选择重要性大的若干比特,根据选择的若干比特对应的比特位设置比特选择表对应位的值;
每一高斯密度函数对应一个比特选择表。
将所有高斯密度函数对应的比特选择表转换为对应的整数。
应说明的是,图像数据集并不包含上述的待处理图像,而且在训练的时候不需要对二值化后的第一累积梯度向量做特征选择,而是根据这些二值化的第一累积梯度向量来估计哪些比特更加重要,前述与比特选择表记录了这些更加重要的比特的位置,即比特位。
当对待处理图像进行比特选择的时候就根据比特选择表中记录的重要的比特位,只选择这些比特位对应的比特来组成最终的紧凑全局特征描述子。
其中,比特选择表对应的整数的二进制表达的第j位为1,则选择所述高斯密度函数的第j个比特;
若所述整数对应的二进制表达的第j位为0,则不选择所述高斯密度函数的第j个比特;其中,j为1至32之间的自然数;
高斯密度函数的第j个比特为:高斯密度函数对应的包括比特的二值化后的第一累积梯度向量中的第j个比特。
举例来说,高斯混合模型包括512个高斯密度函数,例如,所述高斯混合模型通过512个独立的高斯密度函数线性叠加得到的,且高斯混合模型包括每一高斯密度函数对应的权重、均值和方差。
因此,包含512个高斯密度函数且生成的第一累积梯度向量的维度均为32的高斯混合模型,对应了512个比特选择表,每个比特选择表对应了1个整数,512个比特选择表的十进制表示如下表一所示,每个所述高斯密度函数对应的比特选择表按照从左到右从上到下的顺序依次写入下表一,下表一中第一行的第一个数值为第一个高斯密度函数对应的比特选择表的十进制表示:
表一:
2122311871 16777215 4257996773 4127059832 4286552254 4193107438 4227836881 3865574903 1572600826 1572600811
16777215 2109439862 4283276798 3890476527 233504767 16777215 267090943 1996356473 1778216951 16777215
3622993375 2143184886 670564301 3758010855 16777215 4085232630 2667560853 1002176435 3204148127 3053188943
1575092222 1627381758 4294622659 1610349993 1609984767 16777215 3623874106 3753115449 4001085887 4159393726
4151246769 16777215 4137597947 4122992302 1912568571 4159566326 4221435356 2013163422 16777215 3686788730
4117733369 4018125035 16777215 4292278076 2952461045 3986292702 3154095015 3882867191 4160745264 2000625631
1987313654 3351236223 4277058989 4224958329 803725182 4152261839 2109341111 3992698285 16777215 2113718207
3153907453 16777215 4244533209 16777215 4018073389 1610497532 2935356735 800717695 4284348340 3120029415
3212695931 4018077241 3186587471 1778315167 2145779374 2009071401 16777215 2080368498 4215797471 3754819529
4139695486 4139687295 2142174170 3686685567 3085171959 4290539500 4292865126 4151852543 4227724776 3656907935
4273454270 4256102268 3623550918 3018670063 3208494013 4252434289 1509391615 4294307478 4126665657 4293740510
3589257855 4149950975 3086413749 4150098367 3183343391 4276989938 4275686655 2940180471 2145899991 1606277879
3120524215 4076412927 3489394294 3956209627 2002182079 1866186717 16777215 4150767610 4294540179 4218911470
3119771629 16777215 2004810459 4290689401 3891654558 3791585167 4255897559 3216826285 16777215 4017684315
3606309823 1568645109 16777215 4244438745 4192993264 2404896767 4017184735 16777215 1541136349 3687841768
2012478961 4143447747 3707272191 2109370335 257945087 4283822783 3751274471 1570766205 3832938479 4150227454
2076048888 4240112255 4227770861 4243307959 3623509886 2083520478 1006599635 4022267543 2013050843 3953128444
2010120106 3414011901 4204788686 2985816030 2146391989 1275060171 4219074013 3678403255 4291346425 3693084383
2147433082 2147433082 4236173298 4234076150 4057841534 2113892185 1526628317 2108669309 1971240953 4024729594
4022632446 4147637756 1333721583 3758090706 4293053311 4160420594 1844311967 1937681407 2009005647 4269726078
2683300331 2682776047 16777215 2105523946 4283923429 2071985370 3716086741 4188003039 2012557055 4159617963
4236148214 4159617966 16777215 3185377020 4017863503 4177346463 4046712831 4294686072 4022024055 1068466161
1744566654 4252498748 3757436844 3519016894 4281806333 16777215 3871211319 3204422375 4242003901 16777215
3755535999 4261142118 3723181054 2012831471 4009715359 4270782395 4293578744 2070408895 16777215 3180067837
1979022333 3220815055 1710489085 1874766783 4019117051 2097012157 4022331002 4135449531 16777215 4281785598
1876670458 4139728343 4294895385 2121203389 3984416623 3874468607 1308540894 4257193898 3053124511 2145218815
3216764718 4159418077 4235982329 3086417607 1609498317 2943672063 2126298943 2135949228 2111765927 3688315899
4202655722 4256103087 4089406207 3923640263 3801612255 2128051671 4294952177 2066415551 1929361383 4268225467
4025609205 4151226095 3217815375 4125835167 2614951899 3086479739 4089166589 3889889257 4160052211 4259049301
4218403259 3608673983 4289609705 4204788411 3606836155 16777215 3890863095 3556113909 2074078683 3604985783
4294868369 3051847631 16777215 4273364847 4226875125 1875869150 4082875327 1609531331 1592761854 16777215
16777215 2012200757 4290178969 3034315711 2113925562 4160634612 4152012782 4122966957 2897936255 3681809917
2012478077 3207036917 16777215 16777215 4026129894 4275691437 4277435103 1874694079 1006354031 3214405590
16777215 4286524666 2139094070 3921508335 4124830175 4149210876 2004343293 134151671 1860161275 3740466430
4093603068 4160420089 1811893245 4259086111 4093551607 3892162538 4211077603 1878556155 938950526 3975925726
4293775251 3209035261 4152342749 3261071327 16777215 3216923901 16777215 16777215 16777215 2046787343
16777215 3489650571 4160319226 3355307869 4261002613 3134160892 16777215 4218085303 2683006717 3874946803
1458830271 4210489981 4260150205 3891162877 2146692081 3648225278 2088746359 4220517293 3874154495 4194275051
1476124619 3752574906 4261293562 4290505976 4260311020 4166778873 4093222527 2011034351 4293338619 4289444286
4122475319 3209625019 4017545131 4158879229 3068985271 2004286271 2020343805 4258757500 2046033278 1786609151
4135170046 4093275643 3889119213 3887840063 4068421623 4017208703 2077187838 1001914291 3086740845 4101889533
16777215 1592623037 3086985103 1873799147 2541485534 16777215 3849846383 3989499391 16777215 3988123613
3892116667 3074161598 501743295 4291653110 2037904351 4260351263 3212733918 2137407423 3892180334 1973268479
502267875 16777215 3609198503 4120764379 1338732543 4021795646 16777215 16777215 3221199691 16777215
4110411389 2681864150 3472490110 3219117692 4159846395 4260806349 16777215 2147459833 2952179198 16777215
3891261021 4125866971 3588996063 16777215 16777215 16777215 4126635390 4088916463 4286445741 4277991130
1944551291 4059807612 4101987325 1995955931 4294953749 1031732957 16777215 3959323563 1971305917 2113338105
4009448951 4210768799 3015655327 1878965733 3078405886 4087610877 4253005262 3313497981 4252612463 16777215
2012985301 1996127983 4157404863 4259215259 4009651615 3598696295 4248551230 4122802655 4160191834 4151268335
16777215 4022841295 3883269107 1912045279 1071333341 2122039243 3698950141 4058967991 4222025175 4261268909
1876818619 1941782495 4159466975 2059374559 4227847356 3621608415 494922735 2012865023 4152291188 2112864089
4289908475 4026235198
举例来说,在具体应用过程中,若所述待处理图像的视觉特征描述子长度范围在462字节和562字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量依次首尾相连得到;并根据比特选择表,分别从所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量中选择24个比特,构成紧凑全局特征描述子;
若所述待处理图像的视觉特征描述子长度范围在924字节和1124字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量依次首尾相连得到,所述二值化后的可伸缩全局特征描述子构成紧凑全局特征描述子;
若所述待处理图像的视觉特征描述子长度范围在1848字节和2248字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量依次首尾相连得到,所述二值化后的可伸缩全局特征描述子构成紧凑全局特征描述子;
若所述待处理图像的视觉特征描述子长度范围在3696字节和4496字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量和包括比特的二值化后的第二累积梯度向量依次首尾相连得到,所述二值化后的可伸缩全局特征描述子构成紧凑全局特征描述子;
若所述待处理图像的视觉特征描述子长度范围在7392字节和8992字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量和包括比特的二值化后的第二累积梯度向量依次首尾相连得到,所述二值化后的可伸缩全局特征描述子构成紧凑全局特征描述子;
若所述待处理图像的视觉特征描述子长度范围在14784字节和17984字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量和包括比特的二值化后的第二累积梯度向量依次首尾相连得到,所述二值化后的可伸缩全局特征描述子构成紧凑全局特征描述子;
其中,所述待处理图像的视觉特征由紧凑全局特征描述子、紧凑局部特征描述子和每一紧凑局部特征描述子对应待处理图像的位置信息构成。
若全局特征描述子占用的空间为LG,每一局部特征描述子占用的空间为Ll,t,t=1,...,N,每一局部特征描述子的位置所占的空间为Lc,t,t=1,...,N,其中N为图像中局部特征描述子的个数,则图像视觉描述子的长度
本实施例的获取紧凑全局特征描述子的方法,通过对可伸缩全局特征描述子中每一维度上的数值进行二值化,得到包括比特的二值化后的可伸缩全局特征描述子。根据预设的比特选择表,从包括比特的二值化后的可伸缩全局特征描述子中选取若干个比特,进而选择的若干个比如组成紧凑全局特征描述子,进而将可伸缩全局特征描述子压缩成长度很小的紧凑全局特征描述子,提高了紧凑全局特征描述子的表达能力;进一步地,上述压缩过程不依赖于任何额外的码表和数据,进而可大大降低现有技术压缩过程中的时间复杂度和内存占用量。
上述方法可在任意移动设备上实现,也可在服务器上实现,本实施例不限定其应用在那一终端/设备上。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种获取紧凑全局特征描述子的方法,其特征在于,包括:
获取待处理图像的可伸缩全局特征描述子;
根据所述可伸缩全局特征描述子中每一维度上的数值,对所述可伸缩全局特征描述子进行二值化处理,得到包括比特的二值化后的可伸缩全局特征描述子;
根据预设的比特选择表,从包括比特的二值化后的可伸缩全局特征描述子中选择若干个比特,将选择的若干个比特依次连接得到紧凑全局特征描述子;
所述预设的比特选择表的获取方式包括:
训练预设的图像数据集,得到每一高斯密度函数对应的第一累积梯度向量,对所有的第一累积梯度向量进行二值化处理,得到每一高斯密度函数对应的,包括比特的二值化后的第一累积梯度向量;
采用统计方式计算每一高斯密度函数对应的包括比特的二值化后的第一累积梯度向量中每一比特的重要性,选择重要性大的若干比特,根据选择的若干比特对应的比特位设置比特选择表对应位的值;
每一高斯密度函数对应一个比特选择表;
将所有高斯密度函数对应的比特选择表转换为对应的整数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述可伸缩全局特征描述子中每一维度上的数值,所述可伸缩全局特征描述子进行二值化处理,得到包括比特的二值化后的可伸缩全局特征描述子,包括:
若所述可伸缩全局特征描述子中一维度上的数值为正数,则该维度对应的比特的值为1;
若所述可伸缩全局特征描述子中一维度上的数值为负数或0,则该维度对应的比特的值为0。
3.根据权利要求1所述的方法,其特征在于,所述获取待处理图像的可伸缩全局特征描述子,包括:
获取待处理图像的局部特征描述子,并对所述局部特征描述子进行降维;
根据高斯混合模型,对降维后的局部特征描述子进行聚合,获取所述图像的一个全局特征描述子;
根据预设规则,对所述全局特征描述子进行处理,获取所述待处理图像的可伸缩全局特征描述子;
其中,所述可伸缩全局特征描述子的字节大小根据所述预设规则中参数值的变化而变化。
4.根据权利要求3所述的方法,其特征在于,根据预设规则,对所述全局特征描述子进行处理,获取所述待处理图像的可伸缩全局特征描述子,包括:
根据高斯混合模型中每个高斯密度函数对应的第一累积梯度向量的所有维度数值的标准差,对所有高斯密度函数按照所述标准差由大到小的顺序排序,选取排序中排在前面的若干个高斯密度函数,并将选取的高斯密度函数对应的第一累积梯度向量和/或第二累积梯度向量依次首尾相连得到可伸缩全局特征描述子;
其中,所述高斯混合模型通过M个独立的高斯密度函数线性叠加得到的,所述M等于512;
所述第一累积梯度向量是所述待处理图像的对数似然函数对所述高斯密度函数对应的均值求一阶偏导得到的;
所述第二累积梯度向量是所述待处理图像的对数似然函数对所述高斯密度函数对应的方差求一阶偏导得到的。
5.根据权利要求4所述的方法,其特征在于,所述可伸缩全局特征描述子包括:选取的高斯密度函数对应的第一累积梯度向量和/或第二累积梯度向量;
所述根据所述可伸缩全局特征描述子中每一维度上的数值,对所述可伸缩全局特征描述子进行二值化处理,得到包括比特的二值化后的可伸缩全局特征描述子,包括:
对所述选取的高斯密度函数对应的第一累积梯度向量和/或第二累积梯度向量进行二值化处理,得到包括比特的二值化后的第一累积梯度向量和/或第二累积梯度向量;
将包括比特的二值化后的所述第一累积梯度向量和/或第二累积梯度向量首尾依次相连得到包括比特的二值化后的可伸缩全局特征描述子。
6.根据权利要求5所述的方法,其特征在于,对所述选取的高斯密度函数对应的第一累积梯度向量和/或第二累积梯度向量进行二值化,包括:
若所述第一累积梯度向量的一维度的数值为正数,则该维度对应的比特的值为1;
若所述第一累积梯度向量的一维度的数值为负数或0,则该维度对应的比特的值为0;
若所述第二累积梯度向量的一维度的数值为正数,则该维度对应的比特的值为1;
若所述第二累积梯度向量的一维度的数值为负数或0,则该维度对应的比特的值为0。
7.根据权利要求6所述的方法,其特征在于,所述根据预设的比特选择表,从包括比特的二值化后的可伸缩全局特征描述子中选择若干个比特,将选择的若干个比特依次相连得到紧凑全局特征描述子,包括:
根据预设的比特选择表,从包括比特的二值化后的所述第一累积梯度向量中选择部分比特,将选择的部分比特依次相连得到紧凑全局特征描述子;
其中,包括比特的二值化后的第一累积梯度向量为32维,包括比特的二值化后的第二累积梯度向量为32维。
8.根据权利要求7所述的方法,其特征在于,所述根据预设的比特选择表,从包括比特的二值化后的所述第一累积梯度向量中选择部分比特,将选择的部分比特依次连接得到紧凑全局特征描述子,包括:
若所述整数的二进制表达的第j位为1,则选择所述高斯密度函数的第j个比特;若所述整数对应的二进制表达的第j位为0,则不选择所述高斯密度函数的第j个比特;其中,j为1至32之间的自然数;
所述高斯密度函数的第j个比特为所述高斯密度函数对应的包括比特的二值化后的第一累积梯度向量中的第j个比特。
9.根据权利要求8所述的方法,其特征在于,所述待处理图像的视觉特征描述子由紧凑全局特征描述子、紧凑局部特征描述子和每一紧凑局部特征描述子对应待处理图像的位置信息构成;
若所述待处理图像的视觉特征描述子长度范围在462字节和562字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量依次首尾相连得到;并根据比特选择表,分别从所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量中选择24个比特,构成紧凑全局特征描述子;
若所述待处理图像的视觉特征描述子长度范围在924字节和1124字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量依次首尾相连得到,所述二值化后的可伸缩全局特征描述子构成紧凑全局特征描述子;
若所述待处理图像的视觉特征描述子长度范围在1848字节和2248字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量依次首尾相连得到,所述二值化后的可伸缩全局特征描述子构成紧凑全局特征描述子;
若所述待处理图像的视觉特征描述子长度范围在3696字节和4496字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量和包括比特的二值化后的第二累积梯度向量依次首尾相连得到,所述二值化后的可伸缩全局特征描述子构成紧凑全局特征描述子;
若所述待处理图像的视觉特征描述子长度范围在7392字节和8992字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量和包括比特的二值化后的第二累积梯度向量依次首尾相连得到,所述二值化后的可伸缩全局特征描述子构成紧凑全局特征描述子;
若所述待处理图像的视觉特征描述子长度范围在14784字节和17984字节之间,则所述包括比特的二值化后的可伸缩全局特征描述子由所有选取的高斯密度函数对应的、包括比特的二值化后的第一累积梯度向量和包括比特的二值化后的第二累积梯度向量依次首尾相连得到,所述二值化后的可伸缩全局特征描述子构成紧凑全局特征描述子。
10.根据权利要求1至9任一所述的方法,其特征在于,
512个比特选择表的十进制表示如表一所示,每个所述高斯密度函数对应的比特选择表按照从左到右从上到下的顺序依次写入表一,表一中第一行的第一个数值为第一个高斯密度函数对应的比特选择表格的十进制表示:表一:
CN201410182901.7A 2014-04-30 2014-04-30 获取紧凑全局特征描述子的方法 Active CN104616012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410182901.7A CN104616012B (zh) 2014-04-30 2014-04-30 获取紧凑全局特征描述子的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410182901.7A CN104616012B (zh) 2014-04-30 2014-04-30 获取紧凑全局特征描述子的方法

Publications (2)

Publication Number Publication Date
CN104616012A CN104616012A (zh) 2015-05-13
CN104616012B true CN104616012B (zh) 2018-03-02

Family

ID=53150449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410182901.7A Active CN104616012B (zh) 2014-04-30 2014-04-30 获取紧凑全局特征描述子的方法

Country Status (1)

Country Link
CN (1) CN104616012B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688816A (zh) * 2016-08-04 2018-02-13 北京大学 一种图像特征的池化方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968632A (zh) * 2012-10-15 2013-03-13 北京大学 获取图像的紧凑全局特征描述子的方法及图像检索方法
CN103530649A (zh) * 2013-10-16 2014-01-22 北京理工大学 一种适用于移动终端的视觉搜索方法
CN103617431A (zh) * 2013-11-05 2014-03-05 北京工业大学 基于最大位平均熵的sift描述子二值化及相似度匹配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968632A (zh) * 2012-10-15 2013-03-13 北京大学 获取图像的紧凑全局特征描述子的方法及图像检索方法
CN103226589A (zh) * 2012-10-15 2013-07-31 北京大学 获取图像的紧凑全局特征描述子的方法及图像检索方法
CN103530649A (zh) * 2013-10-16 2014-01-22 北京理工大学 一种适用于移动终端的视觉搜索方法
CN103617431A (zh) * 2013-11-05 2014-03-05 北京工业大学 基于最大位平均熵的sift描述子二值化及相似度匹配方法

Also Published As

Publication number Publication date
CN104616012A (zh) 2015-05-13

Similar Documents

Publication Publication Date Title
CN105184362B (zh) 基于参数量化的深度卷积神经网络的加速与压缩方法
WO2020083073A1 (zh) 非机动车图像多标签分类方法、系统、设备及存储介质
CN111488986B (zh) 一种模型压缩方法、图像处理方法以及装置
US10970617B2 (en) Deep convolutional neural network acceleration and compression method based on parameter quantification
CN109344921A (zh) 一种基于深度神经网络模型的图像识别方法、装置及设备
CN110309835B (zh) 一种图像局部特征提取方法及装置
US10986400B2 (en) Compact video representation for video event retrieval and recognition
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN112199462A (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN111507409B (zh) 一种基于深度多视角学习的高光谱影像分类方法及装置
CN107770783B (zh) 一种基站扩容改造方案设计方法及相关设备
CN105631416A (zh) 采用新型密度聚类进行人脸识别的方法
EP3767549A1 (en) Delivery of compressed neural networks
CN115965058B (zh) 神经网络训练方法、实体信息分类方法、装置及存储介质
CN105631469A (zh) 一种多层稀疏编码特征的鸟类图像识别方法
EP3588441B1 (en) Imagification of multivariate data sequences
CN116152587A (zh) 表情识别模型的训练方法、人脸表情识别方法及装置
CN115496144A (zh) 配电网运行场景确定方法、装置、计算机设备和存储介质
CN104616012B (zh) 获取紧凑全局特征描述子的方法
CN112070019B (zh) 一种人脸识别方法、装置、电子设备和存储介质
WO2016037848A1 (en) Image recognition using descriptor pruning
CN116269312A (zh) 基于脑图谱融合模型的个体脑图谱绘制方法及装置
CN104615612B (zh) 获取紧凑全局特征描述子的码流的方法
TWI710960B (zh) 影像分類系統與方法
EP3767548A1 (en) Delivery of compressed neural networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant