CN104657742A - 一种基于汉明嵌入核的图像概念检测方法及其汉明嵌入核 - Google Patents
一种基于汉明嵌入核的图像概念检测方法及其汉明嵌入核 Download PDFInfo
- Publication number
- CN104657742A CN104657742A CN201510035277.2A CN201510035277A CN104657742A CN 104657742 A CN104657742 A CN 104657742A CN 201510035277 A CN201510035277 A CN 201510035277A CN 104657742 A CN104657742 A CN 104657742A
- Authority
- CN
- China
- Prior art keywords
- hamming
- image
- partial interest
- interest point
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于汉明嵌入核的图像概念检测方法,包括提取训练图像的局部兴趣点,通过SIFT建立视觉词典;生成局部兴趣点的二进制签名,对汉明嵌入核进行离线训练;生成局部兴趣点的二进制签名;计算二进制签名之间的汉明距离;计算任意局部兴趣点之间的欧氏距离;寻找局部兴趣点之间的最优匹配;生成汉明嵌入核;以及利用汉明核进行图像概念检测。本发明对汉明嵌入进行改进并融入SVM内核用于图像概念检测,增强了视觉词袋模型对不同图像内容和概念的区分能力。本发明还公开了一种汉明嵌入核。
Description
技术领域
本发明属于图像概念检测技术领域,尤其涉及一种基于汉明嵌入核的图像概念检测方法及其汉明嵌入核。
背景技术
概念检测作为基于内容的图像检索最基本的一步,在过去几年里已经进行了深入的研究,并且提出了许多有效的方法和特征。对于分类器,SVM(支持向量机)已经被广泛地应用。为了提升SVM的性能,一个能够准确地描述图像样本之间距离的方法起着关键的作用。
在表示图像的各种特征中,视觉词袋特征(Bag-of-Visual-Words,BoW)由于其高效性以及利用图像局部信息区分不同概念的能力,取得了巨大的成功。在典型的BoW特征提取过程中,首先检测图像的局部兴趣点(也称作关键点),并用一个128维的尺度不变特征变换(Scale-Invariant Feature Transformation,SIFT)描述符描述关键点的描述符。这些关键点然后根据其SIFT描述符被聚类为不同的视觉单词,从而构建视觉词典。最后,对每个图像,通过映射其中每个关键点到其最相似的视觉单词,并统计每个单词对应的关键点的数量,生成该图像在视觉词典上的直方图,也即BoW特征用于表示图像内容。在SVM分类过程中,BoW特征用于计算不同图像之间的距离,进而将含有不同概念的图像进行区分。
在构建视觉词典的过程中,对SIFT描述符的聚类相当于把对应的128维空间分割为不同的泰森分区(Voronoi cell),其中每个分区对应一个视觉单词。对给定图像,通过统计分配到每个分区的关键点数量从而生成BoW特征。这种方法只是简单地认为落在一个分区的所有点都是相同的,这样会导致不同图像样本之间的距离度量不是很准确。参阅图3a,在三个图像(I1,I2和I3)中,从每个图像得到四个点映射到相同的视觉单词(或者说在同一个泰森分区中)。根据传统BoW方法,因为只是对每个分区中的关键点计数,所以三个图像被认为是相同的,它们之间的距离全部为0。但在给定的分区中,I1和I3之间的距离很显然要比I1和I2之间的距离要大。BoW模型并没有考虑这个差异,它假设同一分区中的所有点都是相同的。这是因为关键点SIFT描述符的详细信息在映射到视觉单词的过程中被丢失。典型地,通过分割128维SIFT描述符空间至200到5000个分区中生成视觉词典和BoW特征,因此每一个分区的尺寸都会非常大,映射到相同视觉单词的点之间的差异也会非常大。由于忽略了这些差异,BoW方法在很大程度上丢失了SIFT描述符的区分能力,导致对不同图像样本之间的距离估计精确度大幅降低,从而最终会影响分类器的性能。
为了克服现有技术的上述缺陷,本发明提出了一种基于汉明嵌入核的图像概念检测方法及其汉明嵌入核。
发明内容
本发明提出了一种基于汉明嵌入核的图像概念检测方法,包括如下步骤:
a.提取两幅以上训练图像的局部兴趣点,利用尺度不变特征描述符来描述所述局部兴趣点的视觉信息,根据所述描述符利用k-means算法将所有局部兴趣点进行聚类获得多个类;构建视觉词典,所述视觉词典中的每个视觉单词对应于一个类或者尺度不变特征空间中的一个泰森分区;
b.对每一幅图像,根据所述描述符将所述局部兴趣点分配至不同的视觉单词或泰森分区,统计分配到每个视觉单词的局部兴趣点的数量,形成所述图像的视觉词袋特征;
c.生成每个局部兴趣点的二进制签名,对汉明嵌入核进行离线训练;
d.依据步骤b和步骤c建立两幅以上待检测图像的局部兴趣点的二进制签名;
e.对于同一个泰森分区中的局部兴趣点,计算两个局部兴趣点的二进制签名之间的汉明距离,作为所述局部兴趣点之间的距离;
f.对于同一个泰森分区内不同待检测图像的局部兴趣点集,根据所述汉明距离计算所述局部兴趣点集中任意局部兴趣点之间的欧式距离;
g.依据所述欧氏距离,利用Hungarian算法寻找所述局部兴趣点集之间的最优匹配,计算所述局部兴趣点集之间的距离;
h.基于所述距离计和所述局部兴趣点集之间的距离生成汉明嵌入核,所述汉明嵌入核以如下公式表示:其中,σ是表示一个自由参数,s表示视觉词典的大小,c表示一个视觉单词,Ip和Iq分别表示两个图像,表示图像Ip和Iq中分配到视觉单词c上的局部兴趣点集之间的距离;
i.利用所述汉明嵌入核为每一个概念u训练一个支持向量机,所述支持向量机用于将所有图像分为含有概念u的图像和不含概念u的图像;利用所述支持向量机对任一给定图像进行概念检测,输出所述图像中含有概念u的概率值。
本发明提出的所述基于汉明嵌入核的图像概念检测方法中,所述步骤c对汉明嵌入核进行离线训练包括如下步骤:
c1.生成正交投影矩阵P(lb×S),其中lb表示二进制签名的长度,S表示视觉词典中视觉单词的总数;生成S×S的高斯矩阵,对所述高斯矩阵进行因式分解得到所述正交投影矩阵的前lb行元素;
c2.随机生成特征向量,所述特征向量被映射到所述视觉词典中的视觉单词;对于给定一个描述符r,由所述特征向量映射到视觉单词,并通过所述正交投影矩阵P投影产生lb维的投影分量tr;
c3.对于每个视觉单词,依据所有投影分量tr计算lb维的中值,产生S×lb的矩阵M,所述矩阵M中的每一行关联视觉词典中的一个单词。
本发明提出的所述基于汉明嵌入核的图像概念检测方法中,所述步骤d建立两幅以上待检测图像的局部兴趣点的二进制签名包括如下步骤:
d1.将描述符r映射建立到视觉单词wi;
d2.利用正交投影矩阵P投影所述描述符r,产生lb维的投影向量tr;
d3.通过比较向量tr与矩阵M的第i行元素计算二进制签名,所述二进制签名以如下公式表示:
式中,bk(r)表示二进制签名,表示投影向量tr中的第k个元素,Mi,k表示所述矩阵M中坐标为(i,k)的元素。
本发明提出的所述基于汉明嵌入核的图像概念检测方法中,二进制签名之间的汉明距离以如下公式表示:
其中,bj(r)、bj(r′)分别表示两个描述符r和r′所对应的二进制签名的第j个二进制位,lb为二进制签名的长度,^为异或运算符。
本发明提出的所述基于汉明嵌入核的图像概念检测方法中,每个局部兴趣点和另一个待检测图像中最邻近的局部兴趣点的二进制签名的汉明距离以如下公式表示:
i=1,2,...,m,j=1,2,...,n,k=1,2,...,m-n,m>n;
式中,pci(i=1,2,...,m)和qcj(j=1,2,...,n)分别表示两个待检测图像中映射到视觉单词c的局部兴趣点,vk表示为了保证两个图像中的点能够一一对应所加入的虚拟点,d(pci,qcj)表示pci和qcj之间的距离,H(pci,qcj)表示pci和qcj对应的二进制签名之间的汉明距离,lb表示二进制签名的长度,d(pci,vk)表示pci和vk之间的距离。
本发明提出的所述基于汉明嵌入核的图像概念检测方法中,利用Hungarian算法寻找所述局部兴趣点集之间的最优匹配,对任意两个局部兴趣点之间的二进制签名的汉明距离设置权重值并加和得到所述欧氏距离,所述欧式距离以如下公式表示:
式中,φ(pci)表示局部兴趣点集之间的最优匹配,d(pci,φ(pci))表示pci与其匹配的局部 兴趣点之间按照步骤e所计算的距离,m表示图像Ip中映射到视觉单词c的局部兴趣点的个数。
本发明还提出了一种汉明嵌入核,所述汉明嵌入核以如下公式表示:
其中,σ表示一个自由参数,s表示视觉词典的大小,c表示一个视觉单词,表示图像Ip和Iq中映射到视觉单词c上的局部兴趣点集之间的距离。
本发明提出的所述汉明嵌入核中,利用所述汉明嵌入核为每一个概念u训练一个支持向量机,所述支持向量机用于将所有图像分为含有概念u的图像和不含概念u的图像;利用所述支持向量机对任一给定图像进行概念检测,输出所述图像中含有概念u的概率值,实现对图像概念的自动检测。
本发明的有益效果在于:
本发明过考虑在泰森分区中每个描述符的位置信息,提供了一种更加精确的距离测量方法,因此可以更好地区分不同的图像样本,本发明首次提出一种汉明嵌入核,与现有RBF核中的距离测量方法相比,计算在同一泰森分区内原本被忽略的关键点之间的差异。运用该汉明嵌入核进行图像概念检测,提高了图像样本间的距离测量的精确度。
附图说明
图1是本发明基于汉明嵌入核的图像概念检测方法的流程图。
图2是视觉词典的构建过程示例。
图3是视觉词袋的泰森区间划分示意图。其中图3a为现有视觉词袋特征中泰森区间划分示意图,图3b为采用了本发明汉明嵌入核后对泰森区间划分的示意图。
图4a是视觉单词或泰森分区中不同图像的关键点的距离的示意图;图4b是分配到同一个视觉单词c或泰森分区中的两个点集Pc和Qc之间的最优匹配。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本发明首次提出一种汉明嵌入核(Hamming Embedding Kernel)来缓解视觉词袋特征(Bag-of-Visual-Words,BoW)在图像概念检测中信息丢失的问题。在相同分区中两个关键点之间的距离可以大致估计为它们的二进制签名之间的汉明距离。参阅图3a与图3b,其中图3b中对于分配到一个泰森分区的每个关键点,汉明嵌入方法进一步生成一个二进制签名用于对它在分区中的位置进行编码。本发明对汉明嵌入进行改进并融入SVM内核用于图像概念检测, 增强了BoW模型对不同图像内容和概念的区分能力。
本发明还提出了一种汉明嵌入核,汉明嵌入核以如下公式表示:
其中,σ是一个自由参数,s表示视觉词典的大小,c表示一个视觉单出,Ip和Iq分别表示两个图像,表示图像Ip和Iq中映射到视觉单词c上的局部兴趣点集之间的距离。
在汉明嵌入核中,假设Xp=[xp1,xp2,...,XpS]和Xq=[xq1,xq2,...,XqS]分别是两个图像Ip和Iq的BoW特征向量。对于SVM分类,RBF核用到的频率是最高的,其定义如下:
以上公式中,K(Ip,Iq)表示两个图像样本Ip和Iq之间的核函数,xpc和xqc分别表示Ip和Iq中映射到视觉单词c局部兴趣点得个数,σ是一个自由参数,s表示视觉词典的大小。
假设Pc={pc1,pc2,…,pcm}和Qc={qc1,qc2,…,qcn}分别为来自两个图像Ip和Iq的两个关键点集,并且分配到同一个泰森分区或映射到相同的视觉单词wc。在现有BoW方法中,因为只统计分配到该分区的关键点的数量,而在同一分区的任意两个关键点被认为是完全相同的,所以可以用dc(Ip,Iq)=|m-n|计算两个图像之间的距离。相对于视觉词袋BoW特征,本发明首次提出计算分配到同一个泰森分区的不同关键点之间的距离。因此,正如对汉明嵌入的描述,在Pc和Qc中任意两个关键点之间的欧氏距离可以以如下公式进行估算:
其中,bj(r)、bj(r′)分别表示两个描述符r和r′所对应的二进制签名的第j个二进制位,lb为二进制签名的长度,^为异或运算符。通过计算相同分区中的不同点之间的距离来定义两个点集Pc和Qc之间的距离测度。为了计算Pc和Qc之间的距离,需要寻找Pc和Qc两个点集之间的对应关系。如图4a所示,在相同分区中两个点集之间的距离可以通过每个点和另一个图像中最邻近的点的距离加和来计算,并且寻找Pc和Qc中最优的点对点匹配。如图4b中,将m-n(假设m>n)个虚拟点添加到Qc。每条边e∈Pc×Qc的权重定义如下:
式中,pci(i=1,2,...,m)和qcj(j=1,2,...,n)分别表示两个待检测图像中映射到视觉单词c的局部兴趣点,vk(k=1,2,...,m-n,假设m>n)是为了保证两个图像中的点能够一一对应加入的虚拟点,d(pci,qcj)表示pci和qcj之间的距离,H(pci,qcj)表示pci和qcj对应的二进制签名之间的汉明距离,lb表示二进制签名的长度,d(pci,vk)表示pci和vk之间的距离。
本发明利用Hungarian算法来寻找Pc和Qc之间的全局最优匹配,而Pc和Qc之间的距离可以按照下式计算
式中,pci为图像Ip中映射到视觉单词c上的一个局部兴趣点,φ(pci)表示图像Iq中与pci匹配的局部兴趣点,d(pci,φ(pci))表示pci与其匹配的局部兴趣点之间按照步骤e所述方法计算的距离,m表示图像Ip中映射到视觉单词c的局部兴趣点的个数。另一方面,每一个在Pc中没有匹配(或者匹配到虚拟点)的点将直接贡献一个值1给图像样本之间的距离。
最后,基于上式,本发明提出的汉明嵌入核如以下公式表示:
以上公式中,表示两个图像Ip和Iq之间的核函数,σ是一个自由参数,s表示视觉词典的大小,为根据汉明距离计算的Ip和Iq中映射到视觉单词c上的局部兴趣点集之间的距离。上式中汉明嵌入核最终用于训练SVM进行图像概念检测。
如图1所示,本发明基于汉明嵌入核的图像概念检测方法,包括如下步骤:
a.提取一组训练图像的局部兴趣点,利用尺度不变特征(Scale-Invariant Feature Transform)描述局部兴趣点,根据描述符将局部兴趣点进行聚类,构建视觉词典。聚类过程实际上将SIFT描述符空间划分成一系列泰森分区(Voronoi cell),其中每一个类为一个视觉单词;
b.将每个给定图像中的局部兴趣点分配到距离其最近的视觉单词或泰森分区,统计每个泰森分区内局部兴趣点的个数,得到该图像的视觉词袋特征;
c.对汉明嵌入核进行离线训练;
d.依据步骤b和步骤c建立待检测图像的局部兴趣点(即为关键点)的二进制签名;
e.对于同一个泰森分区中的局部兴趣点,计算两个局部兴趣点的二进制签名之间的汉明距离,作为局部兴趣点之间的距离;
f.对于同一个泰森分区内不同待检测图像的局部兴趣点集,根据汉明距离计算局部兴趣点集中任意局部兴趣点之间的欧式距离;
g.依据欧氏距离,利用Hungarian算法寻找局部兴趣点集之间的最优匹配,计算局部兴趣点集之间的距离;
h.基于距离计和局部兴趣点集之间的距离生成汉明嵌入核,汉明嵌入核以如下公式表示: 其中,表示两个图像Ip和Iq之间的核函数,σ是一个自由参数,s表示视觉词典的大小,为根据汉明距离计算的Ip和Iq中映射到视觉单词c上的局部兴趣点集之间的距离;
i.利用步骤h中的汉明嵌入核为每一个概念u训练一个支持向量机,将所有图像分为两类: 含有u和不含u的图像。利用训练的支持向量机对任一给定图像进行概念检测,输出图像中含有概念u的概率值,实现对图像概念的自动检测。
以下结合实例对本发明图像概念检测方法作进一步说明:
(1)建立视觉词典
图2描述了视觉词典的构建过程,首先在一组训练图像上检测局部兴趣点,并利用尺度不变特征(SIFT)进行描述,然后把所有的局部兴趣点按照其SIFT描述符进行聚类,构建一个视觉词典,其中每个类为一个视觉单词,对应SIFT空间中一个泰森分区(Voronoi cell)。
(2)汉明嵌入核的离线训练
其中,步骤c对汉明嵌入核进行离线训练包括如下步骤:
c1.生成正交投影矩阵P(lb×S),其中lb表示二进制签名的长度,S表示视觉词典中视觉单词的总数;生成S×S的高斯矩阵,对高斯矩阵进行因式分解得到正交投影矩阵的前lb行元素;
c2.随机生成特征向量,特征向量被映射到视觉词典中的视觉单词;对于给定一个描述符r,由特征向量映射到视觉单词,并通过正交投影矩阵P投影产生lb维的投影分量tr;
c3.对于每个视觉单词,依据所有投影分量tr计算lb维的中值,产生S×lb的矩阵M,矩阵M中的每一行关联视觉词典中的一个单词。
如图3a所示,通过汉明嵌入核的离线训练,相当于将一个视觉单词对应的泰森分区划分为更小的小区,由此可以确定分配到泰森分区中的每一个局部兴趣点的位置信息。
(3)建立二进制签名
步骤d建立两幅以上待检测图像的局部兴趣点的二进制签名包括如下步骤:
d1.将描述符r映射建立到视觉单词wi;
d2.利用正交投影矩阵P投影描述符r,产生lb维的投影向量tr;
d3.通过比较向量tr与矩阵M的第i行元素计算二进制签名,二进制签名以如下公式表示:
式中,bk(r)表示二进制签名,表示投影向量tr中的第k个元素,Mi,k表示步骤c3中得到的矩阵M中坐标为(i,k)的元素。
如图3b所示,利用汉明嵌入,为每个局部兴趣点分配一个二进制编码,用于描述其在泰森分区内的位置信息。
(4)计算汉明距离
本发明提出的基于汉明嵌入核的图像概念检测方法中,二进制签名之间的汉明距离以如 下公式表示:
其中,bj(r)、bj(r′)分别表示两个描述符r和r′所对应的二进制签名的第j个二进制位,lb为二进制签名的长度,^为异或运算符。
(5)计算欧氏距离
本发明提出的基于汉明嵌入核的图像概念检测方法中,如图4(a)与图4(b)所示,每个局部兴趣点和另一个待检测图像中最邻近的局部兴趣点的二进制签名的汉明距离的权重以如下公式表示:
i=1,2,...,m,j=1,2,...,n,k=1,2,...,m-n;
式中,pci(i=1,2,...,m)和qcj(j=1,2,...,n)分别表示两个待检测图像中映射到视觉单词c的局部兴趣点,vk(k=1,2,...,m-n,假设m>n)是为了保证两个图像中的点能够一一对应加入的虚拟点,d(pci,qcj)表示pci和qcj之间的距离,H(pci,qcj)表示pci和qcj对应的二进制签名之间的汉明距离,lb表示二进制签名的长度,d(pci,vk)表示pci和vk之间的距离。。
本发明提出的基于汉明嵌入核的图像概念检测方法中,利用Hungarian算法寻找局部兴趣点集之间的最优匹配,对任意两个局部兴趣点之间的二进制签名的汉明距离设置权重值并加和得到欧氏距离,欧式距离以如下公式表示:
式中,pci为图像Ip中映射到视觉单词c上的一个局部兴趣点,φ(pci)表示图像Iq中与pci匹配的局部兴趣点,d(pci,φ(pci))表示pci与其匹配的局部兴趣点之间的距离,m表示图像Ip中映射到视觉单词c的局部兴趣点的个数。另一方面,每一个在Pc中没有匹配(或者匹配到虚拟点)的点将直接贡献一个值1给图像样本之间的距离。
(6)生成汉明嵌入核
基于距离计和局部兴趣点集之间的距离生成汉明嵌入核,汉明嵌入核以如下公式表示:
其中,表示两个图像Ip和Iq之间的核函数,σ是一个自由参数,s表示视觉词典的大小, 为根据汉明距离计算的Ip和Iq中映射到视觉单词c上的局部兴趣点集之间的距离
(7)基于汉明嵌入核进行图像概念检测
本实施例以采用TRECVID Sound&Vision数据集为例,验证基于汉明嵌入核的图像概念检测方法的性能,该数据集共有43616张图像。如以下表1所示,对其中20个不同概念(Concept) 进行检测。建立的视觉词典包含500个视觉单词,采用LIBSVM软件包中的支持向量机并利用本发明的汉明嵌入核作为支持向量机的核函数计算不同图像样本间的距离。表1比较了本发明的方法和传统的视觉词袋特征进行概念检测的平均准确率(Average Precision,AP)。可以看到,基于汉明嵌入核的图像概念检测方法对所有20个概念检测的平均准确率都有所提高,对20个不同概念平均提高(Mean Average Precision,MAP)约4.28%。
表1 本发明方法与现有视觉词袋特征进行图像概念检测准确率的比较
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
Claims (8)
1.一种基于汉明嵌入核的图像概念检测方法,其特征在于,包括如下步骤:
a.提取两幅以上训练图像的局部兴趣点,利用尺度不变特征描述符来描述所述局部兴趣点的视觉信息,根据所述描述符利用k-means算法将所有局部兴趣点进行聚类获得多个类;构建视觉词典,所述视觉词典中的每个视觉单词对应于一个类或者尺度不变特征空间中的一个泰森分区;
b.对每一幅图像,根据所述描述符将所述局部兴趣点分配至不同的视觉单词或泰森分区,统计分配到每个视觉单词的局部兴趣点的数量,形成所述图像的视觉词袋特征;
c.生成每个局部兴趣点的二进制签名,对汉明嵌入核进行离线训练;
d.依据步骤b和步骤c建立两幅以上待检测图像的局部兴趣点的二进制签名;
e.对于同一个泰森分区中的局部兴趣点,计算两个局部兴趣点的二进制签名之间的汉明距离,作为所述局部兴趣点之间的距离;
f.对于同一个泰森分区内不同待检测图像的局部兴趣点集,根据所述汉明距离计算所述局部兴趣点集中任意局部兴趣点之间的欧式距离;
g.依据所述欧氏距离,利用Hungarian算法寻找所述局部兴趣点集之间的最优匹配,计算所述局部兴趣点集之间的距离;
h.基于所述距离计和所述局部兴趣点集之间的距离生成汉明嵌入核,所述汉明嵌入核以如下公式表示:其中,σ是表示一个自由参数,s表示视觉词典的大小,c表示一个视觉单词,Ip和Iq分别表示两个图像,表示图像Ip和Iq中分配到视觉单词c上的局部兴趣点集之间的距离;
i.利用所述汉明嵌入核为每一个概念u训练一个支持向量机,所述支持向量机用于将所有图像分为含有概念u的图像和不含概念u的图像;利用所述支持向量机对任一给定图像进行概念检测,输出所述图像中含有概念u的概率值。
2.如权利要求1所述的基于汉明嵌入核的图像概念检测方法,其特征在于,所述步骤c对汉明嵌入核进行离线训练包括如下步骤:
c1.生成正交投影矩阵P(lb×S),其中lb表示二进制签名的长度,S表示视觉词典中视觉单词的总数;生成S×S的高斯矩阵,对所述高斯矩阵进行因式分解得到所述正交投影矩阵的前lb行元素;
c2.随机生成特征向量,所述特征向量被映射到所述视觉词典中的视觉单词;对于给定一个描述符r,由所述特征向量映射到视觉单词,并通过所述正交投影矩阵P投影产生lb维的投影分量tr;
c3.对于每个视觉单词,依据所有投影分量tr计算lb维的中值,产生S×lb的矩阵M,所述矩阵M中的每一行关联视觉词典中的一个单词。
3.如权利要求1所述的基于汉明嵌入核的图像概念检测方法,其特征在于,所述步骤d建立两幅以上待检测图像的局部兴趣点的二进制签名包括如下步骤:
d1.将描述符r映射建立到视觉单词wi;
d2.利用正交投影矩阵P投影所述描述符r,产生lb维的投影向量tr;
d3.通过比较向量tr与矩阵M的第i行元素计算二进制签名,所述二进制签名以如下公式表示:
式中,bk(r)表示二进制签名,表示投影向量tr中的第k个元素,Mi.k表示所述矩阵M中坐标为(i,k)的元素。
4.如权利要求1所述的基于汉明嵌入核的图像概念检测方法,其特征在于,二进制签名之间的汉明距离以如下公式表示:
其中,bj(r)、bj(r′)分别表示两个描述符r和r′所对应的二进制签名的第j个二进制位,lb为二进制签名的长度,^为异或运算符。
5.如权利要求1所述的基于汉明嵌入核的图像概念检测方法,其特征在于,每个局部兴趣点和另一个待检测图像中最邻近的局部兴趣点的二进制签名的汉明距离以如下公式表示:
i=1,2,…,m,j=1,1,…,n,k=1,1,…,m-n,m>n;
式中,pci(i=1,2,…,m)和qcj(j=1,2,…,n)分别表示两个待检测图像中映射到视觉单词c的局部兴趣点,vk表示为了保证两个图像中的点能够一一对应所加入的虚拟点,d(pci,qci)表示pci和qcj之间的距离,H(pci,qcj)表示pci和qcj对应的二进制签名之间的汉明距离,lb表示二进制签名的长度,d(pci,vk)表示pci和vk之间的距离。
6.如权利要求1所述的基于汉明嵌入核的图像概念检测方法,其特征在于,利用Hungarian算法寻找所述局部兴趣点集之间的最优匹配,对任意两个局部兴趣点之间的二进制签名的汉明距离设置权重值并加和得到所述欧氏距离,所述欧式距离以如下公式表示:
式中,φ(pci)表示局部兴趣点集之间的最优匹配,d(pci,φ(pci))表示pci与其匹配的局部兴趣点之间按照步骤e所计算的距离,m表示图像Ip中映射到视觉单词c的局部兴趣点的个数。
7.一种汉明嵌入核,其特征在于,所述汉明嵌入核以如下公式表示:
其中,σ表示一个自由参数,s表示视觉词典的大小,c表示一个视觉单词,表示图像Ip和Iq中映射到视觉单词c上的局部兴趣点集之间的距离。
8.如权利要求7所述的汉明嵌入核,其特征在于,利用所述汉明嵌入核为每一个概念u训练一个支持向量机,所述支持向量机用于将所有图像分为含有概念u的图像和不含概念u的图像;利用所述支持向量机对任一给定图像进行概念检测,输出所述图像中含有概念u的概率值,实现对图像概念的自动检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510035277.2A CN104657742A (zh) | 2015-01-23 | 2015-01-23 | 一种基于汉明嵌入核的图像概念检测方法及其汉明嵌入核 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510035277.2A CN104657742A (zh) | 2015-01-23 | 2015-01-23 | 一种基于汉明嵌入核的图像概念检测方法及其汉明嵌入核 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104657742A true CN104657742A (zh) | 2015-05-27 |
Family
ID=53248841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510035277.2A Pending CN104657742A (zh) | 2015-01-23 | 2015-01-23 | 一种基于汉明嵌入核的图像概念检测方法及其汉明嵌入核 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104657742A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105635559A (zh) * | 2015-07-17 | 2016-06-01 | 宇龙计算机通信科技(深圳)有限公司 | 用于终端的拍照控制方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102385592A (zh) * | 2010-09-03 | 2012-03-21 | 中国电信股份有限公司 | 图像概念的检测方法和装置 |
CN103310221A (zh) * | 2012-03-16 | 2013-09-18 | 富士通株式会社 | 图像处理装置、图像处理方法以及设备 |
-
2015
- 2015-01-23 CN CN201510035277.2A patent/CN104657742A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102385592A (zh) * | 2010-09-03 | 2012-03-21 | 中国电信股份有限公司 | 图像概念的检测方法和装置 |
CN103310221A (zh) * | 2012-03-16 | 2013-09-18 | 富士通株式会社 | 图像处理装置、图像处理方法以及设备 |
Non-Patent Citations (1)
Title |
---|
FENG WANG 等: "A Hamming Embedding Kernel with Informative Bag-of-Visual Words for Video Semantic Indexing", 《ACM TRANSACTIONS ON MULTIMEDIA COMPUTING, COMMUNICATIONS, AND APPLICATIONS》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105635559A (zh) * | 2015-07-17 | 2016-06-01 | 宇龙计算机通信科技(深圳)有限公司 | 用于终端的拍照控制方法及装置 |
WO2017012372A1 (zh) * | 2015-07-17 | 2017-01-26 | 宇龙计算机通信科技(深圳)有限公司 | 用于终端的拍照控制方法、装置和终端 |
CN105635559B (zh) * | 2015-07-17 | 2018-02-13 | 宇龙计算机通信科技(深圳)有限公司 | 用于终端的拍照控制方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | A comprehensive performance evaluation of 3D local feature descriptors | |
Doumanoglou et al. | Recovering 6D object pose and predicting next-best-view in the crowd | |
US10339409B2 (en) | Method and a device for extracting local features of a three-dimensional point cloud | |
CN102368237B (zh) | 图像检索方法、装置及系统 | |
CN104615676B (zh) | 一种基于最大相似度匹配的图片检索方法 | |
JP5385105B2 (ja) | 画像検索方法およびシステム | |
CN103729631B (zh) | 一种基于视觉的连接器表面特征自动识别方法 | |
EP3301641B1 (en) | Image collation device, image collation method, and program | |
CN103473565A (zh) | 一种图像匹配方法和装置 | |
CN104616297A (zh) | 一种用于图像篡改取证的改进型sift算法 | |
CN106127243A (zh) | 一种基于二值化sift描述子的图像匹配方法 | |
CN103745459A (zh) | 一种非结构化点云特征点检测方法及其提取方法 | |
CN105551022A (zh) | 一种基于形状交互矩阵的图像错误匹配检验方法 | |
CN105654421A (zh) | 基于变换不变低秩纹理的投影变换图像匹配方法 | |
CN104050675A (zh) | 基于三角形描述的特征点匹配方法 | |
Wang et al. | Geometric VLAD for large scale image search | |
Eggert et al. | Improving VLAD: hierarchical coding and a refined local coordinate system | |
CN103823887A (zh) | 基于低秩全局几何一致性检验的错误匹配检测方法 | |
CN101989352B (zh) | 基于改进的sift算法与李萨如图轨迹的图像配准方法 | |
CN104732529A (zh) | 一种遥感图像形状特征配准方法 | |
CN104143088A (zh) | 一种基于图像检索和特征权重学习的人脸识别方法 | |
CN104657742A (zh) | 一种基于汉明嵌入核的图像概念检测方法及其汉明嵌入核 | |
CN102737254B (zh) | 一种标志图像的识别方法 | |
Su et al. | Conformal geometric algebra based band selection and classification for hyperspectral imagery | |
CN104299010B (zh) | 一种基于词袋模型的图像描述方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150527 |
|
WD01 | Invention patent application deemed withdrawn after publication |