CN111368126B

CN111368126B - 一种面向图像检索的生成方法

Info

Publication number: CN111368126B
Application number: CN202010149899.9A
Authority: CN
Inventors: 孙晓明; 张宁; 车畅; 刘野; 吴海滨
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2017-02-13
Filing date: 2017-02-13
Publication date: 2022-06-07
Anticipated expiration: 2037-02-13
Also published as: CN111309956B; CN111309956A; CN106844733B; CN111309955B; CN111309955A; CN111368125B; CN111368126A; CN106844733A; CN111368125A

Abstract

本发明一种面向图像检索的生成方法，包括生成SIFT描述符直方图和SIFT描述符核密度，包括以下步骤：首先通过SIFT描述符的分层聚类来构造可扩展词汇树，然后累计可扩展词汇树中每个节点上的描述符出现的次数，得到SIFT描述符直方图，最后对SIFT描述符进行量化，得到SIFT描述符核密度；将本发明生成方法应用于基于词汇树信息融合与豪斯多夫距离结合的图像检索方法中，能够为提高图像检索准确率，并适用于复杂背景的图像检索提供理论基础。

Description

一种面向图像检索的生成方法

本申请是发明专利申请《基于词汇树信息融合与豪斯多夫距离结合的图像检索方法》的分案申请。

原案申请日：2017-02-13。

原案申请号：2017100760427。

原案发明名称：基于词汇树信息融合与豪斯多夫距离结合的图像检索方法。

技术领域

本发明一种面向图像检索的生成方法属于图像检索技术领域，具体涉及一种基于词汇树信息融合与豪斯多夫距离结合的图像检索方法中的关键步骤。

背景技术

图像检索方法产生至今，已经形成了三个重要的分支：基于文本的图像检索、基于内容的图像检索和基于语义的图像检索。

基于文本的图像检索，是用图像名、图像特征等文本来描述用户的需求，但由于文本表达能力具有局限性，文本标注具有歧义性，因此检索结果往往和用户需求不符；

基于语义的图像检索，是在图像视觉特征的基础上，进一步提炼其高级语义表达能力，但这类检索方法的检索过程复杂，而且存在方法体系发展尚不完善的问题；

基于内容的图像检索，是以颜色、纹理、形状等作为图像的特征表达，并以此为判断相似性的依据，开展图像检索。

如果能够准确提取图像特征，基于内容的图像检索将具有另外两类检索不具有的准确率优势。广大学者也都瞄准该技术优势，开展如何提高提取图像特征的准确性方面的研究，以期进一步提高基于内容的图像检索的准确率。

发明内容

针对上述技术需求，本发明公开了一种基于词汇树信息融合与豪斯多夫距离结合的图像检索方法，能够有效提高基于内容的图像检索的准确率，此外，该方法能够消除背景信息对图像检索准确率的影响，对于具有复杂背景的图像，检索准确率高的技术优势尤其明显。

本发明的目的是这样实现的：

基于词汇树信息融合与豪斯多夫距离结合的图像检索方法，包括以下步骤：

步骤a、提取待检索图像及图像库SIFT特征；

步骤b、生成SIFT描述符直方图和SIFT描述符核密度；

步骤c、融合SIFT描述符核密度和SIFT描述符直方图；

步骤d、改进传统Hausdorff距离度量；

步骤e、将改进的Hausdorff距离用于图像匹配。

上述基于词汇树信息融合与豪斯多夫距离结合的图像检索方法，步骤a的具体步骤如下：

步骤a1：构建待检索图像及图像库高斯差分尺度函数

利用不同尺度的高斯函数与图像做卷积运算，构建二维图像的高斯差分尺度函数D(x,y,σ)，有：

D(x,y,σ)＝(G(x,y,kσ)-G(x,y,σ))*I(x,y)

其中，k是尺度比例系数，G(x,y,σ)是尺度可变的高斯函数，I(x,y)是图像，并且有：

其中，(x,y)是尺度坐标，σ的大小决定图像平滑的程度；

步骤a2：检测高斯差分尺度空间极值点

将图像中的每一个采样点都与该采样点相邻的点比较，当某个采样点在高斯差分尺度空间的所有点中是最大值或最小值时，认为该点是图像在该尺度下的一个特征点；

步骤a3：除去边缘不稳定的特征点，生成SIFT描述符

使用Harris Corner检测器去除边缘的不稳定特征点，保留稳定的特征点，生成SIFT描述符。

上述基于词汇树信息融合与豪斯多夫距离结合的图像检索方法，步骤b的具体步骤如下：

步骤b1：通过SIFT描述符的分层聚类来构造可扩展词汇树

提取每张图片的SIFT描述符，得到一个集合F＝{f_i},然后对集合F采用K-Means聚类方法进行分层聚类，初始时，在第1层对集合F进行K-Means聚类，把集合F分成k份{F_i|1≤i≤k}；以此类推，对新产生的簇集利用K-Means再分成k个簇集，不断地重复上述操作直到深度达到预先设定的L值，构造出可扩展词汇树，共有c＝B^L个节点组成，其中，B是分支因子，L是深度，c是节点总个数，f_i表示图片中某个SIFT描述符，F是描述符集合，F_i是对集合F进行K-Means聚类得到的某个簇集；

步骤b2：累计可扩展词汇树中每个节点上的描述符出现的次数，得到SIFT描述符直方图

在构造可扩展词汇树中，共有c＝B^L个节点，对第一个节点上的SIFT描述符出现的次数进行累计，获得基于可扩展词汇树的SIFT描述符直方图，用H＝[h₁,...,h_i,...,h_c]表示，其中h_i表示第i个节点出现SIFT描述符的次数；

步骤b3：对SIFT描述符进行量化，得到SIFT描述符核密度

对所有的SIFT描述符进行量化，则每个SIFT描述符f_i都对应可扩展词汇树中一条从根节点到叶子节点的量化路径，即对应一组视觉词

每一组视觉词都对应它的核密度f(c)，得到基于可扩展词汇树的SIFT描述符核密度；其中

是一个视觉词，即可扩展词汇树中的每个节点都代表一个视觉词，l表示该节点在可扩展词汇树中所在的层数，h_l表示该节点在该层树节点中的索引，L是深度。

上述基于词汇树信息融合与豪斯多夫距离结合的图像检索方法，步骤c的具体步骤如下：

步骤c1：得到SIFT描述符直方图和SIFT描述符核密度的基本概率分配函数

为了计算方便，将SIFT描述符直方图设为A，SIFT描述符核密度设为B，则辨别框Ω：{A,B}，辨别框是描述构成整个假设空间所有元素的集合，用基本概率分配函数考虑到所有的可能结果，用m()表示；此时，

子集A的基本概率分配函数为

子集B的基本概率分配函数为

其中，M为归一化常数，

m₁(A_i)表示焦元为A_i的基本概率赋值，m₂(B_j)表示焦元为B_j的基本概率赋值；

步骤c2：应用Dempster组合规则结合步骤c1得到融合结果

Dempster组合规则为：

将步骤c1得到结果m(A)和m(B)代入得到m(AB)；

其中，M为归一化常数，M＝∑_A∩B＝_φ(m(A)m(B))＝1-∑_A∩B≠φ(m(A)m(B))

m(A)表示子集A的基本概率分配函数，m(B)表示子集B的基本概率分配函数，m(AB)表示子集A和子集B融合的基本概率分配函数。

上述基于词汇树信息融合与豪斯多夫距离结合的图像检索方法，步骤d的具体步骤如下：

步骤d1：写出成本函数的微分方程形式

成本函数的微分方程形式如下：

步骤d2：得到成本函数的通解

解微分方程，得到成本函数的表达式为如下：

其中γ₀是成本函数初始值，它的范围为0～1，k是比例系数，τ是匹配参数；

步骤d3：用传统的Hausdorff距离作为成本函数的变量，改进的Hausdorff距离

给定两个有限集合X＝{x₁,x₂,...,x_M}和Y＝{y₁,y₂,...,y_N}，则X和Y之间传统的Hausdorff距离定义为

其中，d(X,Y)是传统的Hausdorff距离，min表示最小值，max表示最大值，x和y分别是点集X和Y中的点，d(x,y)表示点x和点y之间的几何距离；

改进的Hausdorff距离为：

其中X是有限集合X的个数，d_H(X,Y)是改进的Hausdorff距离，d(X,Y)是传统的Hausdorff距离，γ(d(X,Y))是变量为d(X,Y)的成本函数。

上述基于词汇树信息融合与豪斯多夫距离结合的图像检索方法，步骤e的具体步骤如下：

根据步骤c得到的融合特征，用改进的Hausdorff距离进行图像的相似度测量，将得到的相似度按照降序排列，得出检索结果。

有益效果：

本发明采用了如下技术手段，首先提取待检索图像及图像库SIFT特征，然后生成SIFT描述符直方图和SIFT描述符核密度，再融合SIFT描述符核密度和SIFT描述符直方图，通过改进传统Hausdorff距离度量，最后将改进的Hausdorff距离用于图像匹配；该技术手段相互依存，缺一不可，作为一个整体，共同实现了其中任何一个手段存在时都不能实现的有效提高基于内容的图像检索准确率的技术目的，此外，本发明方法还能够消除背景信息对图像检索准确率的影响，对于具有复杂背景的图像，检索准确率高的技术优势更加明显。

附图说明

图1是本发明基于词汇树信息融合与豪斯多夫距离结合的图像检索方法的流程图。

图2是三种方法的查准率对比图。

图3是待检索“榕树”图像。

图4是基于本发明方法的“榕树”检索结果。

图5是基于SIFT描述符直方图方法的“榕树”检索结果。

图6是基于SIFT描述符核密度方法的“榕树”检索结果。

图7是待检索“老虎”图像。

图8是基于本发明方法的“老虎”检索结果。

图9是基于SIFT描述符直方图方法的“老虎”检索结果。

图10是基于SIFT描述符核密度方法的“老虎”检索结果。

具体实施方式

下面结合附图对本发明具体实施方式作进一步详细描述。

具体实施例一

本实施例是基于词汇树信息融合与豪斯多夫距离结合的图像检索方法的理论实施例。

本实施例的基于词汇树信息融合与豪斯多夫距离结合的图像检索方法，流程图如图1所示，该方法包括以下步骤：

步骤a、提取待检索图像及图像库SIFT特征；

步骤b、生成SIFT描述符直方图和SIFT描述符核密度；

步骤c、融合SIFT描述符核密度和SIFT描述符直方图；

步骤d、改进传统Hausdorff距离度量；

步骤e、将改进的Hausdorff距离用于图像匹配。

步骤a1：构建待检索图像及图像库高斯差分尺度函数

D(x,y,σ)＝(G(x,y,kσ)-G(x,y,σ))*I(x,y)

其中，(x,y)是尺度坐标，σ的大小决定图像平滑的程度；

步骤a2：检测高斯差分尺度空间极值点

步骤a3：除去边缘不稳定的特征点，生成SIFT描述符

步骤b1：通过SIFT描述符的分层聚类来构造可扩展词汇树

步骤b3：对SIFT描述符进行量化，得到SIFT描述符核密度

子集A的基本概率分配函数为

子集B的基本概率分配函数为

其中，M为归一化常数，

步骤c2：应用Dempster组合规则结合步骤c1得到融合结果

Dempster组合规则为：

将步骤c1得到结果m(A)和m(B)代入得到m(AB)；

其中，M为归一化常数，M＝∑_A∩B＝φ(m(A)m(B))＝1-∑_A∩B≠φ(m(A)m(B))

步骤d1：写出成本函数的微分方程形式

成本函数的微分方程形式如下：

步骤d2：得到成本函数的通解

解微分方程，得到成本函数的表达式为如下：

改进的Hausdorff距离为：

具体实施例二

鉴于本领域技术人员多为学术人员，对于技术文件的撰写更习惯文章的撰写方式，为此，在与具体实施例一无本质区别的基础上，按照学术习惯，补充具体实施例二。

本实施例的基于词汇树信息融合与豪斯多夫距离结合的图像检索方法，包括以下步骤：

步骤a：待检索图像及图像库SIFT特征提取(SIFT：尺度不变特征变换)

步骤a1：构建待检索图像及图像库高斯差分尺度函数

在SIFT描述符提取期间，首先构建高斯差分尺度空间，二维图像的尺度空间为L(x,y,σ)＝G(x,y,σ)*I(x,y)，

其中G(x,y,σ)是尺度可变的高斯函数，(x,y)是尺度坐标，I(x,y)是图像，L(x,y,σ)是二维图像的尺度空间，σ的大小决定图像平滑的程度。

为了更准确的检测图像特征点，需要构造二维图像的高斯差分尺度函数，它是利用不同尺度的高斯函数与图像卷积生成的，即D(x,y,σ)＝(G(x,y,kσ)-G(x,y,σ))*I(x,y)＝L(x,y,kσ)-L(x,y,σ)，其中D(x,y,σ)是二维图像的高斯差分尺度函数，k是尺度比例系数

步骤a2：检测高斯差分尺度空间极值点

为了寻找尺度空间的极值点需要图像中的每一个采样点都与它所相邻的点比较，当某个采样点在DoG(高斯差分尺度)空间的所有点中是最大值或最小值时，认为该点是图像在该尺度下的一个特征点。

步骤a3：除去边缘不稳定的特征点，生成SIFT描述符

为了增强匹配稳定点、提高噪声能力，使用Harris Comer检测器去除边缘的不稳定特征点。保留稳定的特征点，生成SIFT描述符。

步骤b：生成SIFT描述符直方图和SIFT描述符核密度

步骤b1：通过SIFT描述符的分层聚类来构造可扩展词汇树SVT

提取每张图片的SIFT描述符，得到一个集合F＝{f_i},然后对集合F采用K-Means聚类方法进行分层聚类。初始时，在第1层对集合F进行K-Means聚类，把集合F分成k份{F_i1≤i≤k}。类似地，对新产生的簇集利用K-Means再分成k个簇集，不断地重复上述操作直到深度达到预先设定的L值，就不再分裂，将构造出可扩展词汇树，共有c＝B^L个节点组成。其中B是分支因子，L是深度，c是节点总个数，f_i表示图片中某个SIFT描述符，F是描述符集合，F_i是对集合F进行K-Means聚类得到的某个簇集。

在构造可扩展词汇树中，共有c＝B^L个节点，对第一个节点上的SIFT描述符出现的次数进行累计，获得基于可扩展词汇树的SIFT描述符直方图用H＝[h₁,...,h_i,...,h_c]表示，其中h_i表示第i个节点出现SIFT描述符的次数，B是分支因子，L是深度，c是节点总个数。

步骤b3：对SIFT描述符进行量化，得到SIFT描述符核密度

对所有的SIFT描述符进行量化，则每个SIFT描述符f_i都对应可扩展词汇树中一条从根节点到叶子节点的量化路径，也即对应一组视觉词

每一组视觉词都对应它的核密度f(c)，得到基于可扩展词汇树的SIFT描述符核密度。其中

步骤c：融合SIFT描述符核密度和SIFT描述符直方图

为了下面计算方便，将SIFT描述符直方图设为A，SIFT描述符核密度设为B，则辨别框Ω：{A,B}，辨别框是描述构成整个假设空间所有元素的集合。用基本概率分配函数(BPA)考虑到所有的可能结果，常用m()表示。

子集A的基本概率分配函数为

子集B的基本概率分配函数为

其中，M为归一化常数，

步骤c2：应用Dempster组合规则结合步骤c1得到融合结果

Dempster组合规则为：

将步骤c1得到结果m(A)和m(B)代入得到m(AB)。

步骤d：将传统的Hausdorff距离度量改进

传统的Hausdorff距离为它会因噪声点、伪边缘点和出格点造成误匹配的问题,为了提高匹配过程的可靠性和稳定性，本发明将传统的Hausdorff距离度量进行改进即用传统的Hausdorff距离作为成本函数的变量作为改进的Hausdorff距离。

步骤d1：写出成本函数的微分方程形式

成本函数的微分方程形式如下：

步骤d2：得到成本函数的通解

解微分方程，得到成本函数的表达式为如下：

其中γ₀是成本函数初始值，它的范围为0～1，k是比例系数，τ是匹配参数。

步骤d3：用传统的Hausdorff距离作为成本函数的变量作为改进的Hausdorff距离

其中d(X,Y)是传统的Hausdorff距离，min表示最小值，max表示最大值，x和y分别是点集X和Y中的点，d(x,y)表示点x和点y之间的几何距离

改进的Hausdorff距离为：

其中X是有限集合X的个数，d_H(X,Y)是改进的Hausdorff距离，d(X,Y)是传统的Hausdorff距离，γ(d(X,Y))是变量为d(X,Y)的成本函数

步骤e：将改进的Hausdorff距离用于图像匹配

根据步骤c得到的融合特征，将此特征用改进的Hausdorff距离进行图像的相似度测量，将得到的相似度按照降序排列，得出检索结果。

具体实施例三

本实施例是基于词汇树信息融合与豪斯多夫距离结合的图像检索方法的实验实施例。

图2给出了基于SIFT描述符直方图的图像检索、基于SIFT描述符核密度的图像检索和基于本发明的图像检索的查准率。

从图2中可以看出，图像类别中前四项云、星、鸟、树为背景简单的图片，三种检索出的图像的查准率相差不大；图像类别中的后四项为虎、鱼、山、花为背景复杂的图片，三种检索方法检索的查准率相差很大，本发明的检索远远大于前两种的检索。

下面给出两种图像类型的实验结果

实验中使用小型自建图像数据库，此数据库中含有8类图像，分别是花、鸟、鱼、虎、山、树、星、云，每类图像100幅，图像总数共计800幅。

实验一：待检索图像背景清晰实验

以背景简单的“榕树”图像作为待检索图像，在所有“榕树”中随机抽取5幅图像作为查询图像，最后以选取5幅图像查准率的平均值作为最终结果。查准率定义如下：查准率＝(查询结果中与关键图相关的图像数/查询返回的图像数)*100％。

下面给出一幅背景简单的“榕树”图像作为待检索图像，如图3所示；按照本发明方法的检索结果如图4所示，基于SIFT描述符直方图方法的检索结果如图5所示，基于SIFT描述符核密度方法的检索结果如图6所示。

从图4、图5和图6的检索结果可以看出：待检索图像背景清晰并且榕树颜色信息鲜明，榕树树冠部分大，覆盖了图像的大部分区域，形成了丰富的纹理特征信息；待检索图像树冠和背景之间、树干处的形状信息较清晰。

每幅待检索图像都返回30幅图像，其中用本发明方法准确检索的图像分别为23幅、23幅、25幅、25幅、25幅，查准率分别为76.7％、76.7％、83.3％、83.3％、83.3％，平均查准率＝(76.7+76.7+83.3+83.3+83.3)/5*100％＝80.66％；用SIFT描述符直方图方法准确检索的图像分别为23幅、23幅、24幅、25幅、25幅，查准率分别为76.7％、76.7％、80％、83.3％、83.3％，平均查准率＝(76.7+76.7+80+83.3+83.3)/5*100％＝80％；用SIFT描述符核密度方法准确检索的图像分别为23幅、23幅、24幅、25幅、25幅，查准率分别为76.7％、76.7％、80％、83.3％、83.3％，平均查准率＝(80+76.7+76.7+83.3+83.3)/5*100％＝80％；

对于背景简单的图片，用本发明的检索方法与用基于SIFT描述符直方图检索和基于SIFT描述符核密度检索出来的图像差别不大，查准率相差不大，均达到80％左右。

实验二：待检索图像背景复杂实验

下面以背景复杂的“老虎”图像作为待检索图像，在所有“老虎”中随机抽取5幅图像作为查询图像，最后以所选取的5幅图像查准率的平均值最为最终结果。查准率定义如下：查准率＝(查询结果中与关键图相关的图像数/查询返回的图像数)*100％。

下面给出一幅背景复杂的“老虎”图像为待检索图像，如图7所示；按照本发明方法的检索结果如图8所示，基于SIFT描述符直方图方法的检索结果如图9所示，基于SIFT描述符核密度方法的检索结果如图10所示。

从图8可以看出，共返回30张图像，其中准确检索到26幅图像，准确率为86.7％。检索结果的第一幅图像为待检索图像本身，其余29幅中检索出25幅也全部是“老虎”类图像，并且这25幅图像中的虎头的形状、虎皮的花纹、背景区域等特征和待检索图像也都是非常相似的。

从图9可以看出，共返回30张图像，其中准确检索到12幅图像，准确率为40％。从图10可以看出，共返回30张图像，其中准确检索到13幅图像，准确率为43.3％。这两种检索结果，可以看出检索的12幅、13幅图像虽然也都是“老虎”类图像，但是虎头的形状、虎皮的花纹以及背景区域都与待检索图像有很大的不同，但其检索出图像的特点背景单一。

检索其余四幅待检索图像为“老虎”的图像，每幅待检索图像都返回30张图像，其中用本发明方法准确检索的图像分别为25幅、25幅、26幅、27幅，查准率分别为83.3％、83.3％、86.7％、90.0％，平均查准率＝(86.7+83.3+83.3+86.7+90.0)/5*100％＝86.0％；用SIFT描述符直方图方法准确检索的图像分别为12幅、12幅、13幅、13幅，查准率分别为40.0％、40.0％、43.3％、43.3％，平均查准率＝(40.0+40.0+40.0+43.3+43.3)/5*100％＝41.32％；用SIFT描述符核密度方法准确检索的图像分别为12幅、12幅、13幅、13幅，查准率分别为40.0％、40.0％、40.0％、43.3％，平均查准率＝(43.3+40.0+40.0+43.3+43.3)/5*100％＝41.98％；

从实验二的检索结果可以得出未被融合的两种检索结果在检索背景复杂的图片平均查准率仅达到了41.32％与41.98％，相当于根本不能检索出背复杂的图片。而本发明的方法平均查准率达到了86％，并没有因为背景复杂而降低查准率，这一检索结果，充分证明了提出的可扩展词汇树信息融合和Hausdorff距离结合的图像检索方法可以弥补原来检索方法不能检索复杂背景的图片的缺点。

Claims

1.一种面向图像检索的生成方法，其特征在于，包括生成SIFT描述符直方图和SIFT描述符核密度，包括以下步骤：

步骤b1：通过SIFT描述符的分层聚类来构造可扩展词汇树

步骤b3：对SIFT描述符进行量化，得到SIFT描述符核密度

2.根据权利要求1所述的面向图像检索的生成方法，其特征在于，用于图像检索。

3.根据权利要求2所述的面向图像检索的生成方法，其特征在于，所述图像检索为基于词汇树信息融合与豪斯多夫距离结合的图像检索方法；所述基于词汇树信息融合与豪斯多夫距离结合的图像检索方法，包括以下步骤：

步骤a、提取待检索图像及图像库SIFT特征；具体步骤如下：

步骤a1：构建待检索图像及图像库高斯差分尺度函数；

步骤a2：检测高斯差分尺度空间极值点；

步骤a3：除去边缘不稳定的特征点，生成SIFT描述符；

步骤b、生成SIFT描述符直方图和SIFT描述符核密度；具体步骤如下：

步骤b1：通过SIFT描述符的分层聚类来构造可扩展词汇树；

步骤b2：累计可扩展词汇树中每个节点上的描述符出现的次数，得到SIFT描述符直方图；

步骤b3：对SIFT描述符进行量化，得到SIFT描述符核密度；

步骤c、融合SIFT描述符核密度和SIFT描述符直方图；具体步骤如下：

步骤c1：得到SIFT描述符直方图和SIFT描述符核密度的基本概率分配函数；

步骤c2：应用Dempster组合规则结合步骤c1得到融合结果；

步骤d、改进传统Hausdorff距离度量；具体步骤如下：

步骤d1：写出成本函数的微分方程形式；

步骤d2：得到成本函数的通解；

步骤d3：用传统的Hausdorff距离作为成本函数的变量，改进的Hausdorff距离；

步骤e、将改进的Hausdorff距离用于图像匹配；具体步骤如下：