CN104463922A

CN104463922A - 一种基于集成学习的图像特征编码及识别方法

Info

Publication number: CN104463922A
Application number: CN201410728955.9A
Authority: CN
Inventors: 李岳楠; 王萍; 苏育挺
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2014-12-03
Filing date: 2014-12-03
Publication date: 2015-03-25
Anticipated expiration: 2034-12-03
Also published as: CN104463922B

Abstract

本发明公开了一种基于集成学习的图像特征编码及识别方法，涉及信号与信息处理技术领域，包括：构造训练样本，初始化样本采样概率；根据采样概率选取训练样本，利用采样到的样本训练特征编码函数，对训练样本进行分类；根据分类结果自适应更新训练样本的采样概率；循环上述采样及训练过程，直至满足停止训练条件。本方法所训练得到的特征编码函数可将任意图像特征矢量映射为简短的哈希序列，同时可使哈希之间的距离最大程度地吻合于图像间的感知相似度，具有计算复杂度低的特点。测试结果表明由本发明所生成的图像哈希在图像内容识别中可以表现出较高的识别准确率。

Description

一种基于集成学习的图像特征编码及识别方法

技术领域

本发明涉及信号与信息处理技术领域，尤其涉及一种基于集成学习的图像特征编码及识别方法。

背景技术

内容识别是解决图像查询、索引和版权管理问题的核心技术，图像内容识别的目标是在大型数据库或网络中搜索与待查询图像具有相同感知内容的同源图像。图像内容识别的前提是对图像的感知内容进行描述。为了降低图像内容识别的复杂度，通常需要将图像特征编码成简短的描述符。通过比对描述符即可对图像的感知相似性做出判断。为实现准确的图像内容识别，原始图像和它的同源版本(如原始图像经过有损压缩、滤波和添加噪声等内容保持失真后的版本)应该具有高度相似的描述符，称之为鲁棒性要求。相反，对于内容迥异的图像，它们的描述符之间应呈现出显著差异，称之为区分性要求。图像哈希算法是近年来提出的生成图像描述符的新技术，被广泛用于各类图像内容识别应用中。图像哈希算法可以将图像特征编码成具有良好鲁棒性和区分性的描述符(即哈希)。现有的图像哈希算法大多将图像特征进行量化，取特征的量化索引作为描述符。例如，文献[1]中提出一种自适应量化器，对特征进行随机的非均匀量化，将特征的量化索引作为图像描述符。在Swaminathan等人提出的算法中，作者用上述自适应量化器将基于傅立叶梅林变换的图像特征映射为哈希[2]。文献[3]中的图像哈希算法以图像内显著点的响应为特征，利用自适应量化器将响应量化为哈希。文献[4]提出基于抖动格型矢量量化的特征量化方法，对特征矢量进行随机抖动及格型矢量量化以生成哈希，该方法可在鲁棒性和区分性之间获得较好的平衡。此外，一些图像哈希算法通过将特征和阈值做比较来生成二值哈希[5]，相当于对特征的二元量化。

发明人在实现本发明的过程中，发现现有技术中至少存在以下缺点和不足：

文献所报道的算法大多沿袭数据压缩中的量化方法将图像特征映射至哈希。然而现有研究表明，特征的量化索引之间的距离难以准确反映出图像感知内容的相似度，由此影响了图像内容识别的性能。为了克服这一不足，本发明借助集成学习算法从训练样本中学习最优的特征编码函数，旨在使哈希之间的距离能够与图像感知内容的相似度达到最大吻合。

发明内容

本发明提供了一种基于集成学习的图像特征编码及识别方法，本发明提高了图像识别的准确度，详见下文描述：

一种基于集成学习的图像特征编码及识别方法，所述方法包括以下步骤：

构造训练样本，初始化样本采样概率；

根据采样概率选取训练样本，利用采样到的样本训练特征编码函数，对训练样本进行分类；

根据分类结果自适应更新训练样本的采样概率；

循环上述采样及训练过程，直至满足停止训练条件。

所述根据采样概率选取训练样本，利用采样到的样本训练特征编码函数，对训练样本进行分类的步骤具体为：

1)按照训练样本的采样概率w(V_i)，i＝1,2,…,N随机选取p×N个训练样本，其中0＜p＜1为采样比例；

2)利用采样到的样本训练第t个特征编码函数M_t(·)：

3)根据2)中所得的编码函数M_t(·)构造分类器h_t(·)，据此对训练样本进行分类；

其中h_t(V_i)∈{-1,+1}为对训练样本V_i进行分类；逐一将每个训练样本的分类结果h_t(V_i)和其真实标签y_i∈{-1,+1}做比对，计算h_t(·)的分类错误率E_t：

E_{t} = \frac{1}{N} Σ_{i = 1}^{N} \frac{[1 - y_{i} h_{t} (V_{i})]}{2}

根据E_t计算由M_t(·)所生成的哈希值在哈希距离比对中权重：

α_{t} = \frac{1}{2} \ln [(1 - E_{t}) / E_{t}]

其中ln(·)表示取自然对数为底的对数运算。

本发明提供的技术方案的有益效果是：本发明提供的技术方案的有益效果是：本发明利用集成学习算法训练最优的特征编码函数，能够使图像哈希距离和图像感知相似度达到最佳匹配。通过编码函数将图像特征矢量编码成具有良好鲁棒性和区分性的图像哈希，以增强图像内容识别的准确率，由本发明所生成的图像哈希具有较高的鲁棒性和区分性，可实现准确的图像识别，实验测得的识别准确率为99.6％。

附图说明

图1为一种基于集成学习的图像特征编码及识别方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明实施例提出了一种基于集成学习的图像特征编码及识别方法，参见图1，这里以自适应集成学习算法[6]为例对本发明的实施过程加以说明：

101：构造训练样本，初始化样本采样概率；

1)选取N对训练图像，提取每幅训练图像的特征矢量构成训练样本，本发明对特征提取方法不做限制；

其中，N/2对由内容同源的图像对构成，即其中一幅为另外一幅经过内容保持失真(如滤波、加噪声和有损压缩等)之后的版本，其余N/2对由内容完全不同的图像对(非同源)构成。将第i个训练样本记为V_i＝([v_i,1,v_i,2],y_i)，其中v_i,1和v_i,2分别为二幅图像的特征矢量，y_i为训练样本V_i的标签，y_i＝-1和y_i＝+1分别表示两幅图像同源和非同源两种情况。

2)初始化：将每个训练样本的采样概率初始化为w(V_i)＝1/N,i＝1,2,…,N,将迭代次数初始化为t＝1。

102：根据采样概率选取训练样本，利用采样到的样本训练特征编码函数，对训练样本进行分类；

1)按照训练样本的采样概率w(V_i)(i＝1,2,…,N)随机选取p×N个训练样本，其中

0＜p＜1为采样比例，本发明对此不作限制；

2)利用采样到的样本训练第t个特征编码函数M_t(·)：

f_{t} = M_{t} (v) = [\frac{&lang; v, d_{t} &rang;}{Q_{t}}]

式中v为训练图像的特征矢量，f_t＝M_t(v)为对特征矢量v进行编码后所得的哈希值，<·,·>为内积运算，d_t为投影矢量，Q_t为量化步长，[.]为取整数运算([x]表示取距离x最近的整数，例如[3.2]＝3)。通过求解如下优化问题获取最优的投影矢量d_t：

\min_{d_{t}} Σ_{i = 1}^{N} \exp (- y_{i} {&lang; \frac{d_{t}}{{| | d_{t} | |}_{2}}, v_{i, 1} - v_{i, 2} &rang;}^{2})

其中||·||₂表示2-范数。本发明对求解上式的具体方法不做限制，通常可由单纯形搜索法或梯度下降法等方法求得。在求解最优投影矢量后，选择步长Q将哈希量化至区间[-F,F)内，本发明对此区间不做限制。

3)根据2)中所得的编码函数M_t(·)构造如下分类器h_t(·)，据此对训练样本进行分类，以第i个样本V_i＝([v_i,1,v_i,2],y_i)为例：

其中h_t(V_i)∈{-1,+1}为对训练样本V_i进行分类的结果。逐一将每个训练样本的分类结果h_t(V_i)和其真实标签y_i∈{-1,+1}做比对，按如下方式计算h_t(·)的分类错误率E_t：

E_{t} = \frac{1}{N} Σ_{i = 1}^{N} \frac{[1 - y_{i} h_{t} (V_{i})]}{2} .

根据E_t计算由M_t(·)所生成的哈希值f_t在哈希距离比对中权重：

α_{t} = \frac{1}{2} \ln [(1 - E_{t}) / E_{t}]

其中ln(·)表示取自然对数为底的对数运算。

103：根据分类结果自适应更新训练样本的采样概率；

更新训练集中所有样本的采样概率，以第i个训练样本为例：

w(V_i)＝w(V_i)exp[-y_ih_t(V_i)α_t]

将所有训练样本的采样概率归一化至和为1：

w (V_{i}) = \frac{w (V_{i})}{Σ_{i = 1}^{N} w (V_{i})}, i = 1,2, . . ., N

104：循环上述采样及训练过程，直至满足停止训练条件；

如果t＝T，停止训练，将所有哈希值的权重归一化至和为1：

α_{t} = \frac{α_{t}}{Σ_{t = 1}^{T} α_{t}}, t = 1,2, . . ., T .

其中T为预先选定阈值，本发明对该阈值不作限制。如果t＜T，令t＝t+1，重复102-103中所述步骤，继续训练第(t+1)个特征编码函数。

在完成上述训练过程后，对于任意给定图像，利用训练得到的T个特征编码函数M_t(·)(t＝1,2,…,T)可将图像的特征矢量映射为哈希序列：[f₁,f₂,…,f_T]。在图像识别中，按照如下方式度量二幅图像哈希序列之间的距离：

D (p, q) = Σ_{t = 1}^{T} α_{t} | p_{t} - q_{t} |

其中p＝[p₁,p₂,…,p_T]和q＝[q₁,q₂,…,q_T]分别为二幅图像的哈希序列，α_t为序列中第t个哈希值的权重。如果D(p,q)＜τ，则判断两幅图像内容相同(同源)，否则判断两幅图像内容不同(非同源)，其中τ为决策阈值，本发明对该阈值不作限制。

下面以图像块均值特征为例，说明本发明实施例提供的基于集成学习的图像特征编码及识别方法，详见下文描述：

步骤(1)：选取训练样本，提取特征矢量

选取400对训练图像，其中同源图像对和非同源图像对各占200对。在同源图像对中，其中一幅为另外一幅经过内容保持失真之后的版本，本实例所采用的内容失真包括JPEG有损压缩、中值滤波、均值滤波、添加高斯噪声、直方图均衡化、旋转以及伽马矫正。将训练集合中第i个训练样本记为V_i＝([v_i,1,v_i,2],y_i)，v_i,1和v_i,2分别为二幅图像的特征矢量，y_i为训练样本V_i的标签，y_i＝-1和y_i＝+1分别表示两幅图像内容同源和非同源两种情况。本实例提取像素块的均值作为特征，具体方法如下：将每个训练图像归一化至标准尺寸64×64。在归一化后的图像中随机选取80个尺寸为W×W的图像块，其中W在[4,12]内按均匀分布随机选取。计算每个图像块内的灰度值均值，由此构成长度为80的特征矢量。

步骤(2)：初始化训练样本采样概率

为训练集中的每个训练样本分配相同的采样概率：w(V_i)＝1/400,i＝1,2,…,400,将迭代次数置为t＝1。

步骤(3)：根据采样概率选取训练样本，利用采样到的样本训练特征编码函数，对训练样本进行分类

按照训练样本的采样概率w(V_i)(i＝1,2,…,400)随机选取80个训练样本。利用所选取的80个训练样本训练第t个特征编码函数M_t(·)：

f_{t} = M_{t} (v) = [\frac{&lang; v, d_{t} &rang;}{Q_{t}}]

式中v为训练图像的特征矢量，<·,·>为内积运算，d_t为投影矢量，Q_t为量化步长，[.]为取整数运算，f_t＝M_t(v)为特征矢量v经编码后的哈希值。为求得最优投影矢量，本实例利用单纯形搜索法[7]求解如下最小化问题：

\min_{d_{t}} Σ_{i = 1}^{400} \exp (- y_{i} {&lang; \frac{d_{t}}{{| | d_{t} | |}_{2}}, v_{i, 1} - v_{i, 2} &rang;}^{2})

选择步长Q将哈希值量化至区间[-8,8)内。

根据上述编码函数M_t(·)构造如下分类器h_t(·)，据此对所有400个训练样本进行分类，以第i个样本V_i为例：

将每个训练样本的分类结果和其标签进行比对，按如下方式计算分类错误率：

E_{t} = \frac{1}{400} Σ_{i = 1}^{400} \frac{[1 - y_{i} h_{t} (V_{i})]}{2} .

根据E_t计算哈希值f_t在哈希比对中的权重：

步骤(4)：根据分类结果自适应更新训练样本的采样概率

按照如下方法更新所有训练样本的采样概率，以第i个训练样本为例：

w(V_i)＝w(V_i)exp[-y_ih_t(V_i)α_t]

将所有训练样本的采样概率归一化至和为1：

w (V_{i}) = \frac{w (V_{i})}{Σ_{i = 1}^{400} w (V_{i})}, i = 1,2, . . ., 400

步骤(5)：判断是否满足迭代停止条件

如果t＝20，停止迭代训练，将所有20个哈希值的权重归一化为和为1：否则，重复步骤(3)至(4)，令t＝t+1。

在完成训练后，给定任意一幅图像，即可用上述训练得到的编码函数M_t(·)将图像特征矢量映射至20个哈希值。在图像识别中，按照如下方式计算二幅图像哈希序列间的距离：

D (p, q) = Σ_{t = 1}^{T} α_{t} | p_{t} - q_{t} |

其中p＝[p₁,p₂,…,p₂₀]和q＝[q₁,q₂,…,q₂₀]为二幅图像的哈希序列，α_t为第t个哈希的权重。为了测试上述实施在图像内容识别中的性能，在包含204000幅图像的数据库上进行了图像内容识别实验，其中3000幅为原始图像，其余图像为每个原始图像经过内容保持失真之后的版本，测试中所采用的失真种类包括：JPEG有损压缩、中值滤波、均值滤波、添加高斯噪声、添加散斑噪声、直方图均衡化、旋转以及伽马矫正。在图像识别实验中，逐一选取数据库中的每幅参考图像作为查询图像，分别计算它和每幅原始图像之间的哈希距离。如果哈希距离小于决策阈值，则判断两幅图像内容相同，否则判断为内容不同图像，测试中选取决策阈值τ＝1.88，统计结果表明在该阈值下的图像识别准确率为99.6％。

参考文献

[1]M.K.Mihcak,R.Venkatesan.A perceptual audio hashing algorithm:a tool for robust audioidentification and information hiding[C].International Workshop on Information Hiding,2001,Pittsburgh,PA:51-65.

[2]A.Swaminathan,Y.Mao,M.Wu.Robust and secure image hashing[J].IEEE Trans.onInformation Forensics and Security,2006,1(2):215-230.

[3]V.Monga,B.L.Evans.Perceptual image hashing via feature points:performance evaluationand tradeoffs[J].IEEE Trans.on Image Processing,2006,15(11):3452-3465.

[4]Y.N.Li,Z.M.Lu,C.Zhu,X.M.Niu.Robust image hashing based on random Gaborfiltering and dithered lattice vector quantization[J].IEEE Trans.on Image Processing,2012,21(4):1963-1980.

[5]J.Fridrich,M.Goljan.Robust hash functions for digital watermarking[C].InternationalConference on Information Technology:Coding and Computing,2000:178-183

[6]R.E.Schapire.A brief introduction to boosting[C].International Joint Conference onArtificial Intelligence,1999,San Francisco,CA:1401-1406.

[7]W.H.Press,S.A.Teukolsky,W.T.Vetterling,and B.P.Flannery,Numerical Recipes:TheArt of Scientific Computing[M].Cambridge,UK:Cambridge University Press,2007.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于集成学习的图像特征编码及识别方法，其特征在于，所述方法包括以下步骤：

构造训练样本，初始化样本采样概率；

根据分类结果自适应更新训练样本的采样概率；

循环上述采样及训练过程，直至满足停止训练条件。

2.根据权利要求1所述的一种基于集成学习的图像特征编码及识别方法，其特征在于，所述根据采样概率选取训练样本，利用采样到的样本训练特征编码函数，对训练样本进行分类的步骤具体为：

2)利用采样到的样本训练第t个特征编码函数M_t(·)：

E_{t} = \frac{1}{N} Σ_{i = 1}^{N} \frac{[1 - y_{i} h_{t} (V_{i})]}{2}

根据E_t计算由M_t(·)所生成的哈希值在哈希距离比对中权重：

α_{t} = \frac{1}{2} \ln [(1 - E_{t}) / E_{t}]

其中ln(·)表示取自然对数为底的对数运算。