CN104463922A - 一种基于集成学习的图像特征编码及识别方法 - Google Patents
一种基于集成学习的图像特征编码及识别方法 Download PDFInfo
- Publication number
- CN104463922A CN104463922A CN201410728955.9A CN201410728955A CN104463922A CN 104463922 A CN104463922 A CN 104463922A CN 201410728955 A CN201410728955 A CN 201410728955A CN 104463922 A CN104463922 A CN 104463922A
- Authority
- CN
- China
- Prior art keywords
- training
- training sample
- image
- sample
- sampled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于集成学习的图像特征编码及识别方法,涉及信号与信息处理技术领域,包括:构造训练样本,初始化样本采样概率;根据采样概率选取训练样本,利用采样到的样本训练特征编码函数,对训练样本进行分类;根据分类结果自适应更新训练样本的采样概率;循环上述采样及训练过程,直至满足停止训练条件。本方法所训练得到的特征编码函数可将任意图像特征矢量映射为简短的哈希序列,同时可使哈希之间的距离最大程度地吻合于图像间的感知相似度,具有计算复杂度低的特点。测试结果表明由本发明所生成的图像哈希在图像内容识别中可以表现出较高的识别准确率。
Description
技术领域
本发明涉及信号与信息处理技术领域,尤其涉及一种基于集成学习的图像特征编码及识别方法。
背景技术
内容识别是解决图像查询、索引和版权管理问题的核心技术,图像内容识别的目标是在大型数据库或网络中搜索与待查询图像具有相同感知内容的同源图像。图像内容识别的前提是对图像的感知内容进行描述。为了降低图像内容识别的复杂度,通常需要将图像特征编码成简短的描述符。通过比对描述符即可对图像的感知相似性做出判断。为实现准确的图像内容识别,原始图像和它的同源版本(如原始图像经过有损压缩、滤波和添加噪声等内容保持失真后的版本)应该具有高度相似的描述符,称之为鲁棒性要求。相反,对于内容迥异的图像,它们的描述符之间应呈现出显著差异,称之为区分性要求。图像哈希算法是近年来提出的生成图像描述符的新技术,被广泛用于各类图像内容识别应用中。图像哈希算法可以将图像特征编码成具有良好鲁棒性和区分性的描述符(即哈希)。现有的图像哈希算法大多将图像特征进行量化,取特征的量化索引作为描述符。例如,文献[1]中提出一种自适应量化器,对特征进行随机的非均匀量化,将特征的量化索引作为图像描述符。在Swaminathan等人提出的算法中,作者用上述自适应量化器将基于傅立叶梅林变换的图像特征映射为哈希[2]。文献[3]中的图像哈希算法以图像内显著点的响应为特征,利用自适应量化器将响应量化为哈希。文献[4]提出基于抖动格型矢量量化的特征量化方法,对特征矢量进行随机抖动及格型矢量量化以生成哈希,该方法可在鲁棒性和区分性之间获得较好的平衡。此外,一些图像哈希算法通过将特征和阈值做比较来生成二值哈希[5],相当于对特征的二元量化。
发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:
文献所报道的算法大多沿袭数据压缩中的量化方法将图像特征映射至哈希。然而现有研究表明,特征的量化索引之间的距离难以准确反映出图像感知内容的相似度,由此影响了图像内容识别的性能。为了克服这一不足,本发明借助集成学习算法从训练样本中学习最优的特征编码函数,旨在使哈希之间的距离能够与图像感知内容的相似度达到最大吻合。
发明内容
本发明提供了一种基于集成学习的图像特征编码及识别方法,本发明提高了图像识别的准确度,详见下文描述:
一种基于集成学习的图像特征编码及识别方法,所述方法包括以下步骤:
构造训练样本,初始化样本采样概率;
根据采样概率选取训练样本,利用采样到的样本训练特征编码函数,对训练样本进行分类;
根据分类结果自适应更新训练样本的采样概率;
循环上述采样及训练过程,直至满足停止训练条件。
所述根据采样概率选取训练样本,利用采样到的样本训练特征编码函数,对训练样本进行分类的步骤具体为:
1)按照训练样本的采样概率w(Vi),i=1,2,…,N随机选取p×N个训练样本,其中0<p<1为采样比例;
2)利用采样到的样本训练第t个特征编码函数Mt(·):
3)根据2)中所得的编码函数Mt(·)构造分类器ht(·),据此对训练样本进行分类;
其中ht(Vi)∈{-1,+1}为对训练样本Vi进行分类;逐一将每个训练样本的分类结果ht(Vi)和其真实标签yi∈{-1,+1}做比对,计算ht(·)的分类错误率Et:
根据Et计算由Mt(·)所生成的哈希值在哈希距离比对中权重:
其中ln(·)表示取自然对数为底的对数运算。
本发明提供的技术方案的有益效果是:本发明提供的技术方案的有益效果是:本发明利用集成学习算法训练最优的特征编码函数,能够使图像哈希距离和图像感知相似度达到最佳匹配。通过编码函数将图像特征矢量编码成具有良好鲁棒性和区分性的图像哈希,以增强图像内容识别的准确率,由本发明所生成的图像哈希具有较高的鲁棒性和区分性,可实现准确的图像识别,实验测得的识别准确率为99.6%。
附图说明
图1为一种基于集成学习的图像特征编码及识别方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明实施例提出了一种基于集成学习的图像特征编码及识别方法,参见图1,这里以自适应集成学习算法[6]为例对本发明的实施过程加以说明:
101:构造训练样本,初始化样本采样概率;
1)选取N对训练图像,提取每幅训练图像的特征矢量构成训练样本,本发明对特征提取方法不做限制;
其中,N/2对由内容同源的图像对构成,即其中一幅为另外一幅经过内容保持失真(如滤波、加噪声和有损压缩等)之后的版本,其余N/2对由内容完全不同的图像对(非同源)构成。将第i个训练样本记为Vi=([vi,1,vi,2],yi),其中vi,1和vi,2分别为二幅图像的特征矢量,yi为训练样本Vi的标签,yi=-1和yi=+1分别表示两幅图像同源和非同源两种情况。
2)初始化:将每个训练样本的采样概率初始化为w(Vi)=1/N,i=1,2,…,N,将迭代次数初始化为t=1。
102:根据采样概率选取训练样本,利用采样到的样本训练特征编码函数,对训练样本进行分类;
1)按照训练样本的采样概率w(Vi)(i=1,2,…,N)随机选取p×N个训练样本,其中
0<p<1为采样比例,本发明对此不作限制;
2)利用采样到的样本训练第t个特征编码函数Mt(·):
式中v为训练图像的特征矢量,ft=Mt(v)为对特征矢量v进行编码后所得的哈希值,<·,·>为内积运算,dt为投影矢量,Qt为量化步长,[.]为取整数运算([x]表示取距离x最近的整数,例如[3.2]=3)。通过求解如下优化问题获取最优的投影矢量dt:
其中||·||2表示2-范数。本发明对求解上式的具体方法不做限制,通常可由单纯形搜索法或梯度下降法等方法求得。在求解最优投影矢量后,选择步长Q将哈希量化至区间[-F,F)内,本发明对此区间不做限制。
3)根据2)中所得的编码函数Mt(·)构造如下分类器ht(·),据此对训练样本进行分类,以第i个样本Vi=([vi,1,vi,2],yi)为例:
其中ht(Vi)∈{-1,+1}为对训练样本Vi进行分类的结果。逐一将每个训练样本的分类结果ht(Vi)和其真实标签yi∈{-1,+1}做比对,按如下方式计算ht(·)的分类错误率Et:
根据Et计算由Mt(·)所生成的哈希值ft在哈希距离比对中权重:
其中ln(·)表示取自然对数为底的对数运算。
103:根据分类结果自适应更新训练样本的采样概率;
更新训练集中所有样本的采样概率,以第i个训练样本为例:
w(Vi)=w(Vi)exp[-yiht(Vi)αt]
将所有训练样本的采样概率归一化至和为1:
104:循环上述采样及训练过程,直至满足停止训练条件;
如果t=T,停止训练,将所有哈希值的权重归一化至和为1:
其中T为预先选定阈值,本发明对该阈值不作限制。如果t<T,令t=t+1,重复102-103中所述步骤,继续训练第(t+1)个特征编码函数。
在完成上述训练过程后,对于任意给定图像,利用训练得到的T个特征编码函数Mt(·)(t=1,2,…,T)可将图像的特征矢量映射为哈希序列:[f1,f2,…,fT]。在图像识别中,按照如下方式度量二幅图像哈希序列之间的距离:
其中p=[p1,p2,…,pT]和q=[q1,q2,…,qT]分别为二幅图像的哈希序列,αt为序列中第t个哈希值的权重。如果D(p,q)<τ,则判断两幅图像内容相同(同源),否则判断两幅图像内容不同(非同源),其中τ为决策阈值,本发明对该阈值不作限制。
下面以图像块均值特征为例,说明本发明实施例提供的基于集成学习的图像特征编码及识别方法,详见下文描述:
步骤(1):选取训练样本,提取特征矢量
选取400对训练图像,其中同源图像对和非同源图像对各占200对。在同源图像对中,其中一幅为另外一幅经过内容保持失真之后的版本,本实例所采用的内容失真包括JPEG有损压缩、中值滤波、均值滤波、添加高斯噪声、直方图均衡化、旋转以及伽马矫正。将训练集合中第i个训练样本记为Vi=([vi,1,vi,2],yi),vi,1和vi,2分别为二幅图像的特征矢量,yi为训练样本Vi的标签,yi=-1和yi=+1分别表示两幅图像内容同源和非同源两种情况。本实例提取像素块的均值作为特征,具体方法如下:将每个训练图像归一化至标准尺寸64×64。在归一化后的图像中随机选取80个尺寸为W×W的图像块,其中W在[4,12]内按均匀分布随机选取。计算每个图像块内的灰度值均值,由此构成长度为80的特征矢量。
步骤(2):初始化训练样本采样概率
为训练集中的每个训练样本分配相同的采样概率:w(Vi)=1/400,i=1,2,…,400,将迭代次数置为t=1。
步骤(3):根据采样概率选取训练样本,利用采样到的样本训练特征编码函数,对训练样本进行分类
按照训练样本的采样概率w(Vi)(i=1,2,…,400)随机选取80个训练样本。利用所选取的80个训练样本训练第t个特征编码函数Mt(·):
式中v为训练图像的特征矢量,<·,·>为内积运算,dt为投影矢量,Qt为量化步长,[.]为取整数运算,ft=Mt(v)为特征矢量v经编码后的哈希值。为求得最优投影矢量,本实例利用单纯形搜索法[7]求解如下最小化问题:
选择步长Q将哈希值量化至区间[-8,8)内。
根据上述编码函数Mt(·)构造如下分类器ht(·),据此对所有400个训练样本进行分类,以第i个样本Vi为例:
将每个训练样本的分类结果和其标签进行比对,按如下方式计算分类错误率:
根据Et计算哈希值ft在哈希比对中的权重:
步骤(4):根据分类结果自适应更新训练样本的采样概率
按照如下方法更新所有训练样本的采样概率,以第i个训练样本为例:
w(Vi)=w(Vi)exp[-yiht(Vi)αt]
将所有训练样本的采样概率归一化至和为1:
步骤(5):判断是否满足迭代停止条件
如果t=20,停止迭代训练,将所有20个哈希值的权重归一化为和为1:否则,重复步骤(3)至(4),令t=t+1。
在完成训练后,给定任意一幅图像,即可用上述训练得到的编码函数Mt(·)将图像特征矢量映射至20个哈希值。在图像识别中,按照如下方式计算二幅图像哈希序列间的距离:
其中p=[p1,p2,…,p20]和q=[q1,q2,…,q20]为二幅图像的哈希序列,αt为第t个哈希的权重。为了测试上述实施在图像内容识别中的性能,在包含204000幅图像的数据库上进行了图像内容识别实验,其中3000幅为原始图像,其余图像为每个原始图像经过内容保持失真之后的版本,测试中所采用的失真种类包括:JPEG有损压缩、中值滤波、均值滤波、添加高斯噪声、添加散斑噪声、直方图均衡化、旋转以及伽马矫正。在图像识别实验中,逐一选取数据库中的每幅参考图像作为查询图像,分别计算它和每幅原始图像之间的哈希距离。如果哈希距离小于决策阈值,则判断两幅图像内容相同,否则判断为内容不同图像,测试中选取决策阈值τ=1.88,统计结果表明在该阈值下的图像识别准确率为99.6%。
参考文献
[1]M.K.Mihcak,R.Venkatesan.A perceptual audio hashing algorithm:a tool for robust audioidentification and information hiding[C].International Workshop on Information Hiding,2001,Pittsburgh,PA:51-65.
[2]A.Swaminathan,Y.Mao,M.Wu.Robust and secure image hashing[J].IEEE Trans.onInformation Forensics and Security,2006,1(2):215-230.
[3]V.Monga,B.L.Evans.Perceptual image hashing via feature points:performance evaluationand tradeoffs[J].IEEE Trans.on Image Processing,2006,15(11):3452-3465.
[4]Y.N.Li,Z.M.Lu,C.Zhu,X.M.Niu.Robust image hashing based on random Gaborfiltering and dithered lattice vector quantization[J].IEEE Trans.on Image Processing,2012,21(4):1963-1980.
[5]J.Fridrich,M.Goljan.Robust hash functions for digital watermarking[C].InternationalConference on Information Technology:Coding and Computing,2000:178-183
[6]R.E.Schapire.A brief introduction to boosting[C].International Joint Conference onArtificial Intelligence,1999,San Francisco,CA:1401-1406.
[7]W.H.Press,S.A.Teukolsky,W.T.Vetterling,and B.P.Flannery,Numerical Recipes:TheArt of Scientific Computing[M].Cambridge,UK:Cambridge University Press,2007.
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于集成学习的图像特征编码及识别方法,其特征在于,所述方法包括以下步骤:
构造训练样本,初始化样本采样概率;
根据采样概率选取训练样本,利用采样到的样本训练特征编码函数,对训练样本进行分类;
根据分类结果自适应更新训练样本的采样概率;
循环上述采样及训练过程,直至满足停止训练条件。
2.根据权利要求1所述的一种基于集成学习的图像特征编码及识别方法,其特征在于,所述根据采样概率选取训练样本,利用采样到的样本训练特征编码函数,对训练样本进行分类的步骤具体为:
1)按照训练样本的采样概率w(Vi),i=1,2,…,N随机选取p×N个训练样本,其中0<p<1为采样比例;
2)利用采样到的样本训练第t个特征编码函数Mt(·):
3)根据2)中所得的编码函数Mt(·)构造分类器ht(·),据此对训练样本进行分类;
其中ht(Vi)∈{-1,+1}为对训练样本Vi进行分类;逐一将每个训练样本的分类结果ht(Vi)和其真实标签yi∈{-1,+1}做比对,计算ht(·)的分类错误率Et:
根据Et计算由Mt(·)所生成的哈希值在哈希距离比对中权重:
其中ln(·)表示取自然对数为底的对数运算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410728955.9A CN104463922B (zh) | 2014-12-03 | 2014-12-03 | 一种基于集成学习的图像特征编码及识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410728955.9A CN104463922B (zh) | 2014-12-03 | 2014-12-03 | 一种基于集成学习的图像特征编码及识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104463922A true CN104463922A (zh) | 2015-03-25 |
CN104463922B CN104463922B (zh) | 2017-09-08 |
Family
ID=52909904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410728955.9A Active CN104463922B (zh) | 2014-12-03 | 2014-12-03 | 一种基于集成学习的图像特征编码及识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104463922B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126585A (zh) * | 2016-06-20 | 2016-11-16 | 北京航空航天大学 | 基于质量分级与感知哈希特征组合的无人机图像检索方法 |
CN109598281A (zh) * | 2018-10-11 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 一种业务风险防控方法、装置及设备 |
CN109964222A (zh) * | 2016-11-03 | 2019-07-02 | 三菱电机株式会社 | 用于处理具有多个点的输入点云的系统和方法 |
CN110533106A (zh) * | 2019-08-30 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 图像分类处理方法、装置及存储介质 |
CN111581489A (zh) * | 2020-05-22 | 2020-08-25 | 哈尔滨工程大学 | 一种基于共享计数树的存储空间优化采样方法 |
CN111882061A (zh) * | 2020-07-24 | 2020-11-03 | 成都成信高科信息技术有限公司 | 一种基于分层随机梯度下降的卷积神经网络训练方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521366A (zh) * | 2011-12-16 | 2012-06-27 | 华中科技大学 | 融合分类与全局索引的图像检索方法和图像检索系统 |
US8781154B1 (en) * | 2012-01-21 | 2014-07-15 | Google Inc. | Systems and methods facilitating random number generation for hashes in video and audio applications |
-
2014
- 2014-12-03 CN CN201410728955.9A patent/CN104463922B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521366A (zh) * | 2011-12-16 | 2012-06-27 | 华中科技大学 | 融合分类与全局索引的图像检索方法和图像检索系统 |
US8781154B1 (en) * | 2012-01-21 | 2014-07-15 | Google Inc. | Systems and methods facilitating random number generation for hashes in video and audio applications |
Non-Patent Citations (4)
Title |
---|
刘楠: "视频广告内容分析与理解", 《中国博士学位论文全文数据库 信息科技辑》 * |
宋相法: "基于稀疏表示和集成学习的若干分类问题研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
战国科: "基于人工神经网络的图像识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
杜晓旭: "基于Boosting算法的人脸识别方法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126585A (zh) * | 2016-06-20 | 2016-11-16 | 北京航空航天大学 | 基于质量分级与感知哈希特征组合的无人机图像检索方法 |
CN106126585B (zh) * | 2016-06-20 | 2019-11-19 | 北京航空航天大学 | 基于质量分级与感知哈希特征组合的无人机图像检索方法 |
CN109964222A (zh) * | 2016-11-03 | 2019-07-02 | 三菱电机株式会社 | 用于处理具有多个点的输入点云的系统和方法 |
CN109964222B (zh) * | 2016-11-03 | 2023-04-18 | 三菱电机株式会社 | 用于处理具有多个点的输入点云的系统和方法 |
CN109598281A (zh) * | 2018-10-11 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 一种业务风险防控方法、装置及设备 |
CN110533106A (zh) * | 2019-08-30 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 图像分类处理方法、装置及存储介质 |
CN111581489A (zh) * | 2020-05-22 | 2020-08-25 | 哈尔滨工程大学 | 一种基于共享计数树的存储空间优化采样方法 |
CN111581489B (zh) * | 2020-05-22 | 2023-03-24 | 哈尔滨工程大学 | 一种基于共享计数树的存储空间优化采样方法 |
CN111882061A (zh) * | 2020-07-24 | 2020-11-03 | 成都成信高科信息技术有限公司 | 一种基于分层随机梯度下降的卷积神经网络训练方法 |
CN111882061B (zh) * | 2020-07-24 | 2023-05-23 | 成都成信高科信息技术有限公司 | 一种基于分层随机梯度下降的卷积神经网络训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104463922B (zh) | 2017-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Barni et al. | Aligned and non-aligned double JPEG detection using convolutional neural networks | |
CN104463922A (zh) | 一种基于集成学习的图像特征编码及识别方法 | |
Fardo et al. | A formal evaluation of PSNR as quality measurement parameter for image segmentation algorithms | |
CN104661037B (zh) | 压缩图像量化表篡改的检测方法和系统 | |
CN108280480B (zh) | 一种基于残差共生概率的隐写图像载体安全性评价方法 | |
Gan et al. | Video object forgery detection algorithm based on VGG-11 convolutional neural network | |
Pasquini et al. | A Benford-Fourier JPEG compression detector | |
Badr et al. | A review on steganalysis techniques: from image format point of view | |
CN104951791A (zh) | 数据分类方法和装置 | |
CN103067713B (zh) | 一种位图jpeg压缩检测的方法及系统 | |
Xie et al. | Bag-of-words feature representation for blind image quality assessment with local quantized pattern | |
CN111901594B (zh) | 面向视觉分析任务的图像编码方法、电子设备及介质 | |
Gupta et al. | Video authentication in digital forensic | |
CN114758113A (zh) | 对抗样本防御训练方法、分类预测方法及装置、电子设备 | |
Redondi et al. | Low bitrate coding schemes for local image descriptors | |
CN104392207A (zh) | 一种用于数字图像内容识别的特征编码方法 | |
Hamadouche et al. | A comparative study of perceptual hashing algorithms: Application on fingerprint images | |
Mandelli et al. | Multiple JPEG compression detection through task-driven non-negative matrix factorization | |
Yang et al. | Approaching optimal embedding in audio steganography with GAN | |
He et al. | End-to-end facial image compression with integrated semantic distortion metric | |
CN111611450B (zh) | 跨媒介数据融合方法、装置及存储介质 | |
Chhikara et al. | A review on digital image steganalysis techniques categorised by features extracted | |
CN110619594B (zh) | 一种半色调图像隐写分析方法 | |
Valsesia et al. | Binary adaptive embeddings from order statistics of random projections | |
CN117314714A (zh) | 基于双域和多尺度网络的文档图像篡改检测与分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |