CN106778808A - 一种基于组稀疏编码的图像特征学习方法 - Google Patents
一种基于组稀疏编码的图像特征学习方法 Download PDFInfo
- Publication number
- CN106778808A CN106778808A CN201611036079.9A CN201611036079A CN106778808A CN 106778808 A CN106778808 A CN 106778808A CN 201611036079 A CN201611036079 A CN 201611036079A CN 106778808 A CN106778808 A CN 106778808A
- Authority
- CN
- China
- Prior art keywords
- group
- sparse
- description
- image
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2136—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于组稀疏编码的图像特征学习方法,涉及信号与信息处理技术领域,包括:将输入的图像分割成具有固定大小的图像块,并且按图像块空间位置分组,利用组稀疏编码获得每个组的图像块的稀疏描述;对各个组的稀疏描述进行池化,得到池化后的稀疏描述;将获得的稀疏描述再次按对应图像块空间位置分组,利用组稀疏编码获得每个组的稀疏描述;再次对各个组的稀疏描述进行池化,得到池化后的稀疏描述。本方法能够提取图像的慢变视觉特征,计算复杂度低;且提取出的特征鲁棒性强,复杂度低,模拟了人眼的视觉特性,可实现高效、准确的图像内容识别。
Description
技术领域
本发明涉及信号与信息处理技术领域,尤其涉及一种基于组稀疏编码的图像特征学习方法。
背景技术
人眼的视觉特性具有稀疏、分层、慢变的特征。因此通过分层的结构学习出稀疏、慢变的图像特征来模拟人眼的视觉特性具有重要意义。慢变特征就是基于慢原则而来,人眼所注意的重要特性往往是慢变的:轮廓、环境以及重要目标本身等等。慢变特征也具有更鲁棒的性质。因此,用什么样的模型来学习慢变特征是慢变特征学习的关键技术。
时域慢变特征的学习上:文献[1]中Mobahi等采用基于CNN和视频时域相关性学习慢变特征,文献[2]中Bergstra等采用基于复杂类细胞网络学习慢变特征。空域慢变特征的学习中,编码与字典学习是关键,文献[3]中Bengio等人提出组稀疏编码,并使用混合范数,提高了字典原子的使用率。
发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:
传统的手工特征提取往往只针对某个方面,而且需要先验知识。这不符合人眼的视觉特性。而且需要先验知识也增加很多局限,需要人工标注,费时费力。传统的稀疏编码方法由于不能保证其每个视觉描述子都能对整幅图片稀疏编码,因此在大尺寸图片的应用中往往会受到空间和时间资源的限制。
发明内容
本发明提供了一种基于组稀疏编码的图像特征学习方法,本发明从图像中学习慢变特征,该特征可以反映图片在空间上变化慢的重要信息,反映各个尺度的内在特征,同时具有良好的鲁棒性和区分性,据此可应用于目标识别或者图像和视频的搜索等领域,详见下文描述:
一种基于组稀疏编码的图像特征学习方法,所述方法包括以下步骤:
将输入的图像分割成具有固定大小的图像块,并且按图像块空间位置分组,利用组稀疏编码获得每个组的图像块的稀疏描述;
对各个组的稀疏描述进行池化,得到池化后的稀疏描述;
将获得的稀疏描述再次按对应图像块空间位置分组,利用组稀疏编码获得每个组的稀疏描述;
再次对各个组的稀疏描述进行池化,得到池化后的稀疏描述。
其中,所述将输入的图像分割成具有固定大小的图像块并且按图像块空间位置分组,利用组稀疏编码获得每个组的图像块的稀疏描述具体为:
1)沿水平和垂直方向将图像分割为N个固定大小的图像块,并将图像块转化为一维向量;按照图像块空间位置,将水平和垂直方向上邻近的N/M个块分为一组,共分为M个组;
2)对于集合中的每一个组,根据组稀疏编码字典,依次对组进行稀疏编码。
其中,所述依次对组进行稀疏编码具体为:
式中,重构矩阵由向量组成,其中R表示实数空间;为与αj维数相同的矢量;λ,β为常数;集合G称为组;|G|表示组中的图块向量数目,其值为N/M;为向量αj的第i个元素;dj为组稀疏编码字典中的第j(1≤j≤K)个原子,K表示字典原子个数,本发明实施例并不限制具体的字典生成方法及其原子个数。
其中,所述对各个组的稀疏描述进行池化,得到池化后的稀疏描述具体为:
将每个组的稀疏描述中的K个向量都求平均值,得到的平均向量作为池化结果;将池化结果作为该组的稀疏描述。
其中,所述将获得的稀疏描述再次按对应图像块空间位置分组,利用组稀疏编码获得每个组的稀疏描述具体为:
1)根据每个组对应图像的位置,将前一步池化得到的稀疏描述再次根据空间位置,将相近的M/M2个稀疏描述分为一组;
2)对于集合中的每一个组,根据组稀疏编码字典,依次进行稀疏编码,得到每一组编码结果。
本发明提供的技术方案的有益效果是:本发明通过对图像进行多层组稀疏编码生成图像特征,具有如下的有益效果:
1、稀疏编码能够以最稀疏的方式对图像进行描述,由此可保证特征的摘要性,有利于降低图像识别的复杂度以及特征存储空间;
2、分组稀疏编码能够反映出图像空间上变化慢的特征,由此保证了图像特征的鲁棒性;
3、分层的结构,模拟了人眼的视觉特征,使图像特征能反映出更大尺寸上的空间信息;
4、本发明程序简单,易于实现,所述的特征编码过程计算复杂度低。
附图说明
图1为对图像特征矢量进行编码的流程图;
图2为对图像特征矢量进行编码的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
为了实现对图像内容的简要且鲁棒的描述,本发明实施例提出了一种用于图像内容识别的特征编码方法,参见图1和图2,详见下文描述:
101:将输入的图像分割成具有固定大小的图像块,并且按图像块空间位置分组,利用组稀疏编码获得每个组的图像块的稀疏描述;
其中,该步骤具体为:
1)沿水平和垂直方向将图像分割为N个固定大小的图像块,并将图像块转化为n个一维向量,该向量的元素数为n,xi(i=1,2,…,N)。按照图像块空间位置,将水平和垂直方向上邻近的N/M个图像块分为一组,共分为M个组,Gm为第m个组;xm,i为第m个组中的第i个图块对应的一维向量。
其中,M和N的具体取值根据实际应用中的需要进行设定,本发明实施例对此不做限制。
2)对于集合中的每一个组Gm(m=1,2,...M),根据组稀疏编码字典依次对Gm进行稀疏编码;R为实数空间;
其中,d1,…,dK为字典中的K个原子,每个原子的维数与图像块x的维数相同,均为n。本发明实施例并不限制具体的字典生成方法及其原子个数。通过求解如下问题实现对其中一个组G的稀疏编码:
A=argminA Q(A,G,D)
其中
式中,重构矩阵由向量组成;λ,β为常数;G为组;|G|表示组中的图块向量数目;αj表示dj对组内每个块的贡献值;dj为组稀疏编码字典中的第j个原子;为当前组的第i个图块向量对应第j个字典原子的系数;为与αj维数相同的矢量,各维值相同,为矢量αj内所有元素的平均值;参数λ,β为各项的权重;||·||表示2-范数;A为当前组的系数矩阵。本发明实施例并不限制式(3)的求解方法及参数λ,β的选择。
102:对各个组的稀疏描述进行池化,得到池化后的稀疏描述:
其中,该步骤具体为:
在每个组的稀疏描述中,对每个向量αm,j求其元素平均值,即该平均值为dj对该组的平均贡献值,Am经过池化后得到的向量作为该组的稀疏描述,从而所有M个组得到M个组成矩阵
103:将获得的稀疏描述再次按对应图像块空间位置分组,利用组稀疏编码获得每个组的稀疏描述:
该步骤具体为:
1)根据每个组对应图像的位置,将步骤102池化得到的稀疏描述再次根据空间位置,将相近的M/M2个稀疏描述分为一组,共M2个组
2)对于集合中的每一个组根据组稀疏编码字典依次对进行稀疏编码,编码方法和步骤101中的编码方法相同,得到每一组编码结果
104:再次对各个组的稀疏描述进行池化,得到池化后的稀疏描述。
其中,该步骤中的池化方法与步骤102中的池化方法相同。
综上所述,本发明实施例从图像中学习慢变特征,该特征可以反映图片在空间上变化慢的重要信息,反映各个尺度的内在特征,同时具有良好的鲁棒性和区分性,据此可应用于目标识别或者图像和视频的搜索等领域。
实施例2
下面以一幅图像为例,结合具体的计算公式对实施例1中的方案进行详细介绍,详细说明本发明实施例提供的提取特征的方法,详见下文描述:
201:预处理;
其中,将输入图像归一化至标准尺寸512×512,并通过均值滤波。
202:对图像分块并分组;
其中,将512×512分为4096个尺寸为16×16的图像块,并按每相邻的4×4个块为一组,将1024个图像块分为256个组,每个组Gm(m=1,2,...256)中有16个图像块xi(i=1,2,…,16)。
203:对每图像块进行组稀疏编码;
对于所有组Gm(m=1,2,...256)中的一个组G,含有16个图像块xi(i=1,2,…,16),预先生成包含64个原子的稀疏编码字典D=[d1,…,d64]。
其中,本发明实施例中字典D由文献[3]中所述的字典学习算法生成,按照步骤201和步骤202所述的方法从100幅训练图像中抽取个1600个图像块,以此作为字典学习的训练矢量,生成64个维数为256的原子,最终将每个原子归一化为零均值。通过求解如下问题实现对每个组的组稀疏编码,以Gm为例:
其中
式中,由向量组成,为组Gm的稀疏描述,常数λ=0.1为约束稀疏描述稀疏性的权重,β=10为约束同组图像块对应的稀疏描述相似的权重。
本发明实施例通过坐标下降法求解式(4),针对每个组Gm,式(4)的求解方法包含如下具体步骤:
1)计算代价函数Q对于稀疏描述Am中的一个行向量αr的梯度:
[(||dr||2+λ+β)E-βI]αr-u
其中
其中,dr为第r个字典原子;αr为稀疏描述Am中的第r个行向量。
令梯度为0,解得αr=(STS)STu其中S=[(||dr||2+λ+β)E-βI],其中,E为单位矩阵,I为全1矩阵;T为转置。
2)重复步骤1),计算下一个行向量αj+1直到得到Am。
其中,迭代次数根据实际需要选择,本发明实施例对此不做限制。
204:对步骤203的编码结果池化,并且再次分组:
在步骤203中,每个组Gm得到的编码结果为矩阵Am,对Am的每个列向量αj求其元素平均值,即每个向量αj求平均值得到的值组成新的1×64的行向量作为该组的稀疏描述。共256组,池化完稀疏描述为256×64的矩阵。再根据每个行向量对应图片的位置,将相邻的2×2个稀疏描述的行向量分为一组,共16组。
205:对每组稀疏描述进行组稀疏编码:
对于每个组Gm(m=1,2,...64),含有4个图像块xi(i=1,2,…,4),预先生成包含16个原子的稀疏编码字典此步中字典生成方法与步骤203中字典生成方法相同,按照步骤201、202和步骤203所述的方法从100幅训练图像中训练出25600个第一层稀疏描述矢量,以此作为字典学习的训练矢量,生成16个维数为64的原子,最终将每个原子归一化为零均值。通过求解如下问题实现对每个组的组稀疏编码,以Gm为例:
其中
式中,由向量组成,为组Gm的稀疏描述,常数λ=0.1为约束稀疏描述稀疏性的正则化参数,β=10为约束同组图像块对应的稀疏描述相似的正则化参数。针对每个组Gm,式(5)的求解方法与步骤203相同。
206:对步骤205的编码结果池化。
在步骤205中,每个组Gm得到的编码结果为矩阵Am,对Am的每个列向量αj求其元素平均值,即每个向量αj求平均值得到的值组成新的1×16的行向量作为该组的稀疏描述。共64组,池化完稀疏描述为64×16的矩阵。将矩阵转化为1024维的矢量,作为最终特征。
综上所述,本发明实施例从图像中学习慢变特征,该特征可以反映图片在空间上变化慢的重要信息,反映各个尺度的内在特征,同时具有良好的鲁棒性和区分性,据此可应用于目标识别或者图像和视频的搜索等领域。
实施例3
下面结合具体的实验数据,对实施例1和2中的方案进行可行性验证,详见下文描述:
在上述实施例2中,将300张原始图片,每张图片加上8种失真,每种失真选取不同的失真程度。这8种失真分别为:JPEG有损压缩,压缩等级1到95;加入高斯噪声,方差范围为从0.01到0.36;旋转,旋转角度从1到10度;中值滤波,窗口大小从2到20;直方图均衡化,灰度级个数从8到224;伽马校正,伽马值从0.55到1.45;添加散斑噪声,方差从0.01到0.3;循环滤波,半径从0.1到3。共20100张失真图像。对每张失真图片和300张原始图片使用本方法生成1024维的慢变特征,并根据慢变特征生成哈希码。根据哈希码,查询每张失真图片的原始版本,统计查询结果是否正确。根据准确率P:查询结果正确的正例数据占预测为正例数据的比例;召回率R:查询结果为正例的数据占实际为正例数据的比例。
计算F1指标:F1=2/(1/P+1/R)=2×P×R/P+R,其结果是F1指标为0.995,接近于理想值1。可知所学习图像特征具有很强的鲁棒性。
综上所述,本发明实施例从图像中学习慢变特征,该特征可以反映图片在空间上变化慢的重要信息,反映各个尺度的内在特征,同时具有良好的鲁棒性和区分性,据此可应用于目标识别或者图像和视频的搜索等领域。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于组稀疏编码的图像特征学习方法,其特征在于,所述方法包括以下步骤:
将输入的图像分割成具有固定大小的图像块,并且按图像块空间位置分组,利用组稀疏编码获得每个组的图像块的稀疏描述;
对各个组的稀疏描述进行池化,得到池化后的稀疏描述;
将获得的稀疏描述再次按对应图像块空间位置分组,利用组稀疏编码获得每个组的稀疏描述;
再次对各个组的稀疏描述进行池化,得到池化后的稀疏描述。
2.根据权利要求1所述的一种基于组稀疏编码的图像特征学习方法,其特征在于,所述将输入的图像分割成具有固定大小的图像块并且按图像块空间位置分组,利用组稀疏编码获得每个组的图像块的稀疏描述具体为:
1)沿水平和垂直方向将图像分割为N个固定大小的图像块,并将图像块转化为一维向量;按照图像块空间位置,将水平和垂直方向上邻近的N/M个块分为一组,共分为M个组;
2)对于集合中的每一个组,根据组稀疏编码字典,依次对组进行稀疏编码。
3.根据权利要求2所述的一种基于组稀疏编码的图像特征学习方法,其特征在于,所述依次对组进行稀疏编码具体为:
式中,重构矩阵由向量组成,其中R表示实数空间;为与αj维数相同的矢量;λ,β为常数;集合G称为组;|G|表示组中的图块向量数目,其值为N/M;为向量αj的第i个元素;dj为组稀疏编码字典中的第j(1≤j≤K)个原子,K表示字典原子个数,本发明实施例并不限制具体的字典生成方法及其原子个数。
4.根据权利要求1所述的一种基于组稀疏编码的图像特征学习方法,其特征在于,方法,所述对各个组的稀疏描述进行池化,得到池化后的稀疏描述具体为:
将每个组的稀疏描述中的K个向量都求平均值,得到的平均向量作为池化结果;将池化结果作为该组的稀疏描述。
5.根据权利要求1所述的一种基于组稀疏编码的图像特征学习方法,其特征在于,方法,所述将获得的稀疏描述再次按对应图像块空间位置分组,利用组稀疏编码获得每个组的稀疏描述具体为:
1)根据每个组对应图像的位置,将前一步池化得到的稀疏描述再次根据空间位置,将相近的M/M2个稀疏描述分为一组;
2)对于集合中的每一个组,根据组稀疏编码字典,依次进行稀疏编码,得到每一组编码结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611036079.9A CN106778808B (zh) | 2016-11-09 | 2016-11-09 | 一种基于组稀疏编码的图像特征学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611036079.9A CN106778808B (zh) | 2016-11-09 | 2016-11-09 | 一种基于组稀疏编码的图像特征学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106778808A true CN106778808A (zh) | 2017-05-31 |
CN106778808B CN106778808B (zh) | 2020-09-08 |
Family
ID=58971358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611036079.9A Active CN106778808B (zh) | 2016-11-09 | 2016-11-09 | 一种基于组稀疏编码的图像特征学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106778808B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710891A (zh) * | 2018-04-03 | 2018-10-26 | 济南大学 | 基于感知哈希的循环平稳信号降维、识别方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361354A (zh) * | 2014-11-28 | 2015-02-18 | 电子科技大学 | 一种基于稀疏编码k最近邻直方图的海量图像分类方法 |
CN104408478A (zh) * | 2014-11-14 | 2015-03-11 | 西安电子科技大学 | 一种基于分层稀疏判别特征学习的高光谱图像分类方法 |
-
2016
- 2016-11-09 CN CN201611036079.9A patent/CN106778808B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408478A (zh) * | 2014-11-14 | 2015-03-11 | 西安电子科技大学 | 一种基于分层稀疏判别特征学习的高光谱图像分类方法 |
CN104361354A (zh) * | 2014-11-28 | 2015-02-18 | 电子科技大学 | 一种基于稀疏编码k最近邻直方图的海量图像分类方法 |
Non-Patent Citations (1)
Title |
---|
SAMY BENGIO等: "Group Sparse Coding", 《ADVANCED IN NEURAL INFORMATION PROCESSING SYSTEM》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710891A (zh) * | 2018-04-03 | 2018-10-26 | 济南大学 | 基于感知哈希的循环平稳信号降维、识别方法及系统 |
CN108710891B (zh) * | 2018-04-03 | 2020-08-11 | 济南大学 | 基于感知哈希的循环平稳信号降维、识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106778808B (zh) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102156875B (zh) | 基于多任务ksvd字典学习的图像超分辨率重构方法 | |
CN110378334B (zh) | 一种基于二维特征注意力机制的自然场景文本识别方法 | |
CN114092330B (zh) | 一种轻量化多尺度的红外图像超分辨率重建方法 | |
CN108230278B (zh) | 一种基于生成对抗网络的图像去雨滴方法 | |
CN101950365B (zh) | 基于ksvd字典学习的多任务超分辨率图像重构方法 | |
CN113240580A (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
CN107679582A (zh) | 一种基于多模态分解模型进行可视问答的方法 | |
CN109727195B (zh) | 一种图像超分辨率重构方法 | |
CN111126404B (zh) | 一种基于改进YOLO v3的古文字及字体识别方法 | |
CN105590304B (zh) | 超分辨率图像重建方法和装置 | |
CN111861886B (zh) | 一种基于多尺度反馈网络的图像超分辨率重建方法 | |
CN109920021B (zh) | 一种基于正则化宽度学习网络的人脸素描合成方法 | |
CN106157244A (zh) | 一种基于稀疏表示的QR Code图像超分辨重建方法 | |
CN111428727B (zh) | 基于序列变换纠正及注意力机制的自然场景文本识别方法 | |
Wei et al. | Improving resolution of medical images with deep dense convolutional neural network | |
CN110069992B (zh) | 一种人脸图像合成方法、装置、电子设备及存储介质 | |
CN108460400A (zh) | 一种结合多种特征信息的高光谱图像分类方法 | |
CN112184547B (zh) | 红外图像的超分辨率方法及计算机可读存储介质 | |
CN109461177A (zh) | 一种基于神经网络的单目图像深度预测方法 | |
CN113111716A (zh) | 一种基于深度学习的遥感影像半自动标注方法和装置 | |
CN109492610A (zh) | 一种行人重识别方法、装置及可读存储介质 | |
CN104866905B (zh) | 一种基于beta过程的非参数稀疏张量字典的学习方法 | |
CN114187506A (zh) | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 | |
CN103226818B (zh) | 基于流形正则稀疏支撑回归的单帧图像超分辨率重建方法 | |
CN105069767A (zh) | 基于表征学习与邻域约束嵌入的图像超分辨重构方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |