CN103324942B - 一种图像分类方法、装置及系统 - Google Patents

一种图像分类方法、装置及系统 Download PDF

Info

Publication number
CN103324942B
CN103324942B CN201310242980.1A CN201310242980A CN103324942B CN 103324942 B CN103324942 B CN 103324942B CN 201310242980 A CN201310242980 A CN 201310242980A CN 103324942 B CN103324942 B CN 103324942B
Authority
CN
China
Prior art keywords
image
matrix
dictionary
sparse
unlabeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310242980.1A
Other languages
English (en)
Other versions
CN103324942A (zh
Inventor
秦兴德
王军
吴金勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anke Robot Co ltd
SHANGHAI QINGTIAN ELECTRONIC TECHNOLOGY CO LTD
Original Assignee
China Security and Surveillance Technology PRC Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Security and Surveillance Technology PRC Inc filed Critical China Security and Surveillance Technology PRC Inc
Priority to CN201310242980.1A priority Critical patent/CN103324942B/zh
Publication of CN103324942A publication Critical patent/CN103324942A/zh
Application granted granted Critical
Publication of CN103324942B publication Critical patent/CN103324942B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明适用于图像处理领域,提供了一种图像分类方法,包括:获取未标注图像,并对获取到的未标注图像进行预处理,生成所述未标注图像的标准化矩阵;根据预先建立的字典学习的优化函数模型,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数;根据所述未标注图像的稀疏系数对所述未标注图像进行分类。在本发明实施例中,避免了出现由于图像的复杂性,每一种具体的特征只代表一部分信息,且具体的特征仅对部分图像目标有效的情况,同时避免了出现训练模型只包含标注图像的信息,标注信息极其有限,而大量的未标注的信息被浪费的情况,从而解决了现有的图像分类方法缺乏有效性以及全面性的问题,提高了图像分类的效率。

Description

一种图像分类方法、装置及系统
技术领域
本发明属于图像处理领域,尤其涉及一种图像分类方法、装置及系统。
背景技术
随着多媒体数据的爆炸性增涨,人工对图像进行分类越来越困难,基于图像内容的自动分类越来越受到重视。自动的图像分类技术能够通过对图像本身内容进行处理分析,从而预测图像的类别,避免了大量人工处理。如何利用计算机来自动将图像按照人们理解的方式划分到不同的语义类别就成为图像处理中的一个关键问题。
然而,现有的图像分类方法缺乏有效性以及全面性,具体地,现有的图像分类方法,主要通过图像的内容特征和分类器学习来实现对图像的自动分类,而这类分类方法有两个主要问题:一是需要提取大量的特征,比如SIFT、HOG等,由于图像的复杂性,每一种具体的特征只代表一部分信息,而且具体的特征仅对部分图像目标有效,比如Harr特征对人脸具有较强的表达能力,而对一个复杂的问题中的非人脸信息表达较弱,因此缺乏有效性;二是训练模型只包含标注图像的信息,标注信息极其有限,而大量的未标注的信息被浪费,因此缺乏全面性。
发明内容
本发明实施例的目的在于提供一种图像分类方法,旨在解决现有的图像分类方法缺乏有效性以及全面性的问题。
本发明实施例是这样实现的,一种图像分类方法,包括:
获取未标注图像,并对获取到的未标注图像进行预处理,生成所述未标注图像的标准化矩阵;
根据预先建立的字典学习的优化函数模型,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数;
根据所述未标注图像的稀疏系数对所述未标注图像进行分类。
进一步地,所述对获取到的未标注图像进行预处理,包括:
获取未标注图像的分辨率,并将所述分辨率转化为相同的预设分辨率;
将所述未标注图像按预设的分割顺序,切割成为各个预设大小的未标注图像块,所述分割顺序包括从上至下、从左至右;
获取所述未标注图像块的列向量;
获取所述未标注图像块的所述列向量的均值;
获取所述未标注图像块的所述列向量的标准差;
将所述列向量减去所述列向量的均值生成差值,再将所述差值除以所述列标准差,生成所述未标注图像中所有图像块的列向量组成的标准化矩阵。
进一步地,所述根据预先建立的字典学习的优化函数模型,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数,包括:
建立字典学习优化函数的模型:
min J ( α , D ) = 1 2 Σ i = 1 n ( x i - Dα i ) 2 + λ Σ i = 1 n f ( α i σ i ) + γ Σ i = 1 n ( α i T α i )
等式右侧第一项为最小重构误差,第二项为稀疏系数惩罚项,第三项是反馈连接项;
其中,n为非标注图像的标准化矩阵的列数;
其中,X=(x1,x2,…,xn)为非标注图像经过预处理后的标准化矩阵,
xn表示标准化矩阵的第n列;
D=(d1,d2,…,dp)为字典基元,dp表示字典基元的第p列;
αi为标准化矩阵每列对应的稀疏系数;
12,…,αn)T为稀疏系数矩阵,αn表示稀疏系数矩阵的第n列,且
为给定的稀疏系数方差的尺度变量;
λ>0为常数,决定惩罚项相对于第一项的重要性,可以根据多次实验,进行设置经验值。
γ>0为常数,决定反馈连接项相对于第一项的重要性,可以根据多次实验,进行设置经验值。
f(·)是一个非线性稀疏惩罚函数,用于表示稀疏性强烈的强度:
f ( y ) = 1 2 β ( α + 2 ) [ 0.5 α ( α + 1 ) ] 0.5 ( α + 1 ) [ 0.5 ( α + 1 ) + | y / β | ] α + 3
其中,y表示随机变量,β>0是一个尺度参数,α>0是一个稀疏程度参数,尺度参数和稀疏程度参数估算方法如下:
β = E { y 2 }
α = 2 - k + k ( K + 4 ) 2 k - 1
k=β2fy(0)2
其中,k表示迭代次数;
根据预先建立的字典学习的优化函数模型,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数,
进一步地,还包括:
获取标注图像,并对获取到的标注图像进行预处理,生成所述标注图像的标准化矩阵;
根据预先建立的稀疏系数求解函数模型、所述字典基元以及所述标准化矩阵,生成所述标注图像的稀疏系数;
根据所述标注图像的稀疏系数对所述标注图像进行分类。
进一步地,所述根据预先建立的稀疏系数求解函数模型、所述字典基元以及所述标准化矩阵,生成所述标注图像的稀疏系数,包括:
建立稀疏系数求解函数的模型;
α ^ ( y ) = arg min 1 2 Σ i = 1 M ( y i - Dα i ) 2 + λ Σ i = 1 M f ( α i σ i ) + γ Σ i = 1 M ( α i T α i )
其中,M为标注图像的标准化矩阵的列数;
Y=(y1,y2,…,yM)为标注图像的标准化矩阵;
αi为标准化矩阵每列对应的稀疏系数;
根据稀疏系数求解函数的模型、所述字典基元以及所述标准化矩阵,生成所述标注图像的稀疏系数。
本发明实施例的另一目的在于提供一种图像分类装置,包括:
第一获取单元,用于获取未标注图像,并对获取到的未标注图像进行预处理,生成所述未标注图像的标准化矩阵;
第一生成单元,用于根据预先建立的字典学习的优化函数模型,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数;
第一分类单元,用于根据所述未标注图像的稀疏系数对所述未标注图像进行分类。
进一步地,在该图像分类装置中,所述第一获取单元,包括:
第一获取子单元,用于获取未标注图像的分辨率,并将所述分辨率转化为相同的预设分辨率;
分割子单元,用于将所述未标注图像按预设的分割顺序,切割成为各个预设大小的未标注图像块,所述分割顺序包括从上至下、从左至右;
第二获取子单元,用于获取所述未标注图像块的列向量;
第三获取子单元,用于获取所述未标注图像块的所述列向量的均值;
第四获取子单元,用于获取所述未标注图像块的所述列向量的标准差;
生成子单元,用于将所述列向量减去所述列向量的均值生成差值,再将所述差值除以所述列标准差,生成所述未标注图像中各个图像块的标准化矩阵。
进一步地,在该图像分类装置中,所述第一获取单元,包括:
建立子单元,用于建立字典学习优化函数的模型:
min J ( α , D ) = 1 2 Σ i = 1 n ( x i - Dα i ) 2 + λ Σ i = 1 n f ( α i σ i ) + γ Σ i = 1 n ( α i T α i )
等式右侧第一项为最小重构误差,第二项为稀疏系数惩罚项,第三项是反馈连接项;
其中,n为非标注图像的标准化矩阵的列数;
其中,X=(x1,x2,…,xn)为非标注图像经过预处理后的标准化矩阵,
xn表示标准化矩阵的第n列;
D=(d1,d2,…,dp)为字典基元,dp表示字典基元的第p列;
αi为标准化矩阵每列对应的稀疏系数;
12,…,αn)T为稀疏系数矩阵,αn表示稀疏系数矩阵的第n列,且
为给定的稀疏系数方差的尺度变量;
λ>0为常数,决定惩罚项相对于第一项的重要性,可以根据多次实验,进行设置经验值。
γ>0为常数,决定反馈连接项相对于第一项的重要性,可以根据多次实验,进行设置经验值。
f(·)是一个非线性稀疏惩罚函数,用于表示稀疏性强烈的强度:
f ( y ) = 1 2 β ( α + 2 ) [ 0.5 α ( α + 1 ) ] 0.5 ( α + 1 ) [ 0.5 ( α + 1 ) + | y / β | ] α + 3
其中,y表示随机变量,β>0是一个尺度参数,α>0是一个稀疏程度参数,尺度参数和稀疏程度参数估算方法如下:
β = E { y 2 }
α = 2 - k + k ( K + 4 ) 2 k - 1
k=β2fy(0)2
其中,k表示迭代次数;
第一生成子单元,用于根据预先建立的字典学习的优化函数模型,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数。
进一步地,在该图像分类装置中,还包括:
第二获取单元,用于获取标注图像,并对获取到的标注图像进行预处理,生成所述标注图像的标准化矩阵;
第二生成单元,用于根据预先建立的稀疏系数求解函数模型、所述字典基元以及所述标准化矩阵,生成所述标注图像的稀疏系数。
第二分类单元,用于根据所述标注图像的稀疏系数对所述标注图像进行分类。
进一步地,在该图像分类装置中,所述第二生成单元,包括:
第二建立子单元,用于建立稀疏系数求解函数的模型;
α ^ ( y ) = arg min 1 2 Σ i = 1 M ( y i - Dα i ) 2 + λ Σ i = 1 M f ( α i σ i ) + γ Σ i = 1 M ( α i T α i )
其中,M为标注图像的标准化矩阵的列数;
Y=(y1,y2,…,yM)为标注图像的标准化矩阵;
αi为标准化矩阵每列对应的稀疏系数;
第二生成子单元,用于根据稀疏系数求解函数的模型、所述字典基元以及所述标准化矩阵,生成所述标注图像的稀疏系数。本发明实施例的另一目的在于提供一种图像分类系统,其包括上述任意一项图像分类装置。
在本发明实施例中,根据预先建立的字典学习的优化函数模型,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数;根据所述未标注图像的稀疏系数对所述未标注图像进行分类,从而无需提取图像的大量的特征,无需通过特征对图像进行检索、分类,因此避免了出现由于图像的复杂性,每一种具体的特征只代表一部分信息,而且具体的特征仅对部分图像目标有效的情况,同时避免了出现训练模型只包含标注图像的信息,标注信息极其有限,而大量的未标注的信息被浪费的情况,从而解决了现有的图像分类方法缺乏有效性以及全面性的问题,提高了图像分类的效率。
附图说明
图1是本发明实施例提供的图像分类方法的实现流程图;
图2是本发明实施例提供的图像分类方法步骤S101具体实现流程图;
图3是本发明实施例提供的在实际应用中图像分割较佳的样例图;
图4是本发明实施例提供的对标注图像进行分类的实现流程图;
图5是本发明实施例提供的在实施应用中较佳的实现流程图;
图6是本发明实施例提供的图像分类装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,根据预先建立的字典学习的优化函数模型,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数;根据所述未标注图像的稀疏系数对所述未标注图像进行分类,从而无需提取图像的大量的特征,无需通过特征对图像进行检索、分类,因此避免了出现由于图像的复杂性,每一种具体的特征只代表一部分信息,而且具体的特征仅对部分图像目标有效的情况,同时避免了出现训练模型只包含标注图像的信息,标注信息极其有限,而大量的未标注的信息被浪费的情况,从而解决了现有的图像分类方法缺乏有效性以及全面性的问题,提高了图像分类的效率。
图1示出了本发明实施例提供的一种图像分类方法的实现流程,详述如下:
在步骤S101中,获取未标注图像,并对获取到的未标注图像进行预处理,生成所述未标注图像的标准化矩阵;
在本实施例中,未标注图像表示不具备标注字符串的图像,所述标注字符串包括但不限于标注词。例如,上传到网站上不带有标注词的图像,该类图像即表示未标注图像。
在本实施例中,获取未标注图像,可采用现有技术的任一种方式获取,如通过上网的方式获取,或通过本地数据库导入的方式获取。
在本实施例中,对未标注图像进行预处理,生成所述未标注图像的标准化矩阵。
在本实施例中,为便于说明,图2示出了未标注图像进行预处理的实施过程,详述如下;
在步骤S201中,获取未标注图像的分辨率,并将所述分辨率转化为相同的预设分辨率;
在本实施例中,预设分辨率可以为用户自设,也可以采用系统默认。
在本实施例中,分辨率转化为相同的分辨率,可通过未标注图像的分辨率与设定的分辨率生成缩放比例,并通过缩放比例进行相应的压缩或填充像素点。
在步骤S202中,将所述未标注图像按预设的分割顺序,切割成为各个预设大小的未标注图像块,所述分割顺序包括从上至下、从左至右;
在本实施例中,预设大小可以为用户自设,也可以采用系统默认。
为例于说明,图3示出了本发明实施例在实际应用中图像分割的较佳的样例图。
在步骤S203中,获取所述未标注图像块的列向量;
在本实施例中,未标注图像块以矩阵的形式进行记录存储,矩阵的列向量即为未标注图像块的列向量。
在步骤S204中,获取所述未标注图像块的所述列向量的均值;
在本实施例中,未标注图像块以矩阵的形式进行记录存储,列向量的均值可通过矩阵的列向量求和,再除以列数得到。。
在步骤S205中,获取所述未标注图像块的所述列向量的标准差;
在步骤S206中,将所述列向量减去所述列向量的均值生成差值,再将所述差值除以所述列标准差,生成所述未标注图像中各个图像块的标准化矩阵。
在本实施例中,通过生成图像中各个图像块的标准化矩阵,以将不同大小、不同分辨率的图像,都换成同一形式的图像块进行处理,便于后续通过根据预先建立的字典学习的优化函数模型,以及标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数。
在步骤S102中,根据预先建立的字典学习的优化函数模型,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数。
在本实施例中,稀疏是表示利用字典、将图像信号表示成少数原子的线性组合的过程。
在本实施例中,稀疏系数是标准化矩阵相对于字典基元的线性表示的线性系数,稀疏系数的一个重要特征是零系数的个数远大于非零系数的个数,图像块与字典基元存在线性关系,因此稀疏系数可以线性表示图像的特征信息。
在本实施例中,字典基元和稀疏系数以矩阵的形式记录存储。
在本实施例中,根据字典学习优化函数,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数,包括:
建立字典学习优化函数的模型:
min J ( α , D ) = 1 2 Σ i = 1 n ( x i - Dα i ) 2 + λ Σ i = 1 n f ( α i σ i ) + γ Σ i = 1 n ( α i T α i )
等式右侧第一项为最小重构误差,第二项为稀疏系数惩罚项,第三项是反馈连接项;其中,n为非标注图像的标准化矩阵的列数。X=(x1,x2,…,xn)为图像经过预处理后,生成的图像块组成的标准化矩阵,n为矩阵的列数。所述D=(d1,d2,…,dp)为字典基元,dp表示字典基元的第p列,每个列向量代表一个字典基向量。
αi为标准化矩阵每列对应的稀疏系数,将标准化矩阵每列对应的稀疏系数αi以矩阵的形式记录存储,以组成稀疏系数矩阵α。
α=(α12,…,αn)T为稀疏系数矩阵,其中,n为稀疏系数矩阵的列数,每个行向量是一个系数向量,αn表示稀疏系数矩阵的第n列,且
为给定的稀疏系数方差的尺度变量;
λ>0为常数,决定惩罚项相对于第一项的重要性,可以根据多次实验,进行设置经验值。
γ>0为常数,决定反馈连接项相对于第一项的重要性,可以根据多次实验,进行设置经验值。
f(·)是一个非线性稀疏惩罚函数,用于表示稀疏性强烈的强度:
f ( y ) = 1 2 β ( α + 2 ) [ 0.5 α ( α + 1 ) ] 0.5 ( α + 1 ) [ 0.5 ( α + 1 ) + | y / β | ] α + 3 - - - ( 2 )
其中β>0是一个尺度参数,α>0是一个稀疏程度参数,两个参数估算方法如下:
β = E { y 2 }
α = 2 - k + k ( K + 4 ) 2 k - 1
k=β2fy(0)2
其中fy(0)是随机变量y在零点的密度值。
优化函数的求解使用一种优化的PRP共轭梯度算法,对于一个最小最优化问题函数J(·),x=(x1,x2,…,xn)是一个随机矢量,算法过程为:
设置迭代次数k,令k=1,设置非负的初始点x(k),精度参数u>1,求出x(k)的一阶偏导数
则停止计算;否则令
d x ( k ) = - g ( k ) + β k - 1 d x ( k - 1 )
其中
求解一维问题得到步长μk,令
令k=k+1,若算法收敛,则结束迭代过程,反之,返回第(2)步。
在本实施例中,求解测试样本y的稀疏系数α,采用最小角度回归模型(LARS,LeastAngle Regression),详述如下:
求解优化函数公式(1)步骤:
设置迭代次数k=1,设置优化的PRP共轭梯度算法精度参数u>1,图像重构误差ξ≤0.02,选择di(k)、αi(k)的非负初始值,并进行归一化;
迭代过程:固定当前的字典基向量,采用优化的PRP共轭梯度算法实现αi(k)的迭代;
令系数分量αi(k)的所有非负元素为0,并进行归一化:
α 1 ^ ( k ) = α i ( k ) / Σ i = 1 m α i ( k )
固定第(2)步得到的当前值αi(k+1),采用优化的PRP共轭梯度算法实现di(k)的迭代;
令字典基向量di(k)的所有非负元素为0,令di(k+1):=di(k);
令k=k+1,若算法收敛则结束PRP共轭梯度迭代过程,否则重新开始迭代过程;
对更新后的字典基元D和稀疏系数矩阵α,判断是否成立,其中ξ可通过经验值预先设定,若成立,学习过程结束,否则重复第(2)步的共轭迭代过程。
其中,指的是标准化矩阵与通过字典基元重建后的矩阵之间误差平方和,误差越小,字典基元的特征表达能力越强,通过设置较小的ξ,以尽可能获取表达能力强的字典基元。
在本实施例中,获取到字典基元矩阵D和未标注样本的稀疏系数矩阵α,将同一幅图像的稀疏系数矩阵α转化为一个行向量,每一个行向量代表一幅图像,以降低数据的空间维度,以适合后续分类器的数据输入。
在本实施例中,通过反馈连接项,根据图像块矩阵中的行向量的变化,重构字典学习优化函数,实时对字典基元以及稀疏系数进行调整,增强了字典基元及稀疏系数在特征层的类判别能力,便于后续通过稀疏系数进行图像分类。
在步骤S103中,根据所述未标注图像的稀疏系数对所述未标注图像进行分类。
在本实施例中,使用分类器SVM或者随机森林,根据所述未标注图像的稀疏系数对所述未标注图像进行分类。
在本实施例中,先获取训练的样本集导入分类器SVM,再将稀疏系数矩阵α转化为一个行向量,将此类型的行向量组成的样本矩阵代入分类器SVM,以获取分类结果。
在本实施例中,采用随机森林根据所述未标注图像的稀疏系数对未标注图像进行分类,由于随机森林采用随机子空间特征选择方法,减少了输入空间的维数且能够快速构造决策树,根据多个决策树的结果采用投票策略决定分类结果,克服了数据维数高,训练样本少,运算速度慢等问题,提高了分类的速度。
在本实施例中,字典基元捕获未标注图像的局部特征,解决了现有技术只对标注的图像进行分类的情况。此外,图像块与字典基元存在线性关系,其线性系数非常稀疏,即零值多,计算效率高。由于通过图像中具有特征的稀疏系数进行分类,从而无需提取图像的大量的特征,无需通过特征对图像进行检索、分类,因此避免了出现由于图像的复杂性,每一种具体的特征只代表一部分信息,而且具体的特征仅对部分图像目标有效的情况,同时避免了出现训练模型只包含标注图像的信息,标注信息极其有限,而大量的未标注的信息被浪费的情况,从而解决了现有的图像分类方法缺乏有效性以及全面性的问题,提高了图像分类的效率。
作为本发明的一个优选实施例,图4示出了对标注图像进行分类的实施例过程,详述如下:
在步骤S401中,获取标注图像,并对获取到的标注图像进行预处理,生成所述标注图像的标准化矩阵;
在本实施例中,标注图像表示具备标注字符串的图像,所述标注字符串包括但不限于标注词。例如,上传到网站上带有标注词的图像,该类图像即表示标注图像。
在本实施例中,获取标注图像,可采用现有技术的任一种方式获取,如通过上网的方式获取,或通过本地数据库导入的方式获取。
在本实施例中,对标注图像进行预处理,生成标注图像的标准化矩阵。其中,对标注图像进行预处理的步骤与对非标注图像进行预处理的步骤相同,具体过程,在此不做赘述。通过相同步骤的预处理,便于后续进行分类。
在步骤S402中,根据预先建立的稀疏系数求解函数模型、所述字典基元以及所述标准化矩阵,生成所述标注图像的稀疏系数。
在本实施例中,稀疏系数求解函数以及所述标准化矩阵,生成所述标注图像的稀疏系数,包括:
建立稀疏系数求解函数的模型;
α ^ ( y ) = arg min 1 2 Σ i = 1 M ( y i - Dα i ) 2 + λ Σ i = 1 M f ( α i σ i ) + γ Σ i = 1 M ( α i T α i ) - - - ( 4 )
其中,M为标注图像的标准化矩阵的列数;
所述Y=(y1,y2,…,yM)为标注图像的标准化矩阵;
αi为标准化矩阵每列对应的稀疏系数;
根据稀疏系数求解函数的模型、所述字典基元以及所述标准化矩阵,生成所述标注图像的稀疏系数。
为根据步骤二得到的字典基元D,使用最小角回归LARS算法求解Y的稀疏系数,最终得到Y的系数矩阵将同一幅图像的稀疏系数转化为一个行向量,每一个行向量代表一幅图像,以克服数据空间维度高,以便于后续用于分类。
由于非标注图像和标注图像采用是同一个字典基元,因此生成的稀疏系数是具有相同的量级,确保了后续可以进行统一的分类。
在步骤S403中,根据所述标注图像的稀疏系数对所述标注图像进行分类。
在本实施例中,可使用分类器SVM或者随机森林,根据所述标注图像的稀疏系数对所述标注图像进行分类。
在本实施例中,使用分类器SVM或者随机森林,根据所述未标注图像的稀疏系数对所述未标注图像进行分类。
在本实施例中,先获取训练的样本集导入分类器SVM,再将稀疏系数矩阵α转化为一个行向量,将该一个行向量代入分类器SVM,以获取分类结果。
在本实施例中,采用随机森林根据所述未标注图像的稀疏系数对标注图像进行分类,由于随机森林采用随机子空间特征选择方法,减少了输入空间的维数且能够快速构造决策树,根据多个决策树的结果采用投票策略决定分类结果,克服了数据维数高,训练样本少,运算速度慢等问题,提高了分类的速度。
在本实施例中,字典基元捕获标注图像的局部特征,且图像的区域块与字典基元存在线性关系,因此每幅图像可以由线性稀疏系数表示。由于通过图像的稀疏系数进行分类,从而无需提取图像的大量的特征,无需通过特征对图像进行检索、分类,因此避免了出现由于图像的复杂性,每一种具体的特征只代表一部分信息,而且具体的特征仅对部分图像目标有效的情况,同时避免了出现训练模型只包含标注图像的信息,标注信息极其有限,而大量的未标注的信息被浪费的情况,从而解决了现有的图像分类方法缺乏有效性以及全面性的问题,提高了图像分类的效率。
作为本发明的一个优选实施例,图5示出了本发明实施例在实施应用中较佳的实施流程,详述如下:
S501,对未标注图像以及标注图像进行预处理;
S502,对未标注图像进行字典学习,生成字典基元以及所述未标注图像的稀疏系数;
S503,根据稀疏系数求解函数以及字典基元,生成所述标注图像的稀疏系数;
S504,通过预设分类方式对未标注图像以及标注图像进行分类。
图6示出了本发明实施例提供的一种分类装置的结构框图,该装置可以运行于各种终端,包括但不限于移动电话、口袋计算机(Pocket Personal Computer,PPC)、掌上电脑、计算机、笔记本电脑、个人数字助理(Personal Digital Assistant,PDA)、MP4、MP3等。为了便于说明,仅示出了与本实施例相关的部分。
参照图6,该图像分类装置,包括:
第一获取单元61,用于获取未标注图像,并对获取到的未标注图像进行预处理,生成所述未标注图像的标准化矩阵;
第一生成单元62,用于根据预先建立的字典学习的优化函数模型,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数;
第一分类单元63,用于根据所述未标注图像的稀疏系数对所述未标注图像进行分类。
进一步地,在该图像分类装置中,所述第一获取单元,包括:
第一获取子单元,用于获取未标注图像的分辨率,并将所述分辨率转化为相同的预设分辨率;
分割子单元,用于将所述未标注图像按预设的分割顺序,切割成为各个预设大小的未标注图像块,所述分割顺序包括从上至下、从左至右;
第二获取子单元,用于获取所述未标注图像块的列向量;
第三获取子单元,用于获取所述未标注图像块的所述列向量的均值;
第四获取子单元,用于获取所述未标注图像块的所述列向量的标准差;
生成子单元,用于将所述列向量减去所述列向量的均值生成差值,再将所述差值除以所述列标准差,生成所述未标注图像中各个图像块的标准化矩阵。
进一步地,在该图像分类装置中,所述第一获取单元,包括:
建立子单元,用于建立字典学习优化函数的模型:
min J ( α , D ) = 1 2 Σ i = 1 n ( x i - Dα i ) 2 + λ Σ i = 1 n f ( α i σ i ) + γ Σ i = 1 n ( α i T α i )
等式右侧第一项为最小重构误差,第二项为稀疏系数惩罚项,第三项是反馈连接项;
其中,n为非标注图像的标准化矩阵的列数;
其中,X=(x1,x2,…,xn)为非标注图像经过预处理后的标准化矩阵,
xn表示标准化矩阵的第n列;
D=(d1,d2,…,dp)为字典基元,dp表示字典基元的第p列;
αi为标准化矩阵每列对应的稀疏系数;
12,…,αn)T为稀疏系数矩阵,αn表示稀疏系数矩阵的第n列,且
为给定的稀疏系数方差的尺度变量;
λ>0为常数,决定惩罚项相对于第一项的重要性,可以根据多次实验,进行设置经验值。
γ>0为常数,决定反馈连接项相对于第一项的重要性,可以根据多次实验,进行设置经验值。
f(·)是一个非线性稀疏惩罚函数,用于表示稀疏性强烈的强度:
f ( y ) = 1 2 β ( α + 2 ) [ 0.5 α ( α + 1 ) ] 0.5 ( α + 1 ) [ 0.5 ( α + 1 ) + | y / β | ] α + 3
其中,y表示随机变量,β>0是一个尺度参数,α>0是一个稀疏程度参数,尺度参数和稀疏程度参数估算方法如下:
β = E { y 2 }
α = 2 - k + k ( K + 4 ) 2 k - 1
k=β2fy(0)2
其中,k表示迭代次数;
第一生成子单元,用于根据预先建立的字典学习的优化函数模型,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数。
进一步地,在该图像分类装置中,还包括:
第二获取单元,用于获取标注图像,并对获取到的标注图像进行预处理,生成所述标注图像的标准化矩阵;
第二生成单元,用于根据预先建立的稀疏系数求解函数模型、所述字典基元以及所述标准化矩阵,生成所述标注图像的稀疏系数。
第二分类单元,用于根据所述标注图像的稀疏系数对所述标注图像进行分类。
进一步地,在该图像分类装置中,所述第二生成单元,包括:
第二建立子单元,用于建立稀疏系数求解函数的模型;
α ^ ( y ) = arg min 1 2 Σ i = 1 M ( y i - Dα i ) 2 + λ Σ i = 1 M f ( α i σ i ) + γ Σ i = 1 M ( α i T α i )
其中,M为标注图像的标准化矩阵的列数;
Y=(y1,y2,…,yM)为标注图像的标准化矩阵;
αi为标准化矩阵每列对应的稀疏系数;
第二生成子单元,用于根据稀疏系数求解函数的模型、所述字典基元以及所述标准化矩阵,生成所述标注图像的稀疏系数。
在本发明实施例中,根据预先建立的字典学习的优化函数模型,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数;根据所述未标注图像的稀疏系数对所述未标注图像进行分类,从而无需提取图像的大量的特征,无需通过特征对图像进行检索、分类,因此避免了出现由于图像的复杂性,每一种具体的特征只代表一部分信息,而且具体的特征仅对部分图像目标有效的情况,同时避免了出现训练模型只包含标注图像的信息,标注信息极其有限,而大量的未标注的信息被浪费的情况,从而解决了现有的图像分类方法缺乏有效性以及全面性的问题,提高了图像分类的效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种图像分类方法,其特征在于,包括:
获取未标注图像,并对获取到的未标注图像进行预处理,生成所述未标注图像的标准化矩阵;
根据预先建立的字典学习的优化函数模型,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数;
根据所述未标注图像的稀疏系数对所述未标注图像进行分类;
其中,根据未标注图像的稀疏系数对未标注图像进行分类时,采用以下特定的方式:
先获取训练的样本集导入分类器SVM,再将稀疏系数矩阵α转化为一个行向量,将该一个行向量代入分类器SVM,以获取分类结果;
其中,所述的方法,还包括:
获取标注图像,并对获取到的标注图像进行预处理,生成所述标注图像的标准化矩阵;
根据预先建立的稀疏系数求解函数模型、所述字典基元以及所述标准化矩阵,生成所述标注图像的稀疏系数;
根据所述标注图像的稀疏系数对所述标注图像进行分类;
其中,所述根据预先建立的稀疏系数求解函数模型、所述字典基元以及所述标准化矩阵,生成所述标注图像的稀疏系数,包括:
建立稀疏系数求解函数的模型;
其中,M为标注图像的标准化矩阵的列数;
Y=(y1,y2,…,yM)为标注图像的标准化矩阵;
f(·)是一个非线性稀疏惩罚函数,用于表示稀疏性强烈的强度;
αi为标准化矩阵每列对应的稀疏系数;
为给定的稀疏系数方差的尺度变量;
λ>0为常数;
γ>0为常数;D为字典基元;
Y的系数矩阵
根据稀疏系数求解函数的模型、所述字典基元以及所述标准化矩阵,生成所述标注图像的稀疏系数。
2.如权利要求1所述的方法,其特征在于,所述对获取到的未标注图像进行预处理,包括:
获取未标注图像的分辨率,并将所述分辨率转化为相同的预设分辨率;
将所述未标注图像按预设的分割顺序,切割成为各个预设大小的未标注图像块,所述分割顺序包括从上至下、从左至右;
获取所述未标注图像块的列向量;
获取所述未标注图像块的所述列向量的均值;
获取所述未标注图像块的所述列向量的标准差;
将所述列向量减去所述列向量的均值生成差值,再将所述差值除以所述列标准差,生成所述未标注图像中所有图像块的列向量组成的标准化矩阵。
3.如权利要求1所述的方法,其特征在于,所述根据预先建立的字典学习的优化函数模型,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数,包括:
建立字典学习优化函数的模型:
等式右侧第一项为最小重构误差,第二项为稀疏系数惩罚项,第三项是反馈连接项;
其中,n为非标注图像的标准化矩阵的列数;
其中,X=(x1,x2,…,xn)为非标注图像经过预处理后的标准化矩阵,
xn表示标准化矩阵的第n列;
D=(d1,d2,…,dp)为字典基元,dp表示字典基元的第p列;
αi为标准化矩阵每列对应的稀疏系数;
12,…,αn)T为稀疏系数矩阵,αn表示稀疏系数矩阵的第n列,且
为给定的稀疏系数方差的尺度变量;
λ>0为常数,决定惩罚项相对于第一项的重要性,可以根据多次实验,进行设置经验值;
γ>0为常数,决定反馈连接项相对于第一项的重要性,可以根据多次实验,进行设置经验值;
f(·)是一个非线性稀疏惩罚函数,用于表示稀疏性强烈的强度:
其中,y表示随机变量,β>0是一个尺度参数,α>0是一个稀疏程度参数,尺度参数和稀疏程度参数估算方法如下:
k=β2fy(0)2
其中,k表示迭代次数;
根据预先建立的字典学习的优化函数模型,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数。
4.一种图像分类装置,其特征在于,包括:
第一获取单元,用于获取未标注图像,并对获取到的未标注图像进行预处理,生成所述未标注图像的标准化矩阵;
第一生成单元,用于根据预先建立的字典学习的优化函数模型,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数;
第一分类单元,用于根据所述未标注图像的稀疏系数对所述未标注图像进行分类;
其中,根据未标注图像的稀疏系数对未标注图像进行分类时,采用以下特定的方式:
先获取训练的样本集导入分类器SVM,再将稀疏系数矩阵α转化为一个行向量,将该一个行向量代入分类器SVM,以获取分类结果;
其中,该图像分类装置还包括:
第二获取单元,用于获取标注图像,并对获取到的标注图像进行预处理,生成所述标注图像的标准化矩阵;
第二生成单元,用于根据预先建立的稀疏系数求解函数模型、所述字典基元以及所述标准化矩阵,生成所述标注图像的稀疏系数;
第二分类单元,用于根据所述标注图像的稀疏系数对所述标注图像进行分类;
其中,所述第二生成单元,包括:
第二建立子单元,用于建立稀疏系数求解函数的模型;
其中,M为标注图像的标准化矩阵的列数;Y=(y1,y2,…,yM)为标注图像的标准化矩阵;
f(·)是一个非线性稀疏惩罚函数,用于表示稀疏性强烈的强度;
αi为标准化矩阵每列对应的稀疏系数;
为给定的稀疏系数方差的尺度变量;
λ>0为常数;
γ>0为常数;D为字典基元;
Y的系数矩阵
第二生成子单元,用于根据稀疏系数求解函数的模型、所述字典基元以及所述标准化矩阵,生成所述标注图像的稀疏系数。
5.如权利要求4所述的装置,其特征在于,所述第一获取单元,包括:
第一获取子单元,用于获取未标注图像的分辨率,并将所述分辨率转化为相同的预设分辨率;
分割子单元,用于将所述未标注图像按预设的分割顺序,切割成为各个预设大小的未标注图像块,所述分割顺序包括从上至下、从左至右;
第二获取子单元,用于获取所述未标注图像块的列向量;
第三获取子单元,用于获取所述未标注图像块的所述列向量的均值;
第四获取子单元,用于获取所述未标注图像块的所述列向量的标准差;
生成子单元,用于将所述列向量减去所述列向量的均值生成差值,再将所述差值除以所述列标准差,生成所述未标注图像中所有图像块的列向量组成的标准化矩阵。
6.如权利要求4所述的装置,其特征在于,所述第一生成单元,包括:
建立子单元,用于建立字典学习优化函数的模型:
等式右侧第一项为最小重构误差,第二项为稀疏系数惩罚项,第三项是反馈连接项;
其中,n为非标注图像的标准化矩阵的列数;
其中,X=(x1,x2,…,xn)为非标注图像经过预处理后的标准化矩阵,
xn表示标准化矩阵的第n列;
D=(d1,d2,…,dp)为字典基元,dp表示字典基元的第p列;
αi为标准化矩阵每列对应的稀疏系数;
12,…,αn)T为稀疏系数矩阵,αn表示稀疏系数矩阵的第n列,且
为给定的稀疏系数方差的尺度变量;
λ>0为常数,决定惩罚项相对于第一项的重要性,可以根据多次实验,进行设置经验值;
γ>0为常数,决定反馈连接项相对于第一项的重要性,可以根据多次实验,进行设置经验值;
f(·)是一个非线性稀疏惩罚函数,用于表示稀疏性强烈的强度:
其中,y表示随机变量,β>0是一个尺度参数,α>0是一个稀疏程度参数,尺度参数和稀疏程度参数估算方法如下:
k=β2fy(0)2
其中,k表示迭代次数;
第一生成子单元,用于根据预先建立的字典学习的优化函数模型,以及所述标准化矩阵,生成字典学习的字典基元以及所述未标注图像的稀疏系数。
7.一种图像分类系统,其特征在于:包括权利要求4至6任意一项所述图像分类装置。
CN201310242980.1A 2013-06-18 2013-06-18 一种图像分类方法、装置及系统 Expired - Fee Related CN103324942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310242980.1A CN103324942B (zh) 2013-06-18 2013-06-18 一种图像分类方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310242980.1A CN103324942B (zh) 2013-06-18 2013-06-18 一种图像分类方法、装置及系统

Publications (2)

Publication Number Publication Date
CN103324942A CN103324942A (zh) 2013-09-25
CN103324942B true CN103324942B (zh) 2016-12-28

Family

ID=49193670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310242980.1A Expired - Fee Related CN103324942B (zh) 2013-06-18 2013-06-18 一种图像分类方法、装置及系统

Country Status (1)

Country Link
CN (1) CN103324942B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103594084B (zh) * 2013-10-23 2016-05-25 江苏大学 联合惩罚稀疏表示字典学习的语音情感识别方法及系统
CN109949332B (zh) * 2017-12-20 2021-09-17 北京京东尚科信息技术有限公司 用于处理图像的方法和装置
CN109118473B (zh) * 2018-07-03 2022-04-12 深圳大学 基于神经网络的角点检测方法、存储介质与图像处理系统
CN111160134A (zh) * 2019-12-12 2020-05-15 浙江大学 一种以人为主体的视频景别分析方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020647A (zh) * 2013-01-08 2013-04-03 西安电子科技大学 基于级联的sift特征和稀疏编码的图像分类方法
CN103077511A (zh) * 2013-01-25 2013-05-01 西安电子科技大学 基于字典学习和结构相似的图像超分辨率重建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020647A (zh) * 2013-01-08 2013-04-03 西安电子科技大学 基于级联的sift特征和稀疏编码的图像分类方法
CN103077511A (zh) * 2013-01-25 2013-05-01 西安电子科技大学 基于字典学习和结构相似的图像超分辨率重建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Classification and Clustering via Dictionary Learning with Structured Incoherence and Shared Features;RAMIREZ I et al.;《IEEE Conference on Computer Vision and Pattern Recognition》;20101231;3501-3508 *
以图像分类为目标的字典学习算法;徐健;《现代电子技术》;20130115;第36卷(第2期);22-25 *

Also Published As

Publication number Publication date
CN103324942A (zh) 2013-09-25

Similar Documents

Publication Publication Date Title
CN109871532B (zh) 文本主题提取方法、装置及存储介质
US10754851B2 (en) Question answering for data visualizations
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
TW201837746A (zh) 特徵向量的產生、搜索方法、裝置及電子設備
CN114358203B (zh) 图像描述语句生成模块的训练方法及装置、电子设备
CN112100401B (zh) 面向科技服务的知识图谱构建方法、装置、设备及存储介质
CN103324942B (zh) 一种图像分类方法、装置及系统
CN112417155B (zh) 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质
US9542654B2 (en) Overlapping trace norms for multi-view learning
CN103473308B (zh) 基于最大间隔张量学习的高维多媒体数据分类方法
CN117390169B (zh) 表格数据问答方法、装置、设备及存储介质
CN109740471A (zh) 基于联合潜在语义嵌入的遥感图像描述方法
Manisha et al. Content-based image retrieval through semantic image segmentation
CN117725458A (zh) 一种获取威胁情报样本数据生成模型的方法及装置
WO2016090625A1 (en) Scalable web data extraction
Shang et al. Deep learning generic features for cross-media retrieval
CN111768214A (zh) 产品属性的预测方法、系统、设备和存储介质
JP2011108192A (ja) マルチメディア分類システム及びマルチメディア検索システム
Hettiarachchi Analysis of different face detection andrecognition models for Android
WO2021137942A1 (en) Pattern generation
Ji [Retracted] Research on Recognition Effect of DSCN Network Structure in Hand‐Drawn Sketch
Paolanti et al. Perganet: A deep learning framework for automatic appearance-based analysis of ancient parchment collections
CN118298431B (zh) 一种自然场景图像描述生成方法及系统
CN114842246B (zh) 一种社交媒体压力类别检测方法及装置
CN117931858B (zh) 数据查询方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 518000 Guangdong province Shenzhen city Futian District District Shennan Road Press Plaza room 1306

Patentee after: ANKE ROBOT CO.,LTD.

Address before: 518000 Guangdong province Shenzhen city Futian District District Shennan Road Press Plaza room 1306

Patentee before: ANKE SMART CITY TECHNOLOGY (PRC) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20171114

Address after: 200070 room 912, Gonghe Road, 504, Shanghai, Jingan District

Patentee after: SHANGHAI QINGTIAN ELECTRONIC TECHNOLOGY Co.,Ltd.

Address before: 518000 Guangdong province Shenzhen city Futian District District Shennan Road Press Plaza room 1306

Patentee before: ANKE ROBOT CO.,LTD.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161228