CN107832772A

CN107832772A - 一种基于半监督字典学习的图像识别方法及装置

Info

Publication number: CN107832772A
Application number: CN201710854155.5A
Authority: CN
Inventors: 杨猛; 陈林
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2018-03-23

Abstract

本发明适用计算机技术领域，提供了一种基于半监督字典学习的图像识别方法及装置，该方法包括：接收输入的待识别图像，获取待识别图像的特征向量；根据特征向量获取待识别图像在预先构建的半监督图像字典中的各个子图像字典上的编码系数，各个子图像字典与不同类别的图像采集对象相对应；根据编码系数计算待识别图像在各个子图像字典上的重构误差，获取重构误差为最小值时对应的图像采集对象，将该图像采集对象确定为待识别图像对应的识别对象，从而使得待识别图像在预先构建的半监督图像字典对应的子图像字典上取得最小的重构误差，提高了待识别图像的识别能力。

Description

一种基于半监督字典学习的图像识别方法及装置

技术领域

本发明属于计算机技术领域，尤其涉及一种基于半监督字典学习的图像识别方法及装置。

背景技术

人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术，目前已被广泛地应用到各个领域，以实现用户认证或安全监控等功能。人脸识别的精确度决定了人脸识别的应用前景，因此，涉及人脸识别领域的公司和科研机构都投入了大量的人力物力来不断提高人脸识别的精确度。

近几年来，基于稀疏表示的人脸识别技术在提高人脸识别效果方面取得了较好的成效。稀疏表示将构成人脸图像的所有像素值按列排列，构成该人脸图像的特征向量，另外，稀疏表示认为每个人的人脸图像都位于各自的线性子空间内，任何一个待识别的人脸图像的特征向量可以由该人的其它人脸图像的特征向量进行线性表示，因此，为了能够对特征向量进行较好的线性表示，对于每一个人，只有在数据库中应拥有足够多的样本，才能构成足够大的线性子空间。然而，在实际应用中，由于给样本进行标注需要耗费大量的时间和人力，因此，在现实生活中通常会有大量的未标注样本。

半监督字典学习就是利用了未进行标注的人脸图像样本，以提高人脸识别的识别效果。然而，现有的半监督字典学习忽视了无标签样本所包含的鉴别信息，不能有效利用无标签样本，使得基于半监督字典学习的人脸识别软件或算法的识别效果仍然不是很好。

发明内容

本发明的目的在于提供一种基于半监督字典学习的图像识别方法及系统，旨在解决由于现有技术无法有效利用未标注图像样本，使得图像识别的识别效果不佳的问题。

一方面，本发明提供了一种基于半监督字典学习的图像识别方法，所述方法包括下述步骤：

接收输入的待识别图像，获取所述待识别图像的特征向量；

根据所述特征向量获取所述待识别图像在预先构建的半监督图像字典中的各个子图像字典上的编码系数，所述各个子图像字典与不同类别的图像采集对象相对应；

根据所述编码系数计算所述待识别图像在所述各个子图像字典上的重构误差，获取所述重构误差为最小值时对应的图像采集对象，将该图像采集对象确定为所述待识别图像对应的识别对象。

另一方面，本发明提供了一种基于半监督字典学习的图像识别装置，所述装置包括：

向量获取单元，用于接收输入的待识别图像，获取所述待识别图像的特征向量；

系数获取单元，用于根据所述特征向量获取所述待识别图像在预先构建的半监督图像字典中的各个子图像字典上的编码系数，所述各个子图像字典与不同类别的图像采集对象相对应；以及

对象确定单元，用于根据所述编码系数计算所述待识别图像在所述各个子图像字典上的重构误差，获取所述重构误差为最小值时对应的图像采集对象，将该图像采集对象确定为所述待识别图像对应的识别对象。

本发明在接收输入的待识别图像后，获取待识别图像的特征向量，根据特征向量获取待识别图像在预先构建的半监督图像字典中的各个子图像字典上的编码系数，根据编码系数计算待识别图像在各个子图像字典上的重构误差，获取重构误差为最小值时对应的图像采集对象，将该图像采集对象确定为待识别图像对应的识别对象，从而使得待识别图像在预先构建的半监督图像字典对应的子图像字典上取得最小的重构误差，提高了待识别图像的识别能力。

附图说明

图1是本发明实施例一提供的基于半监督字典学习的图像识别方法的实现流程图；

图2是本发明实施例二提供的基于半监督字典学习的图像识别装置的结构示意图；以及

图3是本发明实施例三提供的基于半监督字典学习的图像识别装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的基于半监督字典学习的图像识别方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，接收输入的待识别图像，获取待识别图像的特征向量。

本发明实施例适用于图像识别系统或平台，以在输入待识别图像时得到待识别图像涉及的拍摄或采集对象。当接收输入的待识别图像后，首先提取待识别图像的初始特征向量，对初始特征向量进行降维，从而得到待识别图像的特征向量。作为示例地，可采用主成分分析(PCA)算法对初始特征向量进行降维处理。

在步骤S102中，根据待识别图像的特征向量获取待识别图像在预先构建的半监督图像字典中的各个子图像字典上的编码系数。

在本发明实施例，在获取待识别图像在预先构建的半监督图像字典中的各个子图像字典上的编码系数时，使用函数获取待识别图像在预先构建的半监督图像字典中的各个子图像字典上的编码系数y，即取最小值时对应的编码系数y，其中，a表示待识别图像，F表示F范数，γ为一常数，表示预先构建的半监督图像字典。优选地，通过下述步骤构建半监督图像字典

(1)获取输入的带标签训练图像和无标签训练图像的特征向量，根据带标签训练图像和无标签训练图像的特征向量，生成表示所有带标签训练图像的第一矩阵以及表示所有无标签训练图像的第二矩阵。

在本发明实施例中，带标签训练图像具有图像标签，例如，图像涉及的人或物(名称)或图像的类型等，而无标签训练图像则没有图像标签。在获取输入的带标签训练图像和无标签训练图像的特征向量时，首先提取待识别图像的初始特征向量，之后采用PCA之类的降维算法对初始特征向量进行降维，从而得到带标签训练图像和无标签训练图像的特征向量。

为了构建图像字典进一步根据带标签训练图像和无标签训练图像的特征向量，生成表示所有带标签训练图像的第一矩阵以及表示所有无标签训练图像的第二矩阵，第一矩阵可以表示为A＝[A₁,…,A_i,…,A_C]，A_i表示第i个图像采集对象对应的所有带标签训练图像的特征向量构成的矩阵，C表示带标签训练图像采集对象的总类别数量，这里的类别是指同一带标签训练图像采集对象为一个类别，而第二矩阵可以表示为B＝[b₁,…,b_j,…,b_N]，b_j表示第j个无标签训练图像对应的特征向量，N为无标签训练图像的总数。

(2)构造一个n*C的概率矩阵，并对概率矩阵进行初始化，其中，n为带标签训练图像和无标签训练图像的总数量。

在本发明实施例中，n为带标签训练图像和无标签训练图像的总数目，概率矩阵中的矩阵元素(m，k)表示的是第m个训练图像(可能为带标签训练图像或者无标签训练图像)属于第k个图像采集对象的概率(m≤n,k≤C)，初始化时，将无标签训练图像属于各个对象的概率都置零，带标签训练图像在对应对象上的概率为1，在其余对象上的概率为零。

(3)对第一矩阵的每一列进行归一化操作，使得每一列的2范数为1，以得到与图像采集对象对应的初始图像字典，并对预设的扩展字典、带标签训练图像和无标签训练图像的编码系数进行初始化。

在本发明实施例中，初始图像字典可以用D表示，预设的扩展字典可以用E表示，在初始化时可以将E初始化为空矩阵，用带标签训练图像初始化图像字典D。

(4)使用公式计算第二矩阵中每一列在初始图像字典中的各个初始子图像字典的重构误差通过公式更新概率矩阵在第j个图像采集对象上的概率，其中，b_j表示第j个无标签训练图像的特征矩阵，D_i表示初始图像字典中的第i个初始子图像字典，E_i表示第i个扩展字典，表示第j个无标签训练图像在第i个子字典[D_i,E_i]上的编码系数，β为一常数。

(5)通过增加每一个初始子图像字典的字典原子个数对初始图像字典进行扩展，扩展后初始图像字典表示为根据扩展后初始图像字典使用公式E_i＝U(:,n)对扩展字典进行更新，其中，U通过计算得到，svd表示奇异值分解，表示带标签训练图像A_i在第i类子字典的编码系数，

在本发明实施例中，因为更新了概率矩阵之后，有更多的无标签训练图像被加入到图像字典训练中，此时原有的初始图像字典D的大小将不能够很好的表示训练样本，因此增加每一个采集图像对象的字典原子个数，增加字典原子个数之后的扩展后初始图像字典为其中，E_i可通过公式获得，其中，svd表示奇异值分解，这样E_i可表示为E_i＝U(:,n)。

(6)使用函数更新带标签数据训练图像的编码系数，根据无标签训练图像的图像类型，使用预设的函数更新无标签训练图像的编码系数，其中，M_i为第i类标签训练数据的均值系数矩阵。

在本发明实施例中，在初始图像字典被扩展后，对带标签数据训练图像和无标签训练图像的编码系数进行更新，以便更准确地表示带标签数据训练图像和无标签训练图像。具体地，使用函数更新带标签数据训练图像的编码系数，即用取得最小值的编码系数更新无标签训练图像之前的编码系数。在更新无标签训练图像的编码系数时，可根据标签训练图像的数量，使用预设的函数更新无标签训练图像的编码系数，以便对无标签训练图像的编码系数进行更为精确的描述。具体地，当每一类标签训练图像数量少于预设阈值时，通过函数更新无标签训练图像的编码系数，即以取得最小值的y_j更新第j个无标签训练图像的编码系数，当每一类的标签训练图像数量大于等于预设阈值时，通过函数更新无标签训练图像的编码系数，从而根据标签训练图像的数量多少对无标签训练图像的编码系数进行差异化更新，提高了无标签训练图像的编码系数的更新准确性。

(7)根据带标签数据训练图像的编码系数和无标签训练图像的编码系数，使用函数更新扩展后初始图像字典将更新后的扩展后初始图像字典确定为半监督图像字典。

在本发明实施例中，在得到带标签数据训练图像和无标签训练图像的更新后编码系数后，根据函数确定D_i和E_i，进而得到从而实现对扩展后初始图像字典的更新，最后将更新后的扩展后初始图像字典确定为半监督图像字典，更新后的图像字典具有更好的表示能力和图像鉴别能力。

在步骤S103中，根据编码系数计算待识别图像在各个子图像字典上的重构误差，获取重构误差为最小值时对应的图像采集对象，将该图像采集对象确定为待识别图像对应的识别对象。

在本发明实施例中，通过步骤S102获取待识别图像在预先构建的半监督图像字典中的各个子图像字典上的编码系数后，获取重构误差为最小值时对应的图像采集对象，此时表明重构误差最小对应的半监督图像字典中的子图像字典最能恰当地表示待识别图像，因此，将该图像采集对象确定为此时对应的图像采集对象确定为待识别图像对应的识别对象，从而完成待识别图像的识别。

具体地，计算待识别图像在各个子图像字典上的重构误差时，通过公式计算。

在本发明实施例中，预先构建的半监督图像字典结合了两种编码策略，使得测试样本在对应的子图像字典上得到更好的表示，具有更好图像鉴别能力，有效提高了图像的识别精度。

为了描述本发明实施例可达到的效果，发明人通过实验对现有半监督字典学习算法S2D2、JDL和USSDL以及现有监督字典学习算法SRC、M-SVM、FDDL、LC-KSVD和SVGDL与本发明实施例的图像识别精度(％)进行了比较。

为了客观公正地对这些算法的识别精度进行比较，在此次比较实验中采用标准人脸数据库Extend YaleB，该数据库中包含38个人的正脸图像，每个人64张图像，共2414张图像。比较过程中详细的参数设置如下：

a.从每个人的图像中随机挑选20张图片作为训练集，其余的44张图片作为验证集；

b.随机地从每个人的20张图像中分别抽取2、5、10张作为标签训练图像，进行3组实验，其余的作为非标签训练图像；

c.使用的图片采用主成分分析(PCA)算法进行降维处理，得到300维的特征向量。

表1示出了现有半监督字典学习算法S2D2、JDL和USSDL以及现有监督字典学习算法SRC、M-SVM、FDDL、LC-KSVD和SVGDL与本发明实施例的图像识别精度(％)比较。

表1识别精度(％)比较

从表1可以看出，本发明实施例的图像识别精度高于现有监督字典学习算法以及其他半监督字典学习算法的图像识别精度，尤其在标签训练图像较少时，比如标签训练样本只有2个的时候，识别精度更是远超过监督字典学习算法的识别精度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

实施例二：

图2示出了本发明实施例二提供的基于半监督字典学习的图像识别装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

向量获取单元21，用于接收输入的待识别图像，获取待识别图像的特征向量；

系数获取单元22，用于根据特征向量获取待识别图像在预先构建的半监督图像字典中的各个子图像字典上的编码系数，该各个子图像字典与不同类别的图像采集对象相对应；以及

对象确定单元23，用于根据编码系数计算待识别图像在各个子图像字典上的重构误差，获取重构误差为最小值时对应的图像采集对象，将该图像采集对象确定为待识别图像对应的识别对象。

在本发明实施例中，图像识别装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。各单元的具体实施方式可参考前述方法实施例中对应步骤的描述，在此不再赘述。

实施例三：

图3示出了本发明实施例三提供的基于半监督字典学习的图像识别装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

矩阵生成单元301，用于获取输入的带标签训练图像和无标签训练图像的特征向量，根据带标签训练图像和无标签训练图像的特征向量，生成表示所有带标签训练图像的第一矩阵以及表示所有无标签训练图像的第二矩阵；

第一初始化单元302，用于构造一个n*C的概率矩阵，并对概率矩阵进行初始化，n为带标签训练图像和无标签训练图像的总数量，C表示带标签训练图像采集对象的总类别数量；

第二初始化单元303，用于对第一矩阵的每一列进行归一化操作，使得每一列的2范数为1，以得到与图像采集对象对应的初始图像字典，并对预设的扩展字典、带标签训练图像和无标签训练图像的编码系数进行初始化；

概率更新单元304，用于使用公式计算第二矩阵中每一列在初始图像字典中的各个初始子图像字典的重构误差通过公式更新概率矩阵在第j个图像采集对象上的概率；

扩展字典更新单元305，用于通过增加每一个初始子图像字典的字典原子个数对初始图像字典进行扩展，扩展后初始图像字典表示为根据扩展后初始图像字典使用公式E_i＝U(:,n)对扩展字典进行更新，其中，U通过计算得到，svd表示奇异值分解，A_i表示第i类图像采集对象的带标签训练图像对应的特征向量；

系数更新单元306，用于使用函数更新带标签数据训练图像的编码系数，根据无标签训练图像的图像类型，使用预设的函数更新无标签训练图像的编码系数，其中，M_i为第i类标签训练数据的均值系数矩阵；

图像字典确定单元307，用于根据带标签数据训练图像的编码系数和无标签训练图像的编码系数，使用函数更新扩展后初始图像字典将更新后的扩展后初始图像字典确定为半监督图像字典；

向量获取单元308，用于接收输入的待识别图像，获取待识别图像的特征向量；

系数获取单元309，用于根据特征向量获取待识别图像在预先构建的半监督图像字典中的各个子图像字典上的编码系数，各个子图像字典与不同类别的图像采集对象相对应；以及

对象确定单元310，用于根据编码系数计算待识别图像在各个子图像字典上的重构误差，获取重构误差为最小值时对应的图像采集对象，将该图像采集对象确定为待识别图像对应的识别对象。

具体地，系数更新单元306包括：

第一更新单元3061，用于当无标签训练图像少于预设阈值时，通过函数更新无标签训练图像的编码系数；以及

第二更新单元3062，用于当无标签训练图像为大于等于预设阈值时，通过函数更新无标签训练图像的编码系数。

向量获取单元308包括：

特征提取单元3081，用于提取待识别图像的初始特征向量，对初始特征向量进行降维，以得到待识别图像的特征向量。

系数获取单元309包括：

系数获取子单元3091，用于使用函数获取待识别图像在预先构建的半监督图像字典中的各个子图像字典上的编码系数y，其中，a表示待识别图像，表示半监督图像字典，F表示F范数，γ为一常数。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于半监督字典学习的图像识别方法，其特征在于，所述方法包括下述步骤：

接收输入的待识别图像，获取所述待识别图像的特征向量；

2.如权利要求1所述的方法，其特征在于，获取所述待识别图像的特征向量的步骤，包括：

提取所述待识别图像的初始特征向量，对所述初始特征向量进行降维，以得到所述待识别图像的特征向量。

3.如权利要求1所述的方法，其特征在于，所述根据所述特征向量获取所述待识别图像在预先构建的半监督图像字典中的各个子图像字典上的编码系数的步骤，包括：

使用函数获取所述待识别图像在所述半监督图像字典中的各个子图像字典上的编码系数y，其中，a表示所述待识别图像，表示所述半监督图像字典，F表示F范数，γ为一常数。

4.如权利要求1所述的方法，其特征在于，根据所述特征向量获取所述待识别图像在预先构建的半监督图像字典中的各个子图像字典上的编码系数的步骤之前，所述方法还包括：

获取输入的带标签训练图像和无标签训练图像的特征向量，根据所述带标签训练图像和无标签训练图像的特征向量，生成表示所有所述带标签训练图像的第一矩阵以及表示所有所述无标签训练图像的第二矩阵；

构造一个n*C的概率矩阵，并对所述概率矩阵进行初始化，所述n为所述带标签训练图像和无标签训练图像的总数量，C表示所述带标签训练图像采集对象的总类别数量；

对所述第一矩阵的每一列进行归一化操作，使得每一列的2范数为1，以得到与所述图像采集对象对应的初始图像字典，并对预设的扩展字典、所述带标签训练图像和无标签训练图像的编码系数进行初始化；

使用公式计算所述第二矩阵中每一列在所述初始图像字典中的各个初始子图像字典的重构误差通过公式更新所述概率矩阵在第j个所述图像采集对象上的概率，其中，b_j表示第j个无标签训练图像的特征矩阵，D_i表示所述初始图像字典中的第i个初始子图像字典，E_i表示第i个扩展字典，表示第j个无标签训练图像在第i个子字典[D_i，E_i]上的编码系数，F表示F范数，C表示所述带标签训练图像采集对象的总类别数量，β为一常数；

通过增加每一个初始子图像字典的字典原子个数对所述初始图像字典进行扩展，所述扩展后初始图像字典表示为根据扩展后初始图像字典使用公式E_i＝U(:,n)对所述扩展字典进行更新，其中，U通过计算得到，svd表示奇异值分解，A_i表示第i类图像采集对象的带标签训练图像对应的特征向量，表示所述带标签训练图像在第i类子字典的编码系数，

使用函数更新所述带标签数据训练图像的编码系数，根据所述无标签训练图像的图像类型，使用预设的函数更新所述无标签训练图像的编码系数，其中，M_i为第i类标签训练数据的均值系数矩阵；

根据所述带标签数据训练图像的编码系数和所述无标签训练图像的编码系数，使用函数更新所述扩展后初始图像字典将更新后的所述扩展后初始图像字典确定为所述半监督图像字典。

5.如权利要求4所述的方法，其特征在于，根据所述无标签训练图像的图像类型，使用预设的函数更新所述无标签训练图像的编码系数的步骤，包括：

当每一类的标签训练图像少于预设阈值时，通过函数更新所述无标签训练图像的编码系数；

当每一类的标签训练图像大于等于所述预设阈值时，通过函数更新所述无标签训练图像的编码系数。

6.一种基于半监督字典学习的图像识别装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述向量获取单元包括：

特征提取单元，用于提取所述待识别图像的初始特征向量，对所述初始特征向量进行降维，以得到所述待识别图像的特征向量。

8.如权利要求6所述的装置，其特征在于，所述系数获取单元的步骤，包括：

系数获取子单元，用于使用函数获取所述待识别图像在所述半监督图像字典中的各个子图像字典上的编码系数y，其中，a表示所述待识别图像，表示所述半监督图像字典，F表示F范数，γ为一常数。

9.如权利要求6所述的装置，其特征在于，所述装置还包括：

矩阵生成单元，用于获取输入的带标签训练图像和无标签训练图像的特征向量，根据所述带标签训练图像和无标签训练图像的特征向量，生成表示所有所述带标签训练图像的第一矩阵以及表示所有所述无标签训练图像的第二矩阵；

第一初始化单元，用于构造一个n*C的概率矩阵，并对所述概率矩阵进行初始化，所述n为所述带标签训练图像和无标签训练图像的总数量，C表示所述带标签训练图像采集对象的总类别数量；

第二初始化单元，用于对所述第一矩阵的每一列进行归一化操作，使得每一列的2范数为1，以得到与所述图像采集对象对应的初始图像字典，并对预设的扩展字典、所述带标签训练图像和无标签训练图像的编码系数进行初始化；

概率更新单元，用于使用公式计算所述第二矩阵中每一列在所述初始图像字典中的各个初始子图像字典的重构误差通过公式更新所述概率矩阵在第j个所述图像采集对象上的概率，其中，b_j表示第j个无标签训练图像的特征矩阵，D_i表示所述初始图像字典中的第i个初始子图像字典，E_i表示第i个扩展字典，表示第j个无标签训练图像在第i个子字典[D_i,E_i]上的编码系数，F表示F范数，C表示所述带标签训练图像采集对象的总类别数量，β为一常数；

扩展字典更新单元，用于通过增加每一个初始子图像字典的字典原子个数对所述初始图像字典进行扩展，所述扩展后初始图像字典表示为根据扩展后初始图像字典使用公式E_i＝U(:,n)对所述扩展字典进行更新，其中，U通过计算得到，svd表示奇异值分解，A_i表示所述第一矩阵中第i类图像采集对象的带标签训练图像对应的特征向量，表示所述带标签训练图像在第i类子字典的编码系数，

系数更新单元，用于使用函数更新所述带标签数据训练图像的编码系数，根据所述无标签训练图像的图像类型，使用预设的函数更新所述无标签训练图像的编码系数，其中，M_i为第i类标签训练数据的均值系数矩阵；以及

图像字典确定单元，用于根据所述带标签数据训练图像的编码系数和所述无标签训练图像的编码系数，使用函数更新所述扩展后初始图像字典将更新后的所述扩展后初始图像字典确定为所述半监督图像字典。

10.如权利要求9所述的装置，其特征在于，所述系数更新单元包括：

第一更新单元，当每一类标签训练图像少于预设阈值时，通过函数更新所述无标签训练图像的编码系数；以及

第二更新单元，当每一类标签训练图像大于等于所述预设阈值时，通过函数更新所述无标签训练图像的编码系数。