CN105718959A

CN105718959A - 一种基于自编码的物体识别方法

Info

Publication number: CN105718959A
Application number: CN201610055128.7A
Authority: CN
Inventors: 刘伟锋; 马腾洲
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2016-01-27
Filing date: 2016-01-27
Publication date: 2016-06-29
Anticipated expiration: 2036-01-27
Also published as: CN105718959B

Abstract

本发明涉及一种基于自编码的物体识别方法，首先为训练过程，即对自编码器和分类器进行训练，在对自编码器的训练过程中加入了Large?Margin正则化项；然后为识别过程，将待识别的物体图像数据，转化为相应格式，输入到已训练好的自编码器和分类器中，进行分类识别。本发明在训练自编码器的过程中加入了Large?Margin的有监督正则化，使得其映射空间中同类样本点相聚集，异类之间相远离，使得不同类别之间的特征区分的更加明显，从而在特征数据输入到分类器中之后提高其分类识别效果。

Description

一种基于自编码的物体识别方法

技术领域

本发明涉及物体识别技术领域，尤其涉及一种基于自编码的物体识别方法。

背景技术

物体识别是机器智能的基本功能之一，它是任何一个以图像或视频作为输入的实际应用系统中的核心问题和关键技术。物体识别技术无论是在军事还是在民用中都有着广泛需求和应用。

现有技术中，深度神经网络在物体识别领域已经得到广泛的应用，自编码器作为其基本架构也在被不断的改进和完善。但是，现有的自编码器的特征提取过程均为无监督过程，即在隐层映射空间中同类与异类样本点之间没有约束限制，不利于分类器的分类应用。

发明内容

本发明的目的是针对上述现有技术中存在的问题，提出一种基于自编码的物体识别方法，在自编码器的特征提取过程设计Large-Margin正则化方法进行有监督特征提取过程，使隐层映射空间中的样本点同类之间相接近，异类之间相远离，能更好的便于分类器的分类应用，达到更好的物体识别效果。

为了达到上述目的，本发明提出一种基于自编码的物体识别方法，包括以下步骤：

首先为训练过程，包括：

S1、从数据库中提取图像数据及其标签，获得有标签的图像数据集；

S2、依据上述数据，通过训练自编码器进行特征提取，获取目标函数，所述特征提取过程设计Large-Margin正则化方法进行特征提取，使隐层映射空间中的样本点同类之间相接近，异类之间相远离，能更好的便于分类器的分类应用；

S3、将提取到的特征数据输入到分类器中，结合标签训练分类器，并通过BP算法进行整体调优；

S4、训练过程完成；

其次为识别过程，包括：

S1’、获取待识别分类的图像数据；

S2’、将待识别分类的图像数据输入到已训练好的自编码器中，得到隐层映射空间中的特征数据；

S3’、将上述特征数据输入到已训练好的分类器中进行分类识别；

S4’、识别过程完成。

进一步的，所述步骤S2中，对自编码器的训练过程如下，同时展示其与L arge-Margin的结合方法：

S21、输入数据：对于获得的有标签的图像数据集，把单一样本数据转换成一个向量，与输入层单元相对应，整个训练数据集形成一个矩阵；

S22、更新自编码器函数的参数，具体包括：

S221、将输入层通过映射函数f₁(x)＝s(Wx+b^e)得到隐层数据；

S222、结合训练数据标签计算隐层数据基于k近邻的Large-Margin目标函数值；

S223、隐层数据通过映射函数f₂(x)＝s(W^Te+b^z)得到输出层数据；

S224、通过上述步骤中获得的数据计算出目标函数；

S225、判断目标函数是否满足要求值/达到迭代次数，若是，则训练结束，否则执行S226；

S226、通过梯度下降法更新函数f₁、f₂的参数，再转至S221继续执行，

其中，W∈R^n×d为权值矩阵，b^e、b^z分别为编、译码器函数的偏置向量，为sigmoid函数，x∈Rⁿ为输入数据，且e=f₁(x)(e∈R^d)；

由于在训练自编码器的过程中加入了Large-Margin的有监督正则化，使得其映射空间中同类样本点相聚集，异类之间相远离，使得不同类别之间的特征区分的更加明显，从而在特征数据输入到分类器中之后提高其分类效果。

进一步的，所述目标函数J_L-MAE＝J_AE+λJ_wd+βJ_Large-Margin，其中λ、β为常数参数项，用以最小化编译码器输入输出数据的差异，用以减小权重的幅度，防止过拟合，J_Large-Margin为涉及Large-Margin正则化的影响因素。

进一步的，所述正则化影响因素

\begin{matrix} J_{L a t g e - M \arg i n} = Σ_{k_{1} = 1}^{m} Σ_{k_{2} = 1}^{m} η_{k_{1} k_{2}} | | f_{1} (x_{k_{1}}) - f_{1} (x_{k_{2}}) | |_{2}^{2} + c Σ_{k_{1} = 1}^{m} Σ_{k_{2} = 1}^{m} Σ_{k_{3} = 1}^{m} η_{k_{1} k_{2}} (1 - \\ τ_{k_{1} k_{3}}) h {(s_{k_{1} k_{2} k_{3}})}_{+} \end{matrix}

其中，当为的k近邻样本时否则当与为同一类时

τ_{k_{1} k_{3}} = 1,

否则

τ_{k_{1} k_{3}} = 0; s_{k_{1} k_{2} k_{3}} = | | W (x_{k_{1}} - x_{k_{2}}) | |_{2}^{2} - | | W (x_{k_{1}} - x_{k_{3}}) | |_{2}^{2} + 1

且h(s)₊＝max(s，0)。

与现有技术相比，本发明的优点和积极效果在于：

本发明首先对自编码器和分类器进行训练，获得最佳分类函数参数作为匪类识别应用时的固定参数；然后在分类识别时，获取需要识别的物体图像数据，并转化为相应格式，输入到已训练好自编码器和分类器中，进行分类操作。在训练自编码器的过程中加入了Large-Margin的有监督正则化，使得其映射空间中同类样本点相聚集，异类之间相远离，使得不同类别之间的特征区分的更加明显，从而在特征数据输入到分类器中之后提高其分类效果。

附图说明

图1为本发明训练过程流程图；

图2为本发明识别过程流程图；

图3为本发明自编码器训练过程流程图；

图4为本发明样本点Large-Margin正则化项前后位置排列对比图。

具体实施方式

本发明提出一种基于自编码的物体识别方法，首先利用已有的有标签的图像数据库的数据按照步骤训练自编码器及softmax型分类器，获得最佳分类函数参数作为识别时的固定参数；然后在分类识别时，将需要识别的图像数据输入到已训练好的自编码器和分类器中，进行分类识别。考虑到现有的自编码器特征提取过程均为无监督过程，即在隐层映射空间中同类与异类样本点之间没有约束限制，因此本发明设计Large-Margin正则化的有监督特征提取过程，使隐层映射空间中的样本点同类之间相接近，异类之间相远离，能更好的便于分类器的分类应用，下面结合具体实施例对本发明做进一步地说明。

一种基于自编码的物体识别方法，如图1所示，首先为训练过程，包括：

S4、训练过程完成；

其次为识别过程，参考图2，包括：

S1’、获取待识别分类的图像数据；

S4’、识别过程完成。

如图3所示，实施例中，所述步骤S2中自编码器的训练过程如下，同时说明其与Large-Margin的结合方法：

S22、更新自编码器函数的参数，具体包括：

S221、将输入层通过映射函数f₁(x)＝s(Wx+b^e)得到隐层数据；

S224、通过上述步骤中获得的数据计算出目标函数；

S225、判断目标函数是否满足要求值/达到迭代次数(迭代的停止与否由目标函数的数值是否收敛确定，可选的方法有：1、比较前后2次迭代数值差别是否小于某个阈值，本实施例阈值设为10^－6；2、设定最大迭代次数，本实施例中迭代次数则设置为10⁵)，若是，则训练结束，否则执行S226；

其中，W∈R^n×d为权值矩阵，b^e、b^z分别为编码器、译码器函数的偏置向量(自编码器包括编码器和译码器，从输入层到隐层为编码过程，从隐层到输出层为解码过程)，为sigmoid函数，x∈Rⁿ为输入数据，且e=f₁(x)(e∈R^d)；

上述步骤中，由于在训练自编码器的过程中加入了Large-Margin的有监督正则化，使得其映射空间中同类样本点相聚集，异类之间相远离，使得不同类别之间的特征区分的更加明显，从而在特征数据输入到分类器中之后提高其分类效果。

本实施例中，训练自编码器的过程中，从输入层到隐层可以进行多层的叠加，即上一个训练过程的隐层数据可以作为下一个训练过程的输入数据进行训练，叠加的层数可以根据实际训练情况进行调整。自编码器的训练过程极为目标函数最小化的过程，所述目标函数J_L-MAE＝J_AE+λJ_wd+βJ_Large-Margin，其中λ、β为常数参数项，用以最小化编译码器输入输出数据的差异，用以减小权重的幅度，防止过拟合，J_Large-Margin为涉及Large-Margin正则化的影响因素，即为本实施例考虑加入的因素，且

\begin{matrix} J_{L a t g e - M \arg i n} = Σ_{k_{1} = 1}^{m} Σ_{k_{2} = 1}^{m} η_{k_{1} k_{2}} | | f_{1} (x_{k_{1}}) - f_{1} (x_{k_{2}}) | |_{2}^{2} + c Σ_{k_{1} = 1}^{m} Σ_{k_{2} = 1}^{m} Σ_{k_{3} = 1}^{m} η_{k_{1} k_{2}} (1 - \\ τ_{k_{1} k_{3}}) h {(s_{k_{1} k_{2} k_{3}})}_{+} \end{matrix}

其中，当为的k近邻样本时否则当与为同一类时

τ_{k_{1} k_{3}} = 1,

否则

τ_{k_{1} k_{3}} = 0; s_{k_{1} k_{2} k_{3}} = | | W (x_{k_{1}} - x_{k_{2}}) | |_{2}^{2} - | | W (x_{k_{1}} - x_{k_{3}}) | |_{2}^{2} + 1

且h(s)₊＝max(s，0)，其主要作用是使同类样本的特征数据在隐层映射空间中相接近，异类之间相远离；这样训练出来的隐层特征在输入到分类器中时更便于识别分类。

具体效果参见图4，关于Large-Margin正则化，图4左边为未加入正则化项时隐层空间中的不同类别样本点之间的位置排列，可以看出没有很好的区分开异类与同类之间的特征关系，图4右边为加入了正则化项之后样本点之间的位置排列，可以更明显的区分出不同类别之间的特征，可见本发明方法在物体识别分类时可达到更好的效果。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于自编码的物体识别方法，其特征在于，包括以下步骤：

首先为训练过程，包括：

S2、依据上述数据，训练自编码器进行特征提取，获取目标函数，所述特征提取过程设计Large-Margin正则化方法进行特征提取；

S4、训练过程完成；

其次为识别过程，包括：

S1’、获取待识别分类的图像数据；

S4’、识别过程完成。

2.根据权利要求1所述的一种基于自编码的物体识别方法，其特征在于，所述步骤S2中，对自编码器的训练过程如下：

S22、更新自编码器函数的参数，具体包括：

S221、在输入层通过映射函数f₁(x)＝s(Wx+b^e)得到隐层数据；

S224、通过上述步骤中获得的数据计算出目标函数；

S226、通过梯度下降法更新函数f₁、f₂的参数，再转至S221继续执行；

其中，w∈R^n×d为权值矩阵，b^e、b^z分别为编、译码器函数的偏置向量，为sigmoid函数，x∈Rⁿ为输入数据，且e＝f₁(x)(e∈R^d)。

3.根据权利要求2所述的一种基于自编码的物体识别方法，其特征在于，所述目标函数J_L-MAE＝I_AE+λJ_wd+βJ_Large-Margin，其中λ、β为常数参数项。用以最小化编译码器输入输出数据的差异，用以减小权重的幅度，L_Large-Margin为设计Large-Margin正则化的影响因素。

4.根据权利要求3所述的一种基于自编码的物体识别方法，其特征在于，所述正则化影响因素

\begin{matrix} J_{L \arg e - M \arg i n} = Σ_{k_{1} = 1}^{m} Σ_{k_{2} = 1}^{m} η_{k_{1} k_{2}} | | f_{1} (x_{k_{1}}) - f_{1} (x_{k_{2}}) | |_{2}^{2} + c Σ_{k_{1} = 1}^{m} Σ_{k_{2} = 1}^{m} Σ_{k_{3} = 1}^{m} η_{k_{1} k_{2}} (1 - \\ τ_{k_{1} k_{3}}) h {(s_{k_{1} k_{2} k_{3}})}_{+} \end{matrix}

其中当为的k近邻样本时否则当与为同一类时

τ_{k_{1} k_{3}} = 1,

否则

τ_{k_{1} k_{3}} = 0; s_{k_{1} k_{2} k_{3}} = | | W (x_{k_{1}} - x_{k_{2}}) | |_{2}^{2} - | | W (x_{k_{1}} - x_{k_{3}}) | |_{2}^{2} + 1

且h(s)₊＝max(s，0)。