CN105718959A - 一种基于自编码的物体识别方法 - Google Patents
一种基于自编码的物体识别方法 Download PDFInfo
- Publication number
- CN105718959A CN105718959A CN201610055128.7A CN201610055128A CN105718959A CN 105718959 A CN105718959 A CN 105718959A CN 201610055128 A CN201610055128 A CN 201610055128A CN 105718959 A CN105718959 A CN 105718959A
- Authority
- CN
- China
- Prior art keywords
- data
- function
- training
- margin
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于自编码的物体识别方法,首先为训练过程,即对自编码器和分类器进行训练,在对自编码器的训练过程中加入了Large?Margin正则化项;然后为识别过程,将待识别的物体图像数据,转化为相应格式,输入到已训练好的自编码器和分类器中,进行分类识别。本发明在训练自编码器的过程中加入了Large?Margin的有监督正则化,使得其映射空间中同类样本点相聚集,异类之间相远离,使得不同类别之间的特征区分的更加明显,从而在特征数据输入到分类器中之后提高其分类识别效果。
Description
技术领域
本发明涉及物体识别技术领域,尤其涉及一种基于自编码的物体识别方法。
背景技术
物体识别是机器智能的基本功能之一,它是任何一个以图像或视频作为输入的实际应用系统中的核心问题和关键技术。物体识别技术无论是在军事还是在民用中都有着广泛需求和应用。
现有技术中,深度神经网络在物体识别领域已经得到广泛的应用,自编码器作为其基本架构也在被不断的改进和完善。但是,现有的自编码器的特征提取过程均为无监督过程,即在隐层映射空间中同类与异类样本点之间没有约束限制,不利于分类器的分类应用。
发明内容
本发明的目的是针对上述现有技术中存在的问题,提出一种基于自编码的物体识别方法,在自编码器的特征提取过程设计Large-Margin正则化方法进行有监督特征提取过程,使隐层映射空间中的样本点同类之间相接近,异类之间相远离,能更好的便于分类器的分类应用,达到更好的物体识别效果。
为了达到上述目的,本发明提出一种基于自编码的物体识别方法,包括以下步骤:
首先为训练过程,包括:
S1、从数据库中提取图像数据及其标签,获得有标签的图像数据集;
S2、依据上述数据,通过训练自编码器进行特征提取,获取目标函数,所述特征提取过程设计Large-Margin正则化方法进行特征提取,使隐层映射空间中的样本点同类之间相接近,异类之间相远离,能更好的便于分类器的分类应用;
S3、将提取到的特征数据输入到分类器中,结合标签训练分类器,并通过BP算法进行整体调优;
S4、训练过程完成;
其次为识别过程,包括:
S1’、获取待识别分类的图像数据;
S2’、将待识别分类的图像数据输入到已训练好的自编码器中,得到隐层映射空间中的特征数据;
S3’、将上述特征数据输入到已训练好的分类器中进行分类识别;
S4’、识别过程完成。
进一步的,所述步骤S2中,对自编码器的训练过程如下,同时展示其与L arge-Margin的结合方法:
S21、输入数据:对于获得的有标签的图像数据集,把单一样本数据转换成一个向量,与输入层单元相对应,整个训练数据集形成一个矩阵;
S22、更新自编码器函数的参数,具体包括:
S221、将输入层通过映射函数f1(x)=s(Wx+be)得到隐层数据;
S222、结合训练数据标签计算隐层数据基于k近邻的Large-Margin目标函数值;
S223、隐层数据通过映射函数f2(x)=s(WTe+bz)得到输出层数据;
S224、通过上述步骤中获得的数据计算出目标函数;
S225、判断目标函数是否满足要求值/达到迭代次数,若是,则训练结束,否则执行S226;
S226、通过梯度下降法更新函数f1、f2的参数,再转至S221继续执行,
其中,W∈Rn×d为权值矩阵,be、bz分别为编、译码器函数的偏置向量,为sigmoid函数,x∈Rn为输入数据,且e=f1(x)(e∈Rd);
由于在训练自编码器的过程中加入了Large-Margin的有监督正则化,使得其映射空间中同类样本点相聚集,异类之间相远离,使得不同类别之间的特征区分的更加明显,从而在特征数据输入到分类器中之后提高其分类效果。
进一步的,所述目标函数JL-MAE=JAE+λJwd+βJLarge-Margin,其中λ、β为常数参数项,用以最小化编译码器输入输出数据的差异,用以减小权重的幅度,防止过拟合,JLarge-Margin为涉及Large-Margin正则化的影响因素。
进一步的,所述正则化影响因素
其中,当为的k近邻样本时否则当与为同一类时 否则 且h(s)+=max(s,0)。
与现有技术相比,本发明的优点和积极效果在于:
本发明首先对自编码器和分类器进行训练,获得最佳分类函数参数作为匪类识别应用时的固定参数;然后在分类识别时,获取需要识别的物体图像数据,并转化为相应格式,输入到已训练好自编码器和分类器中,进行分类操作。在训练自编码器的过程中加入了Large-Margin的有监督正则化,使得其映射空间中同类样本点相聚集,异类之间相远离,使得不同类别之间的特征区分的更加明显,从而在特征数据输入到分类器中之后提高其分类效果。
附图说明
图1为本发明训练过程流程图;
图2为本发明识别过程流程图;
图3为本发明自编码器训练过程流程图;
图4为本发明样本点Large-Margin正则化项前后位置排列对比图。
具体实施方式
本发明提出一种基于自编码的物体识别方法,首先利用已有的有标签的图像数据库的数据按照步骤训练自编码器及softmax型分类器,获得最佳分类函数参数作为识别时的固定参数;然后在分类识别时,将需要识别的图像数据输入到已训练好的自编码器和分类器中,进行分类识别。考虑到现有的自编码器特征提取过程均为无监督过程,即在隐层映射空间中同类与异类样本点之间没有约束限制,因此本发明设计Large-Margin正则化的有监督特征提取过程,使隐层映射空间中的样本点同类之间相接近,异类之间相远离,能更好的便于分类器的分类应用,下面结合具体实施例对本发明做进一步地说明。
一种基于自编码的物体识别方法,如图1所示,首先为训练过程,包括:
S1、从数据库中提取图像数据及其标签,获得有标签的图像数据集;
S2、依据上述数据,通过训练自编码器进行特征提取,获取目标函数,所述特征提取过程设计Large-Margin正则化方法进行特征提取,使隐层映射空间中的样本点同类之间相接近,异类之间相远离,能更好的便于分类器的分类应用;
S3、将提取到的特征数据输入到分类器中,结合标签训练分类器,并通过BP算法进行整体调优;
S4、训练过程完成;
其次为识别过程,参考图2,包括:
S1’、获取待识别分类的图像数据;
S2’、将待识别分类的图像数据输入到已训练好的自编码器中,得到隐层映射空间中的特征数据;
S3’、将上述特征数据输入到已训练好的分类器中进行分类识别;
S4’、识别过程完成。
如图3所示,实施例中,所述步骤S2中自编码器的训练过程如下,同时说明其与Large-Margin的结合方法:
S21、输入数据:对于获得的有标签的图像数据集,把单一样本数据转换成一个向量,与输入层单元相对应,整个训练数据集形成一个矩阵;
S22、更新自编码器函数的参数,具体包括:
S221、将输入层通过映射函数f1(x)=s(Wx+be)得到隐层数据;
S222、结合训练数据标签计算隐层数据基于k近邻的Large-Margin目标函数值;
S223、隐层数据通过映射函数f2(x)=s(WTe+bz)得到输出层数据;
S224、通过上述步骤中获得的数据计算出目标函数;
S225、判断目标函数是否满足要求值/达到迭代次数(迭代的停止与否由目标函数的数值是否收敛确定,可选的方法有:1、比较前后2次迭代数值差别是否小于某个阈值,本实施例阈值设为10-6;2、设定最大迭代次数,本实施例中迭代次数则设置为105),若是,则训练结束,否则执行S226;
S226、通过梯度下降法更新函数f1、f2的参数,再转至S221继续执行,
其中,W∈Rn×d为权值矩阵,be、bz分别为编码器、译码器函数的偏置向量(自编码器包括编码器和译码器,从输入层到隐层为编码过程,从隐层到输出层为解码过程),为sigmoid函数,x∈Rn为输入数据,且e=f1(x)(e∈Rd);
上述步骤中,由于在训练自编码器的过程中加入了Large-Margin的有监督正则化,使得其映射空间中同类样本点相聚集,异类之间相远离,使得不同类别之间的特征区分的更加明显,从而在特征数据输入到分类器中之后提高其分类效果。
本实施例中,训练自编码器的过程中,从输入层到隐层可以进行多层的叠加,即上一个训练过程的隐层数据可以作为下一个训练过程的输入数据进行训练,叠加的层数可以根据实际训练情况进行调整。自编码器的训练过程极为目标函数最小化的过程,所述目标函数JL-MAE=JAE+λJwd+βJLarge-Margin,其中λ、β为常数参数项,用以最小化编译码器输入输出数据的差异,用以减小权重的幅度,防止过拟合,JLarge-Margin为涉及Large-Margin正则化的影响因素,即为本实施例考虑加入的因素,且
其中,当为的k近邻样本时否则当与为同一类时 否则 且h(s)+=max(s,0),其主要作用是使同类样本的特征数据在隐层映射空间中相接近,异类之间相远离;这样训练出来的隐层特征在输入到分类器中时更便于识别分类。
具体效果参见图4,关于Large-Margin正则化,图4左边为未加入正则化项时隐层空间中的不同类别样本点之间的位置排列,可以看出没有很好的区分开异类与同类之间的特征关系,图4右边为加入了正则化项之后样本点之间的位置排列,可以更明显的区分出不同类别之间的特征,可见本发明方法在物体识别分类时可达到更好的效果。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (4)
1.一种基于自编码的物体识别方法,其特征在于,包括以下步骤:
首先为训练过程,包括:
S1、从数据库中提取图像数据及其标签,获得有标签的图像数据集;
S2、依据上述数据,训练自编码器进行特征提取,获取目标函数,所述特征提取过程设计Large-Margin正则化方法进行特征提取;
S3、将提取到的特征数据输入到分类器中,结合标签训练分类器,并通过BP算法进行整体调优;
S4、训练过程完成;
其次为识别过程,包括:
S1’、获取待识别分类的图像数据;
S2’、将待识别分类的图像数据输入到已训练好的自编码器中,得到隐层映射空间中的特征数据;
S3’、将上述特征数据输入到已训练好的分类器中进行分类识别;
S4’、识别过程完成。
2.根据权利要求1所述的一种基于自编码的物体识别方法,其特征在于,所述步骤S2中,对自编码器的训练过程如下:
S21、输入数据:对于获得的有标签的图像数据集,把单一样本数据转换成一个向量,与输入层单元相对应,整个训练数据集形成一个矩阵;
S22、更新自编码器函数的参数,具体包括:
S221、在输入层通过映射函数f1(x)=s(Wx+be)得到隐层数据;
S222、结合训练数据标签计算隐层数据基于k近邻的Large-Margin目标函数值;
S223、隐层数据通过映射函数f2(x)=s(WTe+bz)得到输出层数据;
S224、通过上述步骤中获得的数据计算出目标函数;
S225、判断目标函数是否满足要求值/达到迭代次数,若是,则训练结束,否则执行S226;
S226、通过梯度下降法更新函数f1、f2的参数,再转至S221继续执行;
其中,w∈Rn×d为权值矩阵,be、bz分别为编、译码器函数的偏置向量,为sigmoid函数,x∈Rn为输入数据,且e=f1(x)(e∈Rd)。
3.根据权利要求2所述的一种基于自编码的物体识别方法,其特征在于,所述目标函数JL-MAE=IAE+λJwd+βJLarge-Margin,其中λ、β为常数参数项。用以最小化编译码器输入输出数据的差异,用以减小权重的幅度,LLarge-Margin为设计Large-Margin正则化的影响因素。
4.根据权利要求3所述的一种基于自编码的物体识别方法,其特征在于,所述正则化影响因素
其中当为的k近邻样本时否则当与为同一类时 否则 且h(s)+=max(s,0)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610055128.7A CN105718959B (zh) | 2016-01-27 | 2016-01-27 | 一种基于自编码的物体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610055128.7A CN105718959B (zh) | 2016-01-27 | 2016-01-27 | 一种基于自编码的物体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105718959A true CN105718959A (zh) | 2016-06-29 |
CN105718959B CN105718959B (zh) | 2018-11-16 |
Family
ID=56155290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610055128.7A Active CN105718959B (zh) | 2016-01-27 | 2016-01-27 | 一种基于自编码的物体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105718959B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326925A (zh) * | 2016-08-23 | 2017-01-11 | 南京邮电大学 | 一种基于深度学习网络的苹果病变图像识别方法 |
CN106599807A (zh) * | 2016-12-01 | 2017-04-26 | 中科唯实科技(北京)有限公司 | 一种基于自编码的行人检索方法 |
CN106780605A (zh) * | 2016-12-20 | 2017-05-31 | 芜湖哈特机器人产业技术研究院有限公司 | 一种基于深度学习机器人的目标物抓取位置的检测方法 |
CN107203787A (zh) * | 2017-06-14 | 2017-09-26 | 江西师范大学 | 一种无监督正则化矩阵分解特征选择方法 |
CN109214193A (zh) * | 2017-07-05 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 数据加密、机器学习模型训练方法、装置以及电子设备 |
CN109325508A (zh) * | 2017-07-31 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 知识表示、机器学习模型训练、预测方法、装置以及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605989A (zh) * | 2013-11-20 | 2014-02-26 | 康江科技(北京)有限责任公司 | 一种基于语义最大间隔聚类的多视角行为识别方法 |
CN104077595A (zh) * | 2014-06-15 | 2014-10-01 | 北京工业大学 | 基于贝叶斯正则化的深度学习网络图像识别方法 |
CN105224948A (zh) * | 2015-09-22 | 2016-01-06 | 清华大学 | 一种基于图像处理的最大间隔深度生成模型的生成方法 |
-
2016
- 2016-01-27 CN CN201610055128.7A patent/CN105718959B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605989A (zh) * | 2013-11-20 | 2014-02-26 | 康江科技(北京)有限责任公司 | 一种基于语义最大间隔聚类的多视角行为识别方法 |
CN104077595A (zh) * | 2014-06-15 | 2014-10-01 | 北京工业大学 | 基于贝叶斯正则化的深度学习网络图像识别方法 |
CN105224948A (zh) * | 2015-09-22 | 2016-01-06 | 清华大学 | 一种基于图像处理的最大间隔深度生成模型的生成方法 |
Non-Patent Citations (1)
Title |
---|
史忠植著: "《心智计算》", 31 August 2015 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326925A (zh) * | 2016-08-23 | 2017-01-11 | 南京邮电大学 | 一种基于深度学习网络的苹果病变图像识别方法 |
CN106599807A (zh) * | 2016-12-01 | 2017-04-26 | 中科唯实科技(北京)有限公司 | 一种基于自编码的行人检索方法 |
CN106780605A (zh) * | 2016-12-20 | 2017-05-31 | 芜湖哈特机器人产业技术研究院有限公司 | 一种基于深度学习机器人的目标物抓取位置的检测方法 |
CN107203787A (zh) * | 2017-06-14 | 2017-09-26 | 江西师范大学 | 一种无监督正则化矩阵分解特征选择方法 |
CN107203787B (zh) * | 2017-06-14 | 2021-01-08 | 江西师范大学 | 一种无监督正则化矩阵分解特征选择方法 |
CN109214193A (zh) * | 2017-07-05 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 数据加密、机器学习模型训练方法、装置以及电子设备 |
CN109214193B (zh) * | 2017-07-05 | 2022-03-22 | 创新先进技术有限公司 | 数据加密、机器学习模型训练方法、装置以及电子设备 |
CN109325508A (zh) * | 2017-07-31 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 知识表示、机器学习模型训练、预测方法、装置以及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN105718959B (zh) | 2018-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105718959A (zh) | 一种基于自编码的物体识别方法 | |
CN106815604B (zh) | 基于多层信息融合的注视点检测方法 | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
Narihira et al. | Learning lightness from human judgement on relative reflectance | |
CN106408030A (zh) | 基于中层语义属性和卷积神经网络的sar图像分类方法 | |
Alapati et al. | Combining clustering with classification: a technique to improve classification accuracy | |
CN108399406A (zh) | 基于深度学习的弱监督显著性物体检测的方法及系统 | |
CN105205475A (zh) | 一种动态手势识别方法 | |
CN106815369A (zh) | 一种基于Xgboost分类算法的文本分类方法 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN105719285A (zh) | 一种基于方向倒角距离特征的行人检测方法 | |
Vu et al. | Energy-based localized anomaly detection in video surveillance | |
CN109492750B (zh) | 基于卷积神经网络和因素空间的零样本图像分类方法 | |
CN103745233B (zh) | 基于空间信息迁移的高光谱图像分类方法 | |
CN110119688A (zh) | 一种利用视觉注意力协同网络的图像情感分类方法 | |
WO2022062419A1 (zh) | 基于非督导金字塔相似性学习的目标重识别方法及系统 | |
US20210142046A1 (en) | Deep face recognition based on clustering over unlabeled face data | |
CN111046787A (zh) | 一种基于改进YOLO v3模型的行人检测方法 | |
CN108171119B (zh) | 基于残差网络的sar图像变化检测方法 | |
CN104598920A (zh) | 基于Gist特征与极限学习机的场景分类方法 | |
CN112766334A (zh) | 一种基于伪标签域适应的跨域图像分类方法 | |
CN105701516B (zh) | 一种基于属性判别的自动图像标注方法 | |
CN108229571A (zh) | 基于kpca算法与深度信念网络的苹果表面病变图像识别方法 | |
CN103310227A (zh) | 基于神经网络的自动窗宽窗位提取方法 | |
CN105609116A (zh) | 一种语音情感维度区域的自动识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |