CN106570522A - 物体识别模型的建立方法及物体识别方法 - Google Patents
物体识别模型的建立方法及物体识别方法 Download PDFInfo
- Publication number
- CN106570522A CN106570522A CN201610926007.5A CN201610926007A CN106570522A CN 106570522 A CN106570522 A CN 106570522A CN 201610926007 A CN201610926007 A CN 201610926007A CN 106570522 A CN106570522 A CN 106570522A
- Authority
- CN
- China
- Prior art keywords
- structural
- representing
- input image
- object recognition
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000014509 gene expression Effects 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 14
- 239000004744 fabric Substances 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 abstract description 10
- 230000008859 change Effects 0.000 abstract description 9
- 238000001514 detection method Methods 0.000 abstract description 5
- 230000005489 elastic deformation Effects 0.000 abstract description 5
- 206010034719 Personality change Diseases 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000005381 potential energy Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种物体识别模型的建立方法和物体识别方法。其中,该物体识别模型的建立方法包括:获取输入图像;提取输入图像的深度特征;基于随机场结构模型对输入图像中的物体进行结构化建模,得到物体的结构化表达;基于物体的结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到物体识别模型。通过本发明实施例,解决了视觉任务中物体复杂的弹性变形、姿态变化及视觉变化的技术问题,提高了深度网络模型的结构表达能力。本发明实施例可以应用于诸如物体分类、物体检测、人脸识别等涉及物体识别的众多领域。
Description
技术领域
本发明实施例涉及模式识别、机器学习及计算机视觉技术领域,具体涉及一种物体识别模型的建立方法及物体识别方法。
背景技术
进入二十一世纪以来,随着互联网技术的快速发展,以及手机、相机、个人电脑的普及,图像数据呈现出爆炸式增长。Google+推出100天就上传了34亿张图片,而著名的社交网站Facebook的图片数据更是超过了100亿。另一方面,随着建设平安城市的需要,监控摄像头的数量越来越多,据不完全统计,仅北京市的监控摄像头数量就超过了40万个,而全国的监控摄像头数量更是达到2000多万,并仍以每年20%的数量增长。如此大规模的数据远远超出了人类的分析处理能力。因此,智能地处理这些图像和视频数据成为迫切需要。在这种背景下,如何利用计算机视觉技术自动、智能地分析理解图像数据受到人们的广泛关注。
物体识别是计算机视觉任务中的经典问题,同时也是解决很多高层视觉任务的核心问题,物体识别的研究为高层视觉任务(例如:行为识别、场景理解等)的解决奠定了基础。它在人们的日常生活中以及工业生产中有着广泛的应用,如:智能视频监控、汽车辅助驾驶、无人车驾驶、生物信息身份认证、智能交通、互联网图像检索、虚拟现实以及人机交互等。
近几十年来,随着大量统计机器学习算法在人工智能和计算机视觉领域的成功应用,计算机视觉技术有了突飞猛进的进步。尤其是近年来,大数据时代的到来为视觉任务提供了更加丰富的海量图像数据,高性能计算设备的发展给大数据计算提供了硬件支持,大量成功的计算机视觉算法不断地涌现出来。尽管如此,计算机视觉技术与人的视觉认知能力仍存在很大的差距,尤其是在物体识别任务中仍存在很大量的挑战和难题。这主要是由于真实图像中的物体往往存在复杂的弹性变形、姿态变化、以及拍摄视角变化等问题。这使得物体的表观差异非常大,因此,传统的机器学习算法很难处理这些含有复杂形变的图像样本。
有鉴于此,特提出本发明。
发明内容
为了解决现有技术中的上述问题,即为了解决视觉任务中物体复杂的弹性变形、姿态变化及视觉变化的技术问题而提供一种物体识别模型的建立方法及基于该建立方法的物体识别方法。
为了实现上述目的,提供以下技术方案:
一种物体识别模型的建立方法,其特征在于,所述方法包括:
获取输入图像;
提取所述输入图像的深度特征;
基于随机场结构模型对所述输入图像中的物体进行结构化建模,得到所述物体的结构化表达;
基于所述物体的所述结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到物体识别模型。
进一步地,所述提取所述输入图像的深度特征具体可以包括:
利用卷积神经网络模型的卷积层和池化层,提取所述输入图像的所述深度特征。
进一步地,所述基于随机场结构模型对所述输入图像中的物体进行结构化建模,得到所述物体的结构化表达具体可以包括:
对所述输入图像的深度特征进行部件卷积操作,得到所述输入图像中所述物体各个部件的表观表达;
对所述物体各个部件的表观表达进行结构池化操作,确定所述物体各部件的最优位置;
基于所述物体各部件的最优位置,利用平均场算法对随机场结构模型进行推理,获得所述物体的所述结构化表达。
进一步地,所述对所述输入图像的深度特征进行部件卷积操作,得到所述输入图像中所述物体各个部件的表观表达具体可以包括:
根据以下公式将所述物体各部件的部件滤波器在所述部件滤波器变形区域内进行卷积,从而得到所述输入图像中所述物体各个部件的所述表观表达:
zi(di)=Wi·φ(H,pi,di);
其中,所述i表示所述物体部件个数;所述H表示结构网络层的输入特征;所述Wi表示第i个部件滤波器的权重;所述pi表示所述第i个部件滤波器的初始位置;所述di表示所述第i个部件滤波器的变形量;所述φ(H,pi,di)表示在pi+di处的输入响应;所述zi(di)表示所述部件在响应位置的分数。
进一步地,所述对所述物体各个部件的表观表达进行结构池化操作,确定所述物体各部件的最优位置具体可以包括:
根据以下公式确定所述物体各部件之间的变形结构损失:
其中,所述u(di,dj)表示第i和第j个部件之间的连接权重;所述fi表示所述第i个部件的特征矢量;所述fj表示所述第j个部件的特征矢量;所述k(m)(·)表示作用在特征空间上的高斯函数;所述M表示所述高斯函数的个数;所述w(m)表示第m个高斯函数的权重,其中高斯核为所述σ表示控制连接关系强弱的系数;所述表示所述第i和所述第j个部件之间的变形结构损失;
最小化以下能量函数,从而确定所述物体各部件的最优位置:
其中,E(d)表示能量函数。
进一步地,所述基于所述物体各部件的最优位置,利用平均场算法对随机场结构模型进行推理,获得所述物体的所述结构化表达具体可以包括:
根据以下公式获得所述物体的结构化表达:
其中,所述表示推理得到的所述第i个部件的最优位置;所述表示推理得到的所述第j个部件的最优位置;所述yi表示所述第i个部件的结构网络层的输出;表示第i个部件的节点的集合。
进一步地,所述基于所述物体的所述结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到物体识别模型具体可以包括:
根据以下公式确定结构网络层关于Wi的梯度:
其中,所述L表示所述物体识别模型的最终损失;所述yi表示所述第i个部件的结构网络层输出;所述所述分别表示所述最终损失L和所述结构网络层输出yi对Wi的偏导;
根据以下公式确定所述结构网络层关于w(m)的梯度:
其中,所述所述分别表示所述最终损失L和所述结构网络层输出yi对w(m)的偏导;所述w(m)表示第m个高斯函数的权重;
基于所述结构网络层关于Wi的梯度和所述结构网络层关于w(m)的梯度,利用随机梯度下降算法进行端到端的学习和训练,得到所述物体识别模型。
为了实现上述目的,还提供以下技术方案:
一种基于上述建立方法的物体识别方法,所述物体识别方法包括:
获取待测图像;
利用上述建立方法建立的物体识别模型对所述待测图像进行识别,以预测所述待测图像中物体的类别。
本发明实施例提供一种物体识别模型的建立方法和物体识别方法。其中,该物体识别模型的建立方法包括:获取输入图像;提取输入图像的深度特征;基于随机场结构模型对输入图像中的物体进行结构化建模,得到物体的结构化表达;基于物体的结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到物体识别模型。从中可见,本发明实施例同时结合了深度学习和结构模型的各自优势,提高了深度网络模型的结构表达能力,解决了视觉任务中物体复杂的弹性变形、姿态变化及视觉变化的技术问题。本发明实施例可以应用于诸如物体分类、物体检测、人脸识别等涉及物体识别的众多领域。
附图说明
图1为根据本发明实施例的物体识别模型的建立方法的流程示意图;
图2为根据本发明实施例的物体识别方法的流程示意图;
图3为根据本发明另一实施例的物体识别方法的流程示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明实施例的核心思想是在深度学习算法中提出一个新的结构网络层,并利用平均场算法对其进行快速结构推理,利用一种结构网络层来建模物体的内在结构属性,从而表达物体的不同表观变化,并利用深度学习算法对该深度结构模型进行端到端的训练,从而学习到有效的结构参数,最后获得物体的结构表达。
本发明实施例提供一种物体识别模型的建立方法。该方法可以包括:
S100:获取输入图像。
其中,该输入图像就可以是整幅图像,也可以是整幅图像中可能存在目标的感兴趣区域(图像区域)。例如:在图像分类任务中,整幅图像即为输入图像。在物体检测任务中,输入图像为图像中可能存在目标的感兴趣区域。
S110:提取输入图像的深度特征。
具体地,本步骤利用卷积神经网络模型的卷积层和池化层,提取输入图像的深度特征。
本发明实施例将深度特征作为输入图像的表观表达。
S120:基于随机场结构模型对输入图像中的物体进行结构化建模,得到物体的结构化表达。
本步骤对物体识别模型的网络层进行结构化建模,建立一种结构网络层。该结构网络层包括部件卷积操作和结构池化操作。其中,部件卷积操作和结构池化操作可以分别看成是物体的表观特征表达层与物体的视觉结构表达层。
具体地,本步骤可以包括:
S121:对输入图像的深度特征进行部件卷积操作,得到输入图像中物体各个部件的表观表达。
部件卷积操作利用不同的部件滤波器来对物体不同的局部区域进行表观建模。具体地,利用多个部件滤波器对物体进行描述,并将部件滤波器在其变形区域内的卷积响应当作是物体的表观特征表达。
例如:假设物体的部件在一定的区域附近变形,部件滤波器在一定的变形区域内对物体做卷积,并将卷积响应作为待测图像中物体的表观特征(也即外观表达)。部件滤波器在变形区域内的卷积响应就是该部件模型在其区域内的表达。
本步骤将图像的深度特征输入结构网络层,利用结构网络层来建模物体的内在结构属性,表达物体的不同表观变化,然后利用部件滤波器在其变形区域内卷积,并将卷积响应作为物体各个部件的表观表达。
在实际应用中,本步骤可以根据以下公式将代表物体不同部件的部件滤波器在部件滤波器变形区域内进行卷积,从而得到输入图像中物体各个部件的表观表达:
zi(di)=Wi·φ(H,pi,di);
其中,i表示物体部件个数;H表示结构网络层的输入特征;Wi表示第i个部件滤波器的权重;pi表示第i个部件滤波器的初始位置;di表示第i个部件滤波器的变形量;φ(H,pi,di)表示在pi+di处的输入响应;zi(di)表示部件在响应位置的分数。
S122:对物体各个部件的表观表达进行结构池化操作,确定物体各部件的最优位置。
为了推理出物体各个部件的最优位置,本发明实施例采取结构池化操作。本步骤将部件卷积操作得到的各个部件的表观表达输入结构池化层,对物体进行结构表达。
其中,结构池化操作对物体部件之间的结构关系进行建模,并推理物体各部件的最优位置。例如:全连接的二阶随机场模型对物体部件之间的关系之间建模。相邻部件之间的损失势能是一个高斯损失函数。
在一些可选的实施方式中,本步骤可以通过以下方式来实现:
S1221:根据以下公式确定物体各部件之间的变形结构损失:
其中,i和j表示物体部件个数;di表示第i个部件滤波器的变形量;dj表示第j个部件滤波器的变形量;u(di,dj)表示第i和第j个部件之间的连接权重;fi表示第i个部件的特征矢量;fj表示第j个部件的特征矢量;k(m)(·)表示作用在特征空间上的高斯函数;w(m)表示第m个高斯函数的权重,高斯核为σ表示控制连接关系强弱的系数;M表示高斯函数的个数。
部件i和部件j的参考位置距离越近,则两个部件之间的联系越强,反之越弱。
S1222:最小化以下能量函数,从而确定物体各部件的最优位置:
其中,zi(di)表示部件滤波器在响应位置的分数;表示第i和第j个部件之间的变形结构损失;E(d)表示能量函数。
在实际应用中,在随机场模型中,最小化E(d)的求解可以等价于最小化吉布斯能量函数。
S123:基于物体各部件的最优位置,利用平均场算法对随机场结构模型进行推理,获得物体的结构化表达。
在本步骤中,平均场算法将全连接的高斯条件随机场的推理问题转化为高斯核卷积过程。其中,平均场算法的步骤例如可以包括:将softmax函数作用在所有节点的一阶势能项上;进行消息传递,用高斯核在随机场模型的概率分布上进行卷积;进行高斯滤波器加权输出;考虑节点之间的变形信息,进行二阶项转换;增加各自节点的一阶项;进行归一化操作,对每个节点进行软最大化(softmax)操作。
具体地,本步骤可以根据以下公式获得物体的结构化表达:
其中,表示推理得到的第i个部件的最优位置;表示推理得到的第j个部件的最优位置;yi表示第i个部件的结构网络层的输出;表示第i个部件的节点的集合。
本步骤对物体的结构信息进行建模,得到的结构表达同时考虑了物体部件的表观特征,同时又考虑了部件之间的结构关系,从而得到网络层的最终结构输出。
S130:基于物体的结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到物体识别模型。
其中,本步骤可以通过以下方式来现实:
S131:根据以下公式确定结构网络层关于Wi的梯度:
其中,i表示物体部件个数;H表示结构网络层的输入特征;pi表示第i个部件滤波器的初始位置;di表示第i个部件滤波器的变形量;L表示物体识别模型的最终损失;分别表示最终损失L和结构网络层输出yi对Wi的偏导;Wi表示第i个部件滤波器的权重;yi表示第i个部件的结构输出;φ(H,pi,di)表示在pi+di处的输入响应。
S132:根据以下公式确定结构网络层关于w(m)的梯度:
其中,分别表示最终损失L和结构网络层输出yi对w(m)的偏导;w(m)表示第m个高斯函数的权重;yi表示第i个部件的结构输出;u(di,dj)表示第i和第j个部件之间的连接权重;fi表示第i个部件的特征矢量;fj表示第j个部件的特征矢量;k(m)(·)表示作用在特征空间上的高斯函数。
S133:基于结构网络层关于Wi的梯度和结构网络层关于w(m)的梯度,利用随机梯度下降算法进行端到端的学习和训练,得到物体识别模型。
作为示例,本发明实施例可以将最后一层卷积神经网络层和池化层用经过步骤S131至步骤S133得到的结构网络层代换,并用随机梯度下降算法进行训练,从而得到物体识别模型。
本发明实施例同时结合了深度学习和结构模型的各自优势,利用结构网络层来建模物体的内在结构属性,从而表达物体的不同表观变化,并利用深度学习算法对该深度结构模型进行端到端的训练,从而学习到有效的结构参数,同时提高了深度网络模型的结构表达能力。本发明实施例得到的物体识别模型比传统的卷积神经网络模型具有更强的物体表达能力,在物体分类任务中能取得更好的分类结果。
此外,本发明实施例还提供一种基于上述建立方法的物体识别方法。如图2所示,该方法可以包括:
S200:获取待测图像。
S210:利用上述物体识别模型的建立方法所建立的物体识别模型对待测图像进行识别,以预测待测图像中物体的类别。
本发明实施例通过采用上述技术方案,解决了视觉任务中物体复杂的弹性变形、姿态变化及视觉变化的技术问题。
如图3所示,下面以一优选的实施例来更好地说明本发明。
步骤S301:获取输入图像。
其中,该输入图像就可以是整幅图像,也可以是整幅图像中可能存在目标的感兴趣区域(图像区域)。例如:在图像分类任务中,整幅图像即为输入图像。在物体检测任务中,输入图像为图像中可能存在目标的感兴趣区域。在训练过程中,物体的标注数据已知,例如:分类任务中图像中所包含物体的类别,检测任务中物体的类别以及所在的位置。
步骤S302:对输入图像进行预处理。
本步骤将输入图像(即整幅图像或图像区域)归一化到统一大小,比如256×256,并减去均值图像,然后将其输入要训练的深度结构网络。其中,均值图像指的是将所有归一化到统一大小的图像在每个像素上的RGB值分别求平均所得到的结果。
步骤S303:提取预处理后图像的深度特征。
本步骤利用卷积神经网络模型的卷积层和池化层对预处理后的图像进行提取特征,作为图像的表观表达。
步骤S304:对提取的深度特征进行部件卷积操作,得到物体各个部件的表观表达。
本步骤将图像的深度特征输入结构网络层,然后利用部件滤波器在其变形区域内卷积,并将卷积响应作为物体各个部件的表观表达。
步骤S305:对物体各个部件的表观表达进行结构池化操作。
本步骤将部件卷积操作得到的各个部件的表观表达输入结构池化层,利用建模好的结构模型对物体进行结构表达,并利用平均场模型对物体各个部件的最优位置进行快速推理,最终获得结构网络层的输出。
步骤S306:基于深度学习的参数训练,得到深度结构网络模型。
本步骤利用链式法则求解结构网络层的参数梯度,并利用随机梯度下降算法对深度结构网络模型中的参数进行训练。
步骤S307:利用深度结构网络模型对待测试图像中的物体进行识别。
本步骤将结构网络层的响应输入到全连接层,并最终得到物体类别的预测,从而得到物体识别结果。本发明实施例可以应用于诸如物体分类、物体检测、人脸识别等涉及物体识别的众多领域。
需要说明的是,对一个实施例的说明可以应用于另一个实施例,在此不再赘述。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围并不局限于此。在不偏离本发明的原理的前提下,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (8)
1.一种物体识别模型的建立方法,其特征在于,所述方法包括:
获取输入图像;
提取所述输入图像的深度特征;
基于随机场结构模型对所述输入图像中的物体进行结构化建模,得到所述物体的结构化表达;
基于所述物体的所述结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到所述物体识别模型。
2.根据权利要求1所述的方法,其特征在于,所述提取所述输入图像的深度特征具体包括:
利用卷积神经网络模型的卷积层和池化层,提取所述输入图像的所述深度特征。
3.根据权利要求1所述的方法,其特征在于,所述基于随机场结构模型对所述输入图像中的物体进行结构化建模,得到所述物体的结构化表达,具体包括:
对所述输入图像的深度特征进行部件卷积操作,得到所述输入图像中所述物体各个部件的表观表达;
对所述物体各个部件的表观表达进行结构池化操作,确定所述物体各部件的最优位置;
基于所述物体各部件的最优位置,利用平均场算法对随机场结构模型进行推理,获得所述物体的所述结构化表达。
4.根据权利要求3所述的方法,其特征在于,所述对所述输入图像的深度特征进行部件卷积操作,得到所述输入图像中所述物体各个部件的表观表达,具体包括:
根据以下公式将所述物体各部件的部件滤波器在所述部件滤波器变形区域内进行卷积,从而得到所述输入图像中所述物体各个部件的所述表观表达:
zi(di)=Wi·φ(H,pi,di)
其中,所述i表示所述物体部件个数;所述H表示结构网络层的输入特征;所述Wi表示第i个部件滤波器的权重;所述pi表示所述第i个部件滤波器的初始位置;所述di表示所述第i个部件滤波器的变形量;所述φ(H,pi,di)表示在pi+di处的输入响应;所述zi(di)表示所述部件在响应位置的分数。
5.根据权利要求4所述的方法,其特征在于,所述对所述物体各个部件的表观表达进行结构池化操作,确定所述物体各部件的最优位置,具体包括:
根据以下公式确定所述物体各部件之间的变形结构损失:
其中,所述u(di,dj)表示第i和第j个部件之间的连接权重;所述fi表示所述第i个部件的特征矢量;所述fj表示所述第j个部件的特征矢量;所述k(m)(·)表示作用在特征空间上的高斯函数;所述M表示所述高斯函数的个数;所述w(m)表示第m个高斯函数的权重,其中高斯核为所述σ表示控制连接关系强弱的系数;所述表示所述第i和所述第j个部件之间的变形结构损失;
最小化以下能量函数,从而确定所述物体各部件的最优位置:
其中,E(d)表示能量函数。
6.根据权利要求5所述的方法,其特征在于,所述基于所述物体各部件的最优位置,利用平均场算法对随机场结构模型进行推理,获得所述物体的所述结构化表达,具体包括:
根据以下公式获得所述物体的结构化表达:
其中,所述表示推理得到的所述第i个部件的最优位置;所述表示推理得到的所述第j个部件的最优位置;所述yi表示所述第i个部件的结构网络层的输出;表示所述第i个部件的节点的集合。
7.根据权利要求6所述的方法,其特征在于,所述基于所述物体的所述结构化表达,利用梯度反向传播算法学习结构参数,求解梯度,并利用随机梯度下降算法进行学习和训练,得到物体识别模型,具体包括:
根据以下公式确定结构网络层关于Wi的梯度:
其中,所述L表示所述物体识别模型的最终损失;所述所述分别表示所述最终损失L和所述结构网络层输出yi对Wi的偏导;
根据以下公式确定所述结构网络层关于w(m)的梯度:
其中,所述所述分别表示所述最终损失L和所述结构网络层输出yi对w(m)的偏导;所述w(m)表示第m个高斯函数的权重;
基于所述结构网络层关于Wi的梯度和所述结构网络层关于w(m)的梯度,利用随机梯度下降算法进行端到端的学习和训练,得到所述物体识别模型。
8.一种基于上述权利要求1-7中任一所述建立方法的物体识别方法,其特征在于,所述物体识别方法包括:
获取待测图像;
利用上述权利要求1-7中任一所述建立方法建立的物体识别模型对所述待测图像进行识别,以预测所述待测图像中物体的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610926007.5A CN106570522B (zh) | 2016-10-24 | 2016-10-24 | 物体识别模型的建立方法及物体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610926007.5A CN106570522B (zh) | 2016-10-24 | 2016-10-24 | 物体识别模型的建立方法及物体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106570522A true CN106570522A (zh) | 2017-04-19 |
CN106570522B CN106570522B (zh) | 2020-01-10 |
Family
ID=58533358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610926007.5A Active CN106570522B (zh) | 2016-10-24 | 2016-10-24 | 物体识别模型的建立方法及物体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106570522B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018076130A1 (zh) * | 2016-10-24 | 2018-05-03 | 中国科学院自动化研究所 | 物体识别模型的建立方法及物体识别方法 |
CN108021131A (zh) * | 2017-11-28 | 2018-05-11 | 王智华 | 一种机器人视觉识别方法、装置及计算机可读存储介质 |
CN108520184A (zh) * | 2018-04-16 | 2018-09-11 | 成都博锐智晟科技有限公司 | 一种隐私保护的方法及系统 |
CN108764247A (zh) * | 2018-04-13 | 2018-11-06 | 中国科学院自动化研究所 | 基于稠密连接的深度学习物体检测方法及装置 |
CN109635769A (zh) * | 2018-12-20 | 2019-04-16 | 天津天地伟业信息系统集成有限公司 | 一种用于球型摄像机的行为识别统计方法 |
CN109697464A (zh) * | 2018-12-17 | 2019-04-30 | 环球智达科技(北京)有限公司 | 基于物体检测和特征搜索的精确目标识别的方法及系统 |
CN110197142A (zh) * | 2019-05-16 | 2019-09-03 | 谷东科技有限公司 | 微弱光线条件下的物体识别方法、装置、介质及终端设备 |
CN110472482A (zh) * | 2019-07-01 | 2019-11-19 | 广东工业大学 | 一种物体识别及实时翻译的方法及装置 |
CN110874099A (zh) * | 2018-08-13 | 2020-03-10 | 格力电器(武汉)有限公司 | 目标图像识别方法、装置以及可移动空调 |
US11423634B2 (en) | 2018-08-03 | 2022-08-23 | Huawei Cloud Computing Technologies Co., Ltd. | Object detection model training method, apparatus, and device |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130266214A1 (en) * | 2012-04-06 | 2013-10-10 | Brighham Young University | Training an image processing neural network without human selection of features |
CN105389584A (zh) * | 2015-10-13 | 2016-03-09 | 西北工业大学 | 基于卷积神经网络与语义转移联合模型的街景语义标注方法 |
CN106022353A (zh) * | 2016-05-05 | 2016-10-12 | 浙江大学 | 一种基于超像素分割的图像语义标注方法 |
-
2016
- 2016-10-24 CN CN201610926007.5A patent/CN106570522B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130266214A1 (en) * | 2012-04-06 | 2013-10-10 | Brighham Young University | Training an image processing neural network without human selection of features |
CN105389584A (zh) * | 2015-10-13 | 2016-03-09 | 西北工业大学 | 基于卷积神经网络与语义转移联合模型的街景语义标注方法 |
CN106022353A (zh) * | 2016-05-05 | 2016-10-12 | 浙江大学 | 一种基于超像素分割的图像语义标注方法 |
Non-Patent Citations (1)
Title |
---|
CAIHUA LIU 等: "《Convolutional neural random fields for action Recognition》", 《PATTERN RECOGNITION》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018076130A1 (zh) * | 2016-10-24 | 2018-05-03 | 中国科学院自动化研究所 | 物体识别模型的建立方法及物体识别方法 |
CN108021131A (zh) * | 2017-11-28 | 2018-05-11 | 王智华 | 一种机器人视觉识别方法、装置及计算机可读存储介质 |
CN108021131B (zh) * | 2017-11-28 | 2021-02-09 | 王智华 | 一种机器人视觉识别方法、装置及计算机可读存储介质 |
CN108764247B (zh) * | 2018-04-13 | 2020-11-10 | 中国科学院自动化研究所 | 基于稠密连接的深度学习物体检测方法及装置 |
CN108764247A (zh) * | 2018-04-13 | 2018-11-06 | 中国科学院自动化研究所 | 基于稠密连接的深度学习物体检测方法及装置 |
CN108520184A (zh) * | 2018-04-16 | 2018-09-11 | 成都博锐智晟科技有限公司 | 一种隐私保护的方法及系统 |
US11423634B2 (en) | 2018-08-03 | 2022-08-23 | Huawei Cloud Computing Technologies Co., Ltd. | Object detection model training method, apparatus, and device |
US11605211B2 (en) | 2018-08-03 | 2023-03-14 | Huawei Cloud Computing Technologies Co., Ltd. | Object detection model training method and apparatus, and device |
CN110874099A (zh) * | 2018-08-13 | 2020-03-10 | 格力电器(武汉)有限公司 | 目标图像识别方法、装置以及可移动空调 |
CN109697464A (zh) * | 2018-12-17 | 2019-04-30 | 环球智达科技(北京)有限公司 | 基于物体检测和特征搜索的精确目标识别的方法及系统 |
CN109635769A (zh) * | 2018-12-20 | 2019-04-16 | 天津天地伟业信息系统集成有限公司 | 一种用于球型摄像机的行为识别统计方法 |
CN109635769B (zh) * | 2018-12-20 | 2023-06-23 | 天津天地伟业信息系统集成有限公司 | 一种用于球型摄像机的行为识别统计方法 |
CN110197142A (zh) * | 2019-05-16 | 2019-09-03 | 谷东科技有限公司 | 微弱光线条件下的物体识别方法、装置、介质及终端设备 |
CN110472482A (zh) * | 2019-07-01 | 2019-11-19 | 广东工业大学 | 一种物体识别及实时翻译的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106570522B (zh) | 2020-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106570522B (zh) | 物体识别模型的建立方法及物体识别方法 | |
US20210012198A1 (en) | Method for training deep neural network and apparatus | |
CN108229444B (zh) | 一种基于整体和局部深度特征融合的行人再识别方法 | |
CN110728209B (zh) | 一种姿态识别方法、装置、电子设备及存储介质 | |
WO2021143101A1 (zh) | 人脸识别方法和人脸识别装置 | |
CN110334759B (zh) | 一种评论驱动的深度序列推荐方法 | |
CN106548159A (zh) | 基于全卷积神经网络的网纹人脸图像识别方法与装置 | |
CN110097029B (zh) | 基于Highway网络多视角步态识别的身份认证方法 | |
CN106372581A (zh) | 构建及训练人脸识别特征提取网络的方法 | |
CN111160533A (zh) | 一种基于跨分辨率知识蒸馏的神经网络加速方法 | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
WO2021218238A1 (zh) | 图像处理方法和图像处理装置 | |
CN109993100A (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
CN114943324B (zh) | 神经网络训练方法、人体运动识别方法及设备、存储介质 | |
CN113628059A (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN113516227A (zh) | 一种基于联邦学习的神经网络训练方法及设备 | |
CN111738403A (zh) | 一种神经网络的优化方法及相关设备 | |
CN107301643A (zh) | 基于鲁棒稀疏表示与拉普拉斯正则项的显著目标检测方法 | |
CN111310720A (zh) | 基于图度量学习的行人重识别方法及系统 | |
CN117854135A (zh) | 一种基于四元超复网络的微表情识别方法 | |
Bussey et al. | Convolutional neural network transfer learning for robust face recognition in NAO humanoid robot | |
WO2018076130A1 (zh) | 物体识别模型的建立方法及物体识别方法 | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别系统 | |
WO2019235116A1 (ja) | 移動状況解析装置、移動状況解析方法及びプログラム | |
CN110826459A (zh) | 基于姿态估计的可迁移校园暴力行为视频识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |