CN107330439A

CN107330439A - 一种图像中物体姿态的确定方法、客户端及服务器

Info

Publication number: CN107330439A
Application number: CN201710573908.5A
Authority: CN
Inventors: 李佳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2017-11-07
Anticipated expiration: 2037-07-14
Also published as: EP3576017A4; KR102319177B1; JP6789402B2; KR20190128686A; US20190355147A1; CN107330439B; WO2019011249A1; JP2020507850A; EP3576017B1; EP3576017A1; US11107232B2

Abstract

本申请公开了一种图像中物体姿态的确定方法、客户端及服务器。该方法包括：从服务器获取针对目标物体的卷积神经网络训练模型参数；获取目标物体的实时图像，从实时图像中识别出至少一个第一图像块；针对每个第一图像块，根据训练模型参数确定与该第一图像块相匹配的标签图像块；及，根据各个第一图像块和各自匹配的标签图像块，确定目标物体的姿态，根据姿态在实时图像中增加虚拟内容。本发明的这种方法，能够提升图像处理的时间效率，消耗较少的内存资源，提高终端的资源利用率。

Description

一种图像中物体姿态的确定方法、客户端及服务器

技术领域

本发明涉及图像处理技术领域，特别涉及一种图像中物体姿态的确定方法、客户端及服务器。

背景技术

随着计算机图形技术的飞速发展，增强现实技术将计算机产生的图形、文字等虚拟信息有机的融合到使用者所看到的真实场景中，对人的视觉系统进行景象的增强或扩张。实现增强现实技术的基础是能够获取真实场景的观测角度。例如，当通过摄像机获取真实场景的图像时，需要通过二维观测图像估计出三维物体的姿态。

现有技术中，常用的方法是对人工设计的特征进行检测，然后在不同的图像之间进行比较。但是，这类方法需要准确的尺度选择、旋转纠正、密度归一化等附加步骤，计算复杂度很高，耗时较长。当将增强现实技术应用于移动设备或者可穿戴设备上时，由于此类设备资源受限、具备有限的信息输入和计算能力，上述方法将不再适用。

发明内容

有鉴于此，本发明实施例提供了一种图像中物体姿态的确定方法、客户端及服务器，能够提升图像处理的时间效率，消耗较少的内存资源，提高终端的资源利用率。

具体地，本发明实施例的技术方案是这样实现的：

本发明提供了一种图像中物体姿态的确定方法，包括：

从服务器获取针对目标物体的卷积神经网络训练模型参数；

获取所述目标物体的实时图像，从所述实时图像中识别出至少一个第一图像块；

针对每个第一图像块，根据所述训练模型参数确定与该第一图像块相匹配的标签图像块；及，

根据各个第一图像块和各自匹配的标签图像块，确定所述目标物体的姿态，根据所述姿态在所述实时图像中增加虚拟内容。

本发明还提供了一种图像中物体姿态的确定方法，包括：

获取针对目标物体的标准图像以及多张畸变图像；

将所述标准图像和所述多张畸变图像输入到卷积神经网络进行训练，获得训练模型参数；

将所述训练模型参数发送给客户端，以使所述客户端获取所述目标物体的实时图像，从所述实时图像中识别出至少一个第一图像块；针对每个第一图像块，根据所述训练模型参数确定与该第一图像块相匹配的标签图像块；及，根据各个第一图像块和各自匹配的标签图像块，确定所述目标物体的姿态，根据所述姿态在所述实时图像中增加虚拟内容。

本发明又提供了一种客户端，包括：

离线接收模块，用于从服务器获取针对目标物体的卷积神经网络训练模型参数；

在线接收模块，用于获取所述目标物体的实时图像；

识别模块，用于从所述在线接收模块接收到的实时图像中识别出至少一个第一图像块；

匹配模块，用于针对所述识别模块识别出的每个第一图像块，根据所述离线接收模块给出的训练模型参数确定与该第一图像块相匹配的标签图像块；

姿态确定模块，用于根据各个第一图像块和所述匹配模块确定的各自匹配的标签图像块，确定所述目标物体的姿态；及，

增加模块，用于根据所述姿态确定模块确定的姿态在所述实时图像中增加虚拟内容。

本发明又提供了一种服务器，其特征在于，包括：

获取模块，用于获取针对目标物体的标准图像以及多张畸变图像；

训练模块，用于将所述获取模块获取的标准图像和所述多张畸变图像输入到卷积神经网络进行训练，获得训练模型参数；

发送模块，用于将所述训练模块得到的训练模型参数发送给客户端，以使所述客户端获取所述目标物体的实时图像，从所述实时图像中识别出至少一个第一图像块；针对每个第一图像块，根据所述训练模型参数确定与该第一图像块相匹配的标签图像块；及，根据各个第一图像块和各自匹配的标签图像块，确定所述目标物体的姿态，根据所述姿态在所述实时图像中增加虚拟内容。

由上述技术方案可见，本发明实施例提供的方法，通过使用卷积神经网络进行离线训练，然后在线确定物体姿态时使用训练好的训练模型参数，使得图像处理的计算复杂度大大低，时间效率高，占用内存资源少，同时还能保证确定方法的准确率，该方法尤其适用于资源受限设备上应用增强现实服务，提升了终端设备的资源使用率。

附图说明

图1为本发明一个实施例所涉及的实施环境示意图；

图2为本发明一个实施例中图像中物体姿态的确定方法的流程示意图；

图3a为本发明一个实施例中目标物体的标准图像的示意图；

图3b为本发明一个实施例中目标物体的畸变图像的示意图；

图4a为本发明另一个实施例中目标物体的标准图像的示意图；

图4b为本发明另一个实施例中目标物体的畸变图像的示意图；

图5为本发明另一个实施例中图像中物体姿态的确定方法的流程示意图；

图6为本发明一个实施例中图像中物体姿态的确定方法的流程示意图；

图7为本发明一个实施例中卷积神经网络的结构示意图；

图8为本发明一个实施例中客户端的结构示意图；

图9为本发明另一个实施例中客户端的结构示意图；

图10为本发明一个实施例中服务器的结构示意图；

图11为本发明另一个实施例中服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

图1为本发明一个实施例所涉及的增强现实实施环境示意图。如图1所示，在增强现实应用系统100中包括目标物体101、终端设备102和服务器103。其中，终端设备102中安装有摄像装置1021、屏幕1023、本发明实施例给出的物体姿态确定客户端，并且运行有增强现实的应用程序。

在具体应用时，用户使用摄像装置1021实时拍摄到关于目标物体101的图像1022，显示在屏幕1023上。根据本发明实施例所述的方法，从所拍摄的图像1022中估计出目标物体101的姿态，通过该姿态能够确定目标物体101在所拍摄图像1022中的位置，然后根据该姿态将虚拟内容1024加在同一位置处，从而实现真实世界和虚拟信息叠加在同一个画面中。

根据本发明的实施例，在终端设备处对实时图像进行在线检测之前，终端设备102首先从服务器103处获得对目标物体101的离线训练结果。服务器103中的数据库1031中保存有目标物体101的大量图像样本，然后离线训练子服务器1032使用卷积神经网络对这些图像样本进行离线训练，训练完成后确定出训练模型参数，然后将其发送给终端设备102用于对实时图像的在线检测。

这里，上述终端设备102是指具有图像拍摄以及处理功能的终端设备，包括但不限于智能手机、掌上电脑、平板电脑等。这些终端设备上都安装有操作系统，包括但不限于：Android操作系统、Symbian操作系统、Windows mobile操作系统、以及苹果iPhone OS操作系统等等。终端设备102和服务器103之间可以通过无线网络进行通信。

图2为本发明一个实施例中图像中物体姿态的确定方法的流程示意图。该方法可以应用于单独的客户端，或者应用于具备增强现实功能的客户端。该方法包括以下步骤。

步骤201，从服务器获取针对目标物体的卷积神经网络训练模型参数。

其中，服务器获取一个场景中目标物体的标准图像以及多张畸变图像，将标准图像和多张畸变图像输入到卷积神经网络进行训练，获得训练模型参数。然后，服务器将训练模型参数发送给客户端。

在本发明的实施例中，训练出来的训练模型参数与特定的场景相关，针对的是单一目标物体。所谓标准图像是指在一个特定场景中针对一个目标物体拍摄得到的清晰图像，而畸变图像是在该标准图像的基础上引入各种透视失真而得到的。

图3a给出了一个城市场景中针对一个目标物体的标准图像，图3b则给出了相应的3张畸变图像。该场景是河边的城市建筑群，目标物体是其中最高的楼，如图3a中椭圆所示。3张畸变图像是对图3a中的标准图像进行旋转、平移得到的，在每张畸变图像中都可以看到目标物体—楼，而在背景部分则填充了一些随机数。

图4a和图4b分别给出了另一个场景中针对一个目标物体的标准图像和3张畸变图像。目标物体是河上的桥，如图4a中方框所示。3张畸变图像也是对标准图像进行旋转、平移得到的，在每张畸变图像中都可以看到完整的或者部分的目标物体—桥。

此步骤是在用户使用增强现实服务之前执行，在客户端中事先存储获得的训练模型参数。在用户使用增强现实服务时，则读取该训练模型参数用于目标物体的姿态确定。

步骤202，获取目标物体的实时图像，从实时图像中识别出至少一个第一图像块。

此步骤中，用户处于上述场景中，希望使用增强现实服务，首先通过客户端所在终端上的摄像装置拍摄得到目标物体的实时图像，将实时图像传递给客户端。然后，客户端从实时图像中识别出至少一个第一图像块，识别的具体方法包括：

步骤2021，对实时图像进行特征检测，获取多个局部特征。

局部特征是指图像中一些有别于其周围的地方，描述的是一块区域，使其能具有高可区分度。

步骤2022，针对每个局部特征，若判断出该局部特征的图像对比度高于预设的对比度阈值并且该局部特征并非图像的边缘，则将该局部特征确定为第一图像块。

这里，对比度指的是一幅图像中明暗区域最亮的白和最暗的黑之间不同亮度层级的测量，即指一幅图像灰度反差的大小。这样，识别出的第一图像块，能从周围环境中凸显，减少位置上的歧义。例如，实时图像为一个脸部图像，第一图像块为脸部的鼻尖、眼角等。

在具体应用时，可以使用尺度不变特征变换(SIFT)、加速鲁棒特征(SURF)识别算法、加速分段测试的特征识别(FAST)等方法。这些方法检测的准确性和速度各有不同。在实际应用时，可以根据终端设备的硬件能力在处理复杂度和时间效率之间进行折中选择。

在其他实施例中，也可以根据单个判断结果确定局部特征。例如，若判断出该局部特征的图像对比度高于预设的对比度阈值，则将该局部特征确定为第一图像块。或者，该局部特征并非图像的边缘，则将该局部特征确定为第一图像块。这里，局部特征的识别准确度将会影响后续的匹配和确定出的姿态结果。

步骤203，针对每个第一图像块，根据训练模型参数确定与该第一图像块相匹配的标签图像块。

本发明实施例中，训练模型参数包括权值和从标准图像中识别出来的第二图像块。卷积神经网络包括多个卷积层，权值是指每个卷积层所使用的卷积矩阵中的各个元素值。

此步骤中，匹配的方法具体包括：

步骤2031，将该第一图像块输入卷积神经网络，基于权值输出该第一图像块与每个第二图像块相匹配的概率。

卷积神经网络能够对第一图像块进行分类，每个第二图像块代表了类别标签，通过权值对第一图像块进行处理，输出的结果是第一图像块与每个第二图像块相匹配的概率。这个概率数值代表了第一图像块和第二图像块的相似度。

步骤2032，将最大概率值所对应的第二图像块确定为标签图像块。

在具体应用时，在客户端和服务器侧预先设置目标物体的标识，训练模型参数中包括该标识。那么，当客户端接收到该训练模型参数后，获知上述标识。在执行步骤202时，根据获取到的实时图像或者终端的当前定位信息，判断出该实时图像对应了哪个目标物体，那么根据该目标物体的标识就能获知在执行步骤203时使用哪个训练模型参数进行匹配。

步骤204，根据各个第一图像块和各自匹配的标签图像块，确定目标物体的姿态，根据姿态在实时图像中增加虚拟内容。

本发明的实施例中，目标物体的姿态由仿射变换来表示，也就是说，每个标签图像块经由仿射变换与第一图像块相匹配。若第一图像块为q_i，i＝1,…,N，N为第一图像块的总数，与q_i匹配的标签图像块为p_i，仿射变换由矩阵A来表示，那么有

q_i＝Ap_i (1)

仿射变换能够体现出目标物体相对于摄像镜头的平移和旋转量，可以描述3D空间中的目标物体到2D平面图像的成像过程。仿射变换属于线性变换，即具有将平行线变换成平行线、有限点映射到有限点的一般特性。二维欧氏空间上的仿射变换可以表示为：

其中，(x,y)和(x′,y′)分别是指标准图像和实时图像中两个点(即像素)的坐标，为旋转、伸缩、切变的合成变换的矩阵表示，(a₀,a₅)^T为平移矢量，a_i均为实数。其中，6个参数组成的向量a＝(a₀,a₁,a₂,a₃,a₄,a₅)^T代表了仿射变换，决定了两个点之间的坐标转换关系，包括三维旋转和平移。

可见，仿射变换具有6个自由度，根据仿射变换估计出的姿态也常称为6D姿态。根据向量中参数的具体数值，平移、旋转、缩放、反射和剪切等都是仿射变换的一种情况。

在确定目标物体的姿态时，根据最小二乘原则从仿射变换矩阵集合中确定出仿射变换的矩阵估计值。具体地，计算矩阵估计值为：

其中，||·||表示取模值的平方，G为仿射变换矩阵集合。

确定出由表示的姿态后，任何希望添加于实时图像中的虚拟内容都可以由进行变换，与实时图像保持一致的观测角度，从而实现了在实时图像中增加虚拟内容，为用户展示增强现实后的混合图像效果。

本实施例中，通过从服务器接收已训练完的卷积神经网络训练模型参数，接收用户拍摄目标物体得到的实时图像，从实时图像中识别出至少一个第一图像块，将图像块作为卷积神经网络的输入，好处在于相比整幅图像，这种图像小块抗变换能力强，尤其是平移变换；并且，不需要做分割或者其它任何预先的图像语义解释。

然后，针对每个第一图像块，根据训练模型参数确定与该第一图像块相匹配的标签图像块，根据各个第一图像块和各自匹配的标签图像块，确定目标物体的姿态，根据姿态在实时图像中增加虚拟内容。使用卷积神经网络用于姿态确定的好处在于，这种网络中权值数据在多个连接中可以共享，使得上述方法的计算复杂度低，时间效率高，占用内存资源少，尤其适用于资源受限设备上应用增强现实服务，例如，电池能力受限的移动终端、可穿戴式设备等。

图5为本发明另一个实施例中图像中物体姿态的确定方法的流程示意图。如图5所示，包括如下步骤：

步骤501，从服务器接收并存储已训练完的卷积神经网络的训练模型参数。

服务器针对某个特定场景下的目标物体进行离线训练，训练完毕后，将训练模型参数发送给客户端进行存储，然后客户端在实时监测时调用该训练模型参数。

步骤502，获取目标物体的实时图像。

在具体应用时，实时图像可以是用户拍摄的静态图片或者视频中的一帧图像。当接收到的是视频流时，每隔固定间隔从视频流中抽取出一帧图像作为待处理的实时图像。例如，视频流每秒包括24帧图像，可以每隔一秒从中抽取出一帧图像。

步骤503，从实时图像中识别出至少一个第一图像块，将每个第一图像块输入卷积神经网络。

步骤504，对于每个第一图像块，基于权值输出该第一图像块与每个第二图像块相匹配的概率，将最大概率值所对应的第二图像块确定为标签图像块。

参见上述步骤202、203中的描述，此处不再赘述。

步骤505，根据各个第一图像块和各自匹配的标签图像块，确定出仿射变换的矩阵估计值来表征目标物体的几何姿态。

本步骤中，第一图像块和与其匹配的标签图像块组成一个匹配对，即(q_i,p_i)。在确定姿态之前，可以进一步包括对匹配对的取舍。对于每个第一图像块，具体包括如下步骤：

步骤5051，将该第一图像块输入卷积神经网络，基于权值输出该第一图像块与每个第二图像块相匹配的概率。

具体地，若第二图像块的总数为M，卷积神经网络的输出层输出一个1×M维的分类向量，向量中的元素取值为[0，1]，代表了上述概率。

步骤5052，若概率大于预设概率阈值的第二图像块的总数大于预设个数阈值，则将该第一图像块和与其匹配的标签图像块用于确定目标物体的姿态。

例如，预设概率阈值为0.6，预设个数阈值为200，则若数值大于0.6的元素个数大于200个，则保留该匹配对，用于姿态确定。这样选择出来的匹配对能够服从大多数的姿态。

在具体应用时，也可以使用随机抽样一致性的策略，来滤除误匹配对。

步骤506，根据矩阵估计值将虚拟内容添加在实时图像中。

通过标准图像确定出仿射变换的矩阵估计值后，可以再执行逆过程，将虚拟内容通过仿射变换再转换到实时图像的参照系中，从而可以将二者叠加在一起，实现增强现实的功能。

在上述实施例中，通过对匹配对(第一图像块，标签图像块)的取舍，由公式(3)可见，N的有效数值减少，因此，降低了计算的复杂度，同时还能提高姿态确定的准确性。此外，通过仿射变换的矩阵估计值来表征目标物体的几何姿态，处理简单，易于计算，进一步提高了算法的时间效率。

图6为本发明一个实施例中图像中物体姿态的确定方法的流程示意图。该方法可以应用于服务器。包括以下步骤。

步骤601，获取针对目标物体的标准图像以及多张畸变图像。

服务器侧执行离线训练时，首先需要获取大量的训练样本。其中，标准图像是必需的，用于确定分类时使用的多个标签图像块。而畸变图像的获取方式可以有多种，例如，使用摄像装置针对同一目标物体随机拍摄获得多个畸变图像，或者，从标准图像进行各类失真处理获得多个畸变图像。对于后者，在一实施例中，图像的失真也通过仿射变换引入。具体包括如下步骤：

步骤6011，随机产生多个仿射变换矩阵。

定义矩阵表示仿射变换，按照下式随机产生多个仿射变换矩阵：

其中，参数和θ是从(-π,π]中均匀产生，参数t_x和f_x是从[0,w]中均匀生成，w为标准图像的宽度，参数t_y和f_y是从[0,h]中均匀生成，h为标准图像的高度，参数λ₁和λ₂是从[0.5,1.5]中均匀生成。

步骤6012，针对每个仿射变换矩阵，使用该仿射变换矩阵对标准图像进行仿射变换，得到一张畸变图像。

执行变换的表达式如下：

I′＝A(I)+N (5)

其中，I为输入的标准图像，I′为生成的畸变图像，N为高斯白噪声，均值为μ，方差为σ，并且满足如下的关系：

当0≤μ≤5 (6)

σ＝0.3×(μ2-1)+0.8 (7)

步骤602，将标准图像和多张畸变图像输入到卷积神经网络进行训练，获得训练模型参数。

步骤603，将训练模型参数发送给客户端。

这样，客户端接收用户拍摄目标物体得到的实时图像，从实时图像中识别出至少一个第一图像块；针对每个第一图像块，根据训练模型参数确定与该第一图像块相匹配的标签图像块；及，根据各个第一图像块和各自匹配的标签图像块，确定目标物体的姿态，根据姿态在实时图像中增加虚拟内容。

在上述步骤602中，服务器构建卷积神经网络，然后进行训练。卷积神经网络通过卷积操作进行特征提取，然后进行特征映射。卷积神经网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等，因而可以减少网络自由参数的个数。

图7为本发明一个实施例中卷积神经网络的结构示意图。如图7所示，卷积神经网络包括多层处理，分别为：

701卷积层：通过一个卷积矩阵作为过滤器，当过滤器卷积输入的图像块700时，把过滤器里面的权重值和图像块里对应的像素值相乘，把所有结果加和，得到一个加和值。然后重复这个过程，从左到右、从上到下卷积图像块的每一个区域，每一步都可以得到一个值，最后的矩阵为特征图像。

702池化层：池化层通常用在卷积层之后，其作用就是简化卷积层里输出的信息，减少数据维度，降低计算开销，控制过拟合。

具体而言，卷积后的特征图像具有一种“静态性”的属性，这表明在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述一副大的图像，对不同位置的特征进行聚合统计，即池化过程。例如，计算图像一个区域上的某个特定特征的平均值或最大值。相比使用所有提取得到的特征，这些统计特征不仅具有低得多的维度，同时还会改善结果，不容易过拟合。

703全连接层：检测获取到的这些特征图像与哪种类别更相近。这里的类别即由M个第二图像块代表的各种可能标签。

704输出层：输出为1×M维的分类向量，向量中的元素取值为[0,1]，输出的每一维都是指该图像块属于该类别的概率。

在实际应用中，通常使用多层卷积，然后再使用全连接层进行训练。即在图7中，将701卷积层和702池化层作为一个组合，将依次执行多个该组合，这种网络被称为深度卷积神经网络。多层卷积的目的是考虑到一层卷积学到的特征往往是局部的，层数越高，学到的特征就越全局化。

当卷积神经网络包括多个卷积层时，确定卷积层的个数的方法，具体为：预设图像块个数与卷积层个数的对应关系；从标准图像中识别出至少一个第二图像块；根据第二图像块的个数和对应关系确定卷积神经网络中卷积层的个数。

例如，表1给出的实施例中，第二图像块的总数为400，整个网络包括了13层。其中，有4个卷积层，具体为第1、4、7、10层是卷积层，在第1层卷积层之后紧跟着进行最大池化层和ReLU激励层，在第4层卷积层之后紧跟着进行ReLU激励层和平均池化层，在第7层卷积层之后紧跟着进行ReLU激励层和平均池化层，在第10层卷积层之后紧跟着进行ReLU激励层，最后是全连接层和soft-max输出层。

表1深度卷积神经网络的结构

其中，激励层中将调用一种激励函数来加入非线性因素，以解决线性不可分的问题。如表1所示，选择的激励函数方式叫做ReLU(Rectified Linear Units)，其表达式为：

f(x)＝max(0,x) (8)

即把小于零的值都归为0，这样，卷积神经网络训练的速度会更快，减少梯度消失的问题出现。

此外，卷积神经网络在训练的过程中也需要确定输入样本和理想的输出样本，然后迭代进行权值的调整。在一实施例中，从标准图像中识别出至少一个第二图像块；分别对每张畸变图像进行识别，得到至少一个第三图像块；在卷积神经网络进行训练时，将第三图像块作为输入样本，将各个第二图像块作为理想的输出样本，训练得到权值。

卷积神经网络训练时，通过反向传播算法来调整权重值。反向传播算法可以分成4个不同的部分：向前传递，损失函数，反向传递，更新权重。

向前传播过程中，输入图像块，通过卷积神经网络传递它。起初，所有的权重值都被随机初始化，如随机值[0.3,0.1,0.4,0.2,0.3....]。由于卷积神经网络通过初始化的权重值无法提取准确特征图像，因此无法给出任何合理的结论，图片属于哪种类别。此时，通过反向传播中的损失函数来帮助卷积神经网络更新权重值找到想要的特征图像。损失函数的定义方式有很多种，例如，MSE(mean squared error)均方误差。在卷积神经网络刚开始训练的时候，由于权重值都是随机初始化出来的，这个损失值可能会很高。而训练的目的是希望预测值和真实值一样。为此，需要尽量减少损失值，损失值越小就说明预测结果越接近。在这一个过程中，将不断的调整权重值，来寻找出哪些权重值能使网络的损失减小。例如，采用梯度下降算法。

每次训练，将会完成多次的前向传递、损失函数、反向传递和参数更新的过程。当训练结束后，就得到了训练出来的一些权重值。

根据本发明上述实施例给出的物体姿态确定方法，和现有技术中使用随机Ferns方法确定姿态相比，表2给出了两种方法在准确率和占用内存的数值。

首先，实验数据是这样设置的：本发明实施例给出的方法中，使用表1给出的卷积神经网络架构，图像块的大小为27×27，共有27行27列个像素，对该图像块进行预处理，使其均值为0，方差为1。离线训练时根据公式(4)随机产生了2000个仿射变换矩阵，用于生成畸变图像。第二图像块的个数为400，输出向量为1×400维的分类向量。Ferns方法中Fern的个数为30，每个Fern中特征的个数为12。

如表2所示，对于图3a、图3b给出的图像，本发明实施例给出的方法的准确率为86％，而Ferns方法的准确率为88％；对于图4a、图4b给出的图像，本发明实施例给出的方法的准确率为87％，而Ferns方法的准确率为88％。可见，本发明实施例给出的方法与Ferns方法的准确率大致相同。但是就占用内存来看，本发明实施例给出的方法由于使用卷积神经网络，占用内存仅为0.5557M，而Ferns方法占用内存93.75M，可见，本发明实施例给出的方法具有很低的内存资源消耗。

表2实验数据对比

图8为本发明一个实施例中客户端800的结构示意图。如图8所示，客户端800包括：

离线接收模块810，用于从服务器获取针对目标物体的卷积神经网络训练模型参数；

在线接收模块820，用于获取目标物体的实时图像；

识别模块830，用于从在线接收模块820接收到的实时图像中识别出至少一个第一图像块；

匹配模块840，用于针对识别模块830识别出的每个第一图像块，根据离线接收模块810给出的训练模型参数确定与该第一图像块相匹配的标签图像块；

姿态确定模块850，用于根据识别模块830识别出的各个第一图像块和匹配模块840确定的各自匹配的标签图像块，确定目标物体的姿态；及，

增加模块860，用于根据姿态确定模块850确定的姿态在实时图像中增加虚拟内容。

在一实施例中，识别模块830包括：

检测单元831，用于对实时图像进行特征检测，获取多个局部特征；

判断单元832，用于针对每个局部特征，若判断出该局部特征的图像对比度高于预设的对比度阈值并且该局部特征并非图像的边缘，则将该局部特征确定为第一图像块。

在一实施例中，训练模型参数包括权值和从标准图像中识别出来的第二图像块，匹配模块840用于，将该第一图像块输入卷积神经网络，基于权值输出该第一图像块与每个第二图像块相匹配的概率；将最大概率值所对应的第二图像块确定为标签图像块。

在一实施例中，姿态由仿射变换来表示，每个标签图像块经由仿射变换与第一图像块相匹配；

姿态确定模块850用于，根据最小二乘原则从仿射变换矩阵集合中确定出仿射变换的矩阵估计值。

图9为本发明另一个实施例中客户端900的结构示意图。如图9所示，服务器900包括：处理器910、存储器920、端口930以及总线940。处理器910和存储器920通过总线940互联。处理器910可通过端口930接收和发送数据。其中，

处理器910用于执行存储器920存储的机器可读指令模块。

存储器920存储有处理器910可执行的机器可读指令模块。处理器910可执行的指令模块包括：离线接收模块921、在线接收模块922、识别模块923、匹配模块924、姿态确定模块925和增加模块926。其中，

离线接收模块921被处理器910执行时可以为：从服务器获取针对目标物体的卷积神经网络训练模型参数；

在线接收模块922被处理器910执行时可以为：获取目标物体的实时图像；

识别模块923被处理器910执行时可以为：从在线接收模块922接收到的实时图像中识别出至少一个第一图像块；

匹配模块924被处理器910执行时可以为：针对识别模块923识别出的每个第一图像块，根据离线接收模块921给出的训练模型参数确定与该第一图像块相匹配的标签图像块；

姿态确定模块925被处理器910执行时可以为：根据识别模块923识别出的各个第一图像块和匹配模块924确定的各自匹配的标签图像块，确定目标物体的姿态；

增加模块926被处理器910执行时可以为：根据姿态确定模块925确定的姿态在实时图像中增加虚拟内容。

由此可以看出，当存储在存储器920中的指令模块被处理器910执行时，可实现前述各个实施例中离线接收模块、在线接收模块、识别模块、匹配模块、姿态确定模块和增加模块的各种功能。

图10为本发明一个实施例中服务器1000的结构示意图。如图10所示，服务器1000包括：

获取模块1010，用于获取针对目标物体的标准图像以及多张畸变图像；

训练模块1020，用于将获取模块1010获取的标准图像和多张畸变图像输入到卷积神经网络进行训练，获得训练模型参数；

发送模块1030，用于将训练模块1020得到的训练模型参数发送给客户端，以使客户端获取目标物体的实时图像，从实时图像中识别出至少一个第一图像块；针对每个第一图像块，根据训练模型参数确定与该第一图像块相匹配的标签图像块；及，根据各个第一图像块和各自匹配的标签图像块，确定目标物体的姿态，根据姿态在实时图像中增加虚拟内容。

在一实施例中，获取模块1010用于，随机产生多个仿射变换矩阵；针对每个仿射变换矩阵，使用该仿射变换矩阵对标准图像进行仿射变换，得到一张畸变图像。

在一实施例中，卷积神经网络包括多个卷积层，训练模块1020用于，预设图像块个数与卷积层个数的对应关系；从标准图像中识别出至少一个第二图像块；根据第二图像块的个数和对应关系确定卷积神经网络中卷积层的个数。

图11为本发明另一个实施例中服务器1100的结构示意图。如图11所示，服务器1100包括：处理器1110、存储器1120、端口1130以及总线1140。处理器1110和存储器1120通过总线1140互联。处理器1110可通过端口1130接收和发送数据。其中，

处理器1110用于执行存储器1120存储的机器可读指令模块。

存储器1120存储有处理器1110可执行的机器可读指令模块。处理器1110可执行的指令模块包括：获取模块1121、训练模块1122和发送模块1123。其中，

获取模块1121被处理器1110执行时可以为：获取针对目标物体的标准图像以及多张畸变图像；

训练模块1122被处理器1110执行时可以为：将获取模块1121获取的标准图像和多张畸变图像输入到卷积神经网络进行训练，获得训练模型参数；

发送模块1123被处理器1110执行时可以为：将训练模块1122得到的训练模型参数发送给客户端，以使客户端获取目标物体的实时图像，从实时图像中识别出至少一个第一图像块；针对每个第一图像块，根据训练模型参数确定与该第一图像块相匹配的标签图像块；及，根据各个第一图像块和各自匹配的标签图像块，确定目标物体的姿态，根据姿态在实时图像中增加虚拟内容。

由此可以看出，当存储在存储器1120中的指令模块被处理器1110执行时，可实现前述各个实施例中获取模块、训练模块和发送模块的各种功能。

上述装置实施例中，各个模块及单元实现自身功能的具体方法在方法实施例中均有描述，这里不再赘述。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

另外，本发明的每一个实施例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本发明。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本发明。存储介质可以使用任何类别的记录方式，例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。

因此，本发明还公开了一种存储介质，其中存储有数据处理程序，该数据处理程序用于执行本发明上述方法的任何一种实施例。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像中物体姿态的确定方法，其特征在于，包括：

从服务器获取针对目标物体的卷积神经网络训练模型参数；

2.根据权利要求1所述的方法，其中，所述从所述实时图像中识别出至少一个第一图像块包括：

对所述实时图像进行特征检测，获取多个局部特征；

针对每个局部特征，若该局部特征的图像对比度高于预设的对比度阈值并且该局部特征并非图像的边缘，则将该局部特征确定为所述第一图像块。

3.根据权利要求1所述的方法，其中，所述训练模型参数包括权值和从所述标准图像中识别出来的第二图像块，所述根据所述训练模型参数确定与该第一图像块相匹配的标签图像块包括：

将该第一图像块输入所述卷积神经网络，基于所述权值输出该第一图像块与每个第二图像块相匹配的概率；

将最大概率值所对应的第二图像块确定为所述标签图像块。

4.根据权利要求1所述的方法，其中，所述姿态由仿射变换来表示，每个标签图像块经由所述仿射变换与第一图像块相匹配；

所述根据各个第一图像块和各自匹配的标签图像块，确定所述目标物体的姿态包括：

根据最小二乘原则从仿射变换矩阵集合中确定出所述仿射变换的矩阵估计值。

5.根据权利要求4所述的方法，其中，若第一图像块为q_i，i＝1,…,N，N为所述第一图像块的总数，与q_i匹配的标签图像块为p_i，所述仿射变换由矩阵A来表示，所述根据最小二乘原则从仿射变换矩阵集合中确定出所述仿射变换的矩阵估计值包括：

计算所述矩阵估计值为：

其中，||·||表示取模值的平方，G为所述仿射变换矩阵集合。

6.根据权利要求1至5中任一项所述的方法，其中，所述训练模型参数包括权值和从所述标准图像中识别出来的第二图像块，所述根据各个第一图像块和各自匹配的标签图像块，确定所述目标物体的姿态包括：

对于每个第一图像块，

若所述概率大于预设概率阈值的第二图像块的总数大于预设个数阈值，则将该第一图像块和与其匹配的标签图像块用于确定所述目标物体的姿态。

7.一种图像中物体姿态的确定方法，其特征在于，包括：

获取针对目标物体的标准图像以及多张畸变图像；

8.根据权利要求7所述的方法，其中，所述获取针对目标物体的标准图像以及多张畸变图像包括：

随机产生多个仿射变换矩阵；

针对每个仿射变换矩阵，使用该仿射变换矩阵对所述标准图像进行仿射变换，得到一张畸变图像。

9.根据权利要求7所述的方法，其中，所述卷积神经网络包括多个卷积层，所述将所述标准图像和所述多张畸变图像输入到卷积神经网络进行训练包括：

预设图像块个数与卷积层个数的对应关系；

从所述标准图像中识别出至少一个第二图像块；

根据所述第二图像块的个数和所述对应关系确定所述卷积神经网络中卷积层的个数。

10.根据权利要求7至9中任一项所述的方法，其中，所述将所述标准图像和所述多张畸变图像输入到所述卷积神经网络进行训练包括：

从所述标准图像中识别出至少一个第二图像块；

分别对每张畸变图像进行识别，得到至少一个第三图像块；

在所述卷积神经网络进行训练时，将所述第三图像块作为输入样本，将各个第二图像块作为理想的输出样本，训练得到权值。

11.一种客户端，其特征在于，包括：

在线接收模块，用于获取所述目标物体的实时图像；

12.根据权利要求11所述的客户端，其中，所述训练模型参数包括权值和从所述标准图像中识别出来的第二图像块，所述匹配模块用于，将该第一图像块输入所述卷积神经网络，基于所述权值输出该第一图像块与每个第二图像块相匹配的概率；将最大概率值所对应的第二图像块确定为所述标签图像块。

13.根据权利要求11所述的客户端，其中，所述姿态由仿射变换来表示，每个标签图像块经由所述仿射变换与第一图像块相匹配；

所述姿态确定模块用于，根据最小二乘原则从仿射变换矩阵集合中确定出所述仿射变换的矩阵估计值。

14.一种服务器，其特征在于，包括：

15.根据权利要求14所述的服务器，其中，所述获取模块用于，随机产生多个仿射变换矩阵；针对每个仿射变换矩阵，使用该仿射变换矩阵对所述标准图像进行仿射变换，得到一张畸变图像。