CN106034203B

CN106034203B - 拍摄终端的图像处理方法及其装置

Info

Publication number: CN106034203B
Application number: CN201510107592.1A
Authority: CN
Inventors: 李俊杰
Original assignee: Wikko Tech Ltd
Current assignee: Wikko Tech Ltd
Priority date: 2015-03-11
Filing date: 2015-03-11
Publication date: 2020-07-28
Anticipated expiration: 2035-03-11
Also published as: CN106034203A; WO2016141810A1

Abstract

本发明涉及图像处理领域，公开了一种拍摄终端的图像处理方法及其装置。包括以下步骤：获取多幅图像以形成图像序列，其中，该图像序列被拍摄时镜头向一个方向持续移动和/或转动以共同覆盖所要拍摄的目标物；将图像序列中的各图像按图像顺序合成为一幅覆盖目标物的合成图像；对合成图像进行纠正，以减轻或消除由于拍摄时镜头运动导致投影平面变化所产生的图像畸变。本发明可实现用户对自己全身的自拍，并有效消除或减轻由于自拍产生的身体部分区域的图像畸变。

Description

拍摄终端的图像处理方法及其装置

技术领域

本发明涉及计算机视觉领域，特别涉及拍摄终端的图像处理技术。

背景技术

目前的手机自拍模式大都是对人体上半身的特写，其中有些还利用不同的拍摄效果和拍摄后人脸部的化妆修饰来达到美化自拍图片的作用。但是，由于人体手臂长度的限制，自拍很难拍到人的全身。而且，自拍得到的照片中往往由于拍摄角度问题会存在畸变区域(尤其是下半身)，使得得到的照片不符合正常的视觉审美习惯。

发明内容

本发明的目的在于提供一种拍摄终端的图像处理方法及其装置，可实现用户对原本超出拍摄终端取景范围的目标物进行拍摄，包括对用户自己全身的自拍，并有效消除或减轻由于镜头运动所产生的图像畸变。

为解决上述技术问题，本发明的实施方式公开了一种拍摄终端的图像处理方法，包括以下步骤：

获取多幅图像以形成图像序列，其中，该图像序列被拍摄时镜头向一个方向持续移动和/或转动以共同覆盖所要拍摄的目标物；

将图像序列中的各图像按图像顺序合成为一幅覆盖目标物的合成图像；

对合成图像进行纠正，以减轻或消除由于拍摄时镜头运动导致投影平面变化所产生的图像畸变。

本发明的实施方式还公开了一种拍摄终端的图像处理装置，包括：

获取单元，用于获取多幅图像以形成图像序列，其中，该图像序列被拍摄时镜头向一个方向持续移动和/或转动以共同覆盖所要拍摄的目标物；

合成单元，用于将图像序列中的各图像按图像顺序合成为一幅覆盖目标物的合成图像；

纠正单元，用于对合成图像进行纠正，以减轻或消除由于拍摄时镜头运动导致投影平面变化所产生的图像畸变。

本发明实施方式与现有技术相比，主要区别及其效果在于：

通过图像合成和畸变纠正，可实现用户对原本超出拍摄终端取景范围的目标物进行拍摄，包括对用户自己全身的自拍，并有效消除或减轻由于镜头运动所产生的图像畸变。

进一步地，可有效减轻或消除在自上而下的自拍过程中，引起的上身长、下身短的图像畸变，合成出一幅符合用户视觉习惯的自拍图。

进一步地，由于图像序列中各图像的亮度可能不同，在合并前将各图像的亮度进行统一校正，可提高合并图像的质量。

附图说明

图1是本发明第一实施方式中一种拍摄终端的图像处理方法的流程示意图；

图2是本发明第三实施方式中一种拍摄终端的图像处理装置的结构示意图；

图3是现有技术中拍摄图像时的成像原理示意图；

图4是本发明中第一实施方式中在拍摄图像序列时投影平面发生变化的示意图；

图5是本发明第二实施方式中拍摄图像时人体腿部和脚在同一投影平面发生尺寸比例变化的示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

本发明第一实施方式涉及一种拍摄终端的图像处理方法。图1是该拍摄终端的图像处理方法的流程示意图。

具体地说，如图1所示，该拍摄终端的图像处理方法包括以下步骤：

在步骤101中，获取多幅图像以形成图像序列，其中，该图像序列被拍摄时镜头向一个方向持续移动和/或转动以共同覆盖所要拍摄的目标物。

可以理解，以自拍为例，图像序列可包括自拍过程中拍摄的所有图像或自拍视频中的所有帧，也可以包括根据实际情况选取的多幅图像或多帧图像，在此不做限制。例如，在用户一手持移动终端(如手机)，利用手腕转动移动终端使该移动终端的镜头自上而下拍摄一段涵盖了从自己头顶到脚部的视频，或连续拍摄多张共同涵盖了头顶到脚部的照片后，从所获视频或照片里根据拍摄顺序、覆盖区域、画质等因素挑选出供合成的视频帧或照片组成图像序列。在此情况下，镜头主要是转动，当然也可能同时伴有一定的移动。

此后进入步骤102，将图像序列中的各图像按图像顺序合成为一幅覆盖目标物的合成图像。

此后进入步骤103，对合成图像进行纠正，以减轻或消除由于拍摄时镜头运动导致投影平面变化所产生的图像畸变。拍摄目标时的成像原理如图3a和3b所示，物体X在投影平面成像后为Xp，物体Y在投影平面成像后为Yp。如图4所示，即使是拍摄同样大小的物体AB和CD，如果投影平面不同，则其在投影平面上的成像大小也会发生变化(AB在投影平面一上成像为A′B′，CD在投影平面二上的成像为C′D′，A’B’>C’D’，即在成像过程中CD被过度缩小)。

此后结束本流程。

在本发明中，上述步骤102可通过图像特征点跟踪的方式实现。例如，在一优选例中，该步骤102包括以下子步骤：

根据图像序列中的图像顺序、图像覆盖的目标物部分和图像质量，选取所述图像序列中用于合成的第一幅图像、至少一幅中间图像和最后一幅图像，其中，每幅所述中间图像是基于在被选取图像中在图像序列上排在该中间图像前一幅的图像根据特征点跟踪技术获取的；将选取的第一幅图像、中间图像和最后一幅图像进行合并，得到合成图像。优选地，这些子步骤具体的实现方式如下：

主要利用特征点跟踪技术和单应性变换(Homography Transformation)实现图像的特征点匹配。具体步骤包括：

1)对图像序列中的第一幅图像进行特征点检测，所获得的特征点具有仿射变换不变性(affine transformation invariant)。

2)使用特征点跟踪技术找到第一幅图像中检测到的特征点在后一幅图像中的位置。

3)在两幅图像之间完全匹配的特征点中随机抽取若干对(如4对)匹配的特征点，并通过鲁棒算法计算单应变换矩阵(homography transformation matrix)，然后用这个单应变换矩阵去乘以第一幅图像的所有特征点，将做过单应变换的第一幅图像的特征点和后一幅图像的特征点进行比较，找出处于可被模型描述的数据(inliers)范围内匹配点的个数，重复上述过程(可以设置一个重复次数的上限)，直到选出一个拥有inliers数量最多的单应变换矩阵。

4)通过金字塔融合(pyramid blending)技术对上述各幅图像进行合成。因为金字塔融合可以进一步的对相邻两幅图像相交的部分做一个局部的匹配，所以它可以平滑由于单应性变换的失准所引起的没有匹配好的误差。金字塔融合的一个具体做法是：首先，对相邻两幅图像分别进行下采样，再逐级重复，采样密度逐级下降，形成两个金字塔；其次，分别对两个金字塔计算高斯金字塔，并在每一层上将两个图像拼起来得到结果金字塔；最后，将结果金字塔中每一层从上到下插值放大并和下一层相加，即得融合后的图像。

此外，如果要将多幅图像(包括多幅中间图像)进行合成，可以分别在相邻两幅图像之间都按照上述方法先对前一幅图像做特征点检测，再用特征点跟踪技术进行跟踪，然后用这两幅图像之间匹配的特征点做一个单应变换的估算。

此外，特别地，可以用三幅图像合成最终的照片，其中第一幅和第三幅根据图像顺序、图像覆盖的目标物部分和图像质量选取，对于中间图像的选取，是对第一幅图像实施特征点跟踪技术，当在某一幅中间图像里能跟踪到的特征点在第一幅图像里的最高高度还不及图片一半时，就将当前这幅图像选为第二幅图像。

在本发明中，上述步骤102还可通过图像特征点匹配的方式实现。在一优选例中，该步骤102包括以下子步骤：

根据图像序列中的图像顺序、图像覆盖的目标物部分和图像质量，从图像序列中选取用于合成的第一幅图像、至少一幅中间图像和最后一幅图像；将选取的图像按照图像顺序，进行相邻两个图像的特征点匹配；根据匹配结果，利用单应性变换技术将选取的图像进行合并，生成合成图像。优选地，这些子步骤具体的实现方式如下：

1)对图像序列中的第一幅图像做特征点的提取。特别地，由于拍摄终端的位移较长或镜头转动角度较大，有可能出现最后一幅图像和第一幅图像匹配特征点数量过少的问题，使得鲁棒算法不能很好的估计出单应性变换矩阵。因此，可以采用至少一幅中间图像(共三幅图像)来合成最后的合成图像。下文描述主要以这种情形为例。

2)分别对最后一幅图像和所有中间图像做特征点的提取，然后从最后一幅图像开始，依次做特征点的匹配。通过鲁棒算法，将这些匹配上的特征点用来做单应性变换的估算，即分别算出中间图像和第一幅图像的单应性变换矩阵以及最后一幅图像和中间图像的单应性变换矩阵。其中，为了能将最后一幅图像拼接到第一幅图像上，最后一幅图像需要做两次单应性变换。而最后一幅图像可能会因此失真，所以可通过光束平差法(bundleadjustment)对这三幅图像进行校正，以避免合成后的图像变形。

3)在拼接三幅图像的过程中，图像重叠的部分即使经过光束平差法的校正也还是会存在不一致，造成图像模糊。因此，可采用多带融合(multi band blending)技术给这些图像重叠的部分做匹配，最后将这三幅图像混合在一起，使得重叠部分的像素是完全一致的。

在本发明中，上述步骤102还可通过对图像三维建模的方式实现。在一优选例中，该步骤102包括以下子步骤：

获取图像序列中各图像的拍摄参数和各图像特征点的三维信息；基于获取的拍摄参数和特征点的三维信息，建立图像序列中各图像的三维变换模型；基于三维变换模型，将图像序列中的各图像进行合并，得到三维合成图像；将得到的三维合成图像在拍摄方向进行投影，得到合成图像。优选地，这些子步骤具体的实现方式如下：

1)相机参数(Camera Parameters)的计算

首先，对用户自上而下拍摄的视频的第一帧(或第一幅图像)到最后一帧(或最后一幅图像)，从运动信息中恢复三维场景结构(structure from motion)，进而估算出每一帧(或每一幅图像)的相机参数，作为最后一帧(或最后一幅图像)合成到第一帧(或第一幅图像)所需的变形计算用。

在上述三维重建中，需先对每帧(或每幅图像)做特征点检测，然后通过将每帧(或每幅图像)的特征点与其它帧(或其它图像)进行匹配来求出该帧(或图像)的相机参数，并估算出这些特征点的三维信息。

特别地，可以在相邻两帧(或两幅图像)之间进行特征点检测及匹配，然后每两帧(或两幅图像)之间求极几何(epipolar geometry)得到匹配特征点的三维信息以及相机参数。

接着，通过多尺度紧支撑径向基函数(multi-scale compactly supportedradial basis function)对这些三维特征点进行插值得到密集三维表面(dense 3Dsurface)或称密集基础网格(dense base mesh)，使得每个二维点都能在这个密集的三维网格上找到对应的三维点。

2)三维信息的估计

有了上述的初始化的三维信息以及每帧(或每幅图像)的相机参数，在整张的三维初始图的基础上就可以计算出精确的三维位置来。比如第一帧(或第一幅图像)和最后一帧(或最后一幅图像)的三维信息的具体调整的步骤如下:

为了计算出某一帧(或某幅图像)每个像素点的三维位置，首先需要找到这一帧(或这幅图像)的每一点在其他帧(或其他图像)的对应点。取当前目标帧(或目标图像)相邻的上下两帧(或两幅图像)来做参考，因为这两帧(或两幅图像)几乎对应了目标帧(或目标图像)的所有像素点。在拍摄的视频中相邻两帧(或两幅图像)的位移很小的情况下，可以用光流(optical flow)算法来计算目标帧(或目标图像)的每个像素点在相邻帧(或相邻图像)中的位置。

有了当前帧(或图像)在其它帧(或图像)中的对应点做参考，根据多视图几何学(multi view geometry)的原理，一个二维像素点的三维位置一定在该点所属的相机的方向上。通过已计算得到的每帧(或图像)相机参数可以求得这个相机的朝向，并且任意二维点沿该朝向与上述三维网格图的交点即是该二维点对应的三维位置。同时，有了初始化的三维信息，可以求得存储相机矩阵的雅可比矩阵(Jacobian矩阵)。此外，通过第一帧(或第一幅图像)的相机参数，可以将初始化的三维像素点对应到参考帧(或图像)上，由于已根据光流法算出对应像素点的具体位置，那么两者之间的位移差也可以计算出来。这样，在迭代更新三维阶段，新的三维像素点在相机的朝向上移动的位移和雅克比矩阵的乘积就等于二维像素点的位移。那么就可以求出在朝向上的移动位移来更新原来的三维位置以更接近精确的三维位置。

现在,一帧(或一幅图像)中所有的二维点对应的三维位置都更新完毕，将第一帧(或第一幅图像)和最后一帧(或最后一幅图像)对应的三维网格图合在一起就成了一张人体的完整三维网格图。接下来我们用三维网格图上各顶点对应的二维像素点的信息给每个顶点上色，然后用插值法给估算出各个顶点之间空隙的颜色信息，最终生成一副完整的人体彩色三维全景图。

3)图象合成

有了第一帧(或第一幅图像)和最后一帧(或最后一幅图像)的三维信息以及每帧(或每幅图像)的相机参数，最后一帧(或最后一幅图像)可以通过该帧(或图像)的相机参数以及三维信息做一次变形,以计算出将最后一帧(或最后一幅图像)变形(warp)到第一帧(或第一幅图像)上后其所有像素点的位置。

尽管是在同一时间段拍摄的视频或照片，其中各帧或图像之间的亮度可能也不尽相同。因此，在合成前还需要对图像序列中的各图像进行亮度校正，以确保它们的亮度一致。优选地，在上述步骤102之前，还可以包括以下步骤：

对图像序列中各图像的亮度进行校正，使得各图像具有一致的亮度。具体地，可首先对图像序列中第一幅图像的对比度进行检测，找到该图的灰度图像(grayscale image)最低和最高像素值的范围，然后将后面图像的亮度进行调整，使其灰度图像最低和最高像素值也落在第一幅图像的所述范围内。

在另一优选例中，在实现上述步骤102的各具体实施例之前，通过以下步骤对待合成的图像进行亮度调整：采用增益补偿(gain compensation)来分别对每幅中间图像和最后一幅图像中与前一幅图像有重合的部分做亮度调整，以使得重合部分的亮度和前一幅图像中相应部分的亮度一致。

由于图像序列中各图像的亮度不同，在合并前将各图像的亮度进行统一校正，可提高合并图像的质量。

本发明通过图像合成和畸变纠正，可实现用户对原本超出拍摄终端取景范围的目标物进行拍摄，包括对用户自己全身的自拍，并有效消除或减轻由于镜头运动所产生的图像畸变。

本发明第二实施方式涉及一种拍摄终端的图像处理方法。

第二实施方式在第一实施方式的基础上进行了改进，主要改进之处在于：在用户对自身进行自拍时，容易产生上身长、下身短的图像畸变。如图4所示，假设AB表示人体面部到胸腹部、CD表示人体下半身，镜头的转动导致投影平面的变化(从投影平面一变到投影平面二)，以致成像后A’B’与C’D’的比例发生变化，A’B’/AB明显大于C’D’/CD，也就是说人体下半身在比例上会被过度缩小；另一方面，如图5所示，假设CD表示人体腿部、DE表示脚，由于脚是向前伸出的，在投影平面成像后，C’D’/CD明显小于D’E’/DE，也就是说脚部被缩小的比例要低于腿部。因此，对上述合成图像进行畸变纠正时，需重点对腿部和脚部进行纠正，而且对腿部和脚部需要进行不同程度的拉伸，才能有效减轻或消除在自上而下的自拍过程中，引起的身体比例失调的图像畸变，合成出一幅符合用户视觉习惯的自拍图。

具体地说，上述步骤103包括以下子步骤：

对所述合成图像中由所述图像序列中第一张图像之后的图像所覆盖的目标物部分进行拉伸或缩小处理，以纠正由于镜头向一个方向持续移动和/或转动造成的所述第一张图像之后的图像所覆盖的目标物部分被过度压缩或拉长引起的畸变。

在一优选例中，在目标物为人体时，上述步骤103包括以下子步骤：

对合成图像里的人体下半身做拉伸处理，以纠正由于镜头向一个方向持续移动和/或转动对人体下半身造成的压缩畸变。

在一优选例中，该子步骤可通过以下方式实现：

根据经验数据分析或下文所述的其他方法，确定合成图像中人体脚踝所在的位置。

对合成图像中位于脚踝下方的部分和位于脚踝上方包含人腿的部分做不同的拉伸处理，以解决脚踝下方的部分的被压缩程度低于位于脚踝上方包含人腿的部分的问题。例如对脚踝下方的部分先进行压缩处理，然后对进行过压缩的部分和位于脚踝上方包含人腿的部分一起做拉伸处理。此拉伸处理可基于随横轴向后旋转的仿射变换(affinetransformation)来实现。

优选地，上述子步骤的具体实现过程如下：

1、脚部压缩

图像序列中的最后一幅图像如果简单地通过一次单应性变换，脚部会随着变换而被过度拉长而使整个照片显得不自然。为此，一个优选方案是，首先确定脚踝的具体位置，再对脚踝以下的部分进行局部的压缩,然后再把脚踝以下和脚踝以上的部分一起进行下文所述的拉伸，从而使脚部的大小比例正常化。

一个优选例是采用人体自上而下是相互对称的这一特性来确定脚踝位置。具体步骤如下:

1)对称点检测

首先对包含人体下半身的部分图像进行特征点检测,得到特征点的位置以及对应的描述子(descriptor)。这些描述子将被用来做对称点的匹配。对于每一个描述子，我们用KD树(k-dimensional tree)找到与之相似的若干个特征点来组成若干组对称点。

2)基于人脸特征点的对称点过滤

很明显，上述找到的对称点中包含了一部分的噪音，比如匹配错了的对称点或者不属于人体的对称点。针对于此,一个优选例是对采用从上到下进行自拍所获取的第一张图像(或者从下到上进行自拍所获取的最后一张图像)做人脸特征点的检测，然后利用五官上特征点(如左右眉毛的两端、左右眼角、左右嘴角、左右耳朵等)的对称性作为基准，删除噪音的对称点。对于在包含下半身的部分图像中检测到的对称点，给定一对五官对称点，如果任意一条对称点之间的连线与五官对称点的连线所成角度小于设定阈值并且与五官对称点连线达到根据经验设定的重合程度，这样的对称点将被作为正确的对称点保留下来。

3)确定脚踝利用上述方法确定的正确对称点中，位于人体最底端的对称点即是脚尖或鞋顶所在部位。根据经验值，我们将鞋长或脚长设置在一定像素值之间，来找到脚踝部位。

另一个优选例是，由于人的脚和腿部会在脚踝的位置形成一个”J”形弯曲，可以在进行上述对称点过滤后，在所剩的对称特征点中寻找符合”J”形的特征点，再在这些对称特征点中寻找视差(disparity)最小的对称特征点，作为我们要找的脚踝。

另一个优选例是，在移动终端屏幕上显示自拍图像，邀请用户在图像上标识或确认脚踝位置。比如，在屏幕上显示一根可移动的水平线，用户可以通过上下移动该线，使该线穿过脚踝，来标识脚踝的位置。由此，通过用户部分参与的半自动方式，可以准确地确定脚踝的位置。这个方法还可以与上述由软件确定脚踝的方法结合使用，即先通过软件初步确定脚踝的位置，且依此对图像做出纠正；将纠正后的图像显示在屏幕上，并同时在屏幕上用水平线标识软件所确定的脚踝位置，用户可以通过上下移动该线来调整脚踝的位置；在接收到用户输入的信息后，软件将重新对脚部和腿部做畸变纠正。为了进一步提高图像处理效果，除脚踝以外，还可以让用户同时在屏幕上对脚尖、胯部、肩膀、头顶和拿移动终端的手臂等部位作标识，并提供自己的身高、臂长、腿长、鞋的尺码等数据。

另一优选例是，先根据经验值找到脚踝初步部位，再在该初步部位的附近，根据鞋、袜、裤的色差进行位置修正。当然，如果鞋、袜、裤的色差不明显的话，此修正可能不能提高准确性。

除了上述利用人体对称特征点的方法以外，另一个确定脚踝的优选例是通过特定目标(鞋子)的检测来实现。利用检测到的鞋子(左右鞋的对称性)来进行特征点过滤。

在利用上述方法确定脚踝以后，对脚踝以下的部分图像，进行局部的压缩处理。

2、腿部拉长

让整张照片向后翻转一个根据经验值设定的角度，即将照片做随横轴向后旋转的仿射变换，以达到将腿部拉长的目的。

如果图像合成是通过第一实施方式中图像三维建模的方式实现的，在目标物为人体时，可以在将三维合成图像在拍摄方向进行投影获得二维合成图像后，再实施上述步骤103中所述的拉伸纠正。另一个优选例则为，在将三维合成图像在拍摄方向进行投影获得二维合成图像前，先将它做一个沿横轴向后的三维翻转(翻转角度根据经验设定)，以达到将下半身拉长的效果，然后再在拍摄方向进行投影生成二维合成图像。

在本发明中，在进行过图像畸变纠正后，还会将所得的照片裁剪成一个长方形，因为用户习惯看到的是这种长方形图像，而不是不规则形状的图像。所以，先将合成所得图像的两边做一个拉直(straightening)，减少曲线的特征，然后再把图像裁剪成长方形，这样可以相对裁掉较少的像素。

本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现，指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的，易失性的或者非易失性的，固态的或者非固态的，固定的或者可更换的介质等等)。同样，存储器可以例如是可编程阵列逻辑(Programmable ArrayLogic，简称“PAL”)、随机存取存储器(Random Access Memory，简称“RAM”)、可编程只读存储器(Programmable Read Only Memory，简称“PROM”)、只读存储器(Read-Only Memory，简称“ROM”)、电可擦除可编程只读存储器(Electrically Erasable Programmable ROM，简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc，简称“DVD”)等等。

本发明第三实施方式涉及一种拍摄终端的图像处理装置。图2是该拍摄终端的图像处理装置的结构示意图。

具体地说，如图2所示，该拍摄终端的图像处理装置包括：

获取单元，用于获取多幅图像以形成图像序列，其中，该图像序列被拍摄时镜头向一个方向持续移动和/或转动以共同覆盖所要拍摄的目标物。

合成单元，用于将图像序列中的各图像按图像顺序合成为一幅覆盖目标物的合成图像。

此外，在一优选例中，上述合成单元包括以下子单元：

第一选取子单元，用于根据图像序列中的图像顺序、图像覆盖的目标物部分和图像质量，选取所述图像序列中用于合成的第一幅图像、至少一幅中间图像和最后一幅图像，其中，每幅所述中间图像是基于在被选取图像中在图像序列上排在该中间图像前一幅的图像根据特征点跟踪技术获取的。

第一合成子单元，用于将选取的第一幅图像、中间图像和最后一幅图像进行合并，得到合成图像。

在另一优选例子中，上述合成单元包括以下子单元：

第二选取子单元，用于根据图像序列中的图像顺序、图像覆盖的目标物部分和图像质量，从图像序列中选取用于合成的第一幅图像、至少一幅中间图像和最后一幅图像。

匹配子单元，用于将选取的图像按照图像顺序，进行相邻两个图像的特征点匹配。

第二合成子单元，用于根据匹配结果，利用单应性变换技术将选取的图像进行合并，生成合成图像。

在另一优选例子中，上述合成单元包括以下子单元：

获取子单元，用于获取图像序列中各图像的拍摄参数和各图像特征点的三维信息。

建模子单元，用于基于获取的拍摄参数和特征点的三维信息，建立图像序列中各图像的三维变换模型。

第三合成子单元，用于基于三维变换模型，将图像序列中的各图像进行合并，得到三维合成图像。

投影子单元，用于将得到的三维合成图像在拍摄方向进行投影，得到合成图像。

尽管是在同一时间段拍摄的视频或照片，其中各帧之间的亮度可能也不尽相同。因此，在合成前还需要对图像序列中的各图像进行亮度校正，以确保它们的亮度一致。优选地，该装置还包括以下单元：

亮度校正单元，用于对图像序列中各图像的亮度进行校正，使得各图像具有一致的亮度。

第一实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

本发明第四实施方式涉及一种拍摄终端的图像处理装置。

第四实施方式在第三实施方式的基础上进行了改进，主要改进之处在于：在用户对自身进行自拍时，容易产生上身长、下身短的图像畸变，因此，对上述合成图像进行畸变纠正时，重点对腿部和脚部进行纠正，从而有效减轻或消除在自上而下的自拍过程中，引起的身体比例失调的图像畸变，合成出一幅符合用户视觉习惯的自拍图。

具体地说，上述纠正单元包括以下子单元：

第一拉伸子单元，用于对所述合成图像中由所述图像序列中第一张图像之后的图像所覆盖的目标物部分进行拉伸或缩小处理，以纠正由于镜头向一个方向持续移动和/或转动造成的所述第一张图像之后的图像所覆盖的目标物部分被过度压缩或拉长引起的畸变。

此外，在一优选例中，目标物为人体，上述纠正单元包括以下子单元：

第二拉伸子单元，用于对合成图像里的人体下半身做拉伸处理，以纠正由于镜头向一个方向持续移动和/或转动对人体下半身造成的压缩畸变。

在一优选例中，该第二拉伸子单元通过以下方式实现：

确定合成图像中人体脚踝所在的位置；

对合成图像中位于脚踝下方的部分和位于脚踝上方包含人腿的部分做不同的拉伸处理。

第二实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第二实施方式中。

需要说明的是，本发明各设备实施方式中提到的各单元都是逻辑单元，在物理上，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现，这些逻辑单元本身的物理实现方式并不是最重要的，这些逻辑单元所实现的功能的组合才是解决本发明所提出的技术问题的关键。此外，为了突出本发明的创新部分，本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，这并不表明上述设备实施方式并不存在其它的单元。

需要说明的是，在本专利的权利要求和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本发明的某些优选实施方式，已经对本发明进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种拍摄终端的图像处理方法，其特征在于，包括以下步骤：

获取多幅图像以形成图像序列，其中，该图像序列被拍摄时镜头向一个方向持续移动和/或转动以共同覆盖所要拍摄的目标物，其中该目标物超出拍摄终端的取景范围；

将所述图像序列中的各图像按图像顺序合成为一幅覆盖所述目标物的合成图像；

对所述合成图像进行纠正，以减轻或消除由于拍摄时镜头运动导致投影平面变化所产生的图像畸变。

2.根据权利要求1所述的拍摄终端的图像处理方法，其特征在于，所述对所述合成图像进行纠正的步骤包括以下子步骤：

3.根据权利要求1所述的拍摄终端的图像处理方法，其特征在于，所述目标物为人体；

所述对所述合成图像进行纠正的步骤包括以下子步骤：

4.根据权利要求3所述的拍摄终端的图像处理方法，其特征在于，所述对合成图像里的人体下半身做拉伸处理的子步骤通过以下方式实现：

确定所述合成图像中人体脚踝所在的位置；

5.根据权利要求1所述的拍摄终端的图像处理方法，其特征在于，所述将所述图像序列中的各图像按图像顺序合成为一幅覆盖所述目标物的合成图像的步骤包括以下子步骤：

根据图像序列中的图像顺序、图像覆盖的目标物部分和图像质量，选取所述图像序列中用于合成的第一幅图像、至少一幅中间图像和最后一幅图像，其中，每幅所述中间图像是基于在被选取图像中在图像序列上排在该中间图像前一幅的图像根据特征点跟踪技术获取的；

将选取的所述第一幅图像、所述中间图像和所述最后一幅图像进行合并，得到所述合成图像。

6.根据权利要求1所述的拍摄终端的图像处理方法，其特征在于，所述将所述图像序列中的各图像按图像顺序合成为一幅覆盖所述目标物的合成图像的步骤包括以下子步骤：

根据根据图像序列中的图像顺序、图像覆盖的目标物部分和图像质量，从所述图像序列中选取用于合成的第一幅图像、至少一幅中间图像和最后一幅图像；

将选取的图像按照图像顺序，进行相邻两个图像的特征点匹配；

根据所述匹配结果，利用单应性变换技术将所述选取的图像进行合并，生成所述合成图像。

7.根据权利要求1所述的拍摄终端的图像处理方法，其特征在于，所述将所述图像序列中的各图像按图像顺序合成为一幅覆盖所述目标物的合成图像的步骤包括以下子步骤：

获取所述图像序列中各图像的拍摄参数和各图像特征点的三维信息；

基于获取的所述拍摄参数和特征点的三维信息，建立图像序列中各图像的三维变换模型；

基于所述三维变换模型，将所述图像序列中的各图像进行合并，得到三维合成图像；

将得到的所述三维合成图像在拍摄方向进行投影，得到所述合成图像。

8.根据权利要求1至7中任一项所述的拍摄终端的图像处理方法，其特征在于，在所述将所述图像序列中的各图像按图像顺序合成为一幅覆盖所述目标物的合成图像的步骤之前，还包括以下步骤：

对所述图像序列中各图像的亮度进行校正，使得所述各图像具有一致的亮度。

9.一种拍摄终端的图像处理装置，其特征在于，包括：

获取单元，用于获取多幅图像以形成图像序列，其中，该图像序列被拍摄时镜头向一个方向持续移动和/或转动以共同覆盖所要拍摄的目标物，其中该目标物超出拍摄终端的取景范围；

合成单元，用于将所述图像序列中的各图像按图像顺序合成为一幅覆盖所述目标物的合成图像；

纠正单元，用于对所述合成图像进行纠正，以减轻或消除由于拍摄时镜头运动导致投影平面变化所产生的图像畸变。

10.根据权利要求9所述的拍摄终端的图像处理装置，其特征在于，所述纠正单元包括以下子单元：

11.根据权利要求9所述的拍摄终端的图像处理装置，其特征在于，所述目标物为人体；

所述纠正单元包括以下子单元：

12.根据权利要求11所述的拍摄终端的图像处理装置，其特征在于，所述第二拉伸子单元通过以下方式实现：

确定所述合成图像中人体脚踝所在的位置；

13.根据权利要求9所述的拍摄终端的图像处理装置，其特征在于，所述合成单元包括以下子单元：

第一选取子单元，用于根据图像序列中的图像顺序、图像覆盖的目标物部分和图像质量，选取所述图像序列中用于合成的第一幅图像、至少一幅中间图像和最后一幅图像，其中，每幅所述中间图像是基于在被选取图像中在图像序列上排在该中间图像前一幅的图像根据特征点跟踪技术获取的；

第一合成子单元，用于将选取的所述第一幅图像、所述中间图像和所述最后一幅图像进行合并，得到所述合成图像。

14.根据权利要求9所述的拍摄终端的图像处理装置，其特征在于，所述合成单元包括以下子单元：

第二选取子单元，用于根据图像序列中的图像顺序、图像覆盖的目标物部分和图像质量，从所述图像序列中选取用于合成的第一幅图像、至少一幅中间图像和最后一幅图像；

匹配子单元，用于将选取的图像按照图像顺序，进行相邻两个图像的特征点匹配；

第二合成子单元，用于根据所述匹配结果，利用单应性变换技术将所述选取的图像进行合并，生成所述合成图像。

15.根据权利要求9所述的拍摄终端的图像处理装置，其特征在于，所述合成单元包括以下子单元：

获取子单元，用于获取所述图像序列中各图像的拍摄参数和各图像特征点的三维信息；

建模子单元，用于基于获取的所述拍摄参数和特征点的三维信息，建立图像序列中各图像的三维变换模型；

第三合成子单元，用于基于所述三维变换模型，将所述图像序列中的各图像进行合并，得到三维合成图像；

投影子单元，用于将得到的所述三维合成图像在拍摄方向进行投影，得到所述合成图像。

16.根据权利要求9至15中任一项所述的拍摄终端的图像处理装置，其特征在于，还包括以下单元：

亮度校正单元，用于对所述图像序列中各图像的亮度进行校正，使得所述各图像具有一致的亮度。